论文(设计)题目 | 基于嵌入式的大数据平台搭建 | ||
题目来源 | □ 自拟 □ 导师指定 □ 其他 □ 从公布的选题中选取 □ 导师的课题或项目 | 注:请直接在所属项□内打“√” | |
1.选题背景、意义 这是一个信息爆炸的时代,互联网上的信息正在以几何级数的速度增长着。在这个大背景下,消耗CPU最多的计算逐渐从“提升软件本身性能”方面转移到了信息处理方面,从而各大厂商不得不面临着极大地挑战——他们需要从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量数据进行快捷、高效的处理。而数据存储是数据管理工作的基石,所以如何进行大数据的有效存储成为一个重要的研究课题,为此选择了这个课题,以便更多地了解大数据和云计算方面的知识并且锻炼对linux系统的操作能力和搭建工作环境的能力,更为了以后工作和发展方向做下基础。
| |||
2.论文(设计)的主要内容、开发工具简介、基本思路(大纲) 主要内容: 了解云计算和大数据的相关知识,理解大数据存储方面的原理; 安装linux系统,能在linux上进行熟练的操作; 在linux上安装Hadoop,进行Hadoop分布式平台的搭建,掌握HDFS分布式存储的工作原理并对其提出改进,对一组样本数据进行存储; 了解分布式编程模型MapReduce的原理并能进行简单的使用; 撰写毕业论文,能熟练掌握Hadoop下大数据存储的相关知识并进行答辩等环节。 开发工具简介: 安装ARM开发板,装载linux系统,配置好vmtools等所需的常用软件及其设置,进一步熟悉linux操作环境; 在Windows和linux之间的共享文件夹中下载linux版本的Java和Hadoop的安装包,在linux中安装、调配运行环境等至可以正常使用。
基本思路(大纲): 引言 1 绪论 1.1 大数据简介 1.2 Hadoop简介 1.2.1 Hadoop的优点 1.2.2 Hadoop的架构 1.2.3 Hadoop的组成 2 ARM开发板下centOS7.0的装载和配置 3 Hadoop平台的搭建和基本配置 3.1 安装JDK 3.2 SSH免密码登陆 3.2 安装配置Hadoop 4 Hadoop平台下数据存储的分析和研究 4.1 用命令进行文件存储和读取 4.1.1 创建目录 4.1.2 显示目录以及网页图形化界面 4.1.3 本地文件存入目录以及网页图形化界面 4.1.4 显示HDFS下文件内容以及网页图形化界面 4.1.5 显示HDFS下文件大小 4.1.6 显示HDFS下文件的信息 4.1.7 在HDFS下复制文件 4.1.8 保存至本地文件 4.1.9 从本地移动文件 4.2 用API进行文件存储和读取 5 HDFS中的大量小文件存储问题 5.1 小文件存储问题简介 5.2 小文件存储问题的解决方法 5.2.1 Archive工具 5.2.2 CombineFileInputFormat类 5.2.3 SequenceFile格式 5.2.4 其他方法 结论 致谢 参考文献 | |||
3. 查阅文献清单: (1)IDC Corporation. The expanding digital universe (2007) [R] . 美国: Citeseer, 2007 (2)秦东霞,周航等. 基于分布式系统的海量数据存储技术 [J]. 周口师范学院学报, 2013,5. (3) Melvin Mao. Hadoop云计算系统 基础知识 [EB/OL]. http://blog.csdn.net/mw08091020/article/details/9498085. (4)时倩,方睿,岳亮,彭榆峰. 基于Hadoop的海量小文件存储方法的研究路 [J]. 数字技术与应用, 2014,1. (5)陈光景. Hadoop小文件处理技术的研究和实现 [D]. 南京: 2013. (6)刘军. Hadoop大数据处理 [M]. 北京: 人民邮电出版社, 2013. (7)谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010.21. (8)周敏奇,王晓玲,金澈清等译.Hadoop权威指南[M].北京:清华大学出版社,2011.7. (9)曹英忠,谢晓兰,赵鹏.基于Hadoop的云存储实践[J].现代结算机,2011.24.
|
| ||
4.指导教师对该开题报告的意见(从选题内容及开题是否通过两方面进行简要评价):
签字: 年 月 日
|
|