Hadoop集群中小文件的存取优化研究
马振
新疆大学
摘要:近年来,全球大数据进入加速发展阶段,数据总量每年增长50%,呈现出海量聚集、爆发增长的态势,引领转型的新特征,如何存储、分析和利用这些数据是当前人类急需解决的一大难题。由HDFS、MapReduce、Hive、HBase等组件构成的Hadoop凭借其出色的性能、稳定安全的生态体系和开源等优势逐渐成为了通用的大数据存储平台,然而由于固定的NameNode内存有对应文件数量上限的限制,使其并不适合存储海量小文件。因而在查阅相关文献及研究、分析了HDFS存取文件的过程、HBase读取数据的过程后,本文提出一种海量小文件存取优化方案,主要做了以下研究:针对目前业内没有明确给出小文件的度量标准,而且当超大规模的小文件存储在HDFS中时,必将出现因元数据量的急剧增长导致的内存紧张问题,本文提出了确定适合硬件配置的大、小文件判定阈值的方法和结合背包数学模型与KMeans聚类算法的合并方法。首先利用Hadoop性能测试工具TestDFSIO确定适合硬件环境的大、小文件判定阈值,将目标文件分为大文件和小文件;然后采用背包模型下的K-Means聚类算法将待处理的文件分为多个聚类簇,再用贪心搜索策略分别选取... 更多
- 专辑:
电子技术及信息科学
- 专题:
计算机软件及计算机应用
- 分类号:
TP311.13
导师:
哈力旦·阿布都热依木;
学科专业:
控制科学与工程
- 手机阅读
即刻使用手机阅读
第一步
扫描二维码下载
"移动知网-全球学术快报"客户端
第二步
打开“全球学术快报”
点击首页左上角的扫描图标
第三步
扫描二维码
手机同步阅读本篇文献
- 整本下载
- CAJ分章下载
- 在线阅读
- AI辅助阅读
下载手机APP用APP扫此码同步阅读该篇文章
温馨提示:阅读CAJ格式原文,请使用CAJ浏览器。
下载:379 页数:70 大小:2173K
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- 攻读期成果
- [1]基于Hadoop的出租车需求预测方法研究[D]. 戴滕飞.沈阳工业大学 2023
- [2]基于Hadoop的协同过滤推荐算法研究[D]. 杨慧慧.沈阳工业大学 2020
- [3]基于Hadoop的高校数字资源分布式处理系统设计与实现[D]. 张舜.广西大学 2019
- [4]基于Hadoop的电影推荐系统的研究与实现[D]. 陈旭.辽宁大学 2019
- [5]基于hadoop的电梯大数据安全性挖掘平台的研究[D]. 徐烨.上海应用技术大学 2019
- [6]基于Hadoop的酒店推荐系统[D]. 余华咏.南昌大学 2019
- [7]基于Hadoop平台的多维度学生学业预警系统的研究[D]. 孔海飞.安徽工业大学 2019
- [8]Hadoop平台下主题搜索引擎的设计与实现[D]. 韦美峰.西安电子科技大学 2018
- [9]大数据时代用户游戏内付费预测研究[D]. 马明浩.东华大学 2019
- [10]基于Hadoop的海量小文件合并的研究与设计[D]. 彭建烽.广东技术师范学院 2018