文献知网节

Hadoop集群中小文件的存取优化研究

马振

新疆大学

摘要:近年来,全球大数据进入加速发展阶段,数据总量每年增长50%,呈现出海量聚集、爆发增长的态势,引领转型的新特征,如何存储、分析和利用这些数据是当前人类急需解决的一大难题。由HDFS、MapReduce、Hive、HBase等组件构成的Hadoop凭借其出色的性能、稳定安全的生态体系和开源等优势逐渐成为了通用的大数据存储平台,然而由于固定的NameNode内存有对应文件数量上限的限制,使其并不适合存储海量小文件。因而在查阅相关文献及研究、分析了HDFS存取文件的过程、HBase读取数据的过程后,本文提出一种海量小文件存取优化方案,主要做了以下研究:针对目前业内没有明确给出小文件的度量标准,而且当超大规模的小文件存储在HDFS中时,必将出现因元数据量的急剧增长导致的内存紧张问题,本文提出了确定适合硬件配置的大、小文件判定阈值的方法和结合背包数学模型与KMeans聚类算法的合并方法。首先利用Hadoop性能测试工具TestDFSIO确定适合硬件环境的大、小文件判定阈值,将目标文件分为大文件和小文件;然后采用背包模型下的K-Means聚类算法将待处理的文件分为多个聚类簇,再用贪心搜索策略分别选取... 更多
  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用

  • 分类号:

    TP311.13

导师:

哈力旦·阿布都热依木;

学科专业:

控制科学与工程

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:379 页数:70 大小:2173K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者
  • 攻读期成果