文献知网节

基于Hadoop的海量小文件合并的研究与设计

彭建烽

广东技术师范学院

摘要:HDFS(Hadoop Distributed File System)是Hadoop的底层文件系统,负责海量数据的存储。一般而言,HDFS存储文件大小为PB甚至TB级别时,系统的存储性能高效;而当它存储海量小文件时,存储性能就显得不足,原因在于HDFS的主节点namenode内存存储大量的元数据,导致内存消耗过高,影响整个文件系统的读取性能。为了更好地提高HDFS存储海量小文件的性能,本文在原HDFS的基础上实现了一个新的海量小文件存储系统SHDFS(Small Hadoop Distributed File System)。SHDFS新设计了两大模块:合并与缓存模块。合并模块的工作是基于用户的最近邻推荐思想构建了关联文件挖掘模型,通过引入Pearson相关系数,挖掘文件之间的关联性,再对具有关联性的文件进行合并操作,减少了namenode内存存储的元数据量;缓存模块的工作是设计了基于对数线性算法的热点文件预测模型,为文件抽象出文件热度值,再根据文件的热度值挑选出热点文件,并将热点文件缓存至HBase数据库中。该模块旨在减少HDFS客户端与namenode交互的次数,进一步减缓nam... 更多
  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机硬件技术; 计算机软件及计算机应用

  • 分类号:

    TP333;TP311.13

导师:

魏文国;

学科专业:

电子与通信工程(专业学位)

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:144 页数:55 大小:5099K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者
  • 攻读期成果