文章目录

基于Hadoop的海量小文件合并的研究与设计

彭建烽

广东技术师范学院

摘要：HDFS（Hadoop Distributed File System）是Hadoop的底层文件系统,负责海量数据的存储。一般而言,HDFS存储文件大小为PB甚至TB级别时,系统的存储性能高效;而当它存储海量小文件时,存储性能就显得不足,原因在于HDFS的主节点namenode内存存储大量的元数据,导致内存消耗过高,影响整个文件系统的读取性能。为了更好地提高HDFS存储海量小文件的性能,本文在原HDFS的基础上实现了一个新的海量小文件存储系统SHDFS（Small Hadoop Distributed File System）。SHDFS新设计了两大模块:合并与缓存模块。合并模块的工作是基于用户的最近邻推荐思想构建了关联文件挖掘模型,通过引入Pearson相关系数,挖掘文件之间的关联性,再对具有关联性的文件进行合并操作,减少了namenode内存存储的元数据量;缓存模块的工作是设计了基于对数线性算法的热点文件预测模型,为文件抽象出文件热度值,再根据文件的热度值挑选出热点文件,并将热点文件缓存至HBase数据库中。该模块旨在减少HDFS客户端与namenode交互的次数,进一步减缓nam... 更多

关键词：

HDFS; SHDFS; 海量小文件; 合并; 缓存;

专辑：
电子技术及信息科学
专题：
计算机硬件技术; 计算机软件及计算机应用
分类号：
TP333;TP311.13

导师：

魏文国;

学科专业：

电子与通信工程（专业学位）

手机阅读

即刻使用手机阅读

第一步
扫描二维码下载

"移动知网-全球学术快报"客户端

第二步
打开“全球学术快报”

点击首页左上角的扫描图标

第三步
扫描二维码

手机同步阅读本篇文献
整本下载
- PDF
- CAJ
CAJ分章下载
在线阅读
- 原版阅读
AI辅助阅读

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示：阅读CAJ格式原文，请使用CAJ浏览器。

下载：144 页数：55 大小：5099K

引文网络

相关推荐

相似文献
读者推荐
相关法规
关联作者
攻读期成果
批量下载

[1]基于Hadoop的出租车需求预测方法研究[D]. 戴滕飞.沈阳工业大学 2023
[2]基于Hadoop的协同过滤推荐算法研究[D]. 杨慧慧.沈阳工业大学 2020
[3]基于Hadoop的高校数字资源分布式处理系统设计与实现[D]. 张舜.广西大学 2019
[4]基于Hadoop的电影推荐系统的研究与实现[D]. 陈旭.辽宁大学 2019
[5]Hadoop集群中小文件的存取优化研究[D]. 马振.新疆大学 2019
[6]基于hadoop的电梯大数据安全性挖掘平台的研究[D]. 徐烨.上海应用技术大学 2019
[7]基于Hadoop的酒店推荐系统[D]. 余华咏.南昌大学 2019
[8]基于Hadoop平台的多维度学生学业预警系统的研究[D]. 孔海飞.安徽工业大学 2019
[9]Hadoop平台下主题搜索引擎的设计与实现[D]. 韦美峰.西安电子科技大学 2018
[10]大数据时代用户游戏内付费预测研究[D]. 马明浩.东华大学 2019