热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

hadoop元数据合并过程_基于Hadoop的海量小文件合并的研究与设计

基于Hadoop的海量小文件合并的研究与设计彭建烽,魏文国,郑东炜【摘要】摘要:基于Hadoop海量小文件合并的策略研究,一

基于

Hadoop

的海量小文件合并的研究与设计

彭建烽,魏文国,郑东炜

【摘

要】

摘要:基于

Hadoop

海量小文件合并的策略研究,一方面为了减轻

NameNode

的元数据量,利用

Eclipse

开发工具实现了

Har

HBase

SequenceFile

三种主流合并方案对海量小文件的合并;另一方面分析这三种主

流合并方案在不同场景下性能以及应用方面的优劣,进而为海量小文件在

Hadoop

上的存储提供一些有价值的参考

.

【期刊名称】

广东技术师范学院学报

(

社会科学版

)

【年

(

),

期】

2016(037)011

【总页数】

4

【关键词】

Hadoop

;

HDFS

;小文件;元数据;

Har

;

HBase

;

SequenceFile

1

引言

Hadoop

分布式数据存储和处理框架凭借其高效、可靠、高容错等优点,渐渐

成为了炙手可热的大数据存储和处理工具

.Hadoop

分布式文件系统(

HDFS

)

Hadoop

的核心部分,它所具有的两类节点以管理者

-

工作者的模式运行,

即单一

NameNode

(管理者)和若干个

DataNode

(工作者)

.NameNode

负责管理文件系统的命名空间,

DataNode

作为系统的工作节点,它们根据需

要存储并检索数据块

(

受客户端或

NameNode

调度

)

,并且定期向

NameNode

发送它们所存储的块列表[

1

]

.

HDFS

并不适合存储海量小文件,主要因为

NameNode

将文件系统的元数

据放在内存中,整个系统的文件数目受到

NameNode

内存大小的限制

.

根据经

验,每个文件、目录和数据块的存储信息大约占

150

字节

.

举例来说,如果有一



推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 既然HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • Zookeeper 总结与面试题汇总
    Zookeeper总结与面试题汇总,Go语言社区,Golang程序员人脉社 ... [详细]
author-avatar
要去治病啊8_r
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有