HDFS小文件问题及解决方案转载

作者：phpxiaoxuesheng | 来源：互联网 | 2023-09-17 16:59

1、概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何bloc

1、概述

小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先&＃xff0c;在HDFS中&＃xff0c;任何 block&＃xff0c;文件或者目录在内存中均以对象的形式存储&＃xff0c;每个对象约占150byte&＃xff0c;如果有1000 0000个小文件&＃xff0c;每个文件占用一个block&＃xff0c;则namenode大约需要2G空间。如果存储1亿个文件&＃xff0c;则namenode需要20G空间&＃xff08;见参考资料[1][4][5]&＃xff09;。这样namenode内存容量严重制约了集群的扩展。其次&＃xff0c;访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的&＃xff0c;如果访问大量小文件&＃xff0c;需要不断的从一个datanode跳到另一个datanode&＃xff0c;严重影响性能。最后&＃xff0c;处理大量小文件速度远远小于处理同等大小的大文件的速度。每一个小文件要占用一个slot&＃xff0c;而task启动将耗费大量时间甚至大部分时间都耗费在启动task和释放task上。

本文首先介绍了hadoop自带的解决小文件问题的方案&＃xff08;以工具的形式提供&＃xff09;&＃xff0c;包括Hadoop Archive&＃xff0c;Sequence file和CombineFileInputFormat&＃xff1b;然后介绍了两篇从系统层面解决HDFS小文件的论文&＃xff0c;一篇是中科院计算所2009年发表的&＃xff0c;用以解决HDFS上存储地理信息小文件的方案&＃xff1b;另一篇是IBM于2009年发表的&＃xff0c;用以解决HDFS上存储ppt小文件的方案。

2、 HDFS文件读写流程

在正式介绍HDFS小文件存储方案之前&＃xff0c;我们先介绍一下当前HDFS上文件存取的基本流程。

(1) 读文件流程

1&＃xff09;client端发送读文件请求给namenode&＃xff0c;如果文件不存在&＃xff0c;返回错误信息&＃xff0c;否则&＃xff0c;将该文件对应的block及其所在datanode位置发送给client

2&＃xff09; client收到文件位置信息后&＃xff0c;与不同datanode建立socket连接并行获取数据。

(2) 写文件流程

1&＃xff09; client端发送写文件请求&＃xff0c;namenode检查文件是否存在&＃xff0c;如果已存在&＃xff0c;直接返回错误信息&＃xff0c;否则&＃xff0c;发送给client一些可用namenode节点

2&＃xff09; client将文件分块&＃xff0c;并行存储到不同节点上datanode上&＃xff0c;发送完成后&＃xff0c;client同时发送信息给namenode和datanode

3&＃xff09; namenode收到的client信息后&＃xff0c;发送确信信息给datanode

4&＃xff09; datanode同时收到namenode和datanode的确认信息后&＃xff0c;提交写操作。

3、 Hadoop自带的解决方案

对于小文件问题&＃xff0c;Hadoop本身也提供了几个解决方案&＃xff0c;分别为&＃xff1a;Hadoop Archive&＃xff0c;Sequence file和CombineFileInputFormat。

&＃xff08;1&＃xff09; Hadoop Archive

Hadoop Archive或者HAR&＃xff0c;是一个高效地将小文件放入HDFS块中的文件存档工具&＃xff0c;它能够将多个小文件打包成一个HAR文件&＃xff0c;这样在减少namenode内存使用的同时&＃xff0c;仍然允许对文件进行透明的访问。

对某个目录/foo/bar下的所有小文件存档成/outputdir/ zoo.har&＃xff1a;

hadoop archive -archiveName zoo.har -p /foo/bar /outputdir

当然&＃xff0c;也可以指定HAR的大小(使用-Dhar.block.size)。

HAR是在Hadoop file system之上的一个文件系统&＃xff0c;因此所有fs shell命令对HAR文件均可用&＃xff0c;只不过是文件路径格式不一样&＃xff0c;HAR的访问路径可以是以下两种格式&＃xff1a;

har://scheme-hostname:port/archivepath/fileinarchive

har:///archivepath/fileinarchive(本节点)

可以这样查看HAR文件存档中的文件&＃xff1a;

hadoop dfs -ls har:///user/zoo/foo.har

输出&＃xff1a;

har:///user/zoo/foo.har/hadoop/dir1

har:///user/zoo/foo.har/hadoop/dir2

使用HAR时需要两点&＃xff0c;第一&＃xff0c;对小文件进行存档后&＃xff0c;原文件并不会自动被删除&＃xff0c;需要用户自己删除&＃xff1b;第二&＃xff0c;创建HAR文件的过程实际上是在运行一个mapreduce作业&＃xff0c;因而需要有一个hadoop集群运行此命令。

此外&＃xff0c;HAR还有一些缺陷&＃xff1a;第一&＃xff0c;一旦创建&＃xff0c;Archives便不可改变。要增加或移除里面的文件&＃xff0c;必须重新创建归档文件。第二&＃xff0c;要归档的文件名中不能有空格&＃xff0c;否则会抛出异常&＃xff0c;可以将空格用其他符号替换(使用-Dhar.space.replacement.enable&＃61;true 和-Dhar.space.replacement参数)。

&＃xff08;2&＃xff09; Sequence file

sequence file由一系列的二进制key/value组成&＃xff0c;如果为key小文件名&＃xff0c;value为文件内容&＃xff0c;则可以将大批小文件合并成一个大文件。

Hadoop-0.21.0中提供了SequenceFile&＃xff0c;包括Writer&＃xff0c;Reader和SequenceFileSorter类进行写&＃xff0c;读和排序操作。如果hadoop版本低于0.21.0的版本&＃xff0c;实现方法可参见[3]。

&＃xff08;3&＃xff09;CombineFileInputFormat

CombineFileInputFormat是一种新的inputformat&＃xff0c;用于将多个文件合并成一个单独的split&＃xff0c;另外&＃xff0c;它会考虑数据的存储位置。

4、小文件问题解决方案

上一节中提到的方案均需要用户自己编写程序&＃xff0c;每隔一段时间对小文件进行merge以便减少小文件数量。那么能不能直接将小文件处理模块嵌到HDFS中&＃xff0c;以便自动识别用户上传的小文件&＃xff0c;然后自动对它们进行merge呢&＃xff1f;

本节介绍了两篇论文针试图在系统层面解决HDFS小文件问题。这两篇论文对不同的应用提出了解决方案&＃xff0c;实际上思路类似&＃xff1a;在原有HDFS基础上添加一个小文件处理模块&＃xff0c;当一个文件到达时&＃xff0c;判断该文件是否属于小文件&＃xff0c;如果是&＃xff0c;则交给小文件处理模块处理&＃xff0c;否则&＃xff0c;交给通用文件处理模块处理。小文件处理模块的设计思想是&＃xff0c;先将很多小文件合并成一个大文件&＃xff0c;然后为这些小文件建立索引&＃xff0c;以便进行快速存取和访问。

论文[4]针对WebGIS系统的特点提出了解决HDFS小文件存储的方案。WebGIS是结合web和地理信息系统(GIS)而诞生的一种新系统。在WebGIS中&＃xff0c;为了使浏览器和服务器之间传输的数据量尽可能地少&＃xff0c;数据通常被切分成KB的小文件存储在分布式文件系统中。论文结合WebGIS中数据相关性特征&＃xff0c;将保存相邻地理位置信息的小文件合并成一个大的文件&＃xff0c;并为这些小文件建立索引以便对小文件进行存取。

该论文将size小于16MB的文件当做小文件&＃xff0c;需将它们合并成64MB(默认的block size)&＃xff0c;并建立索引&＃xff0c;索引结构和文件存储方式见上图。索引方式是一般的定长hash索引。

论文[5]针对Bluesky系统(http://www.bluesky.cn/)的特点提出了解决HDFS小文件存储的方案。Bluesky是中国电子教学共享系统&＃xff0c;里面的ppt文件和视频均存放在HDFS上。该系统的每个课件由一个ppt文件和几张该ppt文件的预览快照组成。当用户请求某页 ppt时&＃xff0c;其他相关的ppt可能在接下来的时间内也会被查看&＃xff0c;因而文件的访问具有相关性和本地性。本文主要有2个idea&＃xff1a;第一&＃xff0c;将属于同一个课件的文件合并成一个大文件&＃xff0c;以提高小文件存储效率。第二&＃xff0c;提出了一种two-level prefetching机制以提高小文件读取效率&＃xff0c;即索引文件预取和数据文件预取。索引文件预取是指当用户访问某个文件时&＃xff0c;该文件所在的block对应的索引文件被加载到内存中&＃xff0c;这样&＃xff0c;用户访问这些文件时不必再与namenode交互了。数据文件预取是指用户访问某个文件时&＃xff0c;将该文件所在课件中的所有文件加载到内存中&＃xff0c;这样&＃xff0c;如果用户继续访问其他文件&＃xff0c;速度会明显提高。

下图展示的是在BlueSky中上传文件的过程&＃xff1a;

下图展示的是在BlueSky中阅览文件的过程&＃xff1a;

5、总结

Hadoop目前还没有一个系统级的通用的解决HDFS小文件问题的方案。它自带的三种方案&＃xff0c;包括Hadoop Archive&＃xff0c;Sequence file和CombineFileInputFormat&＃xff0c;需要用户根据自己的需要编写程序解决小文件问题&＃xff1b;而第四节提到的论文均是针对特殊应用提出的解决方案&＃xff0c;没有形成一个比较通用的技术方案。

6、参考资料

&＃xff08;1&＃xff09;有关小文件问题的表述&＃xff1a;

http://www.cloudera.com/blog/2009/02/the-small-files-problem/

&＃xff08;2&＃xff09;Hadoop Sequence file&＃xff1a;

http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html

&＃xff08;3&＃xff09;英文书籍《Hadoop&＃xff1a;The Definitive Guide》&＃xff0c;第七章190页

&＃xff08;4&＃xff09;Xuhui Liu, Jizhong Han, Yunqin Zhong, Chengde Han, Xubin He: Implementing WebGIS on Hadoop: A case study of improving small file I/O performance on HDFS. CLUSTER 2009: 1-8

&＃xff08;5&＃xff09;Bo Dong, Jie Qiu, Qinghua Zheng, Xiao Zhong, Jingwei Li, Ying Li. A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop: A Case Study by PowerPoint Files. In Proceedings of IEEE SCC’2010. pp.65~72

原创文章&＃xff0c;转载请注明&＃xff1a; 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce/hdfs-small-files-solution/

转:https://www.cnblogs.com/sight/archive/2012/06/05/2535521.html

推荐阅读

shell
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
shell
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
shell
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
get
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
bit
颜色迁移（reinhard VS welsh）

不要谈什么天分，运气，你需要的是一个截稿日，以及一个不交稿就能打爆你狗头的人，然后你就会被自己的才华吓到。------ ... [详细]

蜡笔小新 2023-10-17 21:20:36
include
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
include
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
int
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
int
PHP实现断点续传乱序合并文件的方法和源码

本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因，文件需要分割成多个部分发送，因此无法按顺序接收。文章中提供了merge2.php的源码，通过使用shuffle函数打乱文件读取顺序，实现了乱序合并文件的功能。同时，还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]

蜡笔小新 2023-12-14 04:33:19
import
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
bit
Linux下Kafka单机安装配置方法（实操成功）

本文介绍了在Linux下安装和配置Kafka的方法，包括安装JDK、下载和解压Kafka、配置Kafka的参数，以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例，帮助读者快速完成Kafka的安装和配置。 ... [详细]

蜡笔小新 2023-12-12 18:14:32
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
usb
CEPH LIO iSCSI Gateway及其使用参考文档

本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档，包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接，详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]

蜡笔小新 2023-12-12 10:10:14
usb
设计模式——模板方法模式的应用和优缺点

本文介绍了设计模式中的模板方法模式，包括其定义、应用、优点、缺点和使用场景。模板方法模式是一种基于继承的代码复用技术，通过将复杂流程的实现步骤封装在基本方法中，并在抽象父类中定义模板方法的执行次序，子类可以覆盖某些步骤，实现相同的算法框架的不同功能。该模式在软件开发中具有广泛的应用价值。 ... [详细]

蜡笔小新 2023-12-10 17:59:47
import
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17

phpxiaoxuesheng

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章