当前位置: 开发笔记 > 运维 > 正文

HDFS的架构要点

作者：袁冠芳彦源 | 来源：互联网 | 2017-11-02 06:21

HDFS的架构采用masterslave模式，一个HDFS集群是由一个Namenode和多个Datanode组成。在HDFS集群中，只有一个Namenode结点。Namenode作为HDFS集群的中心服务器，主要负责：1、管理HDFS集群中文件系统的名字空间（Namespace），例如打开文件系统、关闭文件

HDFS的架构采用master/slave模式，一个HDFS集群是由一个Namenode和多个Datanode组成。

在HDFS集群中，只有一个Namenode结点。Namenode作为HDFS集群的中心服务器，主要负责：

1、管理HDFS集群中文件系统的名字空间（Namespace），例如打开文件系统、关闭文件系统、重命名文件或者目录等；另外，对任何请求对文件系统名字空间或者属性进行修改的操作，都被Namenode记录下来。

2、管理客户端对HDFS集群中的文件系统中的文件的访问，实际上文件以块的形式存储在Datanode上，文件系统客户端向Namenode请求所要执行操作的文件块（该块存储在指定的Dadanode数据结点上），然后通过与Datanode结点交互来完成文件读写的操作。那么，文件系统客户端与Namenode交互的过程中，只有从Namenode中获取到了所请求的文件块所对应的Datanode结点，才能执行文件的读写操作。也就是说，Namenode结点还负责确定指定的文件块到具体的Datanode结点的映射关系。

3、管理Datanode结点的状态报告，包括Datanode结点的健康状态报告和其所在结点上数据块状态报告，以便能够及时处理失效的数据结点。

在HDFS集群中，一个Datanode结点可以存在多个，一般是一个结点上对应一个Datanode实例。Datanode数据结点进程的任务是：

1、负责管理它所在结点上存储的数据的读写。一般是文件系统客户端需要请求对指定数据结点进行读写操作，Datanode作为数据结点的服务进程来与文件系统客户端打交道。同时，是否需要执行对文件块的创建、删除、复制等操作，Datanode数据结点进程还要在Namenode的统一指挥调度下完成，当与Namenode交互过程中收到了可以执行文件块的创建、删除或复制操作的命令后，才开始让文件系统客户端执行指定的操作。具体文件的操作并不是Datanode来实际完成的，而是经过Datanode许可后，文件系统客户端进程来执行实际操作。

2、向Namenode结点报告状态。每个Datanode结点会周期性地向Namenode发送心跳信号和文件块状态报告，以便Namenode获取到工作集群中Datanode结点状态的全局视图，从而掌握它们的状态。如果存在Datanode结点失效的情况时，Namenode会调度其它Datanode执行失效结点上文件块的复制处理，保证文件块的副本数达到规定数量。

3、执行数据的流水线复制。当文件系统客户端从Namenode服务器进程获取到要进行复制的数据块列表（列表中包含指定副本的存放位置，亦即某个Datanode结点）后，会首先将客户端缓存的文件块复制到第一个Datanode结点上，此时并非整个块都复制到第一个Datanode完成以后才复制到第二个Datanode结点上，而是由第一个Datanode向第二个Datanode结点复制，……，如此下去完成文件块及其块副本的流水线复制。

通过上面的叙述，可以看到，在HDFS集群中，存在三个主要的进程：Namenode进程、Datanode进程和文件系统客户端进程，这三个进程之间都是基于Hadoop实现的RPC机制进行通信的，该IPC模型基于Client/Server模式进行通信。因此上述三个进程之间存在如下端到端通信与交互：

推荐阅读

service
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
服务器
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
unix
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
服务器
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
服务器
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
service
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
service
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
服务器
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
apache
java filesystem 追加_Java DistributedFileSystem.append方法代码示例

importorg.apache.hadoop.hdfs.DistributedFileSystem;导入方法依赖的package包类privatevoidtestHSyncOpe ... [详细]

蜡笔小新 2023-10-17 17:01:46
apache
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
服务器
C#使用七牛云存储上传下载文件

项目需要将音视频文件上传服务器，考虑并发要求高，通过七牛来实现。直接上代码usingQiniu.IO;usingQiniu.IO.Resumable;usingQiniu.RPC; ... [详细]

蜡笔小新 2023-10-17 12:22:06
service
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
sudo
NFS文件共享系统

1、概述：NFS(NetworkFileSystem)意为网络文件系统，它最大的功能就是可以通过网络，让不同的机器不同的操作系统可以共享 ... [详细]

蜡笔小新 2023-10-17 01:55:01
服务器
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50

袁冠芳彦源

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章