当前位置: 开发笔记 > 运维 > 正文

hadoop深入研究:(一)hdfs介绍

作者：福州-台江_616 | 来源：互联网 | 2018-06-11 06:24

转载请注明出处：blog.csdn.netlastsweetoparticledetails8992505hdfs设计原则1.非常大的文件：这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据2.流式数据访问：基于一次写，多次读。3.商用硬件：????hdfs的

转载请注明出处： http://blog.csdn.net/lastsweetop/article/details/8992505 hdfs设计原则 1.非常大的文件：这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据 2.流式数据访问：基于一次写，多次读。 3.商用硬件： ? ? ? ?hdfs的

转载请注明出处： http://blog.csdn.net/lastsweetop/article/details/8992505

hdfs设计原则

1.非常大的文件：

这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据

2.流式数据访问：

基于一次写，多次读。

3.商用硬件： ? ? ?

?hdfs的高可用是用软件来解决，因此不需要昂贵的硬件来保障高可用性，各个生产商售卖的pc或者虚拟机即可。

hdfs不适用的场景

1.低延迟的数据访问 ??

hdfs的强项在于大量的数据传输，递延迟不适合他，10毫秒以下的访问可以无视hdfs，不过hbase可以弥补这个缺陷。

2.太多小文件 ? ? ? ? ? ? ?

?namenode节点在内存中hold住了整个文件系统的元数据，因此文件的数量就会受到限制，每个文件的元数据大约150字节

?1百万个文件，每个文件只占一个block，那么就需要300MB内存。你的服务器可以hold住多少呢，你可以自己算算

3.多处写和随机修改 ??

目前还不支持多处写入以及通过偏移量随机修改

hdfs block

为了最小化查找时间比例，hdfs的块要比磁盘的块大很多。hdfs块的大小默认为64MB，和文件系统的块不同，

hdfs的文件可以小于块大小，并且不会占满整个块大小。

查找时间在10ms左右，数据传输几率在100MB/s,为了使查找时间是传输时间的1%，块的大小必须在100MB左右

一般都会设置为128MB

有了块的抽象之后，hdfs有了三个优点：

1.可以存储比单个磁盘更大的文件

2.存储块比存储文件更加简单，每个块的大小都基本相同

3.使用块比文件更适合做容错性和高可用

namenodes和datanodes

hdfs集群有两种类型的节点，一种为master及namenode，另一种为worker及datanodes。

namenode节点管理文件系统的命名空间。它包含一个文件系统的树，所有文件和目录的原数据都在这个树上，这些

信息被存储在本地磁盘的两个文件中，image文件和edit?log文件。文件相关的块存在哪个块中，块在哪个地方，这些

信息都是在系统启动的时候加载到namenode的内存中，并不会存储在磁盘中。

datanode节点在文件系统中充当的角色就是苦力，按照namenode和client的指令进行存储或者检索block，并且周期性

的向namenode节点报告它存了哪些文件的block

namenode节点如果不能使用了，那么整个hdfs就玩完了。为了防止这种情况，有两种方式可供选择

1.namenode通过配置元数据可以写到多个磁盘中，最好是独立的磁盘，或者NFS.

2.使用第二namenode节点，第二namenode节点平时并不作为namenode节点工作，它的主要工作内容就是定期根据编辑

日志（edit log）合并命名空间的镜像(namespace image),防止编辑日志过大，合并后的image它自己也保留一份，等着

namenode节点挂掉，然后它可以转正，由于不是实时的，有数据上的损失是很可能发生的。

hdfs Federation

namenode节点保持所有的文件和块的引用在内存中，这就意味着在一个拥有很多很多文件的很大的集群中，内存就成为了一个

限制的条件，hdfs federation在hadoop 2.x的被实现了，允许hdfs有多个namenode节点，每个管hdfs的一部分，比如一个管/usr，

另一个管/home，每个namenode节点是相互隔离的，一个挂掉不会影响另外一个。

hdfs的高可用

不管namenode节点的备份还是第二namenode节点都只能保证数据的恢复，并不能保证hdfs的高可用性，一旦namenode节点挂掉

就会产生单点故障，这时候要手动去数据备份恢复，或者启用第二节点，新的namenode节点在对外服务器要做三件事：

1.把命名空间的镜像加载到内存中

2.重新运行编辑日志

3.接受各个datanode节点的block报告

在一个大型一点的hdfs系统中，等这些做完需要30分钟左右。

2.x已经支持了高可用性(HA)，通过一对namenode热备来实现，一台挂掉，备机马上提供无中断服务

要实现HA,要做三点微调：

1.namenode节点必须使用高可用的共享存储。

2.datanode节点必须象两个namenode节点发送block报告

3.客户端做改动可以在故障时切换到可用的namenode节点上，而且要对用户是无感知的

failover和fencing

将备份namenode激活的过程就叫failover，管理激活备份namenode的系统叫做failover controller，

zookeeper就可以担当这样的角色，可以保证只有一个节点处于激活状态。

必须确认原来的namenode已经真的挂掉了，很多时候只是网络延迟，如果备份节点已经激活了，

原来的节点又可以提供服务了，这样是不行的，防止原来namenode活过来的过程就叫fencing。

可以用STONITH实现， STONITH可以做到直接断电把原namenode节点fencing掉

作者：lastsweetop 发表于2013-5-31 15:31:20 原文链接

阅读：104 评论：0 查看评论

IT 资讯

原文地址：hadoop深入研究:(一)——hdfs介绍, 感谢原作者分享。

推荐阅读

centos
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
centos
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
centos
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
apache
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
apache
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
服务器
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
apache
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
apache
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
apache
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
ftp
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
apache
Linux下Kafka单机安装配置方法（实操成功）

本文介绍了在Linux下安装和配置Kafka的方法，包括安装JDK、下载和解压Kafka、配置Kafka的参数，以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例，帮助读者快速完成Kafka的安装和配置。 ... [详细]

蜡笔小新 2023-12-12 18:14:32
tomcat
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
apache
我们如何在kafkaconect分发模式下手动定义主题分区和复制

我正在使用sql-serverkafka-connect和debezium监视sqlserver数据库，但是当我发布并运行我的wo ... [详细]

蜡笔小新 2023-10-16 12:54:59
apache
原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署

添加服务，一 ... [详细]

蜡笔小新 2023-10-15 16:43:57

福州-台江_616

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章