当前位置: 开发笔记 > 编程语言 > 正文

hadoop集群动态扩展

作者：早晚虚文_114 | 来源：互联网 | 2023-06-02 22:48

Hadoop集群节点的动态增加与删除Hadoop集群节点的动态增加1.安装配置节点具体过程参考《Hadoop集群实践之(1)Hadoop(HDFS)搭建》2.在配置过程中需要在所有

Hadoop集群节点的动态增加与删除

Hadoop集群节点的动态增加
1. 安装配置节点
具体过程参考《Hadoop集群实践之 (1) Hadoop(HDFS)搭建》

2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置
$ sudo vim /etc/hadoop/conf/slaves

hadoop-node-1
hadoop-node-2
hadoop-node-3

$ sudo vim /etc/hosts

10.6.1.150 hadoop-master
10.6.1.151 hadoop-node-1
10.6.1.152 hadoop-node-2
10.6.1.153 hadoop-node-3

$ sudo vim /etc/hadoop/conf/hdfs-site.xml

dfs.data.dir/data/hdfs

dfs.replication3

dfs.datanode.max.xcievers4096

3. 启动datanode与tasktracker
dongguo&＃64;hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-datanode start
dongguo&＃64;hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-tasktracker start

4. 检查新增节点是否已经Live
通过WEB管理界面查看

http://10.6.1.150:50070/dfsnodelist.jsp?whatNodes&＃61;LIVE

可以看到hadoop-node-3已经被动态添加到了Hadoop集群中

5.应用新的备份系数dfs.replication

5.1 检查目前的备份系数
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop fs -lsr /dongguo
-rw-r--r-- 2 hdfs supergroup 33 2012-10-07 22:02 /dongguo/hello.txt

结果行中的第2列是备份系数&＃xff08;注&＃xff1a;文件夹信息存储在namenode节点上&＃xff0c;没有备份&＃xff0c;故文件夹的备份系数是横杠-&＃xff09;
目前文件的备份系数仍是之前设置的参数2&＃xff0c;Hadoop不会自动的按照新的备份系数进行调整。

dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop fsck /

12/10/10 21:18:32 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
FSCK started by hdfs (auth:SIMPLE) from /10.6.1.150 for path / at Wed Oct 10 21:18:33 CST 2012
.................Status: HEALTHYTotal size: 7786 BTotal dirs: 46Total files: 17Total blocks (validated): 17 (avg. block size 458 B)Minimally replicated blocks: 17 (100.0 %)Over-replicated blocks: 0 (0.0 %)Under-replicated blocks: 0 (0.0 %)Mis-replicated blocks: 0 (0.0 %)Default replication factor: 2Average block replication: 2.0Corrupt blocks: 0Missing replicas: 0 (0.0 %)Number of data-nodes: 4Number of racks: 1
FSCK ended at Wed Oct 10 21:18:33 CST 2012 in 48 milliseconds
The filesystem under path &＃39;/&＃39; is HEALTHY

通过 hadoop fsck / 也可以方便的看到Average block replication的值仍然为旧值2&＃xff0c;该值我们可以手动的进行动态修改。
而Default replication factor则需要重启整个Hadoop集群才能修改&＃xff0c;但实际影响系统的还是Average block replication的值&＃xff0c;因此并非一定要修改默认值。

5.2 修改hdfs文件备份系数&＃xff0c;把/ 目录下所有文件备份系数设置为3
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop dfs -setrep -w 3 -R /

12/10/10 21:22:35 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
Replication 3 set: hdfs://hadoop-master/dongguo/hello.txt
Replication 3 set: hdfs://hadoop-master/hbase/-ROOT-/70236052/.oldlogs/hlog.1349695889266
Replication 3 set: hdfs://hadoop-master/hbase/-ROOT-/70236052/.regioninfo
Replication 3 set: hdfs://hadoop-master/hbase/-ROOT-/70236052/info/7670471048629837399
Replication 3 set: hdfs://hadoop-master/hbase/.META./1028785192/.oldlogs/hlog.1349695889753
Replication 3 set: hdfs://hadoop-master/hbase/.META./1028785192/.regioninfo
Replication 3 set: hdfs://hadoop-master/hbase/.META./1028785192/info/7438047560768966146
Waiting for hdfs://hadoop-master/dongguo/hello.txt .... done
Waiting for hdfs://hadoop-master/hbase/-ROOT-/70236052/.oldlogs/hlog.1349695889266 ... done
Waiting for hdfs://hadoop-master/hbase/-ROOT-/70236052/.regioninfo ... done
Waiting for hdfs://hadoop-master/hbase/-ROOT-/70236052/info/7670471048629837399 ... done
Waiting for hdfs://hadoop-master/hbase/.META./1028785192/.oldlogs/hlog.1349695889753 ... done
Waiting for hdfs://hadoop-master/hbase/.META./1028785192/.regioninfo ... done
Waiting for hdfs://hadoop-master/hbase/.META./1028785192/info/7438047560768966146 ... done
...

可以看到Hadoop对所有文件的备份系数进行了刷新

5.3 再次检查备份系数的情况
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop fsck /

12/10/10 21:23:26 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
FSCK started by hdfs (auth:SIMPLE) from /10.6.1.150 for path / at Wed Oct 10 21:23:27 CST 2012
.................Status: HEALTHYTotal size: 7786 BTotal dirs: 46Total files: 17Total blocks (validated): 17 (avg. block size 458 B)Minimally replicated blocks: 17 (100.0 %)Over-replicated blocks: 0 (0.0 %)Under-replicated blocks: 0 (0.0 %)Mis-replicated blocks: 0 (0.0 %)Default replication factor: 2Average block replication: 3.0Corrupt blocks: 0Missing replicas: 0 (0.0 %)Number of data-nodes: 4Number of racks: 1
FSCK ended at Wed Oct 10 21:23:27 CST 2012 in 11 milliseconds
The filesystem under path &＃39;/&＃39; is HEALTHY

可以看到已经变成了新的备份系数"3"

5.4 测试一下创建新的文件时是否能集成新的备份系数
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop fs -copyFromLocal mysql-connector-java-5.1.22.tar.gz /dongguo
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop fs -lsr /dongguo

-rw-r--r-- 3 hdfs supergroup 33 2012-10-07 22:02 /dongguo/hello.txt
-rw-r--r-- 3 hdfs supergroup 4028047 2012-10-10 21:28 /dongguo/mysql-connector-java-5.1.22.tar.gz

可以看到新上传的文件的备份系数是"3"

6 对HDFS中的文件进行负载均衡
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop balancer

Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being Moved
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.153:50010
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.150:50010
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.152:50010
12/10/10 21:30:25 INFO net.NetworkTopology: Adding a new node: /default-rack/10.6.1.151:50010
12/10/10 21:30:25 INFO balancer.Balancer: 0 over utilized nodes:
12/10/10 21:30:25 INFO balancer.Balancer: 0 under utilized nodes:
The cluster is balanced. Exiting...
Balancing took 1.006 seconds

至此&＃xff0c;Hadoop集群的动态增加就已经完成了。
下面&＃xff0c;我开始对Hadoop集群的节点进行动态的删除。

Hadoop集群节点的动态删除
1. 使用新增的节点
尽可能的在HDFS中产生一些测试数据&＃xff0c;并通过Hive执行一些Job以便使新的节点也执行MapReduce并行计算。
这样做的原因是尽可能的模拟线上的环境&＃xff0c;因为线上环境在进行删除节点之前肯定是有很多数据和Job执行过的。

2. 修改core-site.xml
dongguo&＃64;hadoop-master:~$ sudo vim /etc/hadoop/conf/core-site.xml

dfs.hosts.exclude/etc/hadoop/conf/excludeNames a file that contains a list of hosts that arenot permitted to connect to the namenode. The full pathname of thefile must be specified. If the value is empty, no hosts areexcluded.

3. 修改hdfs-site.xml
dongguo&＃64;hadoop-master:~$ sudo vim /etc/hadoop/conf/hdfs-site.xml

4. 创建/etc/hadoop/conf/exclude
dongguo&＃64;hadoop-master:~$ sudo vim /etc/hadoop/conf/exclude

hadoop-node-3

在文件中增加需要删除的节点&＃xff0c;一行一个&＃xff0c;我这里仅需要写入新增的hadoop-node-3做测试。

5. 降低备份系数
在我的测试环境中&＃xff0c;目前节点为4台&＃xff0c;备份系数为3&＃xff0c;如果去掉一台的话备份系数就与节点数相同了&＃xff0c;而Hadoop是不允许的。
通常备份系数不需要太高&＃xff0c;可以是服务器总量的1/3左右即可&＃xff0c;Hadoop默认的数值是3。

下面&＃xff0c;我们将备份系数从3降低到2

5.1 在所有的Hadoop服务器上更新以下配置
$ sudo vim /etc/hadoop/conf/hdfs-site.xml

dfs.data.dir/data/hdfs

dfs.replication2

dfs.datanode.max.xcievers4096

5.2 修改hdfs文件备份系数&＃xff0c;把/ 目录下所有文件备份系数设置为2
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop dfs -setrep -w 2 -R /

遇到的疑问&＃xff1a;
在进行文件备份系数的降低时&＃xff0c;能够很快的进行Replication set&＃xff0c;但是在Waiting for的过程中却很长时间没有完成。
最终只能手动Ctrl&＃43;C中断&＃xff0c;个人猜测在这个过程中HDFS正视图对数据文件进行操作&＃xff0c;在删除一个副本容量的数据。
因此&＃xff0c;我们应该对dfs.replication的数值做出很好的规划&＃xff0c;尽量避免需要降低该数值的情况出现。

6. 动态刷新配置
dongguo&＃64;hadoop-master:~$ sudo -u hdfs hadoop dfsadmin -refreshNodes

7. 检查节点的处理状态
通过WEB管理界面查看
Decommissioning(退役中)

http://10.6.1.150:50070/dfsnodelist.jsp?whatNodes&＃61;DECOMMISSIONING

Dead(已经下线)

http://10.6.1.150:50070/dfsnodelist.jsp?whatNodes&＃61;DEAD

可以看到&＃xff0c;节点已经经历了退役的过程并成功的下线了。

需要注意的是&＃xff1a;
在删除节点时一定要停止所有Hadoop的Job&＃xff0c;否则程序还会向要删除的节点同步数据&＃xff0c;这样也会导致Decommission的过程一直无法完成。

8. 检查进程状态
这时我们查看进程状态&＃xff0c;可以发现datanode进程已经被自动中止了
dongguo&＃64;hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-datanode status
hadoop-0.20-datanode is not running.

而Tasktracker进程还在&＃xff0c;需要我们手动中止
dongguo&＃64;hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-tasktracker status
hadoop-0.20-tasktracker is running
dongguo&＃64;hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-tasktracker stop
Stopping Hadoop tasktracker daemon: stopping tasktracker
hadoop-0.20-tasktracker.

此时&＃xff0c;即使我们手动启动datanode&＃xff0c;也是不能成功的&＃xff0c;日志中会显示UnregisteredDatanodeException的错误。
dongguo&＃64;hadoop-node-3:~$ sudo /etc/init.d/hadoop-0.20-datanode start

Starting Hadoop datanode daemon: starting datanode, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-datanode-hadoop-node-3.out
ERROR. Could not start Hadoop datanode daemon

dongguo&＃64;hadoop-node-3:~$ tailf /var/log/hadoop/hadoop-hadoop-datanode-hadoop-node-3.log

2012-10-11 19:33:22,084 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException: Data node hadoop-node-3:50010 is attempting to report storage ID DS-500645823-10.6.1.153-50010-1349941031723. Node 10.6.1.153:50010 is expected to serve this storage.at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getDatanode(FSNamesystem.java:4547)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.verifyNodeRegistration(FSNamesystem.java:4512)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.registerDatanode(FSNamesystem.java:2355)at org.apache.hadoop.hdfs.server.namenode.NameNode.register(NameNode.java:932)at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)at java.lang.reflect.Method.invoke(Method.java:597)at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430)at java.security.AccessController.doPrivileged(Native Method)at javax.security.auth.Subject.doAs(Subject.java:396)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157)at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)at org.apache.hadoop.ipc.Client.call(Client.java:1107)at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)at $Proxy4.register(Unknown Source)at org.apache.hadoop.hdfs.server.datanode.DataNode.register(DataNode.java:717)at org.apache.hadoop.hdfs.server.datanode.DataNode.runDatanodeDaemon(DataNode.java:1519)at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1586)at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:1711)at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1728)
2012-10-11 19:33:22,097 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down DataNode at hadoop-node-3/10.6.1.153
************************************************************/

至此&＃xff0c;对Hadoop集群节点的动态删除也已经成功完成了。

推荐阅读

object
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
ip
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
get
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
ip
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
go
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
eval
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
ip
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
ip
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
go
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
bash
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
bash
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
ip
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
get
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
get
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01

早晚虚文_114

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章