当前位置: 开发笔记 > 编程语言 > 正文

【Hadoop】VM虚拟机上搭建Hadoop集群

作者：我才不要喜欢你了 | 来源：互联网 | 2023-01-28 19:34

一、背景这件事做了N次，每次因为各种原因失败（比如，环境配置，hadoop参数设置），终于在春节

一、背景

这件事做了N次，每次因为各种原因失败（比如，环境配置，hadoop参数设置），终于在春节前夕搞定。

主要流程参照TMH_ITBOY的文章进行，再结合个人需求进行调整。

在此记录和分享一下。

二、部署规划

三、流程

【Step 1】 VMware新建虚拟机

补充：

（1）VMware 15.0.3下载

（2）虚拟机存储位置改为如下（提前规划）

主机hadoop1: .\Virtual Machines\hadoops\hadoop1 主机hadoop2: .\Virtual Machines\hadoops\hadoop2 主机hadoop3: .\Virtual Machines\hadoops\hadoop3 主机hadoop4: .\Virtual Machines\hadoops\hadoop4 主机hadoop5: .\Virtual Machines\hadoops\hadoop5

（3）虚拟机内存除hadoop1外，其他设为1G（因为我的笔记本内存小）

【Step 2】为虚拟机安装CentOS 6.7 64位系统

补充：

（1）我选择的是CentOS-6.7-x86_64-bin-DVD1.iso

【Step 3】CentOS 6.7 网络配置等，及JDK的安装

补充：

（1）每个主机MAC地址（物理地址）会不一致，子网掩码和网卡地址是一致的；

（2）编辑网卡时，记得同时修改IPADDR（例子如下）；（保存退出后，重启网关无效的话，关机重启试一下）

网关：192.168.93.2 原IP：192.168.93.120 修改跟网关在一个网段（有规律，方便记忆即可）：hadoop1：192.168.93.121hadoop2：192.168.93.122hadoop3：192.168.93.123hadoop4：192.168.93.124hadoop5：192.168.93.125

（3）在Xshell中永久保存ssh连接窗口：Xshell-文件-打开（Xshell连接虚拟机时，记得虚拟机先手动开机）

【Step 4】虚拟机克隆，及Hadoop环境配置与安装

补充：

（1）hadoop配置文件（为了方便比较，这部分我会全部列出来）

hadoop-env.sh

# set JAVA_HOME in this file, so that it is correctly defined on # remote nodes.# The java implementation to use.#在这里添加JDK安装目录的环境变量 export JAVA_HOME=/home/java/jdk1.7.0_79# The jsvc implementation to use. Jsvc is required to run secure datanodes

core-site.xml

fs.defaultFShdfs://hadoop1:9000

hadoop.tmp.dir/home/hadoop/apps/hadoop-2.7.5/data

hdfs-site.xml

dfs.replication2

dfs.secondary.http.addresshadoop1:50090

mapred-site.xml（将mapred-site.xml.template改成mapred-site.xml）

mapreduce.framework.nameyarn

yarn-site.xml

yarn.resourcemanager.hostnamehadoop2

yarn.nodemanager.aux-servicesmapreduce_shuffle

slaves（先清空，再添加）

hadoop3 hadoop4 hadoop5

（2）因为我的namenode（hadoop1）和resourcemanager（hadoop2）是物理分离的，所以在配置主机间的ssh免密通信时，不仅要配置hadoop1-->hadoop2,hadoop3,hadoop4,hadoop5，还要配置hadoop2-->hadoop1,hadoop3,hadoop4,hadoop5的；

（3）初始化HDFS的操作，只在需要在第一次使用时格式化即可。如果使用后多次格式化，会导致子节点的cluster_id跟主节点的cluster_id不一致，这时候就需要手动一个个修改。

【Step 5】启动集群

1. 启动HDFS

在namenode（hadoop1）上启动：start-dfs.sh 检查启动是否成功：hadoop dfsadmin -report # 都为0的话，肯定是异常查看进程：jps # 无对应的进程的话，说明启动失败

我遇到的问题及解决办法：

（1）namenode和datanode都启动失败（无进程）：

关防火墙（每个节点都需要一个个去关闭！！！）

临时打开防火墙：service iptables start 临时关闭防火墙：service iptables stop 查看防火墙状态：sudo service iptables status永久开启防火墙： chkconfig iptables on 永久关闭防火墙： chkconfig iptables off

（2）namenode启动成功，datanode启动失败（无进程）

只关了namenode的防火墙，没关datanode们的；
多次格式化hdfs，导致namenode和datanode们的cluster_id不一致：需要手动去修改datanode们的cluster_id

1.在namenode主机上（hadoop1），查看和记录namenode的clusterID： cat /home/hadoop/apps/hadoop-2.7.5/data/dfs/name/current/VERSION2.分别切换到hadoop3、hadoop4、hadoop5，修改datanode上的clusterID，使其与datanode的一致： vim /home/hadoop/apps/hadoop-2.7.5/data/dfs/data/current/VERSION

2. 启动YARN

在resourcemanager机器（hadoop2）上启动： start-yarn.sh检查进程：jps

【Step 6】使用wordcount进行测试

1.上传文件到HDFS 创建文件夹：hadoop fs -mkdir -p /wordcount/input 从本地上传文件至hdfs：hadoop fs -put /home/HADOOP/Downloads/words.txt /wordcount/input2.运行一个mapreduce程序切换jar包路径：cd $HADOOP_HOME/share/hadoop/mapreduce/ 跑mr程序：hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input /wordcount/output # /wordcount/output为输出路径，不需提前创建3.查看结果 hadoop fs -cat /wordcount/output/words.txt

四、其他

1.Hadoop命令手册

推荐阅读

ip
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
default
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
config
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
config
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
ip
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
cmd
Centos7部署安装zabbix5.0详细步骤及注意事项

本文详细介绍了在Centos7上部署安装zabbix5.0的步骤和注意事项，包括准备工作、获取所需的yum源、关闭防火墙和SELINUX等。提供了一步一步的操作指南，帮助读者顺利完成安装过程。 ... [详细]

蜡笔小新 2023-12-10 09:35:39
text
Apache Shiro 身份验证绕过漏洞 (CVE202011989) 详细解析及防范措施

本文详细解析了Apache Shiro 身份验证绕过漏洞 (CVE202011989) 的原理和影响，并提供了相应的防范措施。Apache Shiro 是一个强大且易用的Java安全框架，常用于执行身份验证、授权、密码和会话管理。在Apache Shiro 1.5.3之前的版本中，与Spring控制器一起使用时，存在特制请求可能导致身份验证绕过的漏洞。本文还介绍了该漏洞的具体细节，并给出了防范该漏洞的建议措施。 ... [详细]

蜡笔小新 2023-12-09 19:58:36
web
linux 安装部署多个tomcat

最近项目需要在服务器上新部署一个tomcat，在新部署的tomcat中部署项目。于是将原来的tomcat压缩文件解压缩到另一个目录，然后将打包的war文件上传到tomcat的webapps的目录下，同 ... [详细]

蜡笔小新 2023-10-17 12:08:33
text
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
text
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
config
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
utf-8
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
python
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
ip
大坑|左上角_pycharm连接服务器同步写代码(图文详细过程)

篇首语：本文由编程笔记#小编为大家整理，主要介绍了pycharm连接服务器同步写代码(图文详细过程)相关的知识，希望对你有一定的参考价值。pycharm连接服务 ... [详细]

蜡笔小新 2023-10-17 19:47:17

我才不要喜欢你了

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章