作者:xc15212 | 来源:互联网 | 2023-09-23 18:52
1、环境准备本次环境准备三台机器192.168.153.10、192.168.153.11、192.168.153.12,首先将机器的网络环境配置好。2、配置ho
1、环境准备
本次环境准备三台机器192.168.153.10、192.168.153.11、192.168.153.12,首先将机器的网络环境配置好。
2、配置hosts文件
vi /etc/hosts:
192.168.153.10 master
192.168.153.11 slave01
192.168.153.12 slave02
3、关闭SELinux和防火墙
1.关闭SELinux: vi /etc/selinux/config ,修改如下:
SELINUX=disabled2. 关闭防火墙:
service iptables stop
chkconfig iptables off
chkconfig iptables --list
4、设置SSH免密登录
1.生成密钥:
ssh-keygen -t rsa(默认位于 ~/.ssh/)
2. 拷贝公钥到所有机器:(每台机器都执行一下三个命令)
ssh-copy-id root@master
ssh-copy-id root@slave01
ssh-copy-id root@slave02
3.测试免密登录:
ssh master
ssh slave01
ssh slave02
5、设置NTP时间同步
1.安装 ntp
yum –y install ntp 2.设置NTP服务开机启动
chkconfig ntpd on将master设置为主服务器(在master节点操作):
1. vi /etc/ntp.conf,内容如下:
driftfile /var/lib/ntp/ntp.drift #草稿文件
# 允许内网其他机器同步时间
restrict 192.168.153.10 mask 255.255.255.0 nomodify notrap# Use public servers from the pool.ntp.org project.
# 中国这边最活跃的时间服务器 : [http://www.pool.ntp.org/zone/cn](http://www.pool.ntp.org/zone/cn)
server 210.72.145.44 perfer # 中国国家受时中心
server 202.112.10.36 # 1.cn.pool.ntp.org
server 59.124.196.83 # 0.asia.pool.ntp.org# allow update time by the upper server
# 允许上层时间服务器主动修改本机时间
restrict 210.72.145.44 nomodify notrap noquery
restrict 202.112.10.36 nomodify notrap noquery
restrict 59.124.196.83 nomodify notrap noquery# 外部时间服务器不可用时,以本地时间作为时间服务
server 127.127.1.0 # local clock
fudge 127.127.1.0 stratum 10
2. 重启服务: service ntpd restart
3. 查看同步状态: netstat -tlunp | grep ntp设置slave到master 的同步(在slave节点操作):
1. vi /etc/ntp.conf,内容如下:
driftfile /var/lib/ntp/ntp.drift # 草稿文件statsdir /var/log/ntpstats/
statistics loopstats peerstats clockstats
filegen loopstats file loopstats type day enable
filegen peerstats file peerstats type day enable
filegen clockstats file clockstats type day enable# 让NTP Server为内网的ntp服务器
server 192.168.153.10
fudge 192.168.153.10 stratum 5# 不允许来自公网上ipv4和ipv6客户端的访问
restrict -4 default kod notrap nomodify nopeer noquery
restrict -6 default kod notrap nomodify nopeer noquery# Local users may interrogate the ntp server more closely.
restrict 127.0.0.1
restrict ::1
2. 重启服务: service ntpd restart
3. 手动同步: ntpdate -u 192.168.153.10
6、软件版本号
安装路径
7、各个软件对应的环境变量配置
vi /etc/profile:export HADOOP_HOME=/root/hadoop
export JAVA_HOME=/root/jdk1.8
export JRE_HOME=/root/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin
export SCALA_HOME=/root/scala
export SPARK_HOME=/root/spark
export PATH=$SPARK_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
export HADOOP_ROOT_LOGGER=ERROR
8、hadoop相关配置文件
文件目录:/root/hadoop/etc/hadoop
core-site.xml
fs.defaultFShdfs://master:9000namenode通信地址
hadoop.tmp.dir/root/data/tmp临时文件存储路径
hadoop-env.sh增加如下配置:
export JAVA_HOME=/root/jdk1.8hdfs-site.xml
dfs.replication2
dfs.namenode.name.dirfile:/root/data/namenodetrue
dfs.datanode.data.dirfile:/root/data/datatrue
dfs.namenode.secondary.http-addressmaster:9001
dfs.webhdfs.enabledtrue
dfs.permissionsfalse
mapred-site.xml
mapreduce.framework.nameyarn
yarn-site.xml
yarn.resourcemanager.addressmaster:8040
yarn.resourcemanager.scheduler.addressmaster:8030
yarn.resourcemanager.webapp.addressmaster:8088ResourceManager对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息
yarn.resourcemanager.resource-tracker.addressmaster:8025
yarn.resourcemanager.admin.addressmaster:8141
yarn.nodemanager.aux-servicesmapreduce_shuffleNodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序
yarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler
yarn.acl.enablefalse
yarn.admin.acl*
slaves
slave01
slave02从节点增加masters文件配置:
master
9、spark的配置文件
目录:/root/spark/conf
spark-env.sh
#Java安装目录
export JAVA_HOME=/root/jdk1.8#Scala安装目录
export SCALA_HOME=/root/scala#hadoop安装目录
export HADOOP_HOME=/root/hadoop#hadoop集群的配置文件的目录
export HADOOP_CONF_DIR=/root/hadoop/etc/hadoop#spark集群的Master节点的ip地址
export SPARK_MASTER_IP=master#每个worker节点所占有的CPU核数目
export SPARK_WORKER_CORES=1#每台机器上开启的worker节点的数目
export SPARK_WORKER_INSTANCES=1#交互界面的端口号
export SPARK_MASTER_WEBUI_PORT=18080slaves文件
slave01
slave02
10、启动Hadoop集群和Spark集群
启动Hadoop集群
首次运行Hadoop需要初始化HDFS文件系统:
进入/root/hadoop/bin目录运行:hdfs namenode -format
进入目录:/root/hadoop/sbin
执行命令:
sh start-dfs.sh
sh start-yarn.sh启动spark集群
进入目录:/root/spark/sbin
执行命令:
sh start-all.sh在对应主机执行jps命令查看对应服务是否开启
11、Hadoop和Spark页面访问效果
Hadoop页面地址:http://192.168.153.10:50070、http://192.168.153.10:8088/
Spark页面地址:http://192.168.153.10:18080/