热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据学习1在阿里云上集成6台云服务器真正的小明被占用了

一.为什么要大数据学习?这是一个大数据的时代,一个企业只有掌握了大数据才能把握住市场的命脉,一个人掌握了大数据就可以比较轻松的向机器学习、人工智能等方向发展。所以我们有必要去掌握

大数据学习-1 在阿里云上集成6台云服务器

一.为什么要大数据学习?

这是一个大数据的时代,一个企业只有掌握了大数据才能把握住市场的命脉,一个人掌握了大数据就可以比较轻松的向机器学习、人工智能等方向发展。所以我们有必要去掌握大数据的技术同时也关注大数据的发展趋势,不能裹足不前。

二.关于本专题的学习

 作为一个普通本科大学生,在校的大数据学习比较的“水”,普通大学嘛,大家都懂。在一个就是编程实战方向上的东西本来就该靠自学,而不是靠别人去教。我觉得大数据的学习是一个缓慢的过程,需要半年的时间去学习。我想在大二结束差不多就可以完成大数据最基本的学习了。(看看明年暑假能不能去个公司实习一下:-))因为这也是我也是第一次学习大数据,这一系列文章是我的学习笔记而不是我的工作经历总结,其中难免有部分错误,还望前辈们不啬赐教。

三.在阿里云上安装hadoop,同时集成6台云主机

 3.1版本说明:1.Linux   centos7

            2.Java    jdk1.8

               3.Hadoop  Hadoop2.7.3

3.2 安装Java

在这里我们使用的是Java 1.8,当然你也可以使用其他的版本,但是一定要是Linux版本的Java!

我们下载的压缩包格式,下载到本地后通过winscp上传到阿里云上

下载链接 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 

 我们在阿里云上的opt文件夹下创建Java文件夹和hadoop文件夹如图

 

 我们将我们的Java压缩包放到Java文件夹中去。

 然后进入该文件夹执行解压操作

 进入该文件夹      cd /opt/java

 解压操作   tar -zxvf jdk-8u 191-linux-x64.tar.gz  (注意你自己的jdk版本号和你自己的文件名)

 解压完成后会看见一个文件夹如下

 

接下来我们呢就要去配置文件了

修改/etc/profile文件   使用命令符  vim  /etc/profile

在文件的最后加上

export JAVA_HOME=/opt/java/jdk1.8.0_191   (注意你自己的版本号)
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
更改完后输入命令命令符 Java、 javac、java -version

出现下面的字符说明安装成功:

 

3.3实现6个机子ssh免密码登录

检查机器名称

输入命令符  hostname  可以查看你们的机器名称,如图:
如果你没有改过你的hostname那么应该是一个乱码,那么我们使用命令来修改主机名称 hostname  hserver1(1号一般为namenode)

其他的5台服务器也是分别为hserver2、hserver3、hserver4、hserver5、hserver6(这几个为datenode)

修改映射文件

 输入命令符vim /etc/hosts 将所有的服务器的主机ip地址和他们的hostname相对应

 如图:

修改完成后我们检查一下是否能够发送成功。

ping -c  3 hserver2 

 

这样就说明成功了,当然剩下的5台服务器也测试后成功了。

配置ssh文件

输入命令  ssh-keygen  -t  rsa -P \'\'

在过程中需要输入回车

然后ls  /root/.ssh/  出现下图

查看id_rsa.pub   vim  id_rsa.pub

我们将所有主机中的id_rsa.pub 文件中的公匙复制到一个文件中authorized_keys,然后将authorized_keys放置到/root/.ssh/文件夹下

查看authorized_keys   vim  authorized_keys 如下:

 测试是否ssh配置成功

 依次检查ssh hserver2 、3、4、5、6

 第一次输入一般会询问链接  输入yes

测试完后一定要关闭链接否者你在本机上的命令会在那一台机子上执行,

命令符 exit 退出

 3.4安装hadoop

下载hadoop到本地然后上传到阿里云上,解压。资源网上都有可以去找 ,我这里使用的Hadoop版本为2.7.3下面解压后所有的路径你们根据你们的版本去修改。

我们的将Hadoop的压缩包放到/opt/hadoop/文件夹下:

然后我们进入该文件夹 cd  /opt/hadoop/

接着执行   tar -xvf hadoop-2.7.3.tar.gz (注意你们的文件版本名)解压文件

解压完成后你会的得到一个文件夹

然后创建如下几个文件夹

mkdir /root/hadoop

mkdir /root/hadoop/tmp

mkdir /root/hadoop/var

mkdir /root/hadoop/dfs

mkdir /root/hadoop/dfs/name

mkdir /root/hadoop/dfs/data

修改配置文件:

 

 vim   /opt/hadoop/hadoop-2.7.3/etc/hadoop/core-site.xml

节点中写入:



        hadoop.tmp.dir

        /root/hadoop/tmp

        Abase for other temporary directories.

  


  

        fs.default.name

        hdfs://hserver1:9000

  



注意如果你的namenode的hostname不为hserver1你要改成你的namenode的hostname

 

vim /opt/hadoop/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

 将export   JAVA_HOME=${JAVA_HOME}

 修改为:

 export   JAVA_HOME=/opt/java/jdk1.8.0_191   (注意你自己的Java版本号)

 

vim /opt/hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml

节点中写入:

 

   dfs.name.dir

   /root/hadoop/dfs/name

   Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.





   dfs.data.dir

   /root/hadoop/dfs/data

   Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.





   dfs.replication

   2





      dfs.permissions

      false

      need not permissions



在该版本中,有一个名为mapred-site.xml.template的文件,复制该文件,然后改名为mapred-site.xml,命令是:

cp /opt/hadoop/hadoop-2.8.0/etc/hadoop/mapred-site.xml.template /opt/hadoop/hadoop-2.7.3/etc/hadoop/mapred-site.xml

vim  /opt/hadoop/hadoop-2.7.3/etc/hadoop/mapred-site.xml

节点内加入配置:

 

   mapred.job.tracker

   hserver1:49001





      mapred.local.dir

       /root/hadoop/var





       mapreduce.framework.name

       yarn



vim /opt/hadoop/hadoop-2.7.3/etc/hadoop/slaves

加入你的datenode的hostname

如下图:

 

 vim  /opt/hadoop/hadoop-2.7.3/etc/hadoop/yarn-site.xml

 节点内加入配置

 

        yarn.resourcemanager.hostname

        hserver1

  


  

        The address of the applications manager interface in the RM.

        yarn.resourcemanager.address

        0.0.0.0:8032

  


  

        The address of the scheduler interface.

        yarn.resourcemanager.scheduler.address

        0.0.0.0:8030

  


  

        The http address of the RM web application.

        yarn.resourcemanager.webapp.address

        0.0.0.0:8088

  


  

        The https adddress of the RM web application.

        yarn.resourcemanager.webapp.https.address

        0.0.0.0:8090

  


  

        yarn.resourcemanager.resource-tracker.address

        0.0.0.0:8031

  


  

        The address of the RM admin interface.

        yarn.resourcemanager.admin.address

        0.0.0.0:8033

  


  

        yarn.nodemanager.aux-services

        mapreduce_shuffle

  


  

        yarn.scheduler.maximum-allocation-mb

        2048

        每个节点可用内存,单位MB,默认8182MB

  


  

        yarn.nodemanager.vmem-pmem-ratio

        2.1

  


  

        yarn.nodemanager.resource.memory-mb

        2048



  

        yarn.nodemanager.vmem-check-enabled

        false


四.初始化hadoop和执行hadoop

cd   /opt/hadoop/hadoop-2.7.3/bin   进入文件夹

 ./hadoop  namenode  -format        初始化脚本

格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件

在namenode上去执行启动命令

cd    /opt/hadoop/hadoop-2.8.0/sbin   (进入文件夹)

 ./start-all.sh    (执行命令)

过程中所有询问输入yes

五.测试hadoop是否成功

namenode的地址为39.105.201.218

关闭防火墙          systemctl   stop   firewalld.service 后

打开:

http://39.103.201.218:50090/(HDFS管理界面)

 


http://39.103.201.218:8088/   (cluster页面)

 

参考文章    https://blog.csdn.net/pucao_cug/article/details/71698903

 


推荐阅读
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 本文介绍了5个基本Linux命令行工具的现代化替代品,包括du、top和ncdu。这些替代品在功能上进行了改进,提高了可用性,并且适用于现代化系统。其中,ncdu是du的替代品,它提供了与du类似的结果,但在一个基于curses的交互式界面中,重点关注占用磁盘空间较多的目录。 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • 本文介绍了在RHEL 7中的系统日志管理和网络管理。系统日志管理包括rsyslog和systemd-journal两种日志服务,分别介绍了它们的特点、配置文件和日志查询方式。网络管理主要介绍了使用nmcli命令查看和配置网络接口的方法,包括查看网卡信息、添加、修改和删除配置文件等操作。 ... [详细]
  • 大坑|左上角_pycharm连接服务器同步写代码(图文详细过程)
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了pycharm连接服务器同步写代码(图文详细过程)相关的知识,希望对你有一定的参考价值。pycharm连接服务 ... [详细]
  • ZABBIX 3.0 配置监控NGINX性能【OK】
    1.在agent端查看配置:nginx-V查看编辑时是否加入状态监控模块:--with-http_stub_status_module--with-http_gzip_stat ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • 现在比较流行使用静态网站生成器来搭建网站,博客产品着陆页微信转发页面等。但每次都需要对服务器进行配置,也是一个重复但繁琐的工作。使用DockerWeb,只需5分钟就能搭建一个基于D ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • 本文介绍了在CentOS 6.4系统中更新源地址的方法,包括备份现有源文件、下载163源、修改文件名、更新列表和系统,并提供了相应的命令。 ... [详细]
  • Python项目实战10.2:MySQL读写分离性能优化
    本文介绍了在Python项目实战中进行MySQL读写分离的性能优化,包括主从同步的配置和Django实现,以及在两台centos 7系统上安装和配置MySQL的步骤。同时还介绍了创建从数据库的用户和权限的方法。摘要长度为176字。 ... [详细]
  • Python脚本编写创建输出数据库并添加模型和场数据的方法
    本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块,然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据,本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外,作者还建立了关于Abaqus的学习交流群,欢迎加入并提问。 ... [详细]
  • Annotation的大材小用
    为什么80%的码农都做不了架构师?最近在开发一些通用的excel数据导入的功能,由于涉及到导入的模块很多,所以开发了一个比较通用的e ... [详细]
  • zabbix中文乱码的问题
    在使用zabbix时,有时候会出现中文乱码的问题,如下:因为zabbix自身对中文简体的支持不完善,需要我们手动的去上传新的字体进行替换:1、在windows获取字体库文件在Windows上的 ... [详细]
author-avatar
马彭的小窝
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有