Yarn的安全模式与高可靠性安装总结

作者：Rain雨露Dew | 来源：互联网 | 2018-06-12 15:07

最近几天又重新把cdh的安全模块与高可靠性模块重新搭建了一遍，这次用是的目前最新的5.1.0的tar包安装，以前把MRv1搭建了好，这次主要是熟悉安装过程，并且把YARN的安全模块与HA模块成功搭建起来。遇到的错误还是不少，安装过程也是废了我好几天，现在想想很

最近几天又重新把cdh的安全模块与高可靠性模块重新搭建了一遍，这次用是的目前最新的5.1.0的tar包安装，以前把MRv1搭建了好，这次主要是熟悉安装过程，并且把YARN的安全模块与HA模块成功搭建起来。遇到的错误还是不少，安装过程也是废了我好几天，现在想想很多错误都比较典型，现在此记录下我搭建过程中遇到的错误与心得，一方面为自己以后查阅，另一方面希望也能对遇到同样问题的人有所启发。

先说下我的环境，centos6.5, cdh用的目前最新的5.1.0的tar包。

下面在先说说YARN的安全模块与HA安装时的遇到的错误，之后在说说我在安装整个CDH的HDFS、MRv1、YARN时一些不容易注意但很难地位的错误。

（一） YARN的安全模块与HA安装时遇到的错误

安全模块

对于container-executor文件，tar包中没有，需要自己编译
按照官方教程做配置后，执行 mapreduce 任务时，在 shuffle 阶段，会报下面的错误：

2014-08-03 00:34:19,619 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4        at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)        at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167)        at java.security.AccessController.doPrivileged(Native Method)        at javax.security.auth.Subject.doAs(Subject.java:415)        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1554)        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.        at org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl.checkReducerHealth(ShuffleSchedulerImpl.java:323)        at org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl.copyFailed(ShuffleSchedulerImpl.java:245)        at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:347)        at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:165)

在nodemanger服务器上，在执行该job的container的syslog日志中还可以找到下面的错误

2014-08-03 00:34:19,614 WARN [fetcher#3] org.apache.hadoop.mapreduce.task.reduce.Fetcher: Invalid map idjava.lang.IllegalArgumentException: TaskAttemptId string : TTP/1.1 500 Internal Server ErrorContent-Type: text/plain; charset=UTF is not properly formed        at org.apache.hadoop.mapreduce.TaskAttemptID.forName(TaskAttemptID.java:201)        at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:386)        at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:341)        at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:165)2014-08-03 00:34:19,614 WARN [fetcher#4] org.apache.hadoop.mapreduce.task.reduce.Fetcher: Invalid map idjava.lang.IllegalArgumentException: TaskAttemptId string : TTP/1.1 500 Internal Server Error

网上很多说Shuffle$ShuffleError: error in shuffle in fetcher#4这个错误与内存，很明显，我这里不是这种情况，因为从 TTP/1.1 500 Internal Server Error就应该知道是resourcemanager内部的错误。

经过我验证，这时由于tar包默认并不包含native的lib，位置在/lib/native文件夹，需要我们自己编译，把编译好的native文件拷贝到这里即可。

HA

按照官方教程，先直接安装YARN时有点小错误，就是historyserver进程开启（由maprd用户开启）后无法aggregate log，我发现是有两个问题导致：

我服务器上的mapred用户只属于mapred用户组（useradd mapred这条命令执行后，就会创建mapred用户，并且属于mapred组），而由mapred启动的historyserver需要访问${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate/${username}文件夹下不同用户的文件，而这个文件夹的权限是770,own为${username}:hadoop，所以historyserver没有权限读取，我这里把mapred添加到hadoop用户组去即可：s
这里mapred用户也需要属于mapred组，是因为也需要向${yarn.nodemanager.remote-app-log-dir}/${username}目录下写一些日志（因为开启了log-aggregation），而这个目录权限也是770,own为${username}:mapred。

usermod -a G hadoop mapred #这里需要-a选项，这样mapred用户即属于mapred组又属于hadoop组

教程上说的开启log-aggregation的配置不对，教程上写的是

    yarn.log.aggregation.enable    true

应改为

    yarn.log-aggregation-enable    true

———————-下面正式说HA—————————

YARN的HA想对于hdfs与MRv1的简单了许多，自动Failover也不需要另起个进程，ResourceManager中一个ActiveStandbyElector，它负责Automatic failover。这里只需要修改yarn-site.xml文件即可。官方教程的给出的默认配置改一项就能运行成功。

把

    yarn.resourcemanager.zk.state-store.address    localhost:2181

改成

    yarn.resourcemanager.zk-address    localhost:2181

其实上面的表格说的很详细了，不知道为什么给出的示例没写，不过这个错也比较好找，因为按照上面配置的开启RM时会报yarn.resourcemanager.zk-address没定义。

其次需要注意的是yarn.resourcemanager.ha.id在active与standby的服务器上的值是不一样的，按照官方给的配置，那就一个是rm1,一个是rm2。

如果我们在开启了安全模式还需要修改一处property即yarn.resourcemanager.hostname，ha中的两个RM这个property值是不一样的，分别为其hostname。这是因为我们在配置yarn的principal时用了yarn/_HOST这种方式，而_HOST对于NN与RM来说，不是按照hostname来替换的，而是分别按照fs.defaultFS与yarn.resourcemanager.hostname这两个property的值来替换的。DN与NM是按照每个服务器的hostname来替换的。替换规则也在HDFS的安全模式文档中有说明。

下面是我rm1服务器上这两个property的配置：

    yarn.resourcemanager.ha.id    rm1    yarn.resourcemanager.hostname    master

下面是我rm2服务器上这两个property的配置：

    yarn.resourcemanager.ha.id    rm2    yarn.resourcemanager.hostname    master2

（二） CDH各个模块安装总结

还是先说些我在安装过程中遇到的一些不起眼但遇到后就很难定位的错误。

如果把hadoop放到/root下，像hdfs、yarn这些用户是没法执行bin、sbin下面的脚本的，因为/root的默认权限是550，我安装时直接放到/opt下。
在安装HDFS的安全模块时，开启某个进程，比如namenode时，经常会出现某个文件找不到，这是因为我在前后开启、关闭、格式化namenode过程中，先后用了root与hdfs，用root用户开启的namenode在本地写文件hdfs用户是没法读取的。这里一定要谨记，除了开启datanode时需要用root用户，与namenode相关的都是用hdfs用户，包括namenode的format、start与stop。
还有个比较tricky的问题，本来的journalnode是开启在slaves节点上的，我现在想把它们分开，我集群内的hosts文件是这样的

127.0.0.1   localhost10.4.13.85  master10.4.15.239 master2 zk1 jn1  #hostname为master210.4.9.14   zk2 jn2          #hostname为zk210.4.14.123 zk3 jn3          #hostname为zk310.4.13.63  node110.4.13.2   node210.4.11.89  node3

我这里为一台服务器配置多个domain.name是方便我在后面的配置时做到见名知意，比如，我在配置journalnode时我可以这么配置

dfs.namenode.shared.edits.dirqjournal://jn1:8485;jn2:8485;jn3:8485/ljcdfs.journalnode.kerberos.principalhdfs/_HOST@MY-REALM…………

但这里问题来了，因为journalnode从active的NameNode那里取数据时需要验证身份，而我这里的principal用了_HOST，按理说CDH在运行时会自动把 _HOST替换为hostname，而且我在生产keytab时也是根据hostname来生成的，比如对于master2,我会生产下面的principal：

hdfs/master2@MY-REALMHTTP/master2@MY-REALMmapred/master2@MY-REALMyarn/master2@MY-REALM

但是我这样配置后，开启第一个时namenode就会报错，

2014-08-06 18:27:05,929 WARN org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs/master@MY-REALM (auth:KERBEROS) cause:java.io.IOException: org.apache.hadoop.security.authentication.client.AuthenticationException: GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - UNKNOWN_SERVER)2014-08-06 18:27:05,929 ERROR org.apache.hadoop.hdfs.server.namenode.EditLogInputStream: caught exception initializing http://jn3:8480/getJournal?jid=ljc&segmentTxId=1&storageInfo=-55%3A845458164%3A0%3ACID-b6f3e623-e3c0-45d0-a44c-ec3f01d57ea3java.io.IOException: org.apache.hadoop.security.authentication.client.AuthenticationException: GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - UNKNOWN_SERVER)    at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream$URLLog$1.run(EditLogFileInputStream.java:406)     at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream$URLLog$1.run(EditLogFileInputStream.java:398)    at java.security.AccessController.doPrivileged(Native Method)    at javax.security.auth.Subject.doAs(Subject.java:415)    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1554)    at org.apache.hadoop.security.SecurityUtil.doAsUser(SecurityUtil.java:448)    at org.apache.hadoop.security.SecurityUtil.doAsCurrentUser(SecurityUtil.java:442)    at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream$URLLog.getInputStream(EditLogFileInputStream.java:397)    at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.init(EditLogFileInputStream.java:139)    at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.nextOpImpl(EditLogFileInputStream.java:188)    at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.nextOp(EditLogFileInputStream.java:239)    at org.apache.hadoop.hdfs.server.namenode.EditLogInputStream.readOp(EditLogInputStream.java:83)    at org.apache.hadoop.hdfs.server.namenode.EditLogInputStream.skipUntil(EditLogInputStream.java:140)    at org.apache.hadoop.hdfs.server.namenode.RedundantEditLogInputStream.nextOp(RedundantEditLogInputStream.java:178)    at org.apache.hadoop.hdfs.server.namenode.EditLogInputStream.readOp(EditLogInputStream.java:83)Caused by: org.apache.hadoop.security.authentication.client.AuthenticationException: GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - UNKNOWN_SERVER)    at org.apache.hadoop.security.authentication.client.KerberosAuthenticator.doSpnegoSequence(KerberosAuthenticator.java:306)    at org.apache.hadoop.security.authentication.client.KerberosAuthenticator.authenticate(KerberosAuthenticator.java:196)    at org.apache.hadoop.security.authentication.client.AuthenticatedURL.openConnection(AuthenticatedURL.java:232)    at org.apache.hadoop.hdfs.web.URLConnectionFactory.openConnection(URLConnectionFactory.java:164)    at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream$URLLog$1.run(EditLogFileInputStream.java:403)    ... 30 moreCaused by: GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - UNKNOWN_SERVER)    at sun.security.jgss.krb5.Krb5Context.initSecContext(Krb5Context.java:710)    at sun.security.jgss.GSSContextImpl.initSecContext(GSSContextImpl.java:248)    at sun.security.jgss.GSSContextImpl.initSecContext(GSSContextImpl.java:179)    at org.apache.hadoop.security.authentication.client.KerberosAuthenticator$1.run(KerberosAuthenticator.java:285)    at org.apache.hadoop.security.authentication.client.KerberosAuthenticator$1.run(KerberosAuthenticator.java:261)    at java.security.AccessController.doPrivileged(Native Method)    at javax.security.auth.Subject.doAs(Subject.java:415)

大致意思是说无法读取journalnode那里的edits，认证失败了，没有权限。我还以为是我生产的keytab有错，我去jn1所在服务器（hostname为master2）上用kinit加上tabkey也能的到TGT，后来我把配置改成这样：

dfs.namenode.shared.edits.dirqjournal://master2:8485;zk2:8485;zk3:8485/ljc

这样就能吧Namenode起来了，证明这里_HOST被直接替换成了我这里的domain.name了，而不是每个服务器上的hostname，我这里不用domain.name，直接换为ip，也没问题。要是想了解这个细节，需要看源代码了，以后在看吧。

如果遇到

Exception in thread "main" org.apache.hadoop.HadoopIllegalArgumentException: HA is not enabled for this namenode.        at org.apache.hadoop.hdfs.tools.DFSZKFailoverController.create(DFSZKFailoverController.java:121)        at org.apache.hadoop.hdfs.tools.DFSZKFailoverController.main(DFSZKFailoverController.java:172)

说明 dfs.nameservices 配置有误，我当时把值配置成 hdfs://ljc 了，其实应该配成 ljc 就可以了。

总结

从熟悉hadoop各个模块开始，到现在把最基本的环境搭建起来，前前后后也是有一个月的时间了，我发现我耗时比较多的是遇到问题后，没有看源码的意识，去网上搜，虽然有可能有人也遇到这个问题，但是明显和我的不相符，这时我就仔细检查我的配置文件，看看是否遗漏官方教程上的某一项，有些盲目，最近开始把cdh的src导入了eclipse，遇到一些错误后开始慢慢看源代码，我发现这样能很快定位到问题出错的范围，以后一定多尝试。

其次就是服务器比较多，hadoop也需要配置不少东西，这就需要自动化来帮助了，我最近把shell脚本又熟悉起来，写了一些用于管理hadoop的脚本，加上使用了salt这个自动化工具，这样方便多了。但是shell我还不是很熟悉，像数组的使用，很恶心有木有，交互式shell加载环境变量与非交互式（ssh -t -t hostname cmd这种方式就是非交互式）的不一样，等回来还要慢慢总结。

原文地址：Yarn的安全模式与高可靠性安装总结, 感谢原作者分享。

推荐阅读

go
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
go
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
go
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
php
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
php
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
install
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
install
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
php
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
php
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
filter
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
filter
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
filter
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
filter
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35

Rain雨露Dew

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章