当前位置: 开发笔记 > 运维 > 正文

Hadoop新特性、改进、优化和Bug分析系列1：YARN-378

作者：mobiledu2502895693 | 来源：互联网 | 2018-06-11 00:01

作者:Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-jira-yarn-378/
本博客的文章集合:http://dongxicheng.org/recommend/

重大消息：我的Hadoop新书《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售了，购书链接地址：当当购书网址，京东购书网址，卓越购书网址。新书官方宣传主页： http://hadoop123.com/。

Hadoop jira链接：https://issues.apache.org/jira/browse/YARN-378
所属范围（新特性、改进、优化或Bug）：改进
修复版本：2.1.0-beta及以上版本
所属分支（Common、HDFS、YARN或MapReduce）：YARN
涉及模块：client, resourcemanager
英文标题：“ApplicationMaster retry times should be set by Client”

1. ?背景介绍

在Hadoop分支YARN中，当用户提交应用程序后（提交到ResourceManager上），ResourceManager首先要做的是为该应用程序申请资源以启动它的ApplicationMaster，而ApplicationMaster启动后，它（ApplicationMaster）负责应用程序内部任务的分解，监控、容错等。对于每个应用程序，由于只有一个ApplicationMaster，因此ApplicationMaster存在单点故障问题，一旦ApplicationMaster死掉，则整个应用程序可能会运行失败。当ResourceManager探测到ApplicationMaster运行失败（通过心跳超时机制）后，它会尝试在另外一个节点上重新启动该ApplicationMaster，通常而言，ApplicationMaster重启后，会恢复之前的运行状态（前提是ApplicationMaster上次死掉之前会记录一些日志在HDFS上），当然，这是ApplicationMaster自己的事情，ResourceManager无权干涉，ResourceManager要做的只是发现ApplicationMaster死亡后，重新为它申请资源在另外一个节点上启动。而本文介绍的这个特性则是如何指定每个应用程序ApplicationMaster的重试次数。

在2.1.0-beta版本之前，所有应用程序的ApplicationMaster重试次数是均是由ResourceManager决定的，管理员可通过配置参数yarn.resourcemanager.am.max-retries配置每个ApplicationMaster的重试次数，这个配置参数值适用于所有的应用程序，不可单独对单个应用程序定制化，而这个改进正是为了解决这个问题。

2. 解决思路

首先需要明确的是，这个改进的目的是，让用户可以为自己的应用程序定制ApplicationMaster的重试次数。

其次，这个重试次数将被两个组件用到，分别是ResourceManager和ApplicationMaster，其中ResourceManager用于决定，是否对失败的ApplicationMaster进行重试；ApplicationMaster用于决定，是否需要恢复上次运行时的状态（从第二次开始恢复），以从断点开始计算。

通常而言，有点经验的人，可能认为可以这样解决问题：将用户设置的值放到Configuration中，通过job.xml传递到ResourceManager和ApplicationMaster上，这样改动是最小的。但是很遗憾，客户端传递的job.xml只有ApplicationMaster会读取，而ResourceManager不会。

YARN 2.1.0-beta版本的解决方案如下：

（1）客户端设置重试次数后，该值将被写入ProtocolBuffer对象ApplicationSubmissionContextProto中的新增字段maxAppAttempts中（在hadoop-yarn-project/hadoop-yarn/hadoop-yarn-api/src/main/proto/yarn_protos.proto中定义）；

（2）客户端提交应用程序后，maxAppAttempts值会通过RPC函数传递给ResourceManager；

（3）ResourceManager判断maxAppAttempts是否为0，如果为0，则改为ResourceManager内部已经设置好全局值，由属性arn.resourcemanager.am.max-attempts指定，默认为1；

（4）ResourceManager为ApplicationMaster申请资源后，与对应的节点通信启动ApplicationMaster，启动之前，会将maxAppAttempts值通过环境变量“MAX_APP_ATTEMPTS”传递给它

（5） ApplicationMaster在main函数中读取环境变量MAX_APP_ATTEMPTS，然后开始执行。

这样，各个应用程序可根据实际需要单独向用户提供可配置AM尝试次数的参数，比如MapReduce的参数是mapreduce.am.max-attempts，用户设置了该参数后，参数值会经过以上5个步骤进行传递。

3. ?我们学到了什么

（1）善用环境变量传递信息，环境变量可由父进程传递给子进程；

（2）在YARN中，代码改动通常是链式的，也就是说，需要依次改动几个组件，比如该例子中，需要一次改动client、ResourceManager和ApplicationMaster的代码，改动代码之前，要规划好修改方案和估算好代码的改动幅度；

（3）当需要添加一种新的ApplicationMaster相关的可配置参数时，可仿照这个jira实现完成，比如，假设让ApplicationMaster支持多种容错机制（现在不支持），其中一种是ApplicationMaster死掉后，尽量尝试在原节点重启（通常，ApplicationMaster中运行的是服务时，需要这么做），而这样改动之后，需要用户指定应用程序采用的容错机制类别。

原创文章，转载请注明： 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-jira-yarn-378/

作者：Dong，作者介绍：http://dongxicheng.org/about/

本博客的文章集合:http://dongxicheng.org/recommend/

Copyright © 2013
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

推荐阅读

linux
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
apache
Java如何导入和导出Excel文件的方法和步骤详解

本文详细介绍了在SpringBoot中使用Java导入和导出Excel文件的方法和步骤，包括添加操作Excel的依赖、自定义注解等。文章还提供了示例代码，并将代码上传至GitHub供访问。 ... [详细]

蜡笔小新 2023-12-09 20:27:00
apache
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
port
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
服务器
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
服务器
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
服务器
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
服务器
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
port
初学者遇到的dubbo设计架构问题及解决方法总结

本文总结了初学者在使用dubbo设计架构过程中遇到的问题，并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题，初学者能够更好地理解和应用dubbo设计架构。 ... [详细]

蜡笔小新 2023-12-09 10:07:18
apache
org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的一些代码示例，展 ... [详细]

蜡笔小新 2023-10-17 21:32:56
apache
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
apache
org.apache.hadoop.hbase.client.Increment.getDurability()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hbase.client.Increment.getDurability()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-10-17 12:30:05
apache
Java工程师书单（初级，中级，高级）

简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师，或者说一名合格的架构师应该有怎样的技术知识体系，这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]

蜡笔小新 2023-10-16 19:11:34
apache
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
apache
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15

mobiledu2502895693

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章