一文了解ApacheFlink的资源管理机制

作者：as123466_866 | 来源：互联网 | 2023-09-05 22:15

整理：王文杰（Flink社区志愿者）摘要：本文根据ApacheFlink系列直播整理而成，由阿里巴巴高级开发工

整理&＃xff1a;王文杰&＃xff08;Flink 社区志愿者&＃xff09;

摘要&＃xff1a;本文根据 Apache Flink 系列直播整理而成&＃xff0c;由阿里巴巴高级开发工程师宋辛童分享。文章主要从基本概念、当前机制与策略、未来发展方向等三个方面帮助开发者深入理解 Flink 的资源管理机制。

基本概念
当前机制与策略
未来发展方向

1. 基本概念

1.1 相关组件

我们今天介绍的主要是与 Flink 资源管理相关的组件&＃xff0c;我们知道一个 Flink Cluster 是由一个 Flink Master 和多个 Task Manager 组成的&＃xff0c;Flink Master 和 Task Manager 是进程级组件&＃xff0c;其他的组件都是进程内的组件。

图1. Flink 资源管理相关组件

如图1所示&＃xff0c;一个 Flink Master 中有一个 Resource Manager 和多个 Job Manager &＃xff0c;Flink Master 中每一个 Job Manager 单独管理一个具体的 Job &＃xff0c;Job Manager 中的 Scheduler 组件负责调度执行该 Job 的 DAG 中所有 Task &＃xff0c;发出资源请求&＃xff0c;即整个资源调度的起点&＃xff1b;JobManager 中的 Slot Pool 组件持有分配到该 Job 的所有资源。另外&＃xff0c;Flink Master 中唯一的 Resource Manager 负责整个 Flink Cluster 的资源调度以及与外部调度系统对接&＃xff0c;这里的外部调度系统指的是 Kubernetes、Mesos、Yarn 等资源管理系统。

Task Manager 负责 Task 的执行&＃xff0c;其中的 Slot 是 Task Manager 资源的一个子集&＃xff0c;也是 Flink 资源管理的基本单位&＃xff0c;Slot 的概念贯穿资源调度过程的始终。

1.2 逻辑层级

介绍完相关组件&＃xff0c;我们需要了解一下这些组件之间的逻辑关系&＃xff0c;共分如下为4层。

Operator

- 算子是最基本的数据处理单元

Task

- Flink Runtime 中真正去进行调度的最小单位
- 由一系列算子链式组合而成&＃xff08;chained operators&＃xff09;

&＃xff08;Note&＃xff1a;如果两个 Operator 属于同一个 Task&＃xff0c;那么不会出现一个 Operator 已经开始运行另一个 Operator 还没被调度的情况。&＃xff09;

- 对应一个 Job Graph

Flink Cluster

- 1 Flink Master &＃43; N Task Managers

图2. 组件的逻辑层级

资源调度的范畴&＃xff0c;实际上是图2红框内的内容。刚刚介绍的与资源调度相关的组件中&＃xff0c;JobManager、Secheduler 和 Slot Pool 对应于 Job 级别&＃xff0c;Resource Manager、Slot Manager 和 Task Manager 对应于 Flink Cluster 级别。

在 Operator 和 Task 中间的 Chaining 是指如何用 Operator 组成 Task 。在 Task 和 Job 之间的 Slot Sharing 是指多个 Task 如何共享一个 Slot 资源&＃xff0c;这种情况不会发生在跨作业的情况中。在 Flink Cluster 和 Job 之间的 Slot Allocation 是指 Flink Cluster 中的 Slot 是怎样分配给不同的 Job 。

1.3 两层资源调度模型

Flink 的资源调度是一个经典的两层模型&＃xff0c;其中从 Cluster 到 Job 的分配过程是由 Slot Manager 来完成&＃xff0c;Job 内部分配给 Task 资源的过程则是由 Scheduler 来完成。如图3&＃xff0c;Scheduler 向 Slot Pool 发出 Slot Request&＃xff08;资源请求&＃xff09;&＃xff0c;Slot Pool 如果不能满足该资源需求则会进一步请求 Resource Manager&＃xff0c;具体来满足该请求的组件是 Slot Manager。

图3. 两层资源调度模型

Task 对 Slot 进行复用有两种方式&＃xff1a;

Slot Caching

- 批作业
- 流作业的 Failover
- 多个 task 先后/轮流使用 slot 资源

Slot Sharing

- 多个 Task 在满足一定条件下可同时共享同一个 Slot 资源

2. 当前机制与策略

截至 Flink 1.10 版本&＃xff0c;Flink 当前的资源管理机制与策略是怎样的&＃xff1f;以下将详细说明。

2.1 Task Manager 有哪些资源&＃xff1f;

图4. Task Manager 资源组成

资源类型

- 内存
- CPU
- 其他扩展资源
- - GPU&＃xff08;FLIP-108&＃xff0c;在 Flink 1.11 版本完成&＃xff09;

TM 资源由配置决定

- Standalone 部署模式下&＃xff0c;TM 资源可能不同
- 其他部署模式下&＃xff0c;所有 TM 资源均相同

2.2 Slot 有哪些资源&＃xff1f;

图5. Slot资源组成

Task Manager 中有固定数量的 Slot &＃xff0c;Slot 的具体数量由配置决定。同一 Task Manager 上 Slot 之间没有差别&＃xff0c;每一个 Slot 都一样大&＃xff0c;即资源一样多。

2.3 Flink Cluster 有多少 Task Manager &＃xff1f;

Standalone 部署模式

在 Standalone 部署模式下&＃xff0c;Task Manager 的数量是固定的&＃xff0c;如果是 start-cluster.sh 脚本来启动集群&＃xff0c;可以通过修改以下文件中的配置来决定 TM 的数量&＃xff1b;也可以通过手动执行 taskmanager.sh 脚本来启动一个 TM 。

/conf/slaves

Active Resource Manager 部署模式

- Kubernetes&＃xff0c;Yarn&＃xff0c;Mesos
- 由 SlotManager / ResourceManager 按需动态决定
- - 当前 Slot 数量不能满足新的 Slot Request 时&＃xff0c;申请并启动新的 TaskManager
  - TaskManager 空闲一段时间后&＃xff0c;超时则释放

Note&＃xff1a;On-Yarn 部署模式不再支持指定固定数量的 TM &＃xff0c;即以下命令参数已经失效。

yarn-session.sh -n flink run -yn

2.4 Cluster -> Job 资源调度的过程

图6. Cluster 到 Job 的资源调度过程

如图6&＃xff0c;Cluster 到 Job 的资源调度过程中主要包含两个过程。

Slot Allocation&＃xff08;图6中红色箭头&＃xff09;

Scheduler 向 Slot Pool 发送请求&＃xff0c;如果 Slot 资源足够则直接分配&＃xff0c;如果 Slot 资源不够&＃xff0c;则由 Slot Pool 再向 Slot Manager发送请求&＃xff08;此时即为 Job 向 Cluster 请求资源&＃xff09;&＃xff0c;如果 Slot Manager 判断集群当中有足够的资源可以满足需求&＃xff0c;那么就会向 Task Manager 发送 Assign 指令&＃xff0c;Task Manager 就会提供 Slot 给 Slot Pool&＃xff0c;Slot Pool 再去满足 Scheduler 的资源请求。

Starting TaskManagers&＃xff08;图6中蓝色箭头&＃xff09;

在 Active Resource Manager 资源部署模式下&＃xff0c;当 Resource Manager 判定 Flink Cluster 中没有足够的资源去满足需求时&＃xff0c;它会进一步去底层的资源调度系统请求资源&＃xff0c;由调度系统把新的 Task Manager 启动起来&＃xff0c;并且 TaskManager 向 Resource Manager 注册&＃xff0c;则完成了新 Slot 的补充。

2.5 Job -> Task 资源调度的过程

Scheduler

- 根据 Execution Graph 和 Task 的执行状态&＃xff0c;决定接下来要调度的 Task
- 发起 SlotRequest
- 决定 Task / Slot 之间的分配

Slot Sharing

- Slot Sharing Group 中的任务可共用Slot
- - 默认所有节点在一个 Slot Sharing Group 中
  - 一个 Slot 中相同任务只能有一个
- 优点
- - 运行一个作业所需的 Slot 数量为最大并发数
  - 相对负载均衡

图7. Job 到 Task 资源调度过程

Slot Sharing 过程如图7所示&＃xff08;每一行分别是一个 task 的多个并发&＃xff0c;自下而上分别是 A、B、C&＃xff09;&＃xff0c;A、B、C 的并行度分别是4、4、3&＃xff0c;这些 Task 属于同一个 Slot Sharing Group 中&＃xff0c;所以不同的 Task 可以放在相同的 Slot 中运行&＃xff0c;如图7右侧所示&＃xff0c;有3个 Slot 放入了 ABC&＃xff0c;而第四个 Slot 放入了 AB 。通过以上过程我们可以很容易推算出这个 Job 需要的 Slot 数是4&＃xff0c;也是最大并发数。

2.6 资源调优

通过以上介绍的机制&＃xff0c;我们容易发现&＃xff0c;Flink 所采用的是自顶向下的资源管理&＃xff0c;我们所配置的是 Job 整体的资源&＃xff0c;而 Flink 通过 Slot Sharing 机制控制 Slot 的数量和负载均衡&＃xff0c;通过调整 Task Manager / Slot 的资源&＃xff0c;以适应一个 Slot Sharing Group 的资源需求。Flink 的资源管理配置简单&＃xff0c;易用性强&＃xff0c;适合拓扑结构简单或规模较小的作业。

3. 未来发展方向

3.1 细粒度资源管理

■ Slot Sharing 的局限性

图8. Slot Sharing的局限性

资源利用率非最优

通过 Slot Sharing 机制我们可以看到&＃xff0c;对资源的利用率不是最优的&＃xff0c;因为我们是按照最大并发数来配置 Slot 的资源&＃xff0c;这样就会造成如图8所示的部分资源被浪费。

不确定性

如图9所示&＃xff0c;A 的并发度是2&＃xff0c;BC 的并发度是1&＃xff0c;图9中的两种分配方式均满足 Slot Sharing 机制的要求&＃xff0c;这样就可能会出现如下情况&＃xff1a;我们在测试的时候出现的是上图右边这种 Slot 资源配置情况&＃xff0c;我们进行了调优配置好了 Slot 的大小&＃xff0c;但是我们真正提交作业到生产环境中确是上图左边的情况&＃xff0c;这样就会造成资源不够用&＃xff0c;进而导致作业无法执行。

■ 细粒度资源管理

基于以上 Slot Sharing 机制的局限性&＃xff0c;我们提出了细粒度资源管理的概念。

当算子的资源需求是已知的&＃xff0c;可以通过经验性的预估、半自动化或自动化的工具来衡量 Slot 的资源大小。
每一个 Task 独占一个 Slot 来进行资源调度。

3.2 动态 Slot 切分

图10. 静态 Slot 分配

如图10所示&＃xff0c;我们用圆圈的大小来表示该任务所需资源的多少&＃xff0c;如果不采用 Slot Sharing Group 机制&＃xff0c;现有的 Flink 资源管理机制要求 Slot 的大小必须一致&＃xff0c;所以我们可以得到右侧这样的 Slot 资源配置&＃xff0c;四个 Task Manager。

图11. 动态 Slot 切分

如果我们可以根据不同任务动态的决定每个 Slot 的大小&＃xff0c;我们就可以将 Task Manager 切分成如图11所示的情况&＃xff0c;仅需要三个 Task Manager。

动态 Slot 切分&＃xff08;FLIP-56&＃xff09;

图12. 静态 Slot 划分

如图12所示&＃xff0c;这是当前静态的固定大小的 Task Manager 的管理方式&＃xff0c;随着任务的执行&＃xff0c;Slot 只能简单的被占用或者被释放&＃xff0c;而不能进行更多额外调整。

图13. 动态 Slot 划分

如图13所示&＃xff0c;每一个 Task Manager 启动之后是一整块的资源&＃xff0c;每接收一个资源请求时&＃xff0c;都可以根据该请求动态的切分出一个 Slot 提供给它。但这也是有缺陷的&＃xff0c;因为不管我们怎样切分&＃xff0c;都经常会出现一小部分资源被浪费的情况&＃xff0c;这也是我们常说的资源碎片问题。

3.3 碎片化问题

针对上述提到的资源碎片问题&＃xff0c;我们提出了一个解决方案&＃xff0c;可以根据 Slot Request 资源需求定制 Task Manager 资源&＃xff0c;当前Flink 1.10 中每一个 Task Manager 都是一致的&＃xff0c;但是在细粒度的资源管理中&＃xff0c;已知资源需求时&＃xff0c;完全可以定制 Task Manager&＃xff0c;从理论上讲是完全可以彻底杜绝资源碎片问题。

这样做的代价是需要延长作业的调度时间&＃xff0c;要想定制 Task Manager 就必须要等收到 Slot Request 后才可以&＃xff0c;启动 Task Manager 的过程是比较耗时的。另一方面&＃xff0c;可能会导致 Task Manager 比较难复用&＃xff0c;很有可能需要释放掉旧的 Task Manager 而启动新的&＃xff0c;这也会耗费很多时间。

在不同的应用场景下也可使用不同的方案&＃xff1a;

Streaming&＃xff08;流处理&＃xff09;

- 一次调度&＃xff0c;长期运行
- 提高资源利用率的收益较高
- 适合采用定制 Task Manager 资源的调度策略

Batch&＃xff08;批处理&＃xff0c;尤其是短查询&＃xff09;

- 频繁调度&＃xff0c;Task 运行时间短
- 对调度延迟敏感
- 适合采用非定制的 Task Manager 资源的调度策略

3.4 易用性问题

与现有的资源调优相反&＃xff0c;细粒度资源管理下的资源调优是自底向上的资源管理&＃xff0c;我们不再是需要配置 Job 的整体资源&＃xff0c;而是需要用户去配置每个 Task 具体的资源需求&＃xff0c;我们需要把 Task 的资源配置尽可能的接近其实际的资源需求&＃xff0c;来提高资源利用率。但是同样带来的问题是&＃xff0c;配置难度高。所以更适用于拓扑复杂或规模较大的作业。

与当前的资源调优相比&＃xff0c;两种机制并不是孰优孰劣的关系&＃xff0c;而是可以针对不同的场景需求适配不同的调优策略&＃xff0c;在社区看来&＃xff0c;两种策略均有存在的价值。

3.5 资源调度策略插件化&＃xff08;FLINK-14106&＃xff09;

不管是当前静态的资源管理机制&＃xff0c;还是细粒度资源管理机制都要求调度策略针对不同的场景来进行不同的变化。目前 Flink 1.11 中调度策略插件化的开发工作已经完成。

资源调度策略

- Task Manager 的数量
- - 何时申请/释放 Task Manager
- Task Manager 的资源大小
- Slot Request 与 Task Manager 资源之间的适配

通过这三个资源调度策略&＃xff0c;我们可以得到如下优势&＃xff1a;

解决流处理和批处理的不同资源调度策略需求
满足用户对于细粒度、非细粒度资源管理的不同选择
未来更多资源调度策略带来的可能性

- 例如&＃xff1a;Spark 根据负载弹性伸缩集群的策略

随着 Flink 支持越来越多的应用场景&＃xff0c;灵活的资源调度策略对于保障高性能及资源效率至关重要&＃xff0c;我们欢迎更多 Flink 爱好者和开发者加入我们社区&＃xff0c;携手共进。

作者介绍&＃xff1a;

宋辛童&＃xff08;五藏&＃xff09;&＃xff0c;阿里巴巴高级开发工程师。2018 年博士毕业于北京大学网络与信息系统研究所&＃xff0c;后加入阿里巴巴实时计算团队&＃xff0c;主要负责 Apache Flink 及阿里巴巴企业版本 Blink 中资源调度与管理机制的研发工作。

推荐阅读

yaml
实践解析可视化开发平台FlinkSever优势

实践,解析,可,视,化,开发,平台,fli ... [详细]

蜡笔小新 2023-10-12 18:17:09
php
2022.4.2学习成果

Flink中的编程模型4.1编程模型在Flink，编程模型的抽象层级主要分为以下4种，越往下抽象度越低，编程越复杂，灵活度越高。这里先不一一介绍，后续会做详细说明。这4层中，一般用 ... [详细]

蜡笔小新 2023-10-12 17:17:52
php
实时计算既有Flink，为何又推出个StreamPark？

StreamPark2.0.0版本于2023年2月21日正式发布，有流处理需求的开发者可以通过StreamPark官网以及GitHub去下载apache配置 ... [详细]

蜡笔小新 2023-10-12 15:44:47
yaml
关于阿里云:KubeVela-14让应用交付更安全上手更简单过程更透明

KubeVela是一个现代化的软件交付管制立体，指标是让利用的部署和运维在现在的混合多云环境下更简略、麻利、牢靠。自1.1版本公布以来，KubeVela架构上人造 ... [详细]

蜡笔小新 2023-10-11 18:00:52
java
Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池？

本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点，解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时，介绍了JDK原生线程池的工作流程。 ... [详细]

蜡笔小新 2023-12-13 16:18:09
string
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
int
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
int
海马s5近光灯能否直接更换为H7？

本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡，并提供了完整的教程下载地址。此外，还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]

蜡笔小新 2023-12-12 11:39:00
java
Android工程师面试准备及设计模式使用场景

本文介绍了Android工程师面试准备的经验，包括面试流程和重点准备内容。同时，还介绍了建造者模式的使用场景，以及在Android开发中的具体应用。 ... [详细]

蜡笔小新 2023-12-11 18:25:26
string
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37
cmd
如何在Azure应用服务实例上获取.NetCore 3.0+的支持？

本文介绍了如何在Azure应用服务实例上获取.NetCore 3.0+的支持。作者分享了自己在将代码升级为使用.NET Core 3.0时遇到的问题，并提供了解决方法。文章还介绍了在部署过程中使用Kudu构建的方法，并指出了可能出现的错误。此外，还介绍了开发者应用服务计划和免费产品应用服务计划在不同地区的运行情况。最后，文章指出了当前的.NET SDK不支持目标为.NET Core 3.0的问题，并提供了解决方案。 ... [详细]

蜡笔小新 2023-12-10 13:54:46
cmd
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
php
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
java
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
case
Spring Cloud Gateway 扩展动态路由

SpringCloudGateway扩展动态路由路由配置配置文件spring:application:name:sc-gwcloud:nacos:discovery:serv ... [详细]

蜡笔小新 2023-10-11 21:20:47

as123466_866

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章