开发笔记:如何为ImpalaDaemon服务配置Executor和Coordinator角色

作者：mobiledu2502931473 | 来源：互联网 | 2023-06-07 16:41

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何为Impala Daemon服务配置Executor和Coordinator角色相关的知识，希望对你有一定的参考价值。温馨提示：如果使用电脑

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何为Impala Daemon服务配置Executor和Coordinator角色相关的知识，希望对你有一定的参考价值。

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github：

https://github.com/fayson/cdhproject

提示：代码块部分可以左右滑动查看噢

1.文档编写目的

默认情况下，CDH集群中的Impala Daemon又可以充当查询的coordinator，也可以作为executor来执行查询本身，coordinator类似一个查询作业的管理角色一样负责协调各个Impala Daemon上的executor。在大规模集群中，Impala作业比较多的情况下，一个Impala Daemon既作为coordinator又作为executor是比较常见的，这就不可避免的会带来一些问题：

1.coordinator与executor会互相干扰带来性能问题。对于较大或者复杂的查询的时候，coordinator会带来大量的网络和CPU开销。每个coordinator都会缓存所有表分区和数据文件的元数据，同时作为executor它还需要处理join，聚合或者其他操作，这些都需要大量内存。

2.将大量主机都作为coordinator会造成不必要的网络开销，甚至是timeout错误，因为每个coordinator都需要与statestore进程通信以进行元数据更新。

3.当有大量查询负载较重的Impala Daemon作为coordinator时，会更容易超过admission control所设置的"soft limits"。

所以从CDH5.12开始，Impala支持分离coordinator与executor，可以明确指定哪些主机只作为coordinator，而不作为executor。这些节点不会参与I/O密集型操作比如扫描，或者CPU密集型操作比如聚合。同时你也可以指定哪些主机只作为executor，而不作为coordinator，它们依旧会与statestore进程进行通信，但是不会从statestore获取元数据，你不能通过impala-shell客户端或者BI工具连接到这些主机。

本篇文章Fayson主要介绍如何为Impala Daemon服务配置Coordinator和Executor角色，从而解决大规模集群下Impala查询性能瓶颈问题。

测试环境

1.CM5.14.3/CDH5.14.2

2.RedHat7.4

前置条件

1.集群已启用Kerberos

2.集群已集成Sentry服务

3.Impala已配置HAProxy负载

2.配置Impala服务的Coordinator和Executor

这里以Fayson的测试环境为例，选择集群的两个节点cdh02和cdh03节点的ImpalaDaemon作为Coordinator角色，cdh04和cdh04节点的Impala Daemon作为Executor角色进行配置说明。

1.登录Cloudera Manager界面进入Impala服务，点击“配置”

2.进入角色组界面，新建Coordinator角色组，将一部分Impala Daemon节点划分为Coordinator Group角色组