当前位置: 开发笔记 > 编程语言 > 正文

勇攀监控高峰：EMonitor之根因分析

作者：日蕾文散Lotus | 来源：互联网 | 2023-01-25 09:16

阿里集团针对故障处理提出了“

背景

阿里集团针对故障处理提出了“ 1/5/10 ”的目标-- 1 分钟发现、5 分钟定位、10 分钟恢复，这对我们的定位能力提出了更高的要求。

EMonitor 是一款集成 Tracing 和 Metrics ，服务于饿了么所有技术部门的一站式监控系统，其覆盖了：

1、前端监控、接入层监控；

2、业务 Trace 和 Metric 监控；

3、所有的中间件监控；

4、容器监控、物理机监控、机房网络监控。

每日处理总数据量近 PB ，每日写入指标数据量上百 T ，日均 几千万 的指标查询量，内含上万个图表、数千个指标看板，并且已经将所有层的监控数据打通并串联了起来。但是在故障来临时，用户仍然需要花费大量时间来查看和分析 EMonitor 上的数据。

比如阿里本地生活的下单业务，涉及到诸多应用，每个应用诸多 SOA 服务之间错综复杂的调用关系，每个应用还依赖 DB、 Redis 、MQ 等等资源，在下单成功率下跌时，这些应用的负责人都要在 EMonitor 上查看指标曲线以及链路信息来进行人肉排障以自证清白，耗时耗力，所以自动化的根因分析必不可少。

根因分析建模

业界已经有好多在做根因分析的了，但是大都准确率不高，大部分还在 40% 到 70% 之间，从侧面说明根因分析确实是一个难啃的骨头。

根因分析看起来很庞大，很抽象，无从下手，从不同的角度（可能是表象）去看它，就可能走向不同的路。那如何才能透过表象来看到本质呢？

我这里并不会一开始就给你列出高大上的算法解决方案，而是要带你重新认知根因分析要解决的问题到底是什么。其实好多人对要解决的问题都模糊不清，你只有对问题理解清楚了，才能有更好的方案来解决它。

要解决什么样的问题

举个例子：现有一个应用，拥有一堆容器资源，对外提供了诸多 SOA 服务或者 Http 服务，同时它也依赖了其他应用提供的服务，以及 DB 资源、Redis 资源、MQ 资源等等， 那我们如何才能够全面的掌控这个应用的健康状况呢？

我们需要掌控：

1、掌控这个应用的所有 入口服务 的「耗时」和「状态」

2、掌控每个入口服务之后每种操作的「耗时」和「状态」

一个应用都有哪些入口？

1、SOA 服务入口；

2、Http 服务入口；

3、MQ 消费消息入口；

4、定时 job 入口；

5、其他的一些入口。

进入每个入口之后，都可能会有一系列的如下 5 种操作和 1 种行为 （下面的操作属性都是以阿里本地生活的实际情况为例，并且都包含所在机房的属性）：

1、 DB 远程操作 ：有 dal group、table、operation（比如select、update、insert等）、 sql 的操作属性；

2、 Redis 远程操作 ：有 command 的操作属性；

3、 MQ 远程操作 （向MQ中写消息）：有 exchange、routingKey、vhost 的操作属性；

4、 RPC 远程操作 ：有远程依赖的 appId、远程 method 的操作属性；

5、 Local 操作 （即除了上述4种远程操作之外的本地操作）: 暂无属性；

6、 抛出异常的行为 ：有异常 name 的属性。

那我们其实就是要去统计每个入口之后的 5 种操作的 耗时情况 以及 状态情况 ，以及抛出异常的统计情况。

针对远程操作其实还要明细化，上述远程操作的每一次耗时是包含如下 3 大部分：

1、客户端建立连接、发送请求和接收响应的耗时；

2、网络的耗时；

3、服务器端执行的耗时。

有了上述三要素，才能去确定远程操作到底是哪出了问题，不过实际情况可能并没有上述三要素。

故障的结论

有了上述数据的全面掌控，当一个故障来临的时候，我们可以给出什么样的结论？

1、哪些入口受到影响了？

2、受影响的入口的本地操作受到影响了？

3、受影响的入口的哪些远程操作受到影响了？

具体是哪些远程操作属性受到影响了？
是客户端到服务器端的网络受到影响了？
是服务器端出了问题吗？

4、受影响的入口都抛出了哪些异常？

上述的这些结论是可以做到非常高的准确性的，因为他们都是可以用数据来证明的。

然而第二类根因，却是无法证明的：

1、GC 问题；

2、容器问题。

他们一旦出问题，更多的表现是让上述 5 种操作耗时变长，并且是没法给出数据来明确证明他们和 5 种操作之间的关联，只是以一种推测的方式来怀疑，从理论上来说这里就会存在误定位的情况。

还有第三类更加无法证明的根因-- 变更问题

昨天的变更或者当前的变更到底和当前的故障之间有没有关联，更是无法给出一个证明的，所以也只能是瞎推测。

我们可以明确的是 5 种操作的根因，还需要进一步去查看是否是上述第二类根因或者第三类根因，他们只能作为一些辅助结论，因为没法给出严谨的数据证明。

根因分析实现

在明确了我们要解决的问题以及要求的故障结论之后，我们要采取什么样的方案来解决呢？下面首先会介绍一个基本功能「指标下钻分析」。

指标下钻分析

一个指标，有多个 tag，当该指标总体波动时，指标下钻分析能够帮你分析出是哪些 tag 组合导致的波动。

比如客户端的 DB 操作抖动了，利用指标下钻分析就可以分析出：

1、哪个机房抖动了？

2、哪个 dal group 抖动了？

3、哪张表抖动了？

4、哪种操作抖动了？

5、哪个 sql 抖动了？

再比如远程 RPC 操作抖动了，利用指标下钻分析就可以分析出：

1、哪个机房抖动了？

2、哪个远程 appId 抖动了？

3、哪个远程 method 抖动了？

其实这个就是去年 AIOPS 竞赛的题目，详细见：

http://iops.ai/competition_detail/?competition_id=8&flag=1

通常的方案：

1、对每个时序曲线都要进行 数据预测 ，拿到预测值；

2、针对每个方案根据 实际值和预测值 的差异算出一个方案分数；

3、遍历所有可能性方案，挑选出 分数最高的方案 （通过蒙特卡洛树搜索进行剪枝优化）。

我们的方案：

1、确定整体的 波动范围 ；

2、 确定计算范围 = 该波动范围 + 前面一段正常范围，在计算范围内算出每根时间线的波动值（比如波动的方差，实际肯定不会这么简单，有很多的优化点）；

3、对所有时间曲线进行一些过滤（比如和整体抖动方法相反，整体都向上抖动，它向下抖动）；

4、对过滤后的时间曲线按照波动值进行 KMeans 聚类 ；

5、从排名靠前的分类中挑选出方案，为每个方案 计算方案分数 （这个方案个数就非常之少了）；

6、得出 分数最高的方案 。

针对去年的决赛题目，我们的这个方案的跑分达到了 0.95 以上，应该就在前三名了。

根因分析流程

有了指标下钻分析功能之后，我们来看如何进行根因分析：

勇攀监控高峰：EMonitor 之根因分析

1、针对入口服务的响应时间和成功率判断是否异常，若无异常则无根因可分析；

2、针对入口服务的 5 种操作进行指标下钻分析，得出异常波动的操作类型有哪些；

3、然后到对应操作类型的指标中再次进行指标下钻分析，得出该操作下：

a.哪些入口受到该操作的波动影响了？

b. 哪些操作属性异常波动了？

c. 假如该操作是远程操作，还要继续深入服务器端进行分析:

假如你有 远程操作数据的 3 要素 的话，那么是可以分析出：

客户端建立连接、发送请求和接收响应耗时问题；
网络耗时问题；
服务器端耗时问题。

假如没有 相关数据 的话，那就只能相对来说进行推测了（准确率也会受到影响）：

假如服务器端耗时正常的话，那就相对划分为客户端发送请求或接收响应耗时是根因；
假如服务器端耗时异常抖动的话，那么就需要到服务器端进行深入分析；
比如 DB 操作来说，可以继续深入到 DAL 层面分析。

DAL 是我们的分库分表的数据库代理层，同时起到一些熔断限流的作用，所以一条 SQL 执行时间会包含在 DAL 代理层的停留时间、以及在 DB 层的执行时间，利用指标下钻分析，可以分析出如下的一些根因：

某个 table 的所有操作耗时抖动？
某条 SQL 操作耗时抖动？
某台具体 DB 实例抖动？
SQL 的停留时间 or 执行时间抖动？

比如客户端的 RPC 操作来说，可以继续递归到远程 appId 的根因分析流程：

4、针对受影响的这些入口使用指标下钻分析，哪些异常也抖动了（有些异常一直在抛，但是跟本次故障无关）；

5、再次查看上述抖动的操作是否是由 GC 问题、容器问题、变更问题等引起的。

落地情况

阿里本地生活的根因分析能力，1 个月内从产生根因分析的想法到实现方案上线到生产（不包括指标下钻分析的实现，这个是之前就已经实现好的了），1 个月内在生产上实验和优化并推广开来，总共 2 个月内实现了从 0 到 1 并取得了如下成绩：

1、50 个详细记载的案例中准确定位 48 次，准确率 96%；

2、最高一天执行定位 500 多次；

3、平均定位耗时 1 秒；

4、详细的定位结果展示。

我们对定位准确性的要求如下：

1、要明确给出受到影响的入口服务有哪些；

2、每个受到影响的入口服务抖动的操作根因以及操作属性都要正确，每个入口服务抖动的根因很可能不一样的，比如当前应用的 SOA1 是由于 Redis 操作抖动，当前应用的 SOA2 是由于远程 RPC 依赖的其他 SOA3 抖动导致，SOA3 是由于 Redis 操作抖动导致。

3、客户端操作耗时抖动到底是客户端原因还是服务器端原因要保证正确；

4、容器问题时，要保证不能定位到错误的容器上。

准确率为什么这么高？

我认为主要是以下 3 个方面：

1、数据的完整度

假如是基于采样链路去分析，必然会存在因为漏采导致误判的问题。

我们分析的数据是全量链路数据转化成的指标数据，不存在采样的问题，同时在分析时可以直接基于指标进行快速分析，临时查采样的方式分析速度也是跟不上的。

2、建模的准确性

你的建模方案能回答出每个 SOA 服务抖动的根因分别是什么吗？

绝大部分的建模方案可能都给不出严谨的数据证明，以 DB 是根因为例，他们的建模可能是 SOA 服务是一个指标，DB 操作耗时是一个指标，2 者之间是没有任何关联的，没有数据关联你就给不出严谨的证明，即没法证明 DB 的这点抖动跟那个 SOA 服务之间到底有没有关联，然后就只能处于瞎推测的状态，这里就必然存在误判的情况。

而我们上述的建模是建立了相关的关联，我们会统计每个入口后的每种操作的耗时，是可以给到严谨的数据证明。

3、异常判定的自适应性

比如 1 次 SOA 服务整体耗时 1s，远程调用 RPC1 耗时 200ms，远程调用 RPC2 耗时 500ms，到底是哪个 RPC 调用耗时抖动呢？耗时最长的吗？超过一定阈值的 RPC 吗？

假如你有阈值、同环比的限制，那么准确率一定不高的。我们的指标下钻分析在解决此类问题的时候，是通过当前情况下的波动贡献度的方式来计算，即使你耗时比较高，但是和之前正常情况波动不大，那么就不是波动的根因。

速度为什么这么快？

我认为主要是以下 2 方面的原因：

业内领先的时序数据库 LinDB

根因分析需要对诸多指标的全量维度数据进行 group by 查询，因此背后就需要依靠一个强大的分布式时序数据库来提供实时的数据查询能力。

LinDB 时序数据库是我们阿里本地生活监控系统 E-Monitor 上一阶段的自研产物，在查询方面：

强悍的数据压缩：时序数据原始数据量和实际存储量之比达到 58:1，相同 PageCache 的内存可以比别的系统容纳更多的数据；
高效的索引设计：索引的预过滤，改造版的 RoaringBitmap 之间的 and or 操作来进行高效的索引过滤；
单机内充分并行化的查询机制：利用 akka 框架对整个查询流程异步化。

整体查询效率是 InfluxDB 的几倍到几百倍，详细见文章-- 分布式时序数据库 - LinDB ：

https://zhuanlan.zhihu.com/p/35998778

指标下钻分析算法的高效

我们不需要每个时间线都进行预测；
实际要计算的方案个数非常之少；
方案算分上可以适应于任何加减乘除之类的指标计算上，比如根因定位中的平均响应时间 = 总时间 / 总次数

SOA1 的平均响应时间 t1 和 SOA2 的平均响应时间 t2，SOA1 和 SOA2 的总体平均响应时间并不是 t1 和 t2 的算术平均而是加权平均，如果是加权平均，那么久需要多存储一些额外的信息，并且需要进行额外的加权计算。

实际案例

案例一

故障现场如下，某个应用的 SOA 服务抖动上升：

勇攀监控高峰：EMonitor 之根因分析

直接点击根因分析，就可以分析到如下结果：

勇攀监控高峰：EMonitor 之根因分析

AppId1 的 SOA 服务在某个机房下抖动了：

1、依赖的 AppId2 的 SOA 服务抖动。

依赖的 AppId3 的 SOA 服务抖动。

依赖的 AppId5 的本地处理和 Redis 操作耗时抖动。
依赖的 AppId6 的本地处理和 Redis 操作耗时抖动。

依赖的 AppId4 的本地处理和 Redis 操作耗时抖动。

这里的本地处理包含获取 Redis 连接对象 Jedis 的耗时，这一块没有耗时打点就导致划分到本地处理上了，后续会进行优化。这里没有给出详细的 Redis 集群或者机器跟我们的实际情况有关，可以暂时忽略这一点。

点击上面的每个应用，下面的表格都会列出所点击应用的详细故障信息：

1、受影响的 SOA 服务有哪些，比如 AppId1 的 3 个 SOA 服务受到影响；

2、每个 SOA 服务抖动的根因，比如 AppId1 的 3 个 SOA 服务都受到 AppId2 的 1 个 SOA 服务的抖动影响；

3、表格中每一个链接都可以跳转到对应的 指标曲线监控面板 上。

再比如点击 AppId4，显示如下：

勇攀监控高峰：EMonitor 之根因分析

AppId4 的 1 个 SOA 方法抖动：

1、该方法的本地处理抖动（实际是获取 Redis 连接对象 Jedis 的耗时抖动）；

2、该方法依赖的 Redis 操作抖动；

3、该方法抛出 Redis 连接异常；

案例二

故障现场如下，某个应用的 SOA 服务抖动上升。

勇攀监控高峰：EMonitor 之根因分析

点击根因分析，就可以帮你分析到如下结果：

勇攀监控高峰：EMonitor 之根因分析

AppId1 的 SOA 服务在某个机房下抖动了：

1、依赖的 AppId2 的 SOA 服务抖动，依赖的 DB 服务抖动。

2、依赖的 AppId3 的 SOA 服务抖动，依赖的 AppId2 的 SOA 服务抖动，依赖的 DB 服务抖动。

点击 AppId2，可以看下详细情况，如下所示：

勇攀监控高峰：EMonitor 之根因分析

从表格中就可以看到，根因是 DB 的一台实例抖动导致这个 dal group 所有操作抖动。

作者信息：

李刚，网名乒乓狂魔，饿了么监控组研发专家，饿了么内部时序数据库 LinDB 的项目负责人，饿了么根因分析项目负责人，目前致力于监控的智能分析领域以及下一代全景监控的体系化构建。

林滨（予谱），饿了么监控组前端工程师，现负责一站式监控系统 EMonitor 的前端开发，旨在将繁杂的数据以高可视化输出。

勇攀监控高峰：EMonitor 之根因分析

本文缩略图：icon by 雪儿082590

Tips：

# 点下“ 在看”:heart:

# 然后，公众号对话框内发送“ 台历 ”，试试手气？:laughing:

# 本期奖品是 阿里云定制版台历 。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们

推荐阅读

sql
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
sql
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
filter
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
list
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
config
Linux下Kafka单机安装配置方法（实操成功）

本文介绍了在Linux下安装和配置Kafka的方法，包括安装JDK、下载和解压Kafka、配置Kafka的参数，以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例，帮助读者快速完成Kafka的安装和配置。 ... [详细]

蜡笔小新 2023-12-12 18:14:32
list
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
list
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
list
Skywalking系列博客1安装单机版 Skywalking的快速安装方法

本文介绍了如何快速安装单机版的Skywalking，包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]

蜡笔小新 2023-12-14 19:05:47
char
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
char
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
string
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
string
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
js
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
js
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31

日蕾文散Lotus

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章