关于yum:Gartner-APM-魔力象限技术解读全量存储-No-按需存储YES

作者：360691894_8a5c48 | 来源：互联网 | 2023-10-09 22:50

调用链记录了残缺的申请状态及流转信息，是一座微小的数据宝库。然而，其宏大的数据量带来的老本及性能问题是每个理论利用Tracing同学绕不开的难题。如何以最低的老本，按需记录最有价值的链路及其关联数据，是本文探讨的次要话题。外围关键词是：边缘计算+冷热数据拆散。如果你正面临全量存储调用链老本过高，而

简介：在云原生时代，充分利用边缘节点的计算和存储能力，联合冷热数据拆散实现高性价比的数据价值摸索曾经逐步成为 APM 畛域的支流。

作者：夏明（涯海）

调用链记录了残缺的申请状态及流转信息，是一座微小的数据宝库。然而，其宏大的数据量带来的老本及性能问题是每个理论利用 Tracing 同学绕不开的难题。如何以最低的老本，按需记录最有价值的链路及其关联数据，是本文探讨的次要话题。外围关键词是：边缘计算 + 冷热数据拆散。如果你正面临全量存储调用链老本过高，而采样后查不到数据或图表不准等问题，请急躁读完本文，置信会给你带来一些启发。

边缘计算，记录更有价值的数据

边缘计算，顾名思义就是在边缘节点进行数据计算，赶时髦的话也能够称之为“计算左移”。在网络带宽受限，传输开销与全局数据热点难以解决的背景下，边缘计算是寻求老本与价值均衡最优解的一种无效办法。

Tracing 畛域最罕用的边缘计算就是在用户过程内进行数据过滤和剖析。而在私有云环境，用户集群或专有网络外部的数据加工也属于边缘计算，这样能够节俭大量的公网传输开销，并扩散全局数据计算的压力。

此外，从数据层面看，边缘计算一方面能够筛选出更有价值的数据，另一方面能够通过加工提炼数据的深层价值，以最小的老本记录最有价值的数据。

筛选更有价值的数据

链路数据的价值散布是不平均的。据不齐全统计，调用链的理论查问率小于百万分之一。全量存储数据不仅会造成微小的老本节约，也会显著影响整条数据链路的性能及稳定性。如下列举两种常见的筛选策略。

• 基于链路数据特色进行调用链采样上报（Tag-based Sampling）。比方错/慢调用全采，特定服务每秒前N次采样，特定业务场景自定义采样等。下图展现了阿里云 ARMS 自定义采样配置页面，用户能够依据本身须要自在定制存储策略，理论存储老本通常小于原始数据的 5%。

• 异样场景下主动保留关联数据现场。咱们在诊断问题根因时，除了调用链之外，还须要联合日志、异样堆栈、本地办法耗时、内存快照等关联信息进行综合判断。如果每一次申请的关联信息全都记录下来，大概率会造成零碎的解体。因而，是否通过边缘计算主动保留异样场景下的快照现场是掂量 Tracing 产品优劣的重要规范之一。如下图所示，阿里云 ARMS 产品提供了慢调用线程分析，内存异样 HeapDump 等能力。

无论哪种筛选策略，其核心思想都是通过边缘节点的数据计算，抛弃无用或低价值数据，保留异样现场或满足特定条件的高价值数据。这种基于数据价值的选择性上报策略性价比远高于全量数据上报，将来可能会成为 Tracing 的支流趋势。

提炼数据价值

除了数据筛选，在边缘节点进行数据加工，比方预聚合和压缩，同样能够在满足用户需要的前提下，无效节俭传输和存储老本。

• 预聚合统计：在客户端进行预聚合的最大益处，就是在不损失数据精度的同时大幅缩小数据上报量。比方，对调用链进行 1% 采样后，依然能够提供精准的服务概览/上下游等监控告警能力。

• 数据压缩：对反复呈现的长文本（如异样堆栈，SQL 语句）进行压缩编码，也能够无效升高网络开销。联合非关键字段模糊化解决成果更佳。

冷热数据拆散，低成本满足个性化的后聚合剖析需要

边缘计算能够满足大部分预聚合剖析场景，然而无奈满足多样化的后聚合剖析需要，比方某个业务须要统计耗时大于3秒的接口及起源散布，这种个性化的后聚合剖析规定是无奈穷举的。而当咱们无奈事后定义剖析规定时，貌似就只能采纳老本极高的全量原始数据存储。难道就没有优化的空间么？答案是有的，接下来咱们就介绍一种低成本解决后聚合剖析问题的计划——冷热数据拆散。

冷热数据拆散计划简述

冷热数据拆散的价值根底在于用户的查问行为满足工夫上的局部性原理。简略了解就是，最近的数据最常被查问，冷数据查问概率较小。例如，因为问题诊断的时效性，50% 以上的链路查问剖析产生在 30分钟内，7天之后的链路查问通常集中在错慢调用链。实践根底成立，接下来探讨如何实现冷热数据拆散。

首先，热数据存在时效性，如果只需记录最近一段时间内的热数据，对于存储空间的要求就会降落很多。另外，在私有云环境下，不同用户的数据人造具备隔离性。因而，在用户 VPC 外部的热数据计算和存储计划就具备更优的性价比。

其次，冷数据的查问具备指向性，能够通过不同的采样策略筛选出满足诊断需要的冷数据进行长久化存储。例如错慢采样，特定业务场景采样等。因为冷数据存储周期较长，对稳定性要求较高，能够思考在 Region 内对立治理。

综上所述，热数据存储周期短，成本低，但能够满足实时全量后聚合剖析需要；而冷数据通过精准采样后数据总量大幅降落，通常只有原始数据量的 1% ~10%，并能够满足大多数场景的诊断诉求。两相结合，实现了老本与体验的均衡最优解。国内外当先的 APM 产品，如 ARMS、Datadog、Lightstep 均采纳了冷热数据拆散的存储计划。

热数据实时全量分析

链路明细数据蕴含了最残缺最丰盛的的调用信息，APM 畛域最罕用的服务面板、上下游依赖、利用拓扑等视图均是基于链路明细数据统计得出。基于链路明细数据的后聚合剖析能够依据用户个性化需要更无效的定位问题。然而，后聚合剖析的最大挑战是要基于全量数据进行统计，否则会呈现样本歪斜导致最终论断离理论相差甚远。

阿里云 ARMS 作为 2021 年 Gartner APM 魔力象限中国惟一入选云厂商，提供了 30分钟内热数据全量分析的能力，能够实现各种条件组合下的过滤与聚合，如下图所示：

冷数据长久化采样剖析

全量调用链的长久化存储老本十分高，而前文提到 30分钟后调用链的理论查问率有余百万分之一，并且大多数的查问集中在错慢调用链，或满足特定业务特色的链路，置信常常排查链路问题的同学会有同感。因而，咱们应该只保留大量满足精准采样规定的调用链，从而极大的节俭冷数据长久化存储老本。

那么精准采样应该如何实现呢？业界罕用的办法次要分为头部采样（Head-based Sampling）和尾部采样（Tail-based Sampling）两种。头部采样个别在客户端 Agent 等边缘节点进行，例如依据接口服务进行限流采样或固定比例采样；而尾部采样通常基于全量热数据进行过滤，如错慢全采等。

最现实的采样策略应该只存储真正须要查问的数据，APM 产品须要提供灵便的采样策略配置能力与最佳实际，用户联合本身业务场景进行自适应的调整。

结语

当越来越多的企业和利用上云，私有星散群规模爆发式增长，“老本”将是企业用云的要害掂量因素。而在云原生时代，充分利用边缘节点的计算和存储能力，联合冷热数据拆散实现高性价比的数据价值摸索曾经逐步成为 APM 畛域的支流。全量数据上报、存储、再剖析这种传统计划将面临越来越大的挑战。将来会如何，让咱们刮目相待。

原文链接
本文为阿里云原创内容，未经容许不得转载。

推荐阅读

php
生产环境下JVM调优参数的设置实例

正文前先来一波福利推荐：福利一：百万年薪架构师视频，该视频可以学到很多东西，是本人花钱买的VIP课程，学习消化了一年，为了支持一下女朋友公众号也方便大家学习，共享给大家。福利二 ... [详细]

蜡笔小新 2023-10-17 14:08:49
php
嵌入式处理器的架构与内核发展历程

本文主要介绍了嵌入式处理器的架构与内核发展历程，包括不同架构的指令集的变化，以及内核的流水线和结构。通过对ARM架构的分析，可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]

蜡笔小新 2023-12-11 15:38:57
int
JVM：33 如何查看JVM的Full GC日志

1.示例代码packagecom.webcode;publicclassDemo4{publicstaticvoidmain(String[]args){byte[]arr ... [详细]

蜡笔小新 2023-10-17 19:51:59
php
qemu模拟arm并调试汇编的方法和注意事项

原文地址http://balau82.wordpress.com/2010/02/28/hello-world-for-bare-metal-arm-using-qemu/最开始时 ... [详细]

蜡笔小新 2023-10-17 19:43:26
php
初识java关于JDK、JRE、JVM 了解一下

初识java关于JDK、JRE、JVM 了解一下 ... [详细]

蜡笔小新 2023-10-17 17:17:17
php
mysql-cluster集群sql节点高可用keepalived的故障处理过程

本文描述了mysql-cluster集群sql节点高可用keepalived的故障处理过程，包括故障发生时间、故障描述、故障分析等内容。根据keepalived的日志分析，发现bogus VRRP packet received on eth0 !!!等错误信息，进而导致vip地址失效，使得mysql-cluster的api无法访问。针对这个问题，本文提供了相应的解决方案。 ... [详细]

蜡笔小新 2023-12-12 19:20:50
int
深入浅出Linux设备驱动编程的重要性与方法

本文介绍了深入浅出Linux设备驱动编程的重要性，以及两种加载和删除Linux内核模块的方法。通过一个内核模块的例子，展示了模块的编译和加载过程，并讨论了模块对内核大小的控制。深入理解Linux设备驱动编程对于开发者来说非常重要。 ... [详细]

蜡笔小新 2023-12-12 15:28:09
php
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
php
sqlserver云存储和本地存储的区别及启动方法

本文介绍了sqlserver云存储和本地存储的区别，云存储是将数据存储在网络上，方便查看和调用；本地存储是将数据存储在电脑磁盘上，只能在存储的电脑上查看。同时提供了几种启动sqlserver的方法。此外，还介绍了如何导出数据库的步骤和工具。 ... [详细]

蜡笔小新 2023-12-12 11:27:17
php
解决php错误信息不显示在浏览器上的方法

本文介绍了解决php错误信息不显示在浏览器上的方法。作者发现php中的各种错误信息并不显示在浏览器上，而是需要在日志文件中查看。为了解决这个问题，作者提供了一种解决方式：通过修改php.ini文件中的display_errors参数为On，并重启服务。这样就可以在浏览器上直接显示php错误信息了。 ... [详细]

蜡笔小新 2023-12-11 11:36:32
int
使用eclipse创建一个Java项目的步骤

本文介绍了使用eclipse创建一个Java项目的步骤，包括启动eclipse、选择New Project命令、在对话框中输入项目名称等。同时还介绍了Java Settings对话框中的一些选项，以及如何修改Java程序的输出目录。 ... [详细]

蜡笔小新 2023-12-11 10:24:49
php
Ubuntu 11.10 x64环境下安装Android开发环境及解决常见问题

本文介绍了在Ubuntu 11.10 x64环境下安装Android开发环境的步骤，并提供了解决常见问题的方法。其中包括安装Eclipse的ADT插件、解决缺少GEF插件的问题以及解决无法找到'userdata.img'文件的问题。此外，还提供了相关插件和系统镜像的下载链接。 ... [详细]

蜡笔小新 2023-12-09 09:41:58
int
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
int
uboot硬件驱动

uboot与linux驱动1.uboot本身是裸机程序（1）在裸机中本来是没有驱动概念的（狭义的驱动概念是指在操作系统中用来具体操控硬 ... [详细]

蜡笔小新 2023-10-17 14:54:54
int
用ESP32与Python实现物联网(IoT)火焰检测报警系统

下图是本案例除硬件连线外的3步导学开发过程，每个步骤中实现的功能请参考图中的说明。在硬件连线完成之后我们建议您先使用“一分钟上云体验”功能预先体验本案例的实际运行效果 ... [详细]

蜡笔小新 2023-10-17 12:48:17

360691894_8a5c48

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章