热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

全面解析运维监控:白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。

本文将详细介绍白盒和黑盒监控的区别及其应用场景,并深入探讨如何有效收集和利用监控数据,以确保系统的稳定性和高效运行。

白盒监控侧重于从内部视角观察系统,例如通过机器存活、CPU和内存使用率、业务日志和JMX等手段来获取内部状态。而黑盒监控则从外部进行检测,如端口探活、HTTP探测和端到端功能监控。

监控数据的采集

配置监控时,首要任务是确定如何有效地采集监控数据。监控指标通常分为两类:基础监控和业务监控。

基础监控

基础监控涵盖了CPU、内存、磁盘、端口和进程等操作系统级别的信息。成熟的监控系统(如Prometheus、Zabbix)提供了这些基础监控项的采集能力。然而,仅依赖机器级别的基础监控并不能完全反映服务的真实运行状况。因此,必须结合业务相关监控指标才能全面评估系统健康状况。

业务监控

业务监控指标由业务系统内部生成,能够真实反映业务运行状态。常见的采集方法包括:

  • 日志: 日志记录了服务运行的各个方面,是重要的监控数据来源。例如,Nginx access日志可以统计错误、延迟和流量。常用的日志采集工具包括Rsyslog、Logstash、Filebeat和Flume。
  • JMX: 多数Java服务可通过JMX接口输出监控指标,许多监控系统也集成了JMX采集插件。
  • REST API: 一些服务提供REST API用于监控数据的采集,如Hadoop和ElasticSearch。
  • OpenMetrics: 随着Prometheus的流行,OpenMetrics正成为业界标准,大部分热门开源服务都有官方或非官方的exporter。
  • 命令行: 某些服务通过本地命令输出监控指标。
  • 主动上报: 采用PUSH模型的服务可主动上报监控指标至监控系统。
  • 埋点: 埋点是一种侵入式监控方法,虽然灵活性高,但需要研发支持,成本较高。
  • 其他方式: 如Zookeeper的四字命令、MySQL的show status命令。

如果缺乏现成的监控采集插件,则需要自行开发采集脚本。

四个黄金指标

Google SRE提出的四个黄金指标为监控提供了重要指导,它们分别是错误、延迟、流量和饱和度。

错误

错误是指系统发生的错误请求和错误率。关键关注点包括:

  • 基础监控: 宕机、磁盘故障、进程或端口挂掉、网络丢包等。
  • 业务监控: 核心功能处理错误、基础功能单元丢失或异常、Master故障、可用节点数等。
建议为所有主要功能或接口添加黑盒端到端监控。

延迟

延迟指服务请求所需时间,延迟上升可能导致系统雪崩。主要关注点:

  • 基础监控: IO等待、网络延迟。
  • 业务监控: 核心功能响应时长,如Zookeeper的zk_avg_latency、ElasticSearch的索引和搜索延迟。
建议为主要功能或接口添加黑盒监控。

流量

流量指标反映了系统层面的网络和磁盘IO,以及服务层面的QPS、PV和UV等数据。流量突增或突减可能预示系统问题。

  • 基础监控: 磁盘和网卡IO。
  • 业务监控: 核心功能流量,如Web服务的QPS/PV/UV,ElasticSearch的索引创建速率和搜索速率。

饱和度

饱和度衡量当前服务的利用率,与流量密切相关。常见指标包括:

  • 基础监控: CPU、内存、磁盘和网络利用率、文件句柄数、TCP连接数等。
  • 业务监控: 基础功能单元使用率、消息队列长度等。

总结

本文总结了常见的监控指标采集方法和四个黄金指标的应用。不同业务系统有不同的监控需求,灵活应对各种情况至关重要。


推荐阅读
  • Spring Cloud因其强大的功能和灵活性,被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现,还被广泛应用于企业级生产环境中。本书内容详实,覆盖了从微服务基础到Spring Cloud的高级应用,适合各层次的开发者。 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • 分享一下我老师大神的人工智能教程!零基础,通俗易懂!http:blog.csdn.netjiangjunshow也欢迎大家转载本篇文章。分 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • MySQL索引详解与优化
    本文深入探讨了MySQL中的索引机制,包括索引的基本概念、优势与劣势、分类及其实现原理,并详细介绍了索引的使用场景和优化技巧。通过具体示例,帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 2023年最佳PHP开发学习路径推荐
    本文详细探讨了针对不同背景的学习者如何选择最适合自己的PHP开发学习资源,包括书籍、在线课程及培训机构的推荐。 ... [详细]
  • APM(Application Performance Management,应用性能管理)对于提供互联网服务的企业至关重要。本文将深入探讨APM如何帮助识别和解决导致用户流失的技术问题,以及它在提升整体用户体验方面的作用。 ... [详细]
  • 全能终端工具推荐:高效、免费、易用
    介绍一款备受好评的全能型终端工具——MobaXterm,它不仅功能强大,而且完全免费,适合各类用户使用。 ... [详细]
  • Docker安全策略与管理
    本文探讨了Docker的安全挑战、核心安全特性及其管理策略,旨在帮助读者深入理解Docker安全机制,并提供实用的安全管理建议。 ... [详细]
  • CentOS下ProFTPD的安装与配置指南
    本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法,包括基本配置、安全设置及高级功能的启用。 ... [详细]
  • 本文详细介绍了如何在Linux系统(以CentOS为例)上彻底卸载Zimbra邮件系统,包括停止服务、删除文件和用户等步骤。 ... [详细]
  • 在使用 Cacti 进行监控时,发现已运行的转码机未产生流量,导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志,发现数据库中存在 SQL 查询失败的问题,错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致,建议对相关表进行修复操作以恢复监控功能。 ... [详细]
  • Panabit应用层流量管理解决方案
    Panabit是一款国内领先的应用层流量管理解决方案,提供高度开放且免费的专业服务,尤其擅长P2P应用的精准识别与高效控制。截至2009年3月25日,该系统已实现对多种网络应用的全面支持,有效提升了网络资源的利用效率和安全性。 ... [详细]
  •                               前言日志,一直以来都是开发人员和运维人员最关心的问题。开发人员可通过日志记录来协助问题定位,运维人员可通过日志发现系统隐 ... [详细]
author-avatar
柏拉图恋情
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有