热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

监控运维那些事儿

监控目标明白监控的重要性以及使用监控要实现的业务目标通常包括以下三点:对目标系统进行实时监控监控可以实时反馈目标系统的当前状态目标系统硬件、软件、业务是否正常、目

监控目标

明白监控的重要性以及使用监控要实现的业务目标

通常包括以下三点:


  • 对目标系统进行实时监控

  • 监控可以实时反馈目标系统的当前状态 目标系统硬件、软件、业务是否正常、目前处于何种状态

  • 保证目标系统可靠性,业务可以持续稳定运行 有问题第一时间反馈出来,便于运维人员处理


监控方法


  • 了解监控对象 例如:CPU如何工作?

  • 性能基准指标 例如: CPU使用率、负载、用户态、内核态、上下文切换

  • 报警阈值定义 例如: CPU负载高的定义,内核态、用户态多少算高

  • 故障处理流程 如何更高效处理故障的流程


监控核心


  • 发现问题

  • 定位问题

  • 解决问题

  • 总结问题,对故障原因及问题防范进行归纳总结,避免以后重复出现


监控工具


  • 老牌监控

    • Cacti

    • Nagios

    • smokeping

  • 流行监控

    • Zabbix

    • OpenFalcon

    • Prometheus+Grafana

    • 滴滴开源夜莺Nightingale

    • smartping(专用于网络监控)

    • LEPUS天兔(专用于监控数据库)

    • 自研

  • 第三方监控

    • 监控宝

    • 听云

    • newrelic


监控流程


  • 采集

通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集


  • 存储

各类数据库服务,MySQL、PostgreSQL


  • 分析

提供图形及时间线情况信息,方便我们定位故障所在


  • 展示

指标信息、指标趋势展示


  • 报警

电话、邮件、微信、短信、报警升级机制


  • 处理

故障级别判定,找响应人员进行快速处理


监控指标

硬件监控


  • 机器硬件:CPU温度、物理磁盘、虚拟磁盘、主板温度、磁盘阵列
    IPMI工具无法获取到硬件的状态,可以借助MegaCli工具探测Raid磁盘队列状态
    https://www.ibm.com/developerworks/cn/linux/l-ipmi/

系统监控


  • 主机存活

  • CPU、内存、硬盘、使用率

  • inode

  • 负载

  • 网卡出入带宽

  • TCP连接数

  • 磁盘读写、只读

应用监控

MySQL


  • 服务可用性

  • 内存使用率

  • 磁盘使用

  • 主从不同步及延迟

  • 备份情况

  • 连接数

Redis、Redis Cluster


  • 负载

  • 内存使用率

  • 连接数量

  • qps

Nginx


  • 状态码

  • 连接状态信息

  • RabbitMQ

  • PHP-FPM

  • OpenLDAP

    • 接入IP

    • 调用次数

  • Zimbra

  • OpenVPN

    • 版本信息、当前在线

    • 用户、分配IP、客户端连接IP、通过IP获取地址位置、接收发送流量 连接时间 时长 连接ID

  • ELK

  • Graylog

  • GitLab

  • Jenkins

  • MongoDB

  • HAproxy

网络监控


  • 网络质量

  • 公网出口

  • 专线带宽

  • 网络设备

流量分析

日志监控

安全监控


  • URL、API监控

  • 自研

  • 阿里云方案

性能监控(APM)java|php|go|nodejs|分布式链路追踪


  • PinPoint

  • Zipkin

  • SkyWalking

  • CAT、Jaeger

业务监控

电商业务为例:


  • 每分钟产生多少订单

  • 每分钟注册多少用户

  • 每分钟多少活跃用户

  • 每天有多少推广活动

  • 推广活动引入多少用户

  • 推广活动引入多少流量

  • 推广活动引入多少利润

其他


  • SSL证书监控

  • 存活性 进程是否还在,端口监听、Log滚动

  • 健康指标 MQ消息堆积量

  • 接口监控 API成功率,延迟情况,QPS等等


监控报警


  • 邮件

  • 短信

  • 钉钉、微信、企业微信等其他即时通信软件

  • 电话


报警处理

故障自愈: 服务器宕机自动启动。利用软件机制supervisor,systemd或者自定义脚本实现


综合监控

硬件监控

通过SNMP来进行路由器交换机的监控、其他内容使用IPMI实现。如果都是公有云,可以忽略这部分内容。案例:Open-Falcon监控H3C-ER3260G2路由器

系统监控

服务监控


  • 服务自带

    • Nginx自带status模块

    • PHP相应status模块

    • MySQL利用percona官方工具进行监控

  • 通过自定义方法获取数据

    • MySQL show global status xxx;

    • Redis info指令信息

  • 网络监控(混合云架构)

    • smokeping

    • smartping

  • 安全监控

    • 云服务直接用云安全组即可,或者补充本机iptables

    • 硬件防火墙

    • Web服务使用Nginx+Lua实现Web层面的防火墙,或者Openresty

  • 日志监控
    ELK、Graylog实现异常日志,错误日志关键字的监控

  • 业务监控
    确定监控指标,监控起来,业务不同各不相同

  • 流量分析
    建议使用百度统计,google统计,商业,研发嵌入代码实现。

    或者使用piwik

  • 可视化
    dashboard

  • 自动化监控
    通过API,批量操作


监控总结

完整的监控系统,需要对业务有详尽的了解,软件只是手段。


推荐阅读
  • 在Docker中,将主机目录挂载到容器中作为volume使用时,常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法,包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法,可以避免在使用Docker时出现无写权限的情况。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • 大坑|左上角_pycharm连接服务器同步写代码(图文详细过程)
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了pycharm连接服务器同步写代码(图文详细过程)相关的知识,希望对你有一定的参考价值。pycharm连接服务 ... [详细]
  • 现在比较流行使用静态网站生成器来搭建网站,博客产品着陆页微信转发页面等。但每次都需要对服务器进行配置,也是一个重复但繁琐的工作。使用DockerWeb,只需5分钟就能搭建一个基于D ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解
    本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台,然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程,包括编译内核和配置设备驱动。最后,列举了关键词和相关信息供读者参考。 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 本文详细介绍了在Centos7上部署安装zabbix5.0的步骤和注意事项,包括准备工作、获取所需的yum源、关闭防火墙和SELINUX等。提供了一步一步的操作指南,帮助读者顺利完成安装过程。 ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了markdown[软件代理设置]相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
author-avatar
Ailsa大宝贝
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有