热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:Prometheus监控系列最佳实践

Prometheus是继kubernetes第二个从CNCF中毕业的项目,个人也是非常的喜欢这款通过数据指标发现和预测告警的开源监控平台,官方的话就不多说了,根据官网的

Prometheus是继kubernetes第二个从CNCF中毕业的项目,个人也是非常的喜欢这款通过数据指标发现和预测告警的开源监控平台,官方的话就不多说了,根据官网的介绍有以下功能,但是有些简短的概括了你也不一定知道,所以加了一些个人的白话
官方截图

Prometheus之白话文一段



  • 实现高纬度的数据模型

    • 时间序列数据通过 metric 名和键值对来区分,这里你可以区分多(隔离)环境的监控指标。

    • 所有的 metrics 都可以设置任意的多维标签,可以自定义添加多个,比如这个服务的监控属于哪个团队的。

    • 数据模型更随意,不需要刻意设置为以点分隔的字符串;

    • 可以对数据模型进行聚合,切割和切片操作;

    • 支持双精度浮点类型,标签可以设为全 unicode;
      看到这可能你还是不知道啥意思,那就等接下来用到的时候就恍然大悟了...


  • 强大的PromQL语句

    • 支持查询语句,可以通过PromSQL进行数值之间的比较

    • 可以通过PromSQL内嵌的函数计算指标的变化,比如平均值,增长率等等...


  • 出色的可视化

    • 个人觉得一点都不咋出色,哈哈,还是结合Grafana使用吧,毕竟人家专业啊~


  • 高效的存储

    • 可以根据需求设置指标数据的存储天数,也可以持久化存储,比如通过remotestorageadapter


  • 使用简单

    • 部署简单

    • 支持动态发现

    • 支持热加载

    • 支持配置文件格式检查


  • 精准的告警

    • 告警指的不是Prometheus,而是Alertmanager

    • 可以设置沉默时间,可以对告警进行分组,可以对告警进行匹配从而决定告警邮件发给哪些负责人

    • 支持多种告警媒介,比如常用的slack,企业微信,钉钉,邮件还有一些国外常用的,你也可以自己定制;


  • 支持多语言客户端库

    • 对常见的编程语言都是支持的


  • 拥有丰富的exporter生态

    • 完美的支持常见的中间件,数据库,主机等等监控

    • 还有一些有时候会被忽略的监控对象比如:证书有效期,域名有效期等等

    • 比如还有jmx,snmp,vmi等等exporter,这些你可以在github.com搜索prometheus exporter看到


上面整那么多的意思就是除了Zabbix,Prometheus也是没有什么不能监控的,甚至做的更简单,更人性化,但是这里不会介绍太多Prometheus的指标类型,网上很多,就不想整了,大家可以看一下https://yunlzheng.gitbook.io/prometheus-book/introduction写的算是很走心了,大部分还是要自己实践中琢磨到底如何做。

Prometheus之少不了的部署篇



































































ServerNameServerVersionFunctions配置文件
Promethuesv2.12.0数据处理prometheus.yaml
influxdbv1.7监控指标的持久化存储influxdb.conf
remotestorageadapterlatest数据远程转存适配器
alertmanagerv0.19.0告警管理config.yml
pushgatewayv0.10.0实现push模式推送指标
grafanav6.0.0数据的可视化展示平台grafana.ini
cadvisorv0.32.0分析正在运行容器的指标和性能数据
Dockerv18.03.0-ce容器运行时
docker-composev1.11.2容器编排工具

但是你可以直接拿来使用和测试,使用docker-compose管理的配置清单,对于还没有k8s环境的人来说,也算是福音了。docker-compose-monitor-platform.yml:

version: ‘3.4‘
services:
influxdb:
image: influxdb:1.7
command: -config /etc/influxdb/influxdb.conf
container_name: influxdb
ports:
- "8086:8086"
restart: always
volumes:
- /data/influxdb:/var/lib/influxdb
environment:
- INFLUXDB_DB=prometheus
- INFLUXDB_ADMIN_ENABLED=true
- INFLUXDB_ADMIN_USER=admin
- INFLUXDB_ADMIN_PASSWORD=admin
- INFLUXDB_USER=prom
- INFLUXDB_USER_PASSWORD=prom
deploy:
resources:
limits:
cpus: ‘0.5‘
memory: 300M
reservations:
cpus: ‘0.25‘
memory: 200M
remotestorageadapter:
image: gavind/prometheus-remote-storage-adapter:1.0
container_name: prometheus-remote-storage-adapter
ports:
- 9201:9201
environment:
- INFLUXDB_PW=prom
restart: always
command: [‘-influxdb-url=http://192.168.0.112:8086‘, ‘-influxdb.database=prometheus‘, ‘-influxdb.retention-policy=autogen‘,‘-influxdb.username=prom‘]
alertmanager:
image: prom/alertmanager:latest
container_name: alertmanager
ports:
- "9093:9093"
restart: always
volumes:
- /opt/alertmanager/config.yml:/etc/alertmanager/config.yml
command: [‘--config.file=/etc/alertmanager/config.yml‘]
prometheus:
image: prom/prometheus:v2.12.0
container_name: prometheus
restart: always
volumes:
- /opt/prometheus/conf/:/etc/prometheus/
ports:
- "9090:9090"
command: [‘--web.external-url=http://192.168.0.112:9090‘,‘--config.file=/etc/prometheus/prometheus.yml‘,‘--storage.tsdb.path=/prometheus/data‘,‘--web.enable-lifecycle‘,‘--web.enable-admin-api‘,‘--web.console.templates=/prometheus/consoletest‘,‘--web.page-title=Prometheues监控平台‘,]
pushgateway:
container_name: pushgateway
image: prom/pushgateway:v1.0.0
restart: always
ports:
- "9091:9091"
command: [‘--persistence.file="/pushgateway/data"‘,‘--persistence.interval=5m‘,‘--web.external-url=http://192.168.0.112:9091‘,‘--web.enable-admin-api‘,‘--log.format=json‘,‘--log.level=info‘,‘--web.enable-lifecycle‘]
deploy:
resources:
limits:
cpus: ‘0.5‘
memory: 300M
reservations:
cpus: ‘0.25‘
memory: 200M
grafana:
container_name: grafana
image: grafana/grafana:6.4.0
restart: always
ports:
- "3000:3000"
volumes:
- /data/grafana/grafana.ini:/etc/grafana/grafana.ini
- /data/grafana:/var/lib/grafana
deploy:
resources:
limits:
cpus: ‘0.5‘
memory: 300M
reservations:
cpus: ‘0.25‘
memory: 200M
# user: "104"
cadvisor:
image: google/cadvisor:latest
container_name: cadvisor
restart: always
ports:
- 8080:8080
volumes:
- /:/rootfs:ro
- /var/run:/var/run:rw
- /sys:/sys:ro
- /var/lib/docker/:/var/lib/docker:ro

要注意几点:


  1. docker-compose-monitor-platform.yml中需要的目录,你需要创建出来

  2. 配置文件格式我想你是有方法找到的,比如docker cp,比如去官网或者github找

  3. 下面是几个主要的配置文件,Alertmanager和Prometheus的配置文件


Prometheus之你可以自定义修改的配置文件

prometheus.yml

global:
scrape_interval: 2m # 设置采集数据指标的时间为2m, 默认是每1分钟采集一次,采集的频率会影响存储和服务器性能
evaluation_interval: 15s # 15秒钟评估一下告警规则,默认是每1分钟评估一次
external_labels:
monitor: ‘Prometheues监控平台‘
rule_files:
- "prom.rules"
alerting:
alertmanagers:
- scheme: http
static_configs:
- targets: [‘192.168.0.112:9093‘]
scrape_configs:
- job_name: ‘qa-prometheus‘
# 默认的metrics_path标签值为: ‘/metrics‘
# 默认的scheme值为: ‘http‘.
static_configs:
- targets: [‘192.168.0.112:9090‘]
- job_name: pushgateway
static_configs:
- targets: [‘192.168.0.112:9091‘]
labels:
instances: pushgateway
instanceserver: 192.168.0.112
honor_labels: true

config.yaml

global:
resolve_timeout: 1m #该参数定义了当Alertmanager持续多长时间未接收到告警后标记告警状态为resolved(已解决),该参数的定义可能会影响到告警恢复通知的接收时间,默认值是5分钟
smtp_smarthost: smtp.163.net:465 # 邮箱服务器,注意需要加上端口
smtp_from: xxx # 发送者邮箱
smtp_auth_username: xxx # 使用发送者邮箱进行验证时使用的用户名
smtp_auth_password: xxx # 使用发送者邮箱进行验证时使用的密码(客户端授权码)
smtp_require_tls: false # 是否需要进行tls验证
slack_api_url: ‘xxx‘
templates:
- ‘/etc/alertmanager/template/*.tmpl‘
# 所有报警信息进入后的根路由,用来设置报警的分发策略
route: # 主要定义了告警的路由匹配规则,以及Alertmanager需要将匹配到的告警发送给哪一个receiver,【因此这里详细设置就能灵活实现通过匹配标签过滤告警发送到对应的开发owner】
# 这里的标签列表是接收到报警信息后的重新分组标签,例如,接收到的报警信息里面有许多具有 cluster=A 和 alertname=LatncyHigh 这样的标签的报警信息将会批量被聚合到一个分组里面
group_by: [‘alertname‘,‘cluster‘]
# 当一个新的报警分组被创建后,需要等待至少group_wait时间来初始化通知,这种方式可以确保您能有足够的时间为同一分组来获取多个警报,然后一起触发这个报警信息。
group_wait: 10s
# 当第一个报警发送后,等待‘group_interval‘时间来发送新的一组报警信息。
group_interval: 5m
# 如果一个报警信息已经发送成功了,等待‘repeat_interval‘时间来重新发送他们
repeat_interval: 4h
# 默认的receiver:如果一个报警没有被一个route匹配,则发送给默认的接收器
receiver: default
# 上面所有的属性都由所有子路由继承,并且可以在每个子路由上进行覆盖。
routes:
- receiver: ‘default‘
group_wait: 10s
continue: true
- receiver: ‘slack‘
group_wait: 10s
match:
env: yourenv
continue: true
inhibit_rules:
- source_match:
env: yourenv
target_match:
env: yourenv
equal: [‘alertname‘, ‘cluster‘]
receivers:
- name: ‘default‘
email_configs:
- to: ‘xxx‘ # 发送给谁
send_resolved: true

到这里,Prometheus监控平台就基本上部署完成了,接下来就是要看看自己监控哪些服务了,根据自己的监控对象接入到Prometheus中
技术图片


推荐阅读
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • 本文介绍了如何清除Eclipse中SVN用户的设置。首先需要查看使用的SVN接口,然后根据接口类型找到相应的目录并删除相关文件。最后使用SVN更新或提交来应用更改。 ... [详细]
  • 本文介绍了在CentOS上安装Python2.7.2的详细步骤,包括下载、解压、编译和安装等操作。同时提供了一些注意事项,以及测试安装是否成功的方法。 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文介绍了[从头学数学]中第101节关于比例的相关问题的研究和修炼过程。主要内容包括[机器小伟]和[工程师阿伟]一起研究比例的相关问题,并给出了一个求比例的函数scale的实现。 ... [详细]
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 本文介绍了PE文件结构中的导出表的解析方法,包括获取区段头表、遍历查找所在的区段等步骤。通过该方法可以准确地解析PE文件中的导出表信息。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
author-avatar
hongxiaochen8847_106
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有