热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用Prometheus+grafana打造高逼格监控平台

前言:笔者看来,监控不应该只是监控,除了及时有效的报警,更应该”好看”,因为视觉上的感受更能给我们直观的感受,更能从绚丽的走

前言:

笔者看来, 监控不应该只是监控,除了及时有效的报警,更应该”好看”,因为视觉上的感受更能给我们直观的感受,更能从绚丽的走势中发现异常, 如果你觉得监控就应该像老牌监控nagios,cacti一样,我想也没什么不对的,因为也许那是你们最适合的,但,你还是可以瞧瞧这个监控能给你带来什么。


文章目录:

效果图

Prometheus架构

安装

配置

可视化

可视化自定义

报警

其他exporter

自定义exporter



效果图

为了你能有更多的动力看下去,这里放一部分通过Prometheus + grafana打造出来的监控平台,效果图如下。






如果你觉得不错可以继续看下去,上面主要是kvm宿主机, ceph集群, 物理机监控,以及ping, 最后一张的监控图没有展开是为了让你可以瞥一眼所能监控的指标条目。



Prometheus架构图


参考:https://prometheus.io/docs/introduction/overview/

如果你对Prometheus没有接触过,也许会看不懂上面说什么,但是没关系,如果你看完之后,在回过头来瞧瞧,也许就了解这个架构了,也会对Prometheus有一个更深的认识。
这里简单说一下Prometheus的各个部分。
Prometheus Server: Prometheus服务端,由于存储及收集数据,提供相关api对外查询用。
Exporter: 类似传统意义上的被监控端的agent,有区别的是,它不会主动推送监控数据到server端,而是等待server端定时来手机数据,即所谓的主动监控。
Pushagateway: 用于网络不可直达而居于exporter与server端的中转站。
Alertmanager: 报警组件,将报警的功能单独剥离出来放在alertmanager。
Web UI: Prometheus的web接口,可用于简单可视化,及语句执行或者服务状态监控。



安装

由于Prometheus是go语言写的,所以不需要编译,安装的过程非常简单,仅需要解压然后运行。
Prometheus官方下载地址:https://prometheus.io/download/

注:为了演示方便,这里node_exporter, Prometheus server, grafana都安装再同一台机器,系统环境Ubuntu14.04



安装Prometheus server

解压

1
tar xf prometheus-2.0.0-rc.2.linux-amd64.tar.gz



运行

1
2
cd prometheus-2.0.0-rc.2.linux-amd64
./prometheus  --config.file=prometheus.yml


然后我们可以访问 http://<服务器IP地址>:9090&#xff0c;验证Prometheus是否已安装成功&#xff0c;web显示应该如下


通过点击下拉栏选取指标&#xff0c;点击”Excute” 我们能够看到Prometheus的性能指标。


点击”status”可以查看相关状态。

但是光安装Prometheus server意义不大&#xff0c;下面我们再安装node_exporter以及grafana


node_exporter安装

解压

1
tar xf node_exporter-0.15.0.linux-amd64.tar.gz


运行

cd node_exporter-0.15.0.linux-amd64
./node_exporter


验证node_exporter是否安装成功

1
curl 127.0.0.1:9100



1
curl 127.0.0.1:9100/metrics

返回一大堆性能指标。



grafana安装

下载deb安装

wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana_4.5.2_amd64.deb
dpkg -i grafana_4.5.2_amd64.deb


安装依赖

1
sudo apt-get install -y adduser libfontconfig


启动grafana

1
sudo service grafana-server start


加入自启动

1
sudo update-rc.d grafana-server defaults

注:其他系统安装参考:http://docs.grafana.org/installation/


启动grafana并查看状态

systemctl daemon-reload
systemctl start grafana-serversystemctl status grafana-server


访问grafana, http://<服务器IP>:3000
默认用户名密码:admin/admin


为grafana添加Prometheus数据源

至此所有安装已完成
但是还存在以下问题
一:Prometheus server并没有配置被监控端的IP地址&#xff0c;即没有取指定的机器取数据
二:启动的方式太不人性化了,没有启动脚本。
三:grafana没有可用的dashboard用于展示
这些问题我们放在下面的配置,可视化段落处理。



配置

关闭之前之间运行的node_exporter及prometheus

增加一个被监控端配置项

创建目录/etc/prometheus/

1
mkdir /etc/prometheus/


创建配置文件

1
vi /etc/prometheus/prometheus.yml


修改如下(在有配置文件基础上增加红色区域)

# my global configglobal:scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.# scrape_timeout is set to the global default (10s).# Attach these labels to any time series or alerts when communicating with# external systems (federation, remote storage, Alertmanager).external_labels:monitor: &#39;codelab-monitor&#39;# Load rules once and periodically evaluate them according to the global &#39;evaluation_interval&#39;.rule_files:  # - "first.rules"# - "second.rules"# A scrape configuration containing exactly one endpoint to scrape:# Here it&#39;s Prometheus itself.scrape_configs:  # The job name is added as a label &#96;job&#61;&#96; to any timeseries scraped from this config.- job_name: &#39;prometheus&#39;# metrics_path defaults to &#39;/metrics&#39;# scheme defaults to &#39;http&#39;.static_configs:- targets: [&#39;localhost:9090&#39;]

注意:缩进是必须的



添加启动脚本
下载地址:https://github.com/youerning/blog/tree/master/prometheus

cp node-exporter.service /etc/init.d/node-exporter
cp prometheus.service /etc/init.d/prometheuschmod &#43;x /etc/init.d/node-exporterchmod &#43;x /etc/init.d/prometheus


将上面的可执行二进制文件移到/usr/local/bin

cp prometheus-2.0.0-rc.2.linux-amd64/prometheus /usr/local/bin/prometheus
mv node_exporter-0.15.0.linux-amd64/node_exporter /usr/local/bin/node_exporter


然后启动Prometheus,node-exporter
创建工作目录(Prometheus的数据会存在这&#xff0c;启动脚本里面我写的是/data)

mkdir /data
service prometheus startservice node-exporter start


在Prometheus的web页面能看到被监控端

image.png


然后grafana导入dashboard
下载地址:https://grafana.com/dashboards/1860

:https://grafana.com/dashboards还有很多的dashboard可以下载


按照以下步骤导入

image.png

点击import以后grafana就会多一个dashboard

至此一个系统层面性能指标监控已经全部完成。



可视化自定义
由于grafana的界面配置都是页面点击&#xff0c;需要截图标注&#xff0c;如果截太多图就文章太冗长了&#xff0c;这里就不进一步说明了&#xff0c;相关配置参考
http://docs.grafana.org/features/panels/
通过上面的安装配置发现&#xff0c;其实整个监控的流程还缺少了报警的环节&#xff0c;如果不能及时通报异常情况再好看也白搭。



报警

解压

1
tar xf alertmanager-0.11.0.linux-amd64.tar.gz


规则配置

1
cat /etc/prometheus/alert.rules


groups:

  • name: uptime
    rules:

    Alert for any instance that is unreachable for >1 minutes.

  • - alert: InstanceDown
    expr: up &#61;&#61; 0
    for: 1m
    labels:
    severity: page
    annotations:
    summary: "Instance {{ $labels.instance }} down"
    description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."


prometheus.yml增加以下内容

  • 1

    "filtered">
1
2
3
4
5
6
7
8
9
rule_files:
   "/etc/prometheus/alert.rules"
  
alerting:
  alertmanagers:
  - scheme: http
    static_configs:
    - targets:
      "localhost:9093"

详细配置参考: https://github.com/youerning/blog/blob/master/prometheus/prometheus-alertmanager.yml


启动alertmanager

1
./alertmanager --config.file&#61;/etc/prometheus/alertmanager.yml


查看监控状态

image.png

image.png

不过Prometheus的报警操作真的很扯淡。
支持的接受操作如下

而email报警有个扯淡的地方就是如果邮件服务器必须tls认证且ssl是自签名的话就会starttls failed: x509: certificate signed by unknown authority
而且没有一个in_secure:true的选项。


所以需要邮件报警的话有两种方法,
一:再报警服务器里面植入自己的证书&#xff0c;
参考:http://blog.amigapallo.org/2016/04/14/alertmanager-docker-container-self-signed-smtp-server-certificate/
二:允许smtp不使用tls

其实上面两种方法都不太优雅&#xff0c;观法推荐的是使用web_hook
但是又得保证web_hook的服务是运行的&#xff0c;这就很扯淡了&#xff0c;不过&#xff0c;如果是全部跑在docker管理平台&#xff0c;如k8s&#xff0c;倒是不错的。



下面是一个简单的实现。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
from __future__ import print_function
import falcon
from wsgiref import simple_server
from email.mime.text import MIMEText
import smtplib
import json
smtpServer &#61; "mx.example.com"
smtpUser &#61; "sender&#64;example.com"
smtpPass &#61; "password"
sender &#61; "sender&#64;example.com"
reciver &#61; "reciver&#64;example.com"
tpl &#61; """
status: {status}
alerts: {alerts}
"""
def sendMail(reciver, subject, message):
    server &#61; smtplib.SMTP(smtpServer, 587)
    server.ehlo()
    server.starttls()
    server.ehlo()
    server.login(smtpUser, smtpPass)
    server.set_debuglevel(1)
    msg &#61; MIMEText(message, "plain""utf8")
    msg["Subject"&#61; subject
    server.sendmail(sender, [reciver], msg.as_string())
    server.quit()
class WebHook(object):
    def on_post(self, req, resp):
        """Handles GET requests"""
        body &#61; req.stream.read()
        postData &#61; json.loads(body.decode(&#39;utf-8&#39;))
        msg &#61; tpl.format(**postData)
        print(msg)
        sendMail(reciver, "alert", msg)
        resp.status &#61; falcon.HTTP_200  # This is the default status
        resp.body &#61; "OK"
app &#61; falcon.API()
app.add_route(&#39;/&#39;, WebHook())
if __name__ &#61;&#61; &#39;__main__&#39;:
    httpd &#61; simple_server.make_server(&#39;0.0.0.0&#39;80, app)
    httpd.serve_forever()



源码:https://github.com/youerning/blog/blob/master/prometheus/webhookmail.py

注意:有falcon的依赖&#xff0c;需要pip install falcon


效果如下

image.png

注:由于我没有进一步处理post过来的json数据&#xff0c;所以显得不是很直观,大家可以根据自己的需要编排数据



其他exporter
除了基本的node_exporter&#xff0c;Prometheus官方还提供其他的exporter,如mysql, memcache,haproxy等
除了官方提供的&#xff0c;也还有很多第三方的expoter&#xff0c;参考:https://prometheus.io/docs/instrumenting/exporters/



自定义exporter
本文太长了, 直接看官方example吧。
参考:https://github.com/prometheus/client_golang/blob/master/examples/random/main.go



后记:个人认为&#xff0c;其实你不一定知道你要监控什么的&#xff0c;但是足够多的监控数据&#xff0c;能够支撑你对异常的全面审查及追溯。
其实Prometheus的很多细节没有说&#xff0c;比如监控规则编写&#xff0c;Prometheus的查询语法&#xff0c;不过本文太长了&#xff0c;如果有机会在详细说明吧。





本文转自 youerning 51CTO博客&#xff0c;原文链接:http://blog.51cto.com/youerning/2050543



推荐阅读
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 本文介绍了如何使用PHP向系统日历中添加事件的方法,通过使用PHP技术可以实现自动添加事件的功能,从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点,以及使用web技术实现自动添加事件的优势。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
  • Android开发实现的计时器功能示例
    本文分享了Android开发实现的计时器功能示例,包括效果图、布局和按钮的使用。通过使用Chronometer控件,可以实现计时器功能。该示例适用于Android平台,供开发者参考。 ... [详细]
author-avatar
纠结的狂欢_583
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有