当前位置: 开发笔记 > 编程语言 > 正文

基于Storm的Nginxlog实时监控系统

作者：心灵de倾斜 | 来源：互联网 | 2016-02-28 20:49

UAE(UCAppEngine)是一个UC内部的PaaS平台，总体架构有点类似CloudFoundry，包括

背景

UAE(UC App Engine)是一个UC内部的PaaS平台，总体架构有点类似CloudFoundry，包括：

快速部署：支持Node.js、Play!、PHP等框架
信息透明：运维过程、系统状态、业务状况
灰度试错：IP灰度、地域灰度
基础服务：key-value存储、MySQL高可用、图片平台等

这里它不是主角，不作详细介绍。

有数百个Web应用运行在UAE上，所有的请求都会经过UAE的路由，每天的Nginx access log大小是TB级，如何实时监控每个业务的访问趋势、广告数据、页面耗时、访问质量、自定义报表和异常报警？

Hadoop可以满足统计需求，但秒级的实时性不能满足；用Spark Streaming又有些大材小用，同时我们也没有Spark的工程经验；自写分布式程序调度比较麻烦并且要考虑扩展、消息流动；

最后我们的技术选型定为Storm：相对轻量、灵活、消息传递方便、扩展灵活。

另外，而由于UC的各地集群比较多，跨集群日志传输也会是其中一个比较大的问题。

技术准备

基数计数(Cardinality Counting)

在大数据分布式计算的时候，PV(Page View)可以很方便相加合并，但UV(Unique Visitor)不能。

分布式计算的情况下，几百个业务、数十万URL同时统计UV，如果还要分时段统计(每分钟/每5分钟合并/每小时合并/每天合并)，内存的消耗是不可接受的。

这个时候，概率的力量就体现了出来。我们在Probabilistic Data Structures for Web Analytics and Data Mining可以看到，精确的哈希表统计UV和基数计数的内存比较，并不是一个数量级的。基数计数可以让你实现UV的合并，内存消耗极小，并且误差完全在可接受范围内。

可以先了解LogLog Counting，理解均匀哈希方法的前提下，粗糙估计的来由即可，后面的公式推导可以跳过。

具体算法是Adaptive Counting，使用的计算库是stream-2.7.0.jar。

实时日志传输

实时计算必须依赖于秒级的实时日志传输，附加的好处是可以避免阶段性传输引起的网络拥堵。

实时日志传输是UAE已有的轻量级的日志传输工具，成熟稳定，直接拿来用了，包括客户端(mca)和服务器端(mcs)。

客户端监听各个集群的日志文件的变化，传输到指定的Storm集群的各台机器上，存储为普通日志文件。

我们调整了传输策略，使得每台Storm机器上的日志文件大小大致相同，所以Spout只读取本机数据即可。

数据源队列

我们并没有用Storm常用的队列，如Kafka、MetaQ等，主要是太重了…

fqueue是一个轻量的memcached协议队列，把普通的日志文件转为memcached的服务，这样Storm的Spout就可以直接以memcached协议逐条读取。

这个数据源比较简单，它不支持重新发射(replay)，一条记录被取出之后就不复存在，如果某个tuple处理失败或超时，则数据丢失。

它比较轻量，基于本地文件读取，做了一层薄的缓存，并不是一个纯内存的队列，它的性能瓶颈在于磁盘IO，每秒吞吐量跟磁盘读取速度是一致的。但对于我们这个系统已经足够，后续有计划改成纯内存队列。

架构

通过上面的技术储备，我们可以在用户访问几秒后就能获取到用户的日志。

整体架构也比较简单，之所以有两种计算bolt，是基于计算的均匀分布考虑。业务的量相差极大，如果仅按业务ID去进行fieldsGrouping，计算资源也会不均衡。

spout将每条原始日志标准化，按照URL分组(fieldsGrouping，为保持每台服务器计算量的均匀)，派发到对应的stat_bolt上；
stat_bolt是主要的计算Bolt，将每个业务的URL梳理并计算，如PV、UV、总响应时间、后端响应时间、HTTP状态码统计、URL排序、流量统计等；
merge_bolt将每个业务的数据合并，如PV数，UV数等。当然，这里的UV合并就用到了前面提到的基数计数；
自写了一个简单的Coordinator协调类，streamId标记为”coordinator”，作用：时间协调(切分batch)、检查任务完成度、超时处理。原理跟Storm自带的Transactional Topolgoy类似。
实现一个Scheduler通过API获取参数，动态调整Spout、Bolt在各服务器的分布，以便灵活分配服务器资源。
支持平滑升级Topology：当一个Topology升级的时候，新Topology和旧Topology讲同时运行，协调切换时间，当新的Topology接管了fqueue之后，过河拆桥，杀死旧的Topology。

注意点：

Storm机器尽量部署在同一个机柜内，不影响集群内的带宽；
我们的Nginx日志是按小时切分的，如果切分的时间不准确，在00分的时候，就可以看到明显的数据波动，所以，尽量使用Nginx module去切日志，用crontab发信号切会有延迟。切日志这种10秒级的延迟，在大尺度的统计上没有问题，秒级的统计时波动却很明显；
堆太小会导致woker被强制杀死，所以要配置好-Xmx参数；

自定义项

静态资源：静态资源过滤选项，通过Content-Type或后缀筛选特定的静态资源。
资源合并：URL合并，比如RESTful的资源，合并后方便展示；
维度与指标：通过ANTLR v3做语法、词法分析，完成自定义维度和指标，并且后续的报警也支持自定义表达式。

推荐阅读

kafka
构建LNMP架构平台

LNMP架构的组成：Linux、Nginx、MySQL、PHP关于NginxNginx与apache的作用一样，都是为了搭建网站服务器，由俄罗斯人lgorsysoev开发，其特点是 ... [详细]

蜡笔小新 2023-10-17 13:52:04
io
大厂首发！思源笔记docker

JVMRedisJVM面试内存模型以及分区，需要详细到每个区放什么？GC的两种判定方法GC的三种收集方法：标记清除、标记整理、复制算法的 ... [详细]

蜡笔小新 2023-10-16 16:43:34
io
开发笔记:Memcached高性能内存对象缓存系统

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Memcached高性能内存对象缓存系统相关的知识，希望对你有一定的参考价值。一、Memcached概述 ... [详细]

蜡笔小新 2023-10-13 19:08:11
ip
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
ip
Centos下安装memcached+memcached教程

本文介绍了在Centos下安装memcached和使用memcached的教程，详细解释了memcached的工作原理，包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时，还对memcached的快速和高效率进行了解释，与传统的文件型数据库相比，memcached作为一个内存型数据库，具有更高的读取速度。 ... [详细]

蜡笔小新 2023-12-10 17:10:24
ip
LVS 实现负载均衡的原理

LVS实现负载均衡的原理LVS负载均衡负载均衡集群是LoadBalance集群。是一种将网络上的访问流量分布于各个节点，以降低服务器压力，更好的向客户端 ... [详细]

蜡笔小新 2023-12-10 12:10:22
io
目录浏览漏洞与目录遍历漏洞的危害及修复方法

本文讨论了目录浏览漏洞与目录遍历漏洞的危害，包括网站结构暴露、隐秘文件访问等。同时介绍了检测方法，如使用漏洞扫描器和搜索关键词。最后提供了针对常见中间件的修复方式，包括关闭目录浏览功能。对于保护网站安全具有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-09 23:30:30
io
Linux一键安装web环境全攻略

摘自阿里云服务器官网，此处一键安装包下载：点此下载安装须知1、此安装包可在阿里云所有Linux系统上部署安装，此安装包包含的软件及版本为& ... [详细]

蜡笔小新 2023-10-17 16:49:26
ip
电信网为不能访问联通服务器的网站_老板说网站慢，我们总结了三大阶段提升性能...

作者：李平来源：https:www.cnblogs.comleefreemanp3998757.html前言在前一篇随笔《大型网站系统架构的演化》中&# ... [详细]

蜡笔小新 2023-10-16 11:59:07
ip
实战项目memcached+tomcat+session+nginx在工作中的应用和配置

环境介绍：公司根据实际需要搭建一个购物网站，当用户购物时可以将不同商品，放到同一个购物车中进行同时付款。环境的搭建：外网用户IP地址：1.1.1.1主机名:fanxiaohui用户 ... [详细]

蜡笔小新 2023-10-13 07:29:54
io
内存交换机制

相对于内存来说,磁盘的容量是非常大的,所以Linux内核实现了一个叫内存交换的功能--把某些进程的一些暂时用不到的内存页保存到磁盘中,然后把物理内存页分配给更紧急的用户使用,当 ... [详细]

蜡笔小新 2023-10-12 19:20:04
cookie
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
email
Redis数据结构之string应用场景解析

本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ... [详细]

蜡笔小新 2023-12-14 14:02:42
object
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
char
python面试题_python面试题——数据库和缓存（46题）

本文由编程笔记#小编为大家整理，主要介绍了python面试题——数据库和缓存（46题）相关的知识，希望对你有一定的参考价值。1、列举常见的关系型数据库和非关系型都有那些？ ... [详细]

蜡笔小新 2023-10-15 21:09:44

心灵de倾斜

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章