热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ELK中logstash的使用

logstash的处理过程logstash在处理日志的整个过程是一个流的形式,按照input-filter-output这样的顺序进行。(严格的说法是input

logstash的处理过程

logstash在处理日志的整个过程是一个流的形式,按照 input -> filter-> output 这样的顺序进行。
(严格的说法是input -> decode -> filter -> encode -> output 这样的一个流,这里为了便于说明,简略下)
如图:

input:负责日志的接收,服务端角色。比如收集各服务器的nginx日志,MySQL日志,系统日志,php慢日志等。

filter: 对日志进行预处理等,后面会着重说下。

output: 负责日志的输出,比如储存到哪个地方或者执行某些动作。

input配置

可以通过如下方式来接收日志:

file:顾名思义,直接读文件
stdin: 标准输入,调试配置的时候玩玩
syslog: syslog协议的日志格式,比如linux的rsyslog
tcp/udp:使用tcp或udp传输过来的日志

看一个file的配置

input {file {path => ["/var/log/*.log", "/var/log/message"]type => "system"start_position => "beginning"codec => "json"}
}

这些参数用途如下:

path: 日志文件或目录的绝对路径,也可以是通配符的。
type: 类型,自定义
start_position: logstash 从什么位置开始读取文件数据,默认是结束位置,也就是说 logstash 进程会以类似 tail -F 的形式运行。如果你是要导入原有数据,把这个设定改成 "beginning",logstash 进程就从头开始读取,类似 less +F 的形式运行。
codec: codec配置,通过它可以更好更方便的与其他有自定义数据格式的运维产品共存,比如 graphite、fluent、netflow、collectd,以及使用 msgpack、json、edn 等通用数据格式的其他产品等。

再看一个tcp的配置

input {tcp {port => 8888mode => "server"ssl_enable => false}tcp {port => 9999mode => "server"ssl_enable => false}
}

这里可以看到它支持ssl加密,传输更安全。
更多input的插件请参考: Logstash Input

filter配置

这是今天的主菜:过滤器。
logstash收集到日志后,这些日志是原始的,但需求是多变的,比如日志中的有些内容要拆分成不同的字段,或者要把多种日志格式(比如有nginx日志,mysql慢日志等)统一成一种数据格式(比如json)等等,这些都通过filter来实现。

同input一样,filter也有各种各样的插件来处理日志,常见的有grok,ruby,kv,date等。这里主要介绍grok和ruby,详细参考Logstash Filter Plugin

如果你的日志在生成阶段就已经处理好了,不需要额外的处理时,可以不用filter,logstash可这样配置:

input {file {path => "/opt/logstash/log"codec => "json"}
}
output{stdout{codec=>rubydebug}
}

grok

grok类似于grep命令,是一个正则表达式的插件,通过正则匹配出我们需要的内容。
比如nginx的日志如下:

172.16.91.200 - - [19/Jan/2017:17:20:17 +0800] "GET /favicon.ico HTTP/1.1" 200 0 "http://172.16.93.237:9881/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"

我想把里面的ip 172.16.91.200存储到clientip中,之后我在kibana中查看时,通过clientip就能查到ip了。
看一下grok是怎么匹配的

%{IPORHOST:clientip} - - \[%{HTTPDATE:request_time}\] \"(?:%{WORD:method} %{URIPATH:url}(?:%{URIPARAM:params})?(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" %{NUMBER:status} (?:%{NUMBER:bytes:int}|-) \"%{DATA:referrer}\" \"%{DATA:agent}\"

可以发现,它的形式并不像我们平常写的正则表达式。
看下grok语法:

%{PATTERN_NAME:capture_name:data_type}

这里有三部分PATTERN_NAME,capture_name,data_type。

1. PATTERN_NAM
正则变量,指向一个正则表达式,可以自定义,如

USERNAME [a-zA-Z0-9._-]+ #定义个正则表达式的变量
USER %{USERNAME} #使用这个正则表达式

logstash默认提供了很多的正则表达式,具体可参考:Logstash Grok Patterns。
在调试grok时,可以借助下Grok Debugger

回到刚才的grok,匹配客户端ip的部分是:

%{IPORHOST:clientip}

这里的正则用了IPORHOST,它实际内容如下:

IPORHOST (?:%{HOSTNAME}|%{IP})

可以看到它引用了两个正则变量HOSTNAME和IP,这两个的实际内容如下:

HOSTNAME \b(?:[0-9A-Za-z][0-9A-Za-z-]{0,62})(?:\.(?:[0-9A-Za-z][0-9A-Za-z-]{0,62}))*(\.?|\b)
IP (?:%{IPV6}|%{IPV4})

IP又引用了两个正则变量IPV4和IPV6。

2. capture_name
可以理解为把匹配的值存储到哪个field中。比如这里的ip匹配,存储为clientip。

3. data_type
数据类型,不是必填项。默认是字符串,其他类型还有float,int等。

了解了这三部分内容后,再看grok的配置就明了了。
看一个完整的配置:

input {file {path => "/opt/logstash/log"}
}filter {grok {match => {"message" => "%{IPORHOST:clientip} - - \[%{HTTPDATE:request_time}\] \"(?:%{WORD:method} %{URIPATH:url}(?:%{URIPARAM:params})?(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" %{NUMBER:status} (?:%{NUMBER:bytes:int}|-) \"%{DATA:referrer}\" \"%{DATA:agent}\""}}
}output{stdout{codec=>rubydebug}
}

ruby

通过filters/ruby插件,可以在filter中使用ruby,极大地方便了日志处理。
看一个官方的示例:

filter {ruby {init => "@kname = ['client','servername','url','status','time','size','upstream','upstreamstatus','upstreamtime','referer','xff','useragent']"code => "new_event = LogStash::Event.new(Hash[@kname.zip(event.get('message').split('|'))])new_event.remove('@timestamp')event.append(new_event)"}
}

参数如下:

init:用来预定义参数。
code:要运行的ruby语句。

比如我想对nginx日志进行一个简单的归类,区分下动态和静态资源。把css,图片,字体归为静态资源,其他的划为动态。配置示例如下:

input {file {path => "/opt/logstash/log"codec => "json"}
}filter {if [url] {ruby {code => "url_match = /(.*).(css|js|png|html|gif|png|woff)/.match(event.get('url'))if ( url_match )url_type = 'static'elseurl_type = 'dynamic'endevent.set('url_type',url_type)"}}
}output{stdout{codec=>rubydebug}
}

用logstash运行测试下,可以看到多了个值url_type

/opt/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf

output配置

output负责把处理好日志输出到指定的地方,和input一样,output也有丰富的插件:

elasticsearch:可以通过http等方式存入elasticsearch 中
email:通过邮件发送出去
file: 存到文件中
nagios:发送到nagios中
exce: 执行某个程序或命令
statsd:输出到statsd中
stdout:有标准输入,那就有标准输出
tcp/udp:通过tcp/udp输出
HDFS:输出到hadoop中,搞大数据:)

这里主要看下输出到elasticsearch的配置。

output {elasticsearch {hosts => ["192.168.0.2:9200"]index => "logstash-%{type}-%{+YYYY.MM.dd}"document_type => "%{type}"flush_size => 20000idle_flush_time => 10sniffing => truetemplate_overwrite => true}
}

主要参数如下:

host: es的主机和端口
index:写入es的索引名称
document_type:es的document_type
flush_size:指定数据达到多少条时再发送
idle_flush_time:结合flush_size使用,指在这个时间内即使没攒够flush_size数,也发送。比如flush_size设置1000条,idle_flush_time设置为5秒,则在这5秒中,即使数目没达到1000条也会发送。而如果到3秒时就有1000条了,则会立即发送。

结语

logstash的input,filter,output三个阶段都有很丰富的插件,可根据自己的需求来搭配使用。
每部分可配置多个不同的内容,比如input可以同时配置file和tcp,并且配置多个tcp。

参考

Logstash 到底该怎么用
logstash使用指南


推荐阅读
  • E L K ⽇ 志 分 析系统
    ELK⽇志分析系统elk介绍1.应⽤需求前景(1)业务发展越来越庞⼤,服务器越来越多;(2)各种访问⽇志、应⽤⽇志、错误⽇志量越来越多,导致运维⼈员⽆法很好的去管理⽇志;(3)开 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • mysql-cluster集群sql节点高可用keepalived的故障处理过程
    本文描述了mysql-cluster集群sql节点高可用keepalived的故障处理过程,包括故障发生时间、故障描述、故障分析等内容。根据keepalived的日志分析,发现bogus VRRP packet received on eth0 !!!等错误信息,进而导致vip地址失效,使得mysql-cluster的api无法访问。针对这个问题,本文提供了相应的解决方案。 ... [详细]
  • mac php错误日志配置方法及错误级别修改
    本文介绍了在mac环境下配置php错误日志的方法,包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别,以及相应的错误级别参考链接。 ... [详细]
  • RouterOS 5.16软路由安装图解教程
    本文介绍了如何安装RouterOS 5.16软路由系统,包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程,方便读者进行操作。 ... [详细]
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • 用LGWR WORKER的例子介绍strace分析Oracle数据库行为的方法
    可观测性能力是IT运维的强有力的支撑。日志告警、指标是两种在运维中很常用的可观测性指标。 ... [详细]
  • 1、概述首先和大家一起回顾一下Java消息服务,在我之前的博客《Java消息队列-JMS概述》中,我为大家分析了:然后在另一篇博客《Java消息队列-ActiveMq实战》中 ... [详细]
  • 实验2:Open vSwitch虚拟交换机实践   实验3:OpenFlow协议分析实践
    实验2:OpenvSwitch虚拟交换机实践一、实验目的能够对OpenvSwitch进行基本操作;能够通过命令行终端使用OVS命令操作OpenvSwitch交换机,管理流表;能够通 ... [详细]
author-avatar
silaker
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有