李静
摘要:实际生产环境中,有大量的服务器,交换机,防火墙需要及时关注其日志的信息,便于运维人员及时根据日志查找故障原因。本文以ELK为实现平台搭建了一套日志分布式监控系统。本系统对公司的网络设备进行日志实时监控,使管理员能够随时掌握系统日志信息,能及时收集网络硬件及应用软件的日志信息,展示分析,'并告警。
【关键词】ELK 日志分析系统 网络
1 背景介绍
河钢集团承纲公司的局域网到目前为止包括四级网络办公系统,三级计量系统,生产信息采集网络,能源网络,视频及门禁网络,整个网络拥有交换机,路由器,防火墙等网络设备300多台,小型机及服务器50多台,主机及终端设备2000多台。随着网络规模的不断扩大,网络及主机,数据库的故障也时有发生。
在遇到设备故障时,如何有效的利用设备的日志信息快速查找故障原因,成为网络运维人员急需解决的问题,日志监控和分析在保障业务稳定运行时,起到了很重要的作用,不过一般情况下日志都分散在各个生产服务器,且维护或开发人员无法登陆生产服务器,这时候就需要一个集中式的日志收集装置,对日志中的关键字进行监控,触发异常时进行报警,方便维护或开发人员查看相关日志进行故障排查。ELK正好能够满足这种需求。
2 ELK系统架构及主要功能
ELK由三部分组成elasticsearch、logstash、kibana,Elasticsearch:是一个近似实时的搜索平台,它可以以很快的速度处理大数据。它是日志分布式存储/搜索工具,原生支持集群功能,可以将指定时问的日志生成一个索引,加快日志查询和访问。
Logstash:日志收集工具,可以从本地磁盘,网络服务(自己监听端口,接受用户日志),消息队列中收集各种各样的日志,然后进行过滤分析,并将日志输出到Elasticsearch中。
Kibana:可视化日志Web展示工具,对Elasticsearch中存储的日志进行展示,还可以生成炫丽的仪表盘。
流程简图如图1。
简单的讲,就是通过Logstash收集各种各样的日志,将其输出到Elasticsearch中,这里可以把Elasticsearch理解为一个非关系型数据库,最后利用Kibana对存储在Elasticsearch中的日志进行几乎实时的展示。
3 在承钢局域网生产环境中的应用
3.1 目前实现了Elasticsearch集群状态下对网络硬件设备方面的日志采集分析监控
主要包括:通过udp协议和syslog插件集中采集四级网络设备思科和华为交换机日志信息采集、展示、分析和告警;利用nxlog对门岗wmdows主机和咋zabbix服务器Linux主机日志的展示、分析:深信服防火墙和思科防火墙日志采集、展示、分析。以及惠普打印机日志采集,展示。图2是日志分析的图形化展示级分析,以交换机日志为例。
图2是采集到的CISCO交换机日志的信息,可以看到每个时段日志的数量柱状图,以及日志的详细信息,通过过滤相关的字段查找需要查看的日志,综合分析判断日志中存在的各种问题,便于快速定位故障原因。
3.2 实现了各种应用软件程序日志的实时监控
主要包括:集中采集設备管理平台应用程序http,11S,tomcat日志的信息分析、展示、分析;集中采集三级oracle服务器数据库相关日志信息,分析并利用kibana图形化展示、分析。
3.3 ELK日志系统的管理和优化
使用DSL对日志进行数据的基本查询,filter查询,组合查询,利用正则表达式对日志各个字段进行筛选。各种插件如Filebeat工具、Packetbeat工具、Topbeat工具、Logstash-filter-csv插件的使用。ELK系统的优化。通过调整ELK的各项配置参数,保证系统在大数据量的日志吞吐下稳定可靠运行。包括ES集群的备份与恢复;ELK内存分配优化:ELK数据索引定期清理:ELK配置参数优化。
4 结束语
ELK日志监控系统在公司内网中的成功应用,为网络运维人员判断故障提供了很好到帮助,提高的故障分析能力和响应速度,接下来还需要对ELK日志分析系统进一步深入的研究,使其更好的为生产服务。
参考文献
[1]饶琛琳.ELK Stack权威指南[M].北京:机械工业出版社,2015.
[2]褚瓦金(Anton A,Chuvakin).日志管理与分析权威指南[M].北京:电子工业出版社.2014.endprint