周昊 李玮 江苏省广电有线信息网络股份有限公司泰州分公司
伴随个人用户数据业务的快速增长,IP城域网多业务的承载能力也进一步提升。在提高运营能力、确保网络安全的同时,如何利用现代化的技术手段,搭建IP城域网的自动化运维平台,在为个人用户提供安全、丰富信息化服务的同时,提高运维工作效率,降低运维成本,成为我们需要解决的一大难题。
随着个人数据业务的发展,IP城域网的业务规模不断扩大,对运维人员的技术能力提出了更高的要求,原有的人工巡检方式、通过各类小工具的查障手段已显得捉襟见肘。暴露出的问题包括由于事件处理能力的不足,导致巡检结果不够准确、高效;存在运维报告不规范、格式不统一的情况,不利于运维的闭环和数据共享。
在此背景下,迫切需要对各类业务的日常运维巡检工作进行整合,通过技术手段减轻人工任务;优化运维流程。及时、准确地了解系统的运营状况,是提高日常运维的技术含量,推动城域网的运维工作转向精细化、标准化、自动化的重要前提,也是落实优化调配的重要推手。
Zabbix是一款基于WEB界面提供分布式系统监控的企业级开源解决方案。本文旨在利用新的技术体系,建立符合城域网运维工作的自动化平台。IP城域网自动化运维平台框架如图1所示。
Zabbix是一个分布式的监控系统。IP城域网自动化运维平台采用Server-Proxy-Client架构,proxy是位于Server和Client之间的通信代理,proxy将采集的设备信息统一汇总给Server,Zabbix的这种分布式特性特别适合IP城域网这种跨机房、跨地域的网络环境。
图1 IP城域网自动化运维平台框架
本项目将proxy部署在IP城域网的各集群节点,采集本地集群节点内的数据信息,再统一汇总给中心节点的Server,以减轻Server的负载压力。
(1)设备资产管理
通过平台自动化的数据采集,获取设备型号、序列号、管理IP、MAC地址等资产信息,作为运维过程中重要的数据源信息提供给运维人员。
(2)设备运行状态实时监控
通过Zabbix,自动化巡检功能可覆盖所有纳入监管的设备以及监控项的状态,快速定位故障问题,并形成结果报告,确保运维工作的闭环管理。
(3)异常告警及报警媒介
当采集的数据达到触发条件时,触发器就会被触发,然后通过报警媒介向关联的用户发送告警信息。
自动化运维平台采用agent、SNMP、IPMI、脚本等方式,对IP城域网内的数通设备,硬件服务器、操作系统、应用服务和数据库进行全面监控。
其中,IP城域网中的数通设备、采用SNMP协议将设备端口流量、端口状态、CPU、负载等监控数据发送给proxy;
对于数据中心的操作系统、应用服务和数据库,采用zabbix-agent插件,主动请求server获取监控项列表,并主动将监控项内需要检测的数据提交给proxy;
对物理服务器的硬件特性,采用IPMI协议对服务器CPU温度、电压、内存、风扇转速等硬件指标实施监控。
图2 Zabbix核心设备监控项
Zabbix对于底层硬件服务器、网络设备、操作系统和数据库监控已经非常完善,美中不足的是图形化界面展示功能单一。在本项目中,使用第三方插件Grafana来实现系统图形化UI的展现。
Grafana是一款可视化工具,拥有灵活的UI、丰富的插件;支持多种部署模式、支持多种时序数据库的数据源特性,对每种数据源提供不同的查询方法。支持四种面板类型:图像、状态、面板列表和表格,同时也支持文本类型。
图3 Grafana图形化展现效果
IP城域网自动化运维平台是基于Zabbix系统和Grafana插件的结合应用,通过将IP城域网的日常运维监控进行了重新的设计,使IP城域网性能监控的稳定性、可扩展性大幅提升;将传统的运维模式转向一体化、集中化、智能化,降低维护的难度和风险,达到了提高工作效率的目的。