[邱传宁]
随着电信网络云网一体化转型的不断深入,网络设备的高度集中,各类型设备硬件及软件运维压力持续增大。在传统运维模式中,当网络运行出现异常,产生告警时,运维管理人员通过告警定位信息,查看网管告警、性能日志去查找和定位故障信息,这种方法已无法满足面向用户感知的网络网络智能运维需求,传统依赖人工的运维手段逐渐向自动化、智能化的运维手段转变。运维模式逐渐趋向主动监测分析业务、网络、设备各层面的运行情况,主动发现网络隐患和业务质量下降趋势,弥补设备告警的不足。
与此同时,由于电信运营网络的分拆整合,部门的重组调整,网络工程师流动性加大,这就要求将专家维护经验固化和沉淀下来,起到降本增效的作用。还可将固化的电信维护操作案例作为新员工专业培训教材,通过经典案例的学习,解决新员工培训上岗周期长的问题。
现有的日志分析技术,主要以网络和信息安全审计为目的,对接入平台终端用户的登录情况、设备操作行为等进行记录和检测,审计是否存在绕行等异常登录,高危的敏感操作是否按单施工,以及其他的违规操作。
针对上述电信网络现状以及运维诉求的痛点,本文提出了一种基于日志数据分析的智能网络运维方法,通过分析处理海量操作日志数据,获取成功维护经验,从而将优秀专家维护经验固化,引入大数据和AI 来替代重复工作,解决复杂和难点问题,为提升运营商的运维水平打下夯实基础。
网络设备硬件、软件在运维过程中,产生了海量的操作日志数据,本文以日志采集处理架构ELK(ElasticSearch全文检索数据库、Logstash 日志采集器和Kibana 可视化数据搜索)为基础,对日志数据进行采集、清洗以及分析。通过操作日志数据分析,回溯网络设备故障工单告警产生信息,故障闭环信息,对于网管所执行操作能成功排除故障的案例,获取其成功维护经验,自动生成专家经验库,用以指导同类故障处理,并通过预先定义的告警项、触发器、故障动作等,做到实时故障预警、故障恢复,评估可实现约10%的网络设备故障自动修复,从而有效提升故障处理的时效性,实现网络设备运维智能化、自动化。
与现有技术相比,本文利用大数据架构,分析操作日志数据,回溯故障工单,获取成功维护经验,提高了运维效率及可靠性,同时自动生成经典维护案例,实现运维知识的高效传递。
本文介绍的基于操作日志分析的智能运维设计方法,操作日志分析以大数据ELK 平台为基础,包含了ElasticSearch 全文检索数据库、Logstash 日志采集器和Kibana 可视化数据搜索,系统架构设计如图1 所示。
图1 系统架构设计
Logstash 具有实时传输能力的数据采集引擎,以Logstash 进行日志数据、故障工单数据的采集和解析,再将数据传送到ElasticSearch 数据库。
ElasticSearch 是一个实时的分布式搜索和分析引擎,ElasticSearch 提供的API 是基于HTTP 协议的RESTful API,可以用于全文搜索和分析,使用字段、数值范围检索,指定时间范围查询的大数据检索,使海量数据可以达到秒级响应。运维日志分析引擎利用ElasticSearch API 封装了自定义的运维日志分析模块,按运维需求,结合故障工单数据,对经过采集、清洗过的4A 操作日志、网管操作日志进行分析,获取成功维护经验。
Kibana 为ElasticSearch 提供了分析和可视化的Web接口,通过Kibana 使用户能连接ElasticSearch 搜索引擎,进行搜索、统计数据,并能对Elasticsearch API 封装的自定义运维日志分析规则进行验证,生成各种维度表格和图形。
基于操作日志分析的智能运维模型,从网络安全和运维的需求出发,提出基于大数据海量日志分析基础上进行的智能安全感知算法,拥有日志全文搜索、可视化多维分析等核心功能,通过前端WEB 界面进行分析与展示,实现统一管理、隐患分析、故障定位、安全预警等分析功能,给运维人员提供价值最大化的日志数据信息。实现“面向设备”、“面向网络”的传统监控模式转变为“面向客户”自动化、智能化的主动运维模式。
当网络设备运行出现异常,网络集中告警监控系统检测到异常并实时生成故障工单,派修至相关责任部门,相关部门远程集中维护人员开始故障处理,通过4A 平台授权登录,接入各网管执行维护操作,排查故障。以上大量网内故障处理以及日常运维操作过程产生的海量操作日志数据经过ELK 平台处理后,进入日志分析模块。日志分析从故障工单入口,通过回溯网络设备故障工单告警产生关键信息,故障闭环信息,对操作日志进行分析,将网管所执行操作能成功排除故障的案例,打上经验标签,成功维护经验权重值置“1”,获取成功维护经验,运维操作日志分析逻辑流程如图2 所示。
图2 日志分析逻辑流程图
以下通过实例分析,进一步论证在大数据ELK 平台基础上,对运维操作日志分析,回溯网络设备故障工单,获取成功维护经验逻辑的有效性和可行性。
如图1 系统架构设计所示,日志数据、故障工单数据通过Logstash 数据采集引擎采集,并传送到ElasticSearch数据库。ElasticSearch 运维日志分析模块按运维梳理规则,提取故障工单关键信息;比对分析故障关键信息与操作日志;利用匹配出的操作日志数据,回溯到故障工单“结单信息”;生成成功维护经验数据,存储到专家经验库。
以某故障为例,如图3,故障标题“2012 烽火江珠中80*(40/100)Gb/sDWDM 系统OOP_HIGH”。
图3 故障工单
实例处理步骤1:提取故障工单关键信息,对应图2步骤1。
故障工单-“故障描述”(故障内容)字段查找网络设备告警产生关键信息如下:
【告警时间】:2021-02-22 15:54:40
【告警位置】:/Ems=广东二干烽火100G 波分网管/Ne=04-01-江门炮台
-OTM-珠海方向/Shelf=1-3/Board=49/Port=1
【告警信息】:OOP_HIGH
实例处理步骤2:将故障关键信息与ELK 平台采集清洗后的操作日志匹配,对应图2 步骤2。
EMS 网管操作日志数据如图4 所示,其中“操作对象”与故障工单关键信息中的“告警位置”相关联匹配,对于关联上的操作日志,同时关联故障工单“告警时间”与操作日志“操作时间”(在告警时间后2 小时内),搜索关联操作,查找“操作指令”(详细信息)。
图4 EMS 网管操作日志
光保护网管操作日志数据详见图5,其中“局站”与故障工单关键信息中的“告警位置”相关联匹配,对于关联上的操作日志,同时关联故障工单“告警时间”与操作日志“操作时间”(在告警时间后2 小时内),搜索关联操作,查找“当前路由(切换指令)”,匹配出对应该故障工单的操作日志数据“备”到“主”的切换操作。
图5 光保护网管操作日志
实例处理步骤3:利用以上匹配出的操作日志数据,回溯到故障工单“结单信息”,对应图2 步骤3。
如图6 所示,匹配结果与所执行操作一致,根据网管执行操作动作,故障得以清除,插入新增字段“经验获取”标志权值为“1”,对应图2 步骤4。
实例处理步骤5:生成成功维护经验数据,存储到专家经验库
故障工单“经验获取”标签值为“1”,作为成功维护经验数据固化到专家经验库,对应图2 步骤5。
图6 故障工单结单信息
通过以上实例说明,基于操作日志分析,回溯故障工单,获取成功维护经验进行固化的方法,在电信大数据平台的基础上,利用人工智能自学习的运维模式,自动生成专家经验库,并通过优秀专家维护经验的指导和学习,也保证运维人员队伍的维护水平,从而保障网络安全、稳定的运行,让网络维护优化工作更加面向客户,以提升客户对网络的感知。
利用大数据框架分析处理海量操作日志数据,获取成功维护经验,从而将优秀专家维护经验固化和沉淀下来,解决了网络运维工程师流动性趋增的问题。并按运维需求预设告警触发器,故障动作,实现故障自动预警,自动修复。