艾林,张康宏,徐芮,杨旭,赵艳
中国移动通信集团云南有限公司,云南 昆明 650000
现有网络监控系统中监控故障责任界定,主要有包捕获分析、日志分析两种。基于包捕获技术的网络监控系统应当在当前网络系统下的各交换机设备上安设一个嗅探系统用于实现故障监控。通过嗅探系统对传输、接收的数据包进行检测与分析,将处理结果向中央管理系统之中发送,对于有问题的出举报及时加以处理。但这种网络监控技术需要对每个数据包都进行分析,在大数据时代下,面对海量的数据包,势必会大幅影响运行速度,这是传统网络监控技术的一个重要问题,显然已经不能理想地适用在当前的网络环境中。
基于日志分析的这种监控技术也同样有一定的问题,最为突出的就是目前常用的各类网管其日志格式并不能够有效兼容,所以这种网络监控技术只适合制定的兼容厂商所生产的网关,使用存在一定的局限性[1]。过程繁琐,管理极其不便。随着市场监控点位日益增多,基础网络监控设施设备规模也十分庞大、复杂。与之伴随的是每天数以万计的监控异常事件,这给网络监控运营带来了巨大的挑战。
本文从监控故障责任界定过程及存在误差分析,提出一种基于巡检分析定位的故障责任界定方法。可通过一个统一平台掌控远隔千里的网络设备、服务器甚至PC,达到简化网络管理的目的。
从事网络监控系统开发的单位很多,但是各个公司在使用的技术上却相差不大,几乎就是捕获分析、日志分析这两种模式的使用。仅仅两种模式就支撑着整个网络监控系统开发行业,也从侧面代表着对于网络监控系统开发的忽略,没有引起社会的注意,更是很少有人注意因其模式落后而带来的经济损失。即使有少部分人意识到了这个问题,也没有什么好的办法去解决,很多技术人员的思想都已经习惯了仅仅两种模式的工作状态,甚至是不太喜欢接受新的方法、排斥新思想、固步自封[2]。
因为现今可见的技术只有这两种,且不说这两种实现方法过于单一、达不到创新,可以说当今社会,整个网络监控系统在开发领域存在的问题几乎相同,都是数据处理、故障处理、数据分析等方面,速度得不到提升,缓慢的速度特别影响故障的抢修效率,同时也会增加企业的维修费用。
本文提出的故障责任界定技术以告警信息分析模型为核心,通过对告警信息的采集、分析完成故障的责任界定。可通过基于告警信息模型的监控平台对网络设备进行远程监控,提高网络管理效率,具体的设计思路包括以下几点。
(1)对网络各点位进行实时监控,采集不同点位的当前状态,分析是否存在故障,如果存在故障则判定属于设备故障、电源故障还是网络故障。不同故障类型所表现的相关点位参数、告警信息是有所不同的,本技术正是基于这一原理实现故障责任的有效鉴别。
(2)在明确故障类型的基础上,根据最近邻分类模型来找到故障的具体定位,找到故障定位后,可以对症处理。
(3)本技术还能够扩展与配置日志报警策略,满足不同类型的应用需求。还能够集中管理日志信息,减少人员的运维工作量。
通过以上办法发现故障责任界定这个技术是实际解决技术问题,是如何解决快速定位系统故障并提高准确性。
故障责任界定这个技术的优势就是工作流程,在实际网络发生了故障时,就可以获取网络中相应节点的数据并进行预处理得到待测样本[3]。将待测样本应用于所建立的最近邻分类模型中,即求取待测样本与各类别代表点的欧式距离;距离最小的故障类即为故障源,即完成了故障分析。最后,基于告警信息分析模型对上述故障分析进行验证。
故障责任界定的主要技术包括日志数据的采集,以及将存在问题的数据传输到中央管理系统之中,并入库保存;通过告警信息分析模型预判故障类型,区分网络故障、电源故障、设备故障;监控平台部署至移动内网,运维人员在移动内网使用该平台提供的功能。监控平台通过内网路由配置接入PON网管、PTN网管,实现告警日志采集、终端ONU状态采集、前端点位故障等告警信息的实时采集。
告警信息分析模型具体包括,先通过网络拓扑获取各样本并进行聚类形成样本集,通常能够获取3个集合簇,对每个簇分别标号,就形成了3个带有标号的样本集。所述3个类别分别为网络类、电源类和设备类,对每个类别求均值作为该类别的代表,并以此利用最近邻分类法建立分类模型。若实际网络发生了故障,则获取网络中相应节点的数据并进行预处理得到待测样本。
故障的责任界定需要由系统在巡检时对摄像头IP或是MAC地址的在线情况进行采集,如果未发现摄像头在线,则继续对摄像头对应的ONU在线情况进行采集。如果ONU在线,那么则判定是摄像头故障;如果ONU不在线,那么需要继续对ONU的告警信息进行采集,检查是否存在掉电告警。如果存在,则可判定是电源故障问题;如果不存在,则判断为网络故障(见图1)。
图1 故障责任界定示意图
(1)采集点位状态,并判断系统是否存在异常。
(2)若存在异常,则采集网络状态并判断是否存在异常;若正常,则判定设备故障,若不正常,则转步骤3;获取当前网络的IP地址、网关等讯息具体包括以下步骤:
开始→运行→输入:CMD点击确定(或按回车键),打开命令提示符窗口;
先在命令提示符窗口输入:ipconfig /all →回车执行命令;
若本地主机中有两张网卡,那么通常以太网卡为有线网络的网卡设备,本地连接;
如果是无线网卡网络,则是无线局域网适配器 无线网络连接;
使用tracert命令测试网络状态,命令格式为:tracert+空格+IP地址(通常是IPv4),按回车键执行命令,直到跟踪完成。
(3)对电源的状态进行采集,评估是否存在异常问题。如果存在异常,则认为是网络故障问题;如果不存在,则进入到步骤S4。
(4)对电源故障进行判定。
(5)通过告警信息分析模型来验证故障定位,包括以下两步:
①利用告警数据采集的接口,向设备输入采集告警信息,并保存;
②设备通过告警信息分析模型对采集的信息进行分析,判断具体的故障类型,分析是属于网络、电源还是设备方面的故障。
基于以上技术的故障监控平台设置在移动内网中,运维人员可以在内网中通过这一平台完成网络的故障监控。并且平台经内网路由器可以和网关相连接,从而有效采集告警日志、前端及终端的状态信息[4]。
在上述公式里,v代表类标号,yi表示最邻近类标号。I表示指示函数,如果函数中的参数为真,那么返回1,参数不为真则返回至0。
在最近邻模型中要选择对应的K值,使本模型能够有效运作,因为网络之中的某种故障例存在的故障个数存在较大差异,会造成K值难以确定,因此本模型采用的是以每种故障所包括的样本集均值作为这类故障代表的分类法,表示为1-最近邻分类法。
现在网络监控系统开发方面的问题受到了很多关注,也有专业人员进行技术上的创新,努力将现今存在的问题进行优化。也有很多人申请了相关专利。在网络监控领域的故障责任界定的方法这个技术的研究中,其创新性与新颖性也是尤为突出的。特别是将其与随机找来的三篇文章中涉及的相关技术进行对比,尤为明显。
“基于故障录波与雷电定位系统的电网故障定位方法”公开了一种基于故障录波与雷电定位系统的电网故障定位方法,采用故障实时通报,克服了人工查询带来的不及时性,使故障查询、定位、通报自动化,减轻了工作量,为相关工作人员减轻负担。故障录波法与雷电定位系统的结合使故障后判断故障原因是否为雷击故障有了依据,使通报结果可以展示是否为雷击故障,提高了单独采用故障录波进行故障定位和单独采用雷电定位系统进行雷电故障定位的精确度。
该方法与故障责任界定这个技术的区别就是对故障分析采用顺序排除法,获得故障分析结果,并进行故障分析结果验证,将采集到的告警信息输入告警消息分析模型获得故障类型,所述告警消息模型为最近邻分类法进行分类。
相较于“使用故障定位报文进行故障定位的方法”公开了使用故障定位报文进行故障定位的方法及装置,其与故障责任界定这个技术的区别就是通过依次对网络状态判定、电源状态判定获得故障分析结果。
相较于“基于多元故障采集的配电网故障定位系统、方法及服务器”公开了基于多元故障采集的配电网故障定位系统,其与故障责任界定这个技术的区别就是通过顺序排除法,排除正常的网络,找到出现故障的系统装置[5]。
在对比中就可以看出近几年来,相关技术人员都在努力创新,将之前的技术漏洞进行优化,想要将我国的网络监控系统开发行业做大做强,为祖国未来的发展添砖加瓦。参与的技术人员的思想没有被之前技术的发展方向所禁锢,能够勇于跳出舒适圈,探索一个新的方向。
故障责任界定的技术效果的初心是为通过顺序排除法,快速找到系统故障定位,并通过验证提高定位的准确性。
综上所述,在故障发生后,如果能及时定位和排除故障,会挽回曾经绝大部分的经济损失。所以故障责任界定这个技术的出现,可以避免因为网络故障导致的运作失灵以及所带来的经济损失,从而有效保障网络运作的安全性。通过本文提出的网络监控技术,及时发现网络故障问题,判断故障所在位置及类型,得以及时有效加以处理,避免故障带来的不利影响。