潘 皓 薛金明 胥 锋
中国联合网络通信有限公司江苏省分公司
近年来,江苏联通积极把握数字化、网络化、智能化的时代潮流,响应“网络强国”“互联网+”“国家大数据”等战略部署,积极推进传统领域的战略转型和创新领域的战略布局。为支撑公司战略部署及业务发展,网络基础维护需引入创新的智能化手段,江苏联通创新利用智能光纤探测技术、维护支撑系统、自动化调度系统,对基础维护转型探索出了可行的发展方向。
目前我国通信行业呈跨越式发展,伴随着网络和用户规模的不断扩大,运营商的网络技术和服务质量均有很大提升。进一步来说,如何实现更有效的资源利用和业务流程整合,提高网络运维的效率,提升公司整体能力和服务水平,是当前各运营商均需重视和解决的问题。
长期以来,网络运维主要集中在专业网管系统的建设,缺乏智能化手段,一定程度上阻碍了效率的提升,无法快速有效支撑维护一线人员,不能适应网络运营的技术发展速度,出现了网络运维服务体系和技术层次的断层。
智能化运维的需求,要求网络故障的诊断自动化、快速化、精准化,能够在发生故障时,通过系统的能力,在人为介入前提供具有明确性指向的故障判断信息,同时第一时间流转到维护一线人员。
从大量的网络告警转化为故障情况的根源性且含有定位信息的描述说明,通知到对应的处理人员,从而实现智能化手段支撑网络维护,提高运维效率的目的。
运营商通信网络依附于基础的光缆网络,光缆网络的故障处理复杂,故障处理往往都是投诉驱动,属于被动运维。缺乏故障分责手段,主要依赖技术人员的个人经验判断,无效外派工单多。再有,故障定位时需要维护人员赶到机房依靠OTDR仪表进行手工测试,增加了故障定位处理时长,且因技能因素,往往造成测距长度与实际故障点距离偏差大,造成定位困难。对维护人员技能要求、对仪器仪表的要求,也使得维护成本居高不下。
智能光纤管理系统(Fiber Doctor System),简称FD 系统,实现对网络中线路光纤的监控管理,通过对光纤连接状态的精准检测,协助维护人员分析光纤接口、熔纤点质量,快速定位光纤质量问题。
3.1.1 智能光纤系统与传统光纤质量维护方式对比
在波分系统中,光纤的老化、外破损伤、光纤卷曲、大角度弯折以及承担较大拉力等问题可能造成光纤衰减大、误码率高,进而影响网络的正常运行。
传统的光时域反射仪(OTDR)可进行光纤长度、光纤传输衰减度、接头衰减度和故障定位等的测量,被广泛应用于光缆线路的施工与网络的开局阶段。但传统的OTDR 仪表,需要进站并中断业务进行测试,无法做到不影响业务前提下的在线检测。因此,远程、在线、精确、快速的光纤状态检测手段,将大大提高维护效率,降低维护成本。
3.1.2 智能光纤系统原理和主要功能
智能光纤系统对OTN 设备原有的OSC 板卡进行了升级,新增了内置的探测光发送单元,发送探测光,利用光纤瑞利散射及菲涅尔反射原理探测光纤损耗变化的大小和位置,并将检测数据上报网管,可以实现以下功能。
在网管上提供直观的图形化的仪表界面。远程进行单向或双向光纤质量的检测。灵活设置不同的工作模式与检测参数,用于不同范围的光纤质量检测。
对检测结果进行保存,实现检测结果历史数据对比。获取全网指定光纤段的长度和衰耗信息。主动向网管上报告警,提示光纤中断位置。
3.1.3 智能光纤系统组成
完整的FD系统需要硬件和软件两部分相互配合协同完成。硬件部分发送探测光进行检测,得到光纤的性能数据,接受软件的统一调度;软件部分集成在专业网管上提供图形化交互界面,支持不同场景下检测模式的设置。通过特定告警,触发探测启动,接收设备上报的探测结果,并将数据图形化呈现。各部分相互配合运作的过程如图1 所示。
图1 智能光纤系统组成
网络故障发生时会产生大量告警,大部分告警均为伴随性指示告警或业务层面告警,对网络故障定位和处理没有指导性作用。通过支撑系统进行告警的深层次解析,对关键字段和信息进行规整,结合资源,输出故障的根源性定位信息,用于指导故障处理。
综合网管通过成熟的Corba 接口协议,对各个厂家网管的告警进行适配,解析转换为统一的13001 告警格式,转发给对应的告警接收模块处理。告警接收模块对这些13001 告警进行二次解析,转换为13002 格式的告警并写入数据库,同时将13002 告警推送到前端实时监控或集团OSS2.0 告警上报接口。
图2 传输网络告警北向处理架构
综合网管各模块之间的通信采用了专门研发的DPP 消息服务中间件,该组件底层基于Socket 通信技术。各模块需要先在DPP 消息中间件上进行注册操作,注册时需定义“实体名称”,每个“实体”对应一个模块,当一个模块需要向另一个模块发送消息时,带有目标“实体名称”的消息实际上是先发送到DPP 消息中间件,由中间件根据目标“实体名称”进行转发。因此各个模块之间不需要知晓对方的IP,只需要保证自身和DPP 消息服务中间件打通网络,极大地简化了通信成本。
由于采用了DPP 消息服务中间件,告警传递有了高并发场景支持,保证了告警的实时性,同时DPP 消息服务中间件的存在也让综合网管的业务得到了很好的解耦,这样的好处是既分担了服务器压力,又充分利用了服务器资源。
传输综合网管前台可查看同步新增告警,构造清除告警数量,核查新增活动告警详细信息等,流程图如图3 所示。
智能光纤测试结果告警是新的告警类型,告警接口适配器对各厂家网管上报的告警报文做了重新适配,并增加了额外的字段解析,将断点测试距离从原始厂家告警报文的文本信息中提取出来转换成公里数,关联至传输系统复用段进行入库,合并生成含中断距离的复用段故障信息。
具体实现流程为:厂家网管通过北向接口上报光纤中断FIBER_BREAK_POS 告警,此告警通过传输网管告警适配器采集后,进行告警接收、分析,将此类FIBER_BREAK_POS告警入库并与相关基础资源(机房、局站、传输系统复用段)数据匹配,进行报文字段提取,再将告警信息推送给综合监控人员,最后短信通知相关联系人紧急处理。
图3 传输综合网管告警处理流程
有效的故障流转流程可大幅度缩短故障处理时长,提高处理效率。通过梳理故障调度处理过程,在传统的“告警-故障-工单”的处理流中,利用互联网化手段,丰富告警信息,压降流程时间,提高处理效率。将采集到的故障定位信息通过智能监控系统整合在智能告警中,并通过自动派单生成工单通知到相应处理人员,利用智能调度机器人自动进行故障通报、故障跟踪、故障升级,实现专业网管到支撑系统再到一线人员的一触式故障垂直调度流转。这样,中间过程不需要人为介入,减少因人为原因导致的时间浪费。
智能光纤系统和综合网管支撑系统实现了故障信息的采集和标准化生成,最终故障的分发和调度通过统一生产流实现。江苏联通目前故障的调度和生产手段主要应用在集团OSS2.0智能监控系统、电子运维系统以及智能故障调度系统。
图4 自动化调度系统
3.3.1 智能告警生成
智能告警是指系统通过自定义规则,自动关联生成的告警信息,它涵盖关键信息、能被方便阅读且能被用于工单生成。
关键信息:通过集团OSS2.0 智能监控系统与综合网管接口字段完成收集。
可阅读性:在智能监控系统内部署独立的智能关联规则,将收集到的关键信息进行文本整合,生成日常能理解的关联告警。
可派单:一条可派单的告警需具备EMS 信息、区县信息、机房信息等资源信息,利用告警中的有效数据完成资源系统中的资源提取。
3.3.2 匹配维护值班表
维护值班表在整个生产流中起着至关重要的作用,完成了告警和故障与处理人员的自动对应。为了实现智能光纤告警准确派发至相应的线路处理人员、线路主管、主管领导、分管领导处,联通在集团OSS2.0 智能监控系统中新建了相应的智能光纤维护班组,当智能光纤告警产生时,维护值班表模块能将所需人员提取出来并置入生产流中。
3.3.3 生成工单
智能监控系统完成智能告警生成,提取维护值班表人员信息后,通过故障派单模块自动生成工单信息,并输出至集团OSS2.0 ESB 平台,由ESB 平台最终完成工单信息在电子运维平台的落地。
3.3.4 预警短信/IVR
故障工单派发完成后,智能监控系统和电子运维的短信派发模块均会向目标人员发送相应的维护短信,并在工单超时前10 分钟进行语音IVR 呼叫,确保故障能得到有效响应。
3.3.5 智能故障调度
智能故障调度机器人是江苏联通自助研发的,可以实现故障信息按系统规则自动识别、分拣、发送至钉钉机器人。钉钉机器人是钉钉群的子功能,管理员能在群内添加一定数量的机器人实现信息的自动发布。
为了更直观、更高效地完成故障调度,联通在全省共计14 个故障群(13 个地市群、全省传输故障群)中部署了智能光纤故障预警机器人,由集团OSS2.0 智能监控系统将产生的智能光纤告警实时推送至相应的故障预警机器人接口处,最终实现在故障产生的同时也通过钉钉机器人在钉钉故障群里发布信息,并点对点提醒相应人员。
2019 年1 月25 日14:48,苏州国信机房-苏州常熟虞山工业园发生线路故障,影响干线100GOTN 系统。
图5 为当时的专业网管告警截图,可见在14:48,苏州国信机房-苏州常熟虞山工业园发生干线线路故障,网管同时上报大量告警,且伴随相关下游泰州、广陵等站设备发生告警。
图5 专业网管故障告警
如无智能化维护手段,此时就需要专业人员结合资料,查看告警及性能,结合经验判断故障发生的段落,再通知对应分公司维护人员赶到两端机房进行仪表测试,定位故障具体距离。
具备智能光纤系统后,专业网管在故障发生时触发自动测试,根据测试结果,在14:54 上报光纤中断告警,指示测试起点为苏州国信一楼光子架设备,测试距离为30377M。
图6 专业网管智能光纤探测信息
测试告警上报后,通过综合网管接口进行告警解析,并传递至智能监控系统处理后,发送到网络机器人,由机器人进行分拣,自动形成故障预警,传递至钉钉群,最后自动提醒相关地市维护人员,如图7 所示。预警关键字包括:告警时间、故障地市及区县、故障断点测试起始局站、故障断点测试距离。
图7 网络机器人发送故障调度信息
地市维护人员接到通知后立刻响应,直接指挥现场抢修人员赶至故障点,于15:55 找到故障点,并快速确认了故障原因,开始组织抢修。17:28,所有中断业务完成抢修,总故障历时160 分钟,其中通过智能化手段,故障测试定位及通知到一线人员仅耗时8 分钟,大幅减少了故障历时,提高了抢修效率。
图8、9 现场故障处理闭环
通过一系列智能化手段,江苏联通在基础维护质量、服务支撑和投资成本控制等方面取得了良好的成效,对提升用户满意度起到积极的效果。
智能化手段部署后的5 个月内,对发生的线路故障平均历时进行分析,数据显示在此期间发生的线路故障,平均时长为166.17 分钟,同期发生的其他线路故障,故障平均时长为196.76 分钟,而前一年同时期所有故障的平均时长为195.56 分钟。
图10 线路故障历时分析
从故障平均历时数据可以看出,智能化手段确实起到了节省故障定位时间,提高维护效率的目的,与同期智能化手段未介入的故障相比平均节省30.59 分钟,与前一年同时期所有故障相比平均节省29.39 分钟。
按照具体故障案例分析,如故障段落两端机房均为无人值守机房时,故障处理效率提升尤为明显,故障处理时长缩短最多可达到近60 分钟。