赵 蕾
(中国联合网络通信有限公司山东分公司 济南 250002)
近年来,诸如北京奥运、上海世博以及汶川地震、舟曲泥石流等重大社会事件和灾害屡次考验着整个社会的公共安全体系和社会保障能力,当这些事件发生时,通信的应急保障就成为社会保障系统最为关键的环节之一,其目前已经纳入国家专项应急保障工作建设规划。
针对这些重大事件,通信运营商不仅要在平时满足公共的通信需求,而且需要能在这些紧急事件发生时,提供应急通信的保障能力和相应的支撑手段。为此,各运营商制定了“红橙黄蓝”应急通信保障工作预案,以利于在特定场景下的应急通信保障工作的开展。但就目前情况来看,整个应急过程缺乏行之有效的IT手段来支撑,不利于在各种场景下应急通信保障工作的顺利进行,所以急需建设一个完善的、符合需求的应急通信保障系统。
各地的应急保障IT支撑系统尚未建立,原则上应能应对应急保障管理工作的全面考验,在确保人员安全、财产损失最小化的基础上,要符合国家相关法律法规,总体上还应遵循以下建设原则。
(1)统一领导、分级负责原则
各省公司设置总体指挥小组,根据事件响应级别,由省公司对各分公司的应急通信保障各项工作统一指挥,对外宣传部门要与政府部门保持密切联系,做好对外宣传等工作。
(2)快速反应原则
建立应急通信保障的快速反应机制,在确保一定的人力、物力、财力储备的基础上,确保在发现、报告、指挥、处置等各项环节的快速反应和紧密衔接。
(3)常备不懈原则
应急保障相关部门要对突发事件有应急预案方面的准备和思想上的准备,抓好应急通信保障的演练工作,做到常备不懈,平战结合。在保障过程中,要合理调整设备配备,充分利用现有资源。
(4)网络能力最大化原则
在网络资源向需要优先保障重点区域如党政军用户倾斜的同时,要最大限度地发挥网络能力,为广大客户提供服务。
通信运营商的应急通信保障系统应根据本地区网络特点、管理基础、地形地貌、人员配备等因素进行综合考虑,遵循统一规划、分步实施和能力累进的建设原则,以重点区域和各种应急场景为核心,循序渐进地提升应急通信保障系统在处理各种应急场景和应急事件上的能力。
在总体目标上,应急通信保障系统不但要能监控各网元的重大告警、性能指标、信令数据、投诉数据和客户感知等相关数据,还要做到重点客户、指定区域的网络质量异常情况监控,业务量和负荷的过载预警,预测等功能。做到在特定监控场景监控事件和突发事件发生时,可以对故障进行定位,对影响范围和影响程度进行分析,对应急保障资源进行有效地调度和管理,形成规范、高效的应急通信保障处理能力,确保应急通信保障工作有序、高效地实施。
亿阳应急通信保障系统整体解决方案参照国际通行的标准和最新的设计理念,整体上遵循以下原则。
标准化原则:整个系统是一个面向全专业网络的实时系统,系统在设计时遵循了TMF的NGOSS、ITU的TMN相关规范,满足数据模型的标准化和接口的标准化要求。
组件通用原则:系统采用了国际上最为先进的SOA(面向服务架构)的设计方法,运用中间件技术,实现了业务分层和功能服务模块化的分布式体系结构,用以保证系统的易用性、可维护性和通用性。
分层设计原则:系统采用了底层数据采集、中间层数据处理和上层应用展现的分层设计原则,各层执行相应的功能,便于管理和标准化,而且能满足灵活扩展要求。
整个方案系统从总体分为3层,如图1所示。
4.2.1 接入适配层
目前各专业网元设备均有专业网管系统支撑,接入层主要完成从专业网管如话务网管、数据网管、传输网管、动环网管等相关系统接入数据,从各系统接入相关的配置数据、告警数据和性能数据。同时系统需要的数据还有相应的应急保障预案、应急保障物资、应急处理人员等与应急保障相关的人、财、物等信息,以及与各网元配套的重大节假日应急保障流程、可预知事件应急流程和突发事件应急流程等管理方案。
4.2.2 处理层
告警处理:完成应急事件所定义的网元告警信息的过滤、压缩、格式化和关联分析处理。
预处理服务:对不触发应急通信保障工作的设备告警进行过滤分拣调度,执行相关的系列预处理指令等。
性能处理:完成应急场景定义的性能指标门限设置、KPI的计算、门限判断、入库和性能告警的处理等。
消息分发:一方面提供消息服务总线,对上层应用提供订阅分发。另一方面,在紧急事件发生时,根据应急预案的相关责任人,将故障发生信息和故障恢复信息及时通知给相关的各级管理人员和应急通信保障人员。
图1 整体解决方案
4.2.3 应用层
(1)负荷预测
根据应急场景或应急事件定义区域,对相关的核心网元、无线网元或数据网元等在可预知重大事件发生时,对网络负荷进行预测,并输出预测报告。具体预测内容包括以下方面。
①核心网全网话务预测
网内预测:包括局向话务量预测、信令链路负荷预测、MSS/MGW/HLR的CPU负荷预测。
网间预测:中继群话务量、信令链路负荷预测。
资源类预测分析:MGW的TC、录音编解码器负荷预测等。
②无线网话务预测
·重点小区级无线话务量分布预测;
·BSC级别无线话务量预测。
③数据网话务预测
·全网短消息总量预测;
·SMSC负荷预测;
·信令链路负荷预测。
(2)告警故障定位
具体涵盖能力包括:专业内故障定位能力、跨专业故障定位能力以及传输故障、基站退服和大面积断站分析情况分析。
(3)性能指标监控
具体可包括以下几个指标的监控。
· 核心网性能指标 :CPU负荷、中继群、局向话务量、信令链路负荷和接通率等。
·无线网性能指标 :小区话务量、接通率、一次寻呼成功率、切换成功率、掉话率、拥塞率、每信道话务量和PDCH复用等。
· 数据网性能指标:CPU负荷、数据流量、SMS总数量和信令链路负荷等。
·客户感知指标:单向通话和GPRS下载速率等。
(4)物资管理
可根据各专业网络所需应急资源,提供应急切换方案制定、基于GIS的应急通信车实时调度、基于GIS的油机车调度、基于GIS的设备光缆路由调度和备用通道的预配置、与调通、备品备件和备用光缆和备用仪器仪表等管理。
(5)预案管理
对应急预案的流程、应急事件处理方案和其关联信息进行管理。
(6)人员管理
对各网元相关应急场景所关联的应急保障人员信息进行管理。
(7)通信保障门户
查看重点定义场景的告警、性能和场景定义各种事件的信息。
信息发布:根据应急预案与相关应急事件信息的关联规则,将应急信息进行及时、准确的发布。
方案以场景为核心,以应急场景为核心的应急保障是指在某些特定的时间段、对某些特定的地理区域的网络设备或网络质量影响度较高的系统指标进行重点监控,据此决定执行不同的应急保障预案和应急措施,以保证网络安全、平稳地运行。
应急保障平台紧紧围绕场景进行展开,系统将场景分为4类。
· 日常监控场景:重点监控网络异常、业务量变化、网络负荷变化、设备运行产生的告警及性能趋势。
· 节假日监控场景:主要指的是“春节”、“十一”等节假日的网络异常、业务量变化、网络负荷变化、设备告警及性能趋势变化等。
·可预知事件保障场景:主要指大型文娱、体育、经贸等社会活动;人大、政协会议;热点区域:高校、CBD、旅游区、党政军机关所在地的保障等。
·突发事件保障场景:指的是自然灾害:洪水、雪灾、地震、泥石流等造成的网络故障以及光缆中断、话务负荷突增等重大网络故障。
系统可根据实际需求,任意组合监控时间、监控地点、监控对象和监控指标等场景元素,对所辖区域的网络网元进行灵活的场景定义,如图2所示。重点故障定位如图3所示。
针对节假日以及可预知事件的保障场景,需要事先预测网元的负荷情况,系统根据预测结果和网元状况,给出网络网元调整报告,以便及时发现网络存在的隐患问题,这样在可预知事件或节假日之前进行及时地网络调整和相应的备品、备件准备等预备工作。
网络负荷的预测分为核心网负荷预测、无线网负荷预测、数据网负荷预测以及传输网的负荷预测,系统提供的数据挖掘功能和可定义预测算法,使系统可以随着使用时间的推移而积累的历史数据具有逐渐准确的预测能力。
图2 某场景的监控
图3 重大故障定位
图4 某区域中秋节BSC负荷预测结果
由于网络的不断变化,系统的数据挖掘功能会随着新网元的加入或网元的移除而自动调整网络拓扑数据,并记录网络的日常负荷与历史节假日的高峰冲击。根据调整因子(增长或下降)、历史数据和以及近期网络的日常运营负荷情况出具预测报告和关键点的重点布控建议,以便及时调整网络和进行负荷分担处理。
可定义预测算法为亿阳自主知识产权,基于多年的OSS建设经验,算法挖掘多年积累的网络运营数据,根据网络及网元性质、历史事件的非正常数据冲击等,进行逐步地自修整和迭代处理,在数据预测方面经过了多年的验证和检验,时效性较强。某区域中秋节BSC负荷预测结果如图4所示,TCH预测结果如图5所示。图6是某区域系统跟踪除夕夜短信的情况。
图5 某区域中秋节TCH预测结果
图6 某区域系统跟踪除夕夜短信的情况
应急预案是应急通信保障的规范型文档,文档中规定了某些场景下发生应急事件时所应采取的具体措施。
亿阳应急保障方案的应急预案活性管理有两层的含义。
首先是应急保障系统所涉及的应急预案并非仅仅有静态的文本文档,而且还是一组与系统现状相关联的动态的信息组合,当某网元被定义为监控场景所监控的网元后,在设置相应的性能门限和告警信息门限后,系统在监控各项指标的同时,也关联着应急预案的进程,如果某项指标触发门限后,系统便自动提醒应急预案中规定所处理的内容和所应采取的措施。做到应急预案知识和解决办法的主动推送,实现真正意义上的预案按需行进和信息的按需展示。
应急预案的活性管理的第二层含义是,应急预案也作为网络场景的监视者,根据其全程的过程定义和活动监测点所关联的告警或性能指标,监控网络故障的发生和故障恢复情况,可展示故障的处理进程或故障恢复状况,从而达到更高的智能性,极大减轻人力工作。
通过预案活性管理的两个层面(如图7所示),将应急预案与网元的动态过程进行了绑定激活处理,同时也将预案自身的运动过程也进行了系统的动态支撑。针对应急保障特定需求,达到了很好的支撑效果。
应急通信保障系统的多元关联性是使得系统组合为一个有机、互动整体的最重要的一环。应急保障系统的关联性是多方位的,主要有以下几方面。
(1)场景、网元及应急预案的关联
应急保障场景在纵向关联着所需监控的网元的告警、性能和负荷等监控元素,横向关联着应急预案的处理流程。
图7 预案活性管理的二重性
(2)应急预案与应急保障所需人、财、物信息关联
应急预案的处理过程与应急保障物资的调度和应急处理相关人员信息相关联,在应急事件发生时,可在第一时间将信息发布给相关人员,并告知其相应场景的应急物资的库存状况。
(3)积累、预测与报告相关联
应急场景网元的历史数据积累分析、应急场景网元的增删状况和日常业务量的多元关联,使得数据预测的结果更加接近真实发生的业务量。
应急通信保障系统的建设是一个庞杂的系统工程,系统全部功能不可能一蹴而就地建成,需要运营商根据各地具体情况进行规划建设,以功能递进的方式进行逐步建设,需要注意以下几方面。
(1)系统建设与管理制度应配套出台
运营商在建设应急保障系统时,应出台与之配套的IT系统使用和建设规程以及系统维护办法,只有充分调动使用人员和维护人员的主动性和积极性,责任落实到人,才能保障在建设系统时数据的准确,系统维护数据的及时可靠性,同时也可保障应急保障物资变动后可以及时地在系统中反映。
(2)应急预案关联性应小心设置和及时变动
在系统实际使用过程中,应急预案的管理是个庞杂的工作,不但关系到具体的应急预案的文档内容,而且关系到应急预案处理流程中各个监控点的设置,监控告警和性能指标监控集合的设置,当流程复杂时,定义的过程也相对复杂,如果定义不当,在应急保障事件发生时,系统会发布虚假的应急处理措施或通知给错误的应急保障人员,反而在一定程度上阻碍了应急处理措施的及时采取。
(3)定期性的演练
“平时多流汗,战时少流血”,应急保障系统建成后,需要定期进行应急保障演练,一方面加强相关人员的认识来提高系统使用的熟练程度,另外一方面也可以发现系统在定义和建设方面存在的错误。
本文全面介绍了应急通信保障系统一体化解决方案,整个系统围绕应急保障预案和应急场景,以话务预测、告警监控,性能预测、资源调度、预案自动执行和信息发布为手段,打造了一个满足可预知事件和突发事件的应急保障平台,使运营商可以在日常工作中及时发现故障隐患,迅速配置网络资源,并能自动匹配预案,为资源调度、指挥决策和迅速恢复网络运行,提供了强有力的运营支撑解决方案。