杨聚毅,王 林,安明伟,李柚宏,王 琴,王 斌(中国联通四川分公司,四川成都 )
四川联通于2019年6月1日开始VoLTE业务试商用。由于业务流程长,涉及网元、接口多,信令交互复杂,跨多厂家等原因,在VoLTE业务商用以后,出现感知问题定位难、处理时间长等运维难题。
针对VoLTE业务商用带来的巨大挑战,参考其他运营商VoLTE网络运营中遇到的问题以及省网优中心和省网管中心对VoLTE端到端分析手段的迫切需求,借鉴行业成功的部署经验,在四川联通现有三层架构(采集层、共享层、应用层)的基础上,制定了基于大数据的VoLTE端到端系统解决方案,在应用层部署了VoLTE端到端分析系统。目前该系统已正式投入使用,针对注册、接通、切换等环节进行了业务质量的探索,总结出多种问题分析方法,包括一串、二跟、三判断的“123”IMS注册问题定位法,“删繁就简,找源头,看特征”的接通问题分析方法,“235”eSRVCC切换分析法,有效提升了VoLTE网络运营效率。
端到端分析系统整体遵循了四川联通现网的三层架构(采集层、共享层、应用层),系统采用松耦合方式,共用现网采集层和共享层,并补充采集了vIMS相关数据,对PM/告警/MR/EPC XDR/VoLTE XDR多种数据源关联合成,实现真正的端到端感知分析。系统架构如图1所示。
图1 端到端分析系统架构
VoLTE端到端业务分析系统的需实现如下功能。
a)支持探测VoLTE业务量、质量的发展及变化趋势,对于发现的质差现象进行端到端问题定界,定位问题到EPC、CS、IMS、无线、终端等环节。
b)有效监控业务指标,通过端到端信令关联分析,支撑专项优化工作,进行快速问题定界,保障端到端业务质量。
根据目前信令采集能力和关联能力,保证关键指标监控、用户记录查询、信令回溯以及相关分析功能。结合VoLTE网络部署和运营的实际需求,目前系统可实现六大功能。
a)VoLTE业务全景透视。
b)VoLTE用户体验。
c)拨测用户保障。
d)VIP用户保障。
e)VoLTE业务CSFB分析。
f)CSFB指标监控。
在LTE网络基础上,新增vIMS网络,形成VoLTE端到端网络架构。
根据VoLTE业务流程,借鉴业界成熟的“八元六阶”定界方法,进行端到端定界。“八元六阶”定界方法如图2所示。
当关键KQI指标发生劣化时,端到端分析系统对问题进行专业定界,对于成功率类指标,首先核心网(EPC/CS/IMS)分域映射至关联KPI,然后通过时域分析、关联分析、聚类分析粗定界到用户、终端、无线、传输、EPC、IMS、CS和数通8个维度的问题。
对于时延类指标,首先将业务流程拆分为多个过程,然后逐段定界。
对于语音质量指标,引入编解码类型、编解码速率、抖动、丢包、时延5个关键因素进行评估,再通过关联分析、聚类分析、根因分析,定界到各维度。
通过将异常信令携带原因值与接口、网元进行关联,运用聚类算法,深度发掘各类问题的典型特征和失败原因,并对问题进行反推验证,以点带面,形成问题“指纹特征”库。搭建基于“问题指纹库”的端到端定界体系,基于定界的定位方法,对各类问题进行“靶向治疗”。
图2 “八元六阶”定界方法
基于端到端平台的应用,形成了注册、接通、切换一整套问题定界定位方法,达到快速发现解决网络问题的目的。问题定界定位方法如图3所示。
图3 问题定界定位方法
通过投诉处理、分公司上报、终端测试、端到端分析以及测试分析进行问题分析汇总,形成问题“指纹库”,利用本地化开发,形成智能分析系统,快速高效支撑一线人员进行网络质量提升、问题定位分析及处理,有力保障客户感知。
3.4.1 指纹库建立流程
指纹库建立流程如图4所示。
3.4.2 基于多数据源和指纹库的智能分析系统
图4 指纹库建立流程
基于多数据源和指纹库的智能分析系统如图5所示。
图5 基于多数据源和指纹库的智能分析系统
通过“关联多接口、着眼全流程、聚焦关键点”的手段,形成一串、二跟、三判断的“123”IMS注册问题定位法,同时可发现因4G弱覆盖造成3G、4G频繁重选注册的问题。
a)一串(条件关联)。通过S1-U口采集到的IM⁃SI注册开始、返回Cause的时间点为基准。
b)二跟(时间追踪)。追踪注册周期(20 s)段内对应IMSI注册过程中S1-u口和Gx接口采集的交互信息,提取关键信息字段。
c)三判断(分布判断)。1:注册超时20s,收到CCR消息携带信息rat_type;2:rat_type=1001或=1000;3:request_type=3(CCR信息消息标识)。
具体流程如图6所示。
通过“删繁就简,找源头,看特征”,进行接通问题分析。删繁就简确定关键接口,信令回溯找源头,归类汇聚形成规则库,智能化定界,形成接通率问题准确定界。
4.2.1 删繁就简
接通问题全流程包含主被叫,涉及S1口、Mw、Rx、Gx、Cx、S6a、ISC等多个关键接口,还要考虑VoLTE到CS域的呼叫和漫游用户等多种场景,复杂度高。将所有接口,所有网络的信令进行关联分析实现成本高,而且由于关联度低也不能实现所有问题的定界。因此取Mw口作为接通问题分析的主要接口,根据需要再关联其他接口。
4.2.2 找源头
图6 具体流程
通过信令回溯找到首条异常信令,根据异常信令中携带的原因值判断导致未接通的根本源头。
4.2.3 看特征
对于同类型未接通事件进行总结、聚类、归纳形成同一场景的特征码,根据特征码定义counter。特征码组合使用的字段包含主被叫方向区分、是否有CAN⁃CEL、SIP错误码、SIP错误码原因、CANCEL原因值、183原因值共6个纬度。同样特征码的未接通,定界到同一原因,不同场景的未接通对应的特征码不同。不同场景的特征码汇总形成规则库。
4.2.4 智能定界
根据规则库将符合不同特征码的未接通事件定位到用户、终端、无线、IMS和CS域这5个方面,通过智能化平台将工单流转至相关专业进行处理。
在大量案例分析的基础上,制定出接通问题定界规则库,按照特征码设计counter,每个counter对应一类接通失败事件和相应界定规则。
在进行接通问题分析时,首先区分未接通事件是主叫还是被叫,然后按照主叫有/无CANCEL未接通判定流程和被叫有/无CANCEL判定流程,对未接通事件进行界定和归类;基于规则库的未接通分析步骤可以很方便地实现智能化。
聚焦eSRVCC切换成功率提升,采用“235”eS⁃RVCC切换分析法,针对切换准备和切换执行阶段,从信令分析定位、参数精细优化、互操作协同提升3个维度开展优化工作,在信令指纹库快速定位、场景化参数设置、4G-3G邻区精确配置、弱覆盖全面发现、3G-4G协同优化5个方面聚焦落地,目前eSRVCC切换问题定界率达到85%以上,促进了eSRVCC切换成功率快速改善提升。
通过VoLTE端到端系统信令回溯功能,对eS⁃RVCC切换失败的单Case进行集中化分析,结合各接口信令点的代码含义,总结出问题点的典型特征和失败原因,进而通过以点带面的方式,对问题进行反推验证,从而形成问题原因的“指纹识别”库。
具体从信令分析定位、参数精细优化、互操作协同提升3个维度进行优化,提升eSRVCC切换成功率。
面对多网元信令交互复杂,VoLTE用户行为多,新网络优化经验少等诸多困难,eSRVCC“235”方法论能够快速定位、快速解决问题,节约人力和物力投入,具有较高的经济价值。
VoLTE高清语音是基于LTE网络的重要语音解决方案,必将经历一个长期的发展和完善的过程,稳定性与可靠性也将逐步地改善与提高。在VoLTE业务发展过程中,制定完整的端到端分析方法,部署端到端的分析系统,将有助于支撑VoLTE业务发展,有利保障用户感知。