朱玉峰,黄耀军,唐子民
(中国移动通信集团公司广东有限公司深圳分公司,深圳 518048)
VoLTE是基于LTE网络为用户提供高质量语音业务的技术,作为国内运营商应对OTT挑战的关键技术,对运营商的战略转型有着不同寻常的意义。随着各大运营商对VoLTE的快速部署,VoLTE网络已经初具规模,但由于新技术的复杂性以及建设部署中的不确定性,当前VoLTE网络建设中如何保障网络的健壮性,快速定位故障原因、抢通业务依然是网络运维工作中面临的巨大挑战,首先了解一下VoLTE现网组网方案及容灾机制原理。
VoLTE容灾范围包括EPC、CS和IMS 3个网络域。其中,EPC域包括MME、S/P-GW、PCRF;CS域包括MSS、MGCF;IMS域包括SBC、ISBG、VoLTE AS,其拓扑结构如图1所示。
图1 VoLTE网络拓扑
当IMS网络中某个网元故障后,通过采用容灾倒换机制,使网络中其它同类网元接管故障网元的业务,在这个过程中可能会造成一定的业务损失,因此需要对容灾倒换产生的用户体验提出要求。
当IMS网络中某个网元故障恢复并承载业务后,通过采用容灾倒回机制,使网络中一定范围内同类网元的部分业务快速迁移至这个网元上,因此需要对容灾倒回可迁移的业务量和所需时长提出要求。
IMS域中使用SIP协议通信的网元的故障检测基于SIP协议的OPTIONS消息,使用此故障检测方式的IMS网元包括VoLTE SBC、I-CSCF、S-CSCF、MGCF、VoLTE AS(TAS、SCC AS)。IMS域 其 它网元采用各自原有故障检测方式,此处不赘述。适用于Mw、ISC、Mg等接口网元。
IMS域故障检测流程如图2所示。
图2 IMS域故障检测流程
步骤1:源节点网元发送至目的节点网元的REGISTER、INVITE、MESSAGE等SIP消息。
步骤2:在t1时间内未收到响应,源节点网元启动向目的节点网元的OPTIONS检测(检测周期和次数可配置)。
步骤3:检测后,未收到目的节点网元任何响应,判断目的节点网元故障,移入黑名单,在检测到故障恢复之前,任何消息均不发送至此网元。
步骤4:源节点网元可选等待t3时间后,启动OPTIONS检测(检测周期和次数可配置),确定目的节点网元故障是否已恢复。
步骤5:源节点网元收到目的节点网元的200 OK响应。
步骤6:源节点网元判断目的节点网元故障恢复,将其移出黑名单。
目前的IMS容灾主要基于OPTIONS信息检测,实现全网网元级别的容灾备份,但是还存在如下不确定因素。
(1)检测机制可以实现故障网元的快速隔离,对于非注册类网元,可以完美实现业务的快速容灾切换;对于保存用户信息的注册类网元,可以保证新注册用户业务正常,但是对于已注册用户,如无主动操作,可能会影响用户的被叫业务,如SBC类网元。
(2)假活场景的存在,导致网元可以正常响应OPTIONS消息,但是无法正常提供业务,容灾检测机制失效,需要通过人工干预实现隔离。
(3)IMS网络路由高度依赖ENS的地址解析翻译,ENS故障可能会导致整个IMS网络的瘫痪,考虑到网元的重要性,需要增加ENS网元的容灾备份冗余度。
综上,考虑到以上存在的问题和因素,容灾机制还存在缺陷和不足,一旦检测机制无法生效,鉴于VoLTE网络的复杂性,大大增加了故障定位的难度和业务抢通的时间,严重影响用户业务感知。基于以上原因,我们对VoLTE业务流程研究和梳理,提出了一种利用CS网络在业务层面实现VoLTE网络容灾的方案。
VoLTE注册:VoLTE用户使用VoLTE终端在EPC、IMS网络完成附着和注册,为后续呼叫等IMS多媒体业务提供基础。VoLTE注册完成后EPC网络建立IMS信令缺省承载通道,用户获取IMS网络P-CSCF地址,P-CSCF、S-CSCF 均保存用户信息。
图3 VoLTE呼叫及被叫锚定流程
锚定:为了保证用户业务一致性,VoLTE用户的业务处理需要锚定到IMS域处理。由于主叫补充业务相对较少,中国移动采用“主叫不锚定,被叫锚定”的方案,即VoLTE用户作为被叫一定要经过IMS域处理,特别是主叫从CS网络发起呼叫时。具体业务流程如图3所示。
(1) VoLTE用户正常主叫呼叫流程是通过EPC网络进入本地IMS网络,通过在SAEGW上关闭IMS APN的方式,可以将主叫呼叫流通过CSFB方式流入本地CS网络,实现这部分用户主叫业务的容灾。
(2) VoLTE用户做被叫,主叫用户起呼于CS网络,被叫呼叫流进入IMS网络是通过被叫锚定进入IMS网络,通过关闭被叫锚定可以使被叫流程不再经过IMS域处理,实现容灾。
(3) 通过以上两种方式,关闭进入IMS核心网的两个入口,实现将VoLTE用户切换回CS网络,主被叫都不再经过IMS域处理,具体如图4所示。
2017年3月,某地运营商部分客户无法正常拨打接听电话,提示“用户正忙”,故障位置不集中,客服引导投诉用户通过短信取消VoLTE功能后,用户主被叫通话恢复正常;投诉量迅速增加,故障矛头直指VoLTE网络,由于故障位置不集中,且网元运行无明显异常,维护人员无法在短时间内定位故障原因,此时为保障用户正常通话,启动强制用户CSFB方案,操作实施10min内迅速恢复用户语音业务,取得了很好的业务抢通效果。
图4 容灾原理图
CSFB容灾方案实现了极端情况下通过CS网络对IMS业务的快速容灾,能有效阻断本地PS网络和CS网络语音呼叫流,达到了提升VoLTE业务运维能力和用户业务感知的目的。但是不可否认的是,本方案也还存在一些不足,如无法实现异地VoLTE用户呼叫本地VoLTE用户的业务抢通。VoLTE 的建设还需要更多更深入的研究,各类用户体验还需要不断地提升和优化,此文旨在抛砖引玉,借此问题的分析,希望能够为网络运维能力的提升提供一种新的思考方式和角度。
[1] 3GPP TS 24.228 V5.15.0. Signalling flows for the IP multimedia call control based on Session Initiation Protocol (SIP) and Session Description Protocol (SDP)[S]. 2006.
[2] 3GPP TS 23.272.Circuit Switched (CS) Fallback in Evolved Packet System (EPS); Stage 2[Z]. 2009.
[3] 3GPP TS 23.228 V12.4.0. IP Multimedia Subsystem (IMS)[S].2014.
[4] 王辰, 李志锋, 刘钧. 基于IMS的VoLTE语音业务实现方案的研究及优化[J]. 电信技术, 2015(1):86-89.
[5] 赵训威, 林辉, 张明. 3GPP长期演迸(LTE)系统架构与技术规范[M]. 北京: 人民邮电出版社, 2010.
[6] 刘英桥,朱锋,潘伟坚. VoLTE用户呼叫特服号码感知问题研究及解决方案[J]. 电信工程技术与标准化,2017(1).