张乐,马洪源,卜忠贵
(1 中国移动通信集团河南有限公司,郑州 450008;2 中国移动通信集团设计院有限公司,北京 100080)
随着VoLTE商用的开展,移动通信即将迎来下一代融合通信时代。作为以全IP化网络架构为基础的VoLTE业务,业务质量和稳定性是良好的商用体验面临的最大挑战。VoLTE语音业务规模化商用后,业务的容灾实施将提上日程。
VoLTE语音业务是一项复杂的系统工程,端到端呼叫流程涉及到电路域、分组域、IMS域众多网元节点,图1为VoLTE业务涉及的主要网络节点。
图1 VoLTE业务涉及的主要网络节点
EPC网络包括MME、SAE-GW、PCRF 3个主要网络节点,VoLTE业务中潜在故障点有14个,如图2所示。
EPC网络中MME、SAE-GW和PCRF主要通过组Pool方式实现网络容灾。
VoLTE业务承载建立完成后,长时间(10~20 s)不使用业务,则eNode B请求EPC核心网释放S1接口连接,核心网MME仅保存用户的TA信息,并维持核心网侧的承载连接;同时,UE无法获得核心网MME、SAE-GW的工作状态。
图2 EPC网络潜在故障点
在用户APN承载建立过程中,即选定了为用户服务的MME、SAE-GW和PCRF。
VoLTE用户会周期性地发起IMS重注册,在用户进行IMS重注册过程中, 若MME、SAE-GW、PCRF故障,则eNode B会将用户接入MME Pool内正常工作的MME设备,MME会选择正常工作的SAE-GW,LDRA会在PCRF Pool中为用户选择新的可用PCRF为用户重新建立APN承载,从而实现MME、SAEGW和PCRF的容灾。
若在IMS重注册之前,用户接入的MME、SAEGW故障,则对于:
(1) 主叫业务:eNode B会将用户接入MME Pool内正常工作的MME设备,MME会选择正常工作的SAE-GW,为用户重新建立IMS APN承载,从而实现主叫业务恢复。
(2) 被叫业务:若SAE-GW故障,则PCRF通过Gx接口为被叫用户建立IMS APN专用承载失败,无法为用户建立呼叫,直至被叫用户进行IMS重注册,或发起数据业务,或移动出S-GW覆盖区域进行IMS APN承载重建;若SAE-GW未故障而MME故障,则S-GW通过S11接口通知MME为被叫用户建立IMS APN专用承载失败,无法为用户建立呼叫,直至被叫用户进行IMS重注册或TAU更新。
若PCRF故障,则EPC网络无法为用户建立用于主被叫音视频语音业务的专用承载,呼叫失败。
综上,现有的MME和SAE-GW设备Pool容灾能够实现VoLTE主叫业务的容灾,而对于VoLTE被叫业务的容灾,存在一定的呼损,被叫业务恢复时长取决于VoLTE进行IMS重注册的时间和发起VoLTE主叫业务、TAU的时间。
目前VoLTE业务中,当MME故障时,VoLTE主叫、被叫业务均受影响,其中主叫第一次失败第二次接通,被叫无法接通;通话过程中掉话。
链式备份方案中,MME Pool内仅备份UE的IMSI和TA信息。当MME故障时,备份MME只能用IMSI寻呼UE并重建PDN,无线网和核心网负荷大,时延大,同时第一次VoLTE主被叫也是失败的。
优化的方案中,MME会话信息备份到Pool内多个MME上,且备份信息为UE全量信息。MME的信息被动态hash备份到池组内MME上,任一MME都可以作为备份MME,当一台MME故障时,业务被动态均匀地分配到池组内所有MME上,不存在备份链中断的风险;而且eNode B和S-GW上不需静态维护MME备份链列表。优化方案中,当MME故障时,PDN只需修改不需要重建,对无线网和核心网影响小,时延低,且主被叫均不受影响。
基于S1-MME链路故障、S11链路故障、MME节点故障和SGW节点故障4种场景下24个测试项,通过eNode B拔线、中断链路等方法对MME、S-GW,S1-MME接口、S11接口等节点进行故障恢复验证,MME优化容灾方案能够实现VoLTE通话过程中发生故障时VoLTE不掉话,用户无感知。
现网VoLTE和LTE数据业务共用PCRF,当PCRF发生故障,主叫/被叫时网络侧会通知HSS,再由HSS通知MME让用户重新激活PDN会话信息,选择Pool内另外一个正常的PCRF来处理业务。该方案会触发大量的PDN会话重建、寻呼等动作,对无线网和核心网的信令冲击较大,严重时可能导致周边网元节点负荷过载。
优化方案中VoLTE业务使用专用PCRF,采用1+1地理容灾。主用PCRF与备用PCRF实时同步会话信息,并监测对方状态,如果主用PCRF发生故障,备用PCRF来接管工作处理会话。两台PCRF部署在异局址,但采用相同的主机名,对外呈现一个逻辑节点;切换时周边节点(P-CSCF、P-GW)不感知,充分保障业务的连续性。
优化方案可以保护VoLTE主被叫不受影响,Gx链路故障、Rx链路故障和PCRF单节点故障不会对用户信令有任何影响。需多购买一套PCRF硬件和一个软件功能,由于VoLTE专用PCRF采用通用默认策略,不需要SPR,相应减少SPR软硬件需求。
采用命令关闭端口、拔线、断链路等方法模拟测试如下6种场景:
(1) 主用和备用PCRF间双向手动切换:验证主用和备用PCRF能够成功通过手动触发进行来/回切换,在切换中前后均能正常承载VoLTE业务。
(2) 主用PCRF重启触发自动切换:该测试验证主用PCRF异常时能够成功自动将业务切换至备用PCRF。
(3) 备用PCRF重启触发自动切换:该测试验证备用PCRF异常时,主用PCRF业务处理情况。
(4) 主用PCRF侧链路全阻情况下的异常处理(PCRF宕机):模拟主用PCRF宕机,把主用PCRF到DRA的链路全部闭塞,该测试验证主用PCRF到DRA链路全阻断时,PCRF触发自动切换。
(5) 单台DRA宕机情况下的异常处理:模仿单台DRA宕机,阻断相关测试链路,测试业务通过另外一台DRA进行信令传送。
(6) PCRF单条链路阻断情况下的异常处理:PCRF设置单条Gx链路阻断,PCRF通过其他链路进行信令传送。
通过对PCRF备份状态、切换前后测试用户的VoLTE业务是否受到影响,以及切换后是否能够进行新的主叫/被叫形式的语音/视频业务等内容检查;试验表明该方案达到预期效果,VoLTE业务未受影响。
优化方案中MME、SAE-GW和PCRF网元中业务板卡N+1实时同步备份会话信息,所有板卡都是工作状态,板卡间完全负荷分担。以MME信令处理板为例,UE终端建立会话信息,当一个板卡处理该会话,会同时在另外一个板卡备份全量信息;当MME板卡故障,MME会将主叫或者被叫的信令路由到实时备份该用户会话的板卡上,会话信息不丢失,主被叫成功。
通过阻塞、重启板卡针对主叫振铃终,被叫振铃中和通话过程等不同场景验证MME/PGW/SGW/PCRF板卡冗余保护效果,多次测试结果符合预期,业务正常呼叫流程不受影响。
SAE-GW也采用1+1地理容灾,两台SAE-GW部署在异局址,采用相同的主机名,对外呈现一个逻辑节点。主用SAE-GW与备用SAE-GW实时同步用户会话信息,并监测对方状态,如果主用SAE-GW发生故障,备用SAE-GW自动切换接管。由于该方案实施成本较高,没有进行网络测试验证;同时该方案对机房/电源/传输等资源消耗较多,现网部署建议慎重考虑。
表1 容灾优化方案投资效益分析
MME容灾优化和EPC板卡实时备份无额外投资。但PCRF地理容灾需新增一套硬件,无须新增后端SPR。按照PCRF 硬件满配,软件容量200万PDP/300万PDP两种模型,基于2017年某采购模型测算:
模型1:单套PCRF支持200万PDP,折合200/1.05=190.5万VoLTE用户。
合计增加的投资为275-170=105万元,考虑到配套及其他费(取10%),约115.5万元。折合每个VoLTE用户需要增加投资115.5/190.5=0.61元。
模型2:单套PCRF支持300万PDP,折合300/1.05=285.7万VoLTE用户。
合计增加的投资为275-208=67万元,考虑到配套及其他费(取10%),约73.7万元。折合每个VoLTE用户需要增加投资73.7/285.7=0.26元。
如表1所示,实现该优化方案,每个VoLTE用户在两种模型下分别需增加投资0.61元或0.26元。
EPC网络在VoLTE业务中的优化容灾方案在容灾原理和业务保障方面均实现了EPC容灾的新突破,验证了对除SAE-GW外的EPC网络中13个故障节点的实时保护,能够保证VoLTE业务中第一次主被叫均不受影响,通话过程中出现故障不掉话,用户无感知。
优化的容灾方案能够通过较小的成本代价实现更为完善的容灾效果,带来更好的用户体验,有助于提升用户粘性,产生源源不断的间接效益。