VoLTE网络分组域设备容灾技术研究

2016-06-23 08:07鲍伟华谢志刚
电视技术 2016年2期
关键词:容灾

鲍伟华,谢志刚

(中国移动通信集团上海有限公司,上海 201206)

VoLTE网络分组域设备容灾技术研究

鲍伟华,谢志刚

(中国移动通信集团上海有限公司,上海 201206)

摘要:针对EPC网络中MME和SGW设备故障时VoLTE业务中断的问题,研究GTP链路故障检测机制、MME和SGW的实时容灾技术,形成MME和SGW的VoLTE主叫和被叫业务容灾方案,并提出各个容灾方案的部署策略,总结部署效果。实际应用表明容灾方案能够实现在MME和SGW设备故障时,将VoLTE业务实时倒换至其他正常运行的设备上,用户对故障无感知,实现了VoLTE业务不受影响的目标。

关键词:VoLTE;MME;SGW;容灾

在移动互联网时代的大背景下,运营商传统的语音和短信业务受到微信、QQ等OTT软件的冲击,出现了业务量增长放缓,甚至下滑的情况。如何重构运营商的业务优势,避免管道化,是摆在运营商面前的紧迫问题。

VoLTE支持高清语音和高清视频,可以为用户提供极佳的业务体验,同时支持类似微信等软件的即时消息、群组聊天、内容共享等RCS应用。因而在单卡双待、CSFB语音技术成熟商用的情况下,VoLTE解决方案的商用也被国内运营商提上日程。

VoLTE网络的容灾能力将直接影响商用时用户的业务体验。传统承载数据业务的EPC网络容灾方案对于数据上网等非实时类业务有较好的容灾效果,例如基于S1 flex的MME/SAEGW Pool技术,能够实现用户迁移,恢复数据业务。但该技术存在实时性不高的问题,无法满足VoLTE业务的容灾要求。

因此本文对承载数据业务的EPC网络容灾技术在VoLTE网络中的问题进行分析,并对VoLTE网络内MME和SGW设备的关键容灾技术进行研究,提出容灾方案部署策略,总结部署效果,为提升VoLTE网络安全性提供参考。

1VoLTE网络架构

VoLTE/eSRVCC网络架构如图1所示。

从网络结构[1]来看,VoLTE网络由无线网、传输网、核心网、PCC、信令网、IMS网络和支撑系统等组成,结构复杂。主要技术特点如下:

1)MME与MSC之间新增Sv接口[2],是区别于CS-FB语音方案SGs接口的最显著特征。

图1 VoLTE/eSRVCC网络架构

2)2G/3G/LTE核心网进一步融合[3],语音业务控制上移至IMS核心网[4]来完成。

3)语音业务、短信业务和增值业务通过AS业务平台来实现,并具备灵活的可扩展性。

4)PCC网络通过端到端QoS机制实现对VoLTE业务的承载质量保障,PCRF成为了必选网元。

5)语音业务承载在分组域核心网上,要求EPC设备具备高可靠性和容灾能力。

由此可见,分组域核心网,特别是EPC核心网,在VoLTE网络中将承载所有的语音和数据业务,其容灾能力将直接影响业务体验。

2EPC设备故障检测机制

为实现设备的冗余倒换,需要依托于快速的故障检测机制。EPC设备故障检测机制主要有两种,一种是通过GTP-C协议[5]的Echo Request/Response消息,另外一种是通过GTP-C信令消息中的Recovery信元[6]。检测流程适用于S5、S11接口,用来检测MME、SGW故障。

2.1基于GTP-C的Echo Request/Response消息故障检测

Echo消息故障检测流程如图2所示。

图2 Echo消息故障检测流程

基于Echo消息的故障检测流程如下:设备1发往设备2的Echo Request消息无响应(T3-RESPONSE定时器超时),设备1启动对设备2的故障检测;当连续多次请求(N3-REQUESTS)均未收到任何响应,设备1判断设备2故障;设备1持续对设备2进行检测,收到响应后,设备1确认设备2恢复业务。

2.2基于GTP-C消息的Recovery信元的故障检测

基于Recovery信元的故障检测流程如图3所示。

图3 Recovery信元故障检测流程

设备1和设备2会通过GTP-C消息内携带的Recovery信元,记录对方的重启计数器值。当设备2故障重启后,会将本地重启计数器递增,并包含在GTP-C信令消息中的Recovery信元内发送给设备1。设备1收到消息后,将设备2的重启计数器值与之前存储的值进行比较。若信令消息中的重启计数器值大于设备存储的值,则设备1判断设备2已故障重启。

3EPC设备容灾方案和部署策略

通过检测机制发现EPC设备故障之后,外围网元需要通过一系列的信令流程,实现VoLTE业务的实时倒换。传统仅承载数据业务EPC网元设备的容灾技术无法满足VoLTE实时性的要求,因此本节将对此问题进行深入分析,并研究适用于VoLTE网络的MME和SGW容灾方案,提出方案部署策略。

3.1MME容灾方案

3.1.1 MME Pool容灾问题分析

为实现MME的容灾,负责同一LTE无线区域的多个MME需要组成一个MME Pool,同一Pool内的设备负荷分担所辖无线区域的业务。通常MME Pool在LTE建网初期已经实现。因此有必要分析VoLTE技术引入后,MME故障时对语音业务的影响。

在VoLTE用户IMS APN承载建立过程中,即选定了为用户服务的MME、SGW和PGW。

VoLTE用户会周期性地发起IMS重注册,在用户进行IMS重注册过程中,若MME故障,则eNodeB会将用户接入MME Pool内正常工作的MME设备,MME会选择正常工作的SGW和PGW,为用户重新建立APN承载,从而实现MME的容灾。

值得注意的是,当用户进行IMS重注册之前,用户接入的MME故障,则会影响用户的VoLTE业务。

对于主叫业务,eNodeB会将用户接入MME POOL内正常工作的MME设备,MME会选择正常工作的SGW和PGW,为用户重新建立IMS APN承载,从而实现主叫业务恢复。但在恢复过程中,用户的首次主叫会失败。

对于被叫业务,SGW通过故障检测机制检测到MME故障,在收到PGW下发的IMS信令(包含在Downlink Data消息内)后,无法将DDN(Downlink Data Notification)消息发给故障的MME,导致信令流程中断,被叫业务受到影响(见图4)。

图4 MME故障时VoLTE被叫失败

为此需要在MME上实现VoLTE业务主被叫恢复功能,提升MME故障场景下用户被叫业务的体验。

3.1.2 MME的VoLTE被叫恢复方案

MME的VoLTE被叫恢复方案用于恢复MME节点故障时的用户被叫业务,当SGW检测到MME故障时,为用户触发被叫恢复流程。MME故障被叫恢复流程如图5所示。

图5 MME故障被叫恢复流程

具体信令流程如下:

1)VoLTE用户完成分组域的附着以及IMS域的注册。

2)MME Pool内MME间同步用户数据,包括IMSI、TA List和用户上下文等。

3)SGW通过故障检测机制检测到MME故障。

4)当故障MME上的用户有VoLTE被叫业务时,用户的IMS信令(包含在下行数据消息内)到达SGW。

5)SGW发送DDN消息给Pool内备份有该用户数据的MME。

6)MME根据备信息向用户发起寻呼。

7)UE发起附着或者Service Request流程。

8)用户IMS PDN连接恢复,恢复被叫业务。

3.1.3 MME被叫恢复方案部署策略

为实现上述被叫恢复功能,MME和SGW需要进行如下改造:

1)MME用户数据备份

MME之间需要增加一个同步接口,用于用户数据备份。根据备份信息的不同,可以实现的寻呼方式不同,具体分析如表1所示。

表1备份信息和容灾效果的关系

备份信息MME寻呼方式UE行为容灾效果IMSI+TAListIMSI寻呼用户重新附着用户重新附着后接通,接续时间略有增加IMSI+TAList+用户上下文S-TMSI寻呼业务请求直接接通,不额外增加接续时间

在实际部署时可根据实际需要对备份的数据进行选择。建议在设备容量足够的情况下,采用备份IMSI、TA List和用户上下文的方式。

考虑到MME存储Pool内其他有MME上的在线用户数据,需要占用大量的存储空间、接口带宽和CPU资源,因此在具体实施时建议MME Pool内MME采用链式互备方式。以3台MME组成的Pool为例,用户数据的链式互备方式如图6所示。

图6 MME Pool内用户数据链式互备方式

2)SGW配置要求

为了实现步骤5)SGW发送DDN消息给Pool内备份有该用户数据的MME,需要在SGW上配置MME Pool内的MME备份关系表,并维护各台MME的可用状态。一旦SGW发现用户归属的MME出现故障,则按照备份关系表发送DDN消息给备份MME,从而触发用户的被叫业务恢复。

3.1.4 MME的VoLTE主叫恢复方案

将MME的VoLTE被叫恢复方案进行拓展,可以解决MME故障时,用户首次主叫失败的问题。具体来说,eNodeB需要实现类似被叫恢复方案中SGW的功能,配置MME Pool内的MME备份关系表。当eNodeB检测到用户归属的MME出现故障(S1AP链路断连),则按照备份关系,将用户的Service Request消息转发给备份MME,从而触发用户的主叫业务恢复。

当然如果eNodeB不改造也可以实现主叫恢复。eNodeB遵循原先S1 Flex技术的功能,即在MME故障时将Service Request消息转发给MME Pool内任意MME进行后续呼叫接续。但在这种场景下MME Pool内所有的MME之间都要进行用户数据备份,网络开销较大,不建议采用。

3.2SGW容灾方案

3.2.1SGW Pool容灾问题分析

当用户进行IMS重注册之前,用户接入的SGW故障,会影响用户的VoLTE业务。具体来说:

对于主叫业务,MME通过故障检测机制检测到SGW故障,原有IMS APN承载阻断,需要重新建立承载,主叫业务受到影响。

对于被叫业务,PGW通过故障检测机制检测到SGW故障,无法向SGW转发IMS信令(包含在Downlink Data消息内),导致信令流程中断,被叫业务受到影响。

3.2.2SGW的VoLTE主叫恢复方案

SGW的VoLTE主叫恢复方案用于SGW节点故障时恢复故障节点上用户的语音主叫业务。具体流程如图7所示。

图7 SGW故障主叫恢复流程

对于SGW故障前的VoLTE用户,MME需要记录承载用户PDN连接的SGW/PGW地址,以及维护设备状态信息。当MME通过故障检测机制检测到SGW故障,MME根据APN恢复优先级,首先恢复受到影响的IMS PDN连接。APN恢复优先级在HSS内签约,在用户附着时插入MME,或者在MME上本地配置。

MME通过轮选SGW Pool内正常工作的其他SGW发送Create Session Request消息,重新建立IMS PDN连接。

值得注意的是,用户原先承载VoLTE用户IMS PDN连接的PGW上的承载需要释放,以防止资源被无效占用。PGW通过故障检测机制检测到SGW故障后,需要启动T-Release-PDN定时器。如果故障SGW不能在短时间内恢复,PGW待T-Release-PDN超时后,会释放所有VoLTE用户IMS PDN连接,并通过Gx接口通知PCRF用户的PCC策略未激活。IMS PDN连接恢复后,PGW再通知PCRF修改IP-CAN会话并更新策略。

考虑到MME上的用户状态不同,产生的行为不同,因此MME在选择新的SGW之前,需要进行相应的处理,具体如表2所示。

3.2.3SGW的VoLTE被叫恢复方案

SGW的VoLTE被叫恢复方案用于SGW节点故障时恢复故障节点上用户的语音被叫业务。

SGW被叫业务恢复方案的流程如图8所示。

具体信令流程如下:

1)PGW根据Create Session Request/Modify Bearer

表2SGW故障时MME对不同用户的处理方式

用户的状态/行为MME处理方式ECM_IDLE状态MME根据用户最近接入的TAI,选择SGWPool内其他SGWECM_CONNECTED状态MME释放S1连接和无线资源,等用户回到ECM_IDLE状态,发起ServiceRequest,重新建立S1连接和无线资源切换中源MME拒绝HandoverRequired请求,然后按照上述方式继续处理正在发起ServiceRequest先重分配SGW,再继续处理用户的ServiceRequest请求MME内TAU重分配SGW,然后继续TAU流程MME间TAU源MME在ContextResponse消息内指示目标MME需要SGW重分配,继续TAU流程

图8 SGW故障被叫恢复流程

Request消息,记录用户附着的MME地址。

2)PGW收到IMS信令(包含在Downlink Data消息内)。

3)当检测出为用户服务的SGW故障后,PGW轮选一台SGW Pool内的其他SGW发送PGW Downlink Triggering Notification消息,携带IMSI和MME地址。

4)备用SGW根据消息内携带的MME地址,将消息转发给相应的MME。如果PGW没有提供MME地址,SGW根据配置,将消息转发给Pool内所有MME。

5)如果MME找到了IMSI对应的UE上下文,MME向SGW返回PGW Downlink Triggering Acknowledge消息。

6)(可选步骤)如果MME没有查询到该IMSI的UE上下文,发送PGW Downlink Triggering Acknowledge消息,携带错误代码Context Not Found。

7)(可选步骤)如果SGW从MME收到PGW Downlink Triggering Acknowledge消息,携带错误代码Context Not Found,SGW将PGW Downlink Triggering Notification消息转发给Pool内所有其他的MME。

8)MME向UE发起S-TMSI寻呼。

9)UE发起Service Request,后续流程参照主叫恢复流程。

10)SGW向PGW返回 Downlink Triggering Acknowledge消息。

3.2.4SGW主被叫业务恢复方案部署策略

为实现上述主被叫恢复功能,MME、SGW、PGW、HSS需要进行如下改造:

为实现主叫方案中的VoLTE业务优先恢复,HSS需要升级支持APN恢复优先级的签约功能。由于VoLTE业务一般使用固定的IMS APN,因此可以在MME上直接配置IMS APN为高优先恢复等级,以减少HSS的改造费用。

考虑到VoLTE用户较多,MME重新为VoLTE用户分配SGW时,需要合理设置参数,控制分配的速度,防止核心网设备过载。同时需要兼顾其他重要用户的无线专线数据业务恢复。

为实现被叫方案步骤3),PGW需要配置一张SGW Pool内所有SGW的地址列表,并指定SGW的主备关系,实际部署时可以采用链式互备方式,提高PGW轮选的效率。

为实现被叫方案步骤4)和7),SGW需要配置MME Pool内所有MME的地址列表。实际配置时,仅需要在SGW上配置同覆盖TAC的MME Pool地址列表。

4部署效果

容灾方案部署前后,MME和SGW设备故障时VoLTE业务的恢复情况对比如表3所示。

表3容灾方案部署前后效果对比

故障设备方案部署前方案部署后MME1)用户主被叫业务均受影响2)当用户第一次数据/语音业务失败后用户的主被叫业务恢复1)主被叫业务不受影响2)主叫接续时间略有增加,用户无感知3)被叫接续时间不变,用户无感知SGW1)用户主被叫业务均受影响2)主被叫业务恢复与数据业务恢复同步进行,不区分优先级1)主被叫业务不受影响2)呼叫接续时间略有增加3)语音业务优先恢复

从方案部署后的效果来看,MME和SGW设备故障时VoLTE主被叫业务均不受影响,呼叫接续时间仅略有增加或者不增加,用户业务感知得到极大提升,达到了较好的容灾目的。

5结束语

VoLTE网络MME和SGW容灾方案弥补了传统承载数据业务EPC网络容灾功能不具备的实时性的特点,因而能够确保设备故障情况下,VoLTE的语音业务不受影响。由于VoLTE网络结构复杂、涉及网元众多,针对PGW,PCC,IMS,AS等设备,也需要进一步研究相应的容灾技术和方案,以实现VoLTE整体网络的容灾目标。

参考文献:

[1]中国移动.中国移动面向VoLTE的TD-LTE技术白皮书[S].2013.

[2]3GPP TS 23.216,Single radio voice call continuity (SRVCC)[S].2012.

[3]3GPP TR 23.856,Single radio voice call continuity(SRVCC) enhancements[S].2010.

[4]3GPP TS 23.237,IP multimedia subsystem (IMS) service continuity[S].2012.

[5]3GPP TS 29.274,Tunnelling protocol for control plane (GTPv2-C)[S].2014.

[6]3GPP TS 23.007,Restoration procedures[S].2014.

Research on disaster recovery technology of EPC equipments in VoLTE network

BAO Weihua, XIE Zhigang

(ChinaMobileCommunicationsCorporationShanghaiCo.,Ltd.,Shanghai201206,China)

Abstract:To solve the problem of VoLTE service interruption during breakdown of MME and SGW equipment in EPC network, technologies of GTP path failure detection and MME/SGW disaster recovery are researched. Disaster recovery schemes of mobile originate/mobile terminated VoLTE calls are formed. Deployment policy of each scheme is proposed and actual deployment effect is summarized. The result shows that VoLTE service could be seamless handover to other equipments in normal status during breakdown of MME and SGW equipment, and users are not aware of the breakdown, which proves that the goal of the disaster recovery scheme is realized.

Key words:VoLTE; MME; SGW; disaster recovery

中图分类号:TN949.6

文献标识码:A

DOI:10.16280/j.videoe.2016.02.019

作者简介:

鲍伟华(1981— ),硕士,工程师,主研移动通信分组域和电路域核心网的演进、网络管理、运维自动化;

谢志刚(1981— ),工程硕士,工程师,主研移动通信分组域和电路域核心网的演进、网络管理、运维自动化。

责任编辑:许盈

收稿日期:2015-09-09

文献引用格式:鲍伟华,谢志刚. VoLTE网络分组域设备容灾技术研究[J].电视技术,2016,40(2):96-102.

BAO W H, XIE Z G. Research on disaster recovery technology of EPC equipments in VoLTE network [J].Video engineering,2016,40(2):96-102.

猜你喜欢
容灾
云平台容灾技术研究与实现
高速公路收费中心容灾备份系统建设方案分析
关于建筑企业容灾备份系统方案的探讨
基于虚拟化技术构建武汉商学院绿色数据中心的探索与实践
Oracle MAA在汽车行业电子政务平台中的应用
基于中兴软交换的电力通信网络容灾系统建设
浅谈服务器虚拟化的几种容灾恢复机制
基于数据容灾技术在企业信息系统中的应用研究
>> 中共山东省纪委办公厅、齐鲁石化赴山东省电子文件(档案)容灾备份中心开展电子档案容灾备份工作
建设双中心容灾系统模式以保障业务连续性