许盛宏 刘智德 林俐
PGW作为LTE网络核心控制设备,其安全可靠运行将影响LTE业务的稳定提供。针对目前PGW容灾问题进行了分析,通过对三种可行方案的研究而提出了可靠容灾解决方案,并阐述可靠容灾方案的具体实现,力求为运营商部署安全可靠的LTE网络提供有益的参考。
PGW 实时恢复 容灾
1 引言
目前运营商加紧推进部署VoLTE业务,LTE网络是VoLTE业务核心,因此很有必要提升LTE网络组网的安全可靠性。在LTE网络中,PGW(PDN Gateway,分组数据网网关)设备是作为用户数据业务和VoLTE业务的承载通道,负责用户的IP地址分配、数据包的路由及前转和用户相关业务的计费;SGW(Serving Gateway,服务网关)设备是负责基站和PGW之间的数据包的路由和前转;MME(Mobility Management Entity,移动管理实体)设备是负责移动性管理、会话管理、用户鉴权、漫游控制以及PGW、SGW的选择等方面功能。因此,PGW是LTE网络核心控制设备,其安全可靠运行相当重要。
当主用PGW设备故障时,接管PGW无法实时恢复主叫和被叫业务,特别是当前的PGW设备都采用集中部署方式,将会导致大面积业务长时间瘫痪,对VoLTE业务影响尤为严重。为了提升LTE业务质量服务水平,很有必要研究一种PGW可靠容灾解决方案。
2 目前PGW容灾存在的问题
由于主用和备用PGW设备同步相关容灾数据将会导致可用资源的额外消耗、同步数据的不完整等问题,所以目前主备PGW之间不采用相互同步。目前PGW设备容灾方案实现流程如图1所示:
对于主叫容灾恢复,当前服务的PGW设备瘫痪时,用户发起主叫业务请求将会发送到当前服务的MME上,由于MME发现用户当前服务的PGW已经故障,用户将无法找到可用承载通道,就会向用户发送业务拒绝,指示终端发起重新附着,将会中断本次呼叫,待用户重新附着成功后,用户再次发起主叫才能恢复主叫业务。对于被叫容灾恢复,当用户服务的PGW故障时,AF(Application Function,应用服务器)检测到PGW故障后,AF将下行数据请求发送至接管PGW,由于接管PGW没有用户相关信息而无法处理下行数据请求,被叫业务无法正常建立,用户将一直无法得知被叫业务无法接入,待网络设定的TAU(Tracking Area Update,跟踪区更新)更新周期到达后,用户就会发起TAU更新,此时才会发现当前服务PGW故障而无法处理,然后用户主动发起重新附着请求,成功附着后业务才可恢复。目前现网配置TAU周期更新为1小时,那么此时被叫业务将会中断大约1小时。因此,目前PGW容灾方案无法实时恢复业务,也就无法保证LTE业务的稳定提供。
3 可行解决方案分析
3.1 方案一:基于PCRF存储
方案一采用基于PCRF(Policy and Charging Rules Function,策略与计费规则功能)存储容灾数据的实现方法。在用户进行初始附着时,PCRF存储主用PGW传送的当前服务SGW信息。当用户服务的PGW故障时,对于主叫业务的恢复,MME在成功建立SGW、PGW承载后而实时接管用户主叫业务,不会中断当前主叫业务请求;对于被叫业务的恢复,PCRF将之前保存的容灾数据通过信令传送到备份PGW,应用服务器(P-CSCF/SBC)通过承载备份路由选择接管PGW,实现实时恢复。
此方案需PGW增加容灾用户IP管理功能以及扩展相应信令流程参数。此方案可实现首次呼叫不会中断,实时恢复业务,不需要主备PGW设备之间相互同步,减少设备额外开销,但需已有信令的扩展参数,PGW改造较大。
3.2 方案二:基于HSS+AS
方案二采用基于MMTelAS查询融合HSS(Home Subscriber Server,归属用户服务器)(IMS-HSS和EPC-HSS合设)获得相关设备状态实现容灾的方法。当用户服务的PGW故障时,对于主叫容灾恢复,通过SGW主动探测用户面报文,在用户报文中断时,触发重新附着、业务承载重新建立;对于被叫容灾恢复,通过HSS互通获取PGW为故障状态,HSS下发请求给MME,MME发送基于IMSI的寻呼消息触发重新附着、业务承载重新建立恢复。
此方案需要IMS和EPC的HSS之间增加接口或者新建融合HSS,IMS的MMTelAS需要升级支持被叫域选择功能,MME需将PGW故障时的相关信息送至HSS。此方案不需要SGW之间同步,业务恢复较快,但首次呼叫会中断,需要IMS和EPC之间的HSS增加互通接口,同时用户作为被叫都需MMTelAs设备查询用户归属的HSS,必然导致信令开销和处理时延较大。
3.3 方案三:基于HSS+I-CSCF
方案三采用基于I-CSCF(Interrogating-CSCF,查询CSCF)查询融合HSS获取相关设备状态实现容灾的方法。利用MME对PGW的状态感知,通过融合HSS对用户呼叫请求的识别与控制以及MME对承载建立的控制,实现容灾业务实时接管。当用户服务的PGW故障时,MME通过检测机制感知SGW、PGW故障状态,并将故障状态通知融合HSS,当用户有被叫请求时,通过I-CSCF、融合HSS触发用户重新建立承载以及重注册后响应呼叫请求,确保被叫业务实时接管;当发起主叫请求时,通过成功重新建立PGW承载后终端自动重注册以及重发业务请求,网络设备将正常处理业务请求,不会中断当前主叫业务请求。
此方案需要IMS-HSS和EPC-HSS之间增加接口或者新建融合HSS,同时MME增加PGW容灾接管相关功能。此方案恢复主叫、被叫业务较快,不需要PGW之间同步,无需额外增加信令流程,但MME需支持容灾接管功能,I-CSCF处理容灾用户业务存在较大时延,实时恢复需要终端支持触发重注册消息。
3.4 方案对比分析
如表1所示,通过对组网方式、数据同步、接管话务、网络改造等方面分析可知,方案一不需要融合HSS支持,并可实时恢复主叫、被叫业务,接管风险较小。因此,在IMS HSS和EPC HSS分开部署时,PGW容灾方案考虑使用方案一;在IMS HSS和EPC HSS合设时,可以考虑使用方案三。由于目前现网的IMS HSS和EPC HSS主要是分开部署的,所以PGW可靠容灾方案推荐使用方案一,以提升LTE业务运行的稳定性。
4 方案一的具体实现
4.1 容灾数据存储
此方案需增加一个容灾数据存储流程以实时恢复容灾业务。在正常发起附着请求,PGW和PCRF之间建立会话时,当前服务PGW将用户当前服务SGW信息传送给PCRF,包括SGW的IP和用户的TEID等信息,可以通过扩展CCR消息的参数实现,PCRF保存此时的SGW信息,此时数据备份不需要主用PGW和接管PGW之间的直接同步。PGW容灾数据存储流程如图2所示。
具体步骤说明如下:
(1)在用户发送附着请求时,MME将会根据数据配置选择一个可用的SGW、PGW设备;
(2)MME向已选定可用的SGW、PGW1发送创建会话请求消息,请求创建业务承载通道;
(3)PGW1将会根据数据配置选择PCRF发送会话建立请求消息,携带SGW信息;
(4)PCRF发送会话建立响应消息给PGW1;
(5)PGW1发送创建会话请求消息给MME;
(6)MME设备向用户发送用户附着接受消息。
4.2 主叫容灾恢复
当用户服务的PGW故障时,用户发起主叫业务请求将会发送到当前服务的MME上,MME通过SGW检测到当前服务PGW故障后,发起重新建立承载请求,在成功建立SGW、PGW承载后,继续处理本次呼叫,此时MME就不会中断当前主叫业务。PGW主叫容灾恢复实现流程如图3所示:
具体步骤说明如下:
(1)用户向当前服务的MME设备发起业务请求消息;
(2)MME通过SGW检测到当前服务的PGW1故障后,根据数据配置选择一个接管的PGW2;
(3)MME通过在SGW、PGW2之间重新建立承载,恢复用户业务的承载通道;
(4)MME向用户发送业务接受消息;
(5)UE(User Equipment,用户终端)的主叫业务恢复正常处理。
4.3 被叫容灾恢复
对于被叫容灾恢复,当用户服务的PGW故障时,AF将业务认证触发到PCRF,PCRF通过业务授权将之前保存的SGW信息传送至接管PGW,接管PGW找到当前服务的SGW,AF通过承载备份路由将下行数据请求送至一个可用的接管PGW,接管PGW具备管理容灾用户IP能力,确保了用户被叫业务正常有效处理,实现实时业务恢复,不再需要等待1小时才能恢复业务了。PGW被叫容灾恢复实现流程如图4所示。
具体步骤说明如下:
(1)PCRF检测到PGW1故障;
(2)当AF收到用户作为被叫的请求时,向PCRF发送业务认证消息;
(3)PCRF向根据数据配置选择可用的PGW2发送业务授权消息,携带SGW信息,为用户预先分配资源;
(4)接管PGW2没有用户相关数据,但根据PCRF送过来的SGW信息,向当前服务的SGW发起下行触发承载建立消息,指示建立承载通道,此时服务的SGW向当前MME转发此消息;
(5)MME收到此下行触发承载建立消息,向SGW和PGW2重新建立默认和专用承载;
(6)MME向UE发起建立业务承载的请求,包括默认承载和专用承载;
(7)AF通过承载备份路由(到同一个目的地采用主备用路由配置,主用路由故障时选择备用路由)将下行数据请求送至一个可用的接管PGW2;
(8)PGW2待业务承载建立完成后就会进行数据转发,从而被叫业务恢复正常处理。
5 结束语
本文针对目前PGW容灾存在的问题,提出了三种可行的解决方案,并最终建议采用基于PCRF存储容灾数据的实现方法(方案一)。此方案改动较小且容易实现,并可高效、实时接管恢复容灾业务,将有力推动LTE业务的规模化可靠应用。在现网应用时,建议根据实际情况进一步优化解决首次呼叫恢复时长较大的问题。
参考文献:
[1] 许盛宏,时新建,李力卡. LTE网络SGW高效可靠容灾方案研究[J]. 电信技术, 2015(7): 46-48.
[2] 程鸿雁. LTE核心网EPC融合演进解决方案[J]. 电信技术, 2013(4): 30-33.
[3] 许盛宏,李力卡,陈庆年. LTE网络MME的安全容灾方案研究[J]. 移动通信, 2015(22): 9-13.
[4] 谢纪鹏,黄艳,廖振松. 基于容灾架构的LTE高可靠网管体系研究[J]. 信息通信, 2014(10): 196-197.
[5] 李旭姣. LTE核心网技术研究与网络建设[D]. 南京: 南京邮电大学, 2014.
[6] 杨红梅. LTE核心网演进及部署[J]. 现代电信科技, 2013(11): 12-16.
[7] 许盛宏,李力卡,刘智德. IMS核心网元准POOL容灾方案研究[J]. 移动通信, 2011(13): 19-23.
[8] 段鹏程,喻成霞. LTE核心网EPC语音解决方案研究[J]. 中国新通信, 2015(9): 56.
[9] 刘婷婷,刘永毓. LTE核心网关键技术探讨[J]. 中国新通信, 2015(22): 64-65.
[10] 王少波,何丽华,李明晏. LTE核心网质量提升方案分析[J]. 数据通信, 2015(3): 10-12.
[11] 霍龙社,甘震,马泽芳,等. 面向LTE的移动核心网部署策略探讨[J]. 信息通信技术, 2013(2): 43-48.