移动网CSFB用户“双活”问题分析

2020-06-10 07:50
科技传播 2020年9期
关键词:移动网流控短信

随着移动通信网络的高速发展,各运营商建设了LTE(Long Term Evolution,长期演进)网络来满足人们快速增长的无线数据业务需求。语音是电信网络的一个基本功能,因此,需要考虑为用户提供LTE 数据业务的同时继续为用户提供高质量的语音服务。在部署移动IMS 网络之前,CSFB 成为最优的语音过渡方案。CSFB 即CS(Circuit Switch)FallBack 业务,上网在LTE 网络、语音业务需回落至2/3G 网络完成。随着CSFB 用户的增加,尤其是移动核心网CS 域MSC(Mobile Switch Center)组POOL 后,CSFB 用户容易双活的属性便日益凸显。本文从双活产生的场景、形成的原因及应急恢复措施等方面着手,逐一进行分析。

1 “双活”概述

当CSFB 用户A 在MSC-A 和MSC-B 设备局下均存在签约数据,归属HSS记录用户A在MSC-B上注册,但用户A 实际在MSC-A 下进行注册活动,我们称用户A 便是一个“双活”用户。

发生“双活”故障后,当用户A 做被叫时,HSS(Home Subscriber Server 归属签约用户服务器)根据自己保存的A 用户登陆MSC-B GT(Globe title,全球码)通过provide roaming number 响应消息回给GMSC,导致用户A 被叫异常;而主叫用户短信中心根据寻址到的被叫MSC-B GT 进行下发短信时也会导致A 用户无法接收短信。由于HSS 侧记录的MSC GT 与用户活动的MSC 不一致,同样也会导致BOSS 侧订阅类消息无法下发至活动MSC-A,从而无法对用户进行欠费停机等操作。

2 移动网用户“双活”场景

移动网用户“双活”通常有HSS 侧、传输层或MSC 侧超负荷三大方面原因,并引发链路负荷过载、流控启动等一系列高警,从而引发cancel location 消息丢弃导致,上述问题一般出现在下面几个重要环节:

1)核心侧:HSS 网元割接,需进行上百万用户数据迁移;交换端局存储用户数据的单板重启,需在操作前将该局下用户全部迁出,重启单板后,将用户重新迁回。用户数据迁移过程中,瞬间上报的大批量位置更新消息,易造成C/D 口链路负荷过载等告警。

2)传输IPRAN(IP Radio Access Network,无线接入网IP 化)操作:根据网络规划,现网enodeB 基站通过IPRAN 接入4G 网络,若IPRAN 双平面异常或无法进行倒换,则4G 基站瞬断后,导致短时间内大量用户在2/3G 网络下重新发起位置更新,引发网络冲击;恢复之后大量用户又重新回到4G 进行注册,再次引发冲击。

3)IP 承载网故障,导致端局与HSS 中断。当业务恢复后,短时间内大批量用户重新发起位置更新,造成网络冲击。

4)BSC/RNC(基站控制器/无线网络控制器)进行批量操作,引发批量2/3G 基站掉站。业务恢复后,同样短时间内大批量用户发起位置更新,造成网络冲击。

5)HSS 与注册端局MSC 之间传输中断、某段链路中断或其他原因引发消息包丢失。严重情况下,上述告警出现的同时引发HSS 侧启动“流控”。

3 移动网用户“双活”案例分析

3.1 故障现象

“双活”用户投诉被叫业务异常或无法接收短信。HLR 查询用户登陆MSC GT 显示为MSC-B;MSC/VLR 上查询用户状态:MSC-A 和MSC-B 局都存在用户数据,但用户最新活动时间MSC-A 的记录要晚于MSC-B 的记录,这表明该用户当前实际在MSC-A 下。同时,用户在MSC-A 登陆状态为附着,而在MSC-B上登陆状态为分离。

3.2 故障原因分析

当IPRAN 故障导致eNodeB 与MME 断连,eNB在传输中断的情况下,会进行去激活操作,导致所有CSFB 用户瞬间回落。首先手机会使用TMSI 在CSFB 局点进行位置更新(MME 上进行相应数据配置及IMSI 的Hash 算法,用户CSFB 后会找到固定对应的MSC-A 局点),瞬时大量位置更新请求超过MSC-A的处理能力,甚至触发MSC-A 的流控,造成手机位置更新失败。按照3GPP 24008 协议规定,当手机位置更新请求失败4 次之后,手机会清除存储的前TMSI 和前位置区,在MSC POOL 内,NNSF 节点按照网络负荷均衡的原则重新选择一个MSC。一旦新选择的MSC 与CSFB 局点不一致时,如用户在MSC-B局以IMSI 从3G 网络重新发起位置更新,按照3GPP 23012 协议规定,位置更新携带前位置区为空(或者非本局位置区)的情况下,MSC 判断此次位置更新为局间位置更新,会将VLR 中HLR 证实标志置为未证实,发起到HLR 的位置更新。

用户在MSC-B 下发起位置更新请求,HSS 上登陆MSC/VLR GT 更新为MSC/VLR-B GT,且HSS 向MSC-B 下插数据成功,MSC-B 下存在该用户数据;在HSS 向MSC-B 插入用户数据的同时,HSS 会向MSC-A 发送Cancel Location 消息。但由于HLR 和MSC-A 之间的链路出现异常(拥塞、中断或者闪断)、HSS 启动流控或者MSC 业务过载,导致MSC-A 没有收到Cancel Location 消息,MSC-A 上用户数据被保留。位置更新信令流程如图1:

图1

EnodeB 基站断连恢复后,用户返回eNB,MME按照Hash 算法将用户重新分发到MSC-A 上(CSFB局点),用户再次从MSC-B 返回MSC-A,由于在MSC-A上面已经存在该用户数据,因此MSC-A 不会再向HLR 发送Update Location 请求消息,这样HLR 上仍然记录用户登陆GT 为MSC/VLR-B。

用户在MSC-B 下无活动更新直至超过隐式分离时间,用户被置为分离(关机)态。由于用户被叫时,HSS 根据登记的MSC-B GT 向B 局取漫游号码,因此呼叫被路由到MSC/VLR-B,从而听到关机提示音或暂时无法接通。同时,用户在MSC-A 下更新活动正常,因此用户主叫正常、发送短信正常。

4 用户发生“双活”后应急措施

网络产生“双活”故障后,为避免大量用户投诉,通常应急恢复方法如下:

1)在MSC 上把所有的4G 用户置为位置未证实,触发到HSS 位置更新。此种方式将MSC 下所有的CSFB 用户置为未证实,短时间内会造成C/D 口的流量突增,因此现网并不建议使用。2)HSS 发送reset 指令,触发用户发起到HSS 的位置更新。若发现网络拥塞造成流控并导致消息丢失,可在话务闲时(一般凌晨操作),从HSS 上向所有端局VLR、SGSN、MME 发送reset 指令。发送reset 指令会影响C/D 口负荷,因此HSS 发送reset 应有时间间隔。3)采用HSS 发送reset 方式进行应急恢复虽然恢复彻底,但只能等到话务闲时(一般凌晨)操作。紧急情况下,我们可提取各MSC 注册的全部用户信息,将各MSC 的用户信息比对,如果一个用户在两个MSC 上有注册信息,则判断为双活用户,再结合HLR 上的MSC/VLR GT 数据和两个MSC 下用户的登陆状态,分情况处理:(1)若HSS 上登陆MSC GT 与用户最新活动时间所在的MSC 一致,且状态为附着,则删除分离状态所在的MSC 上的用户数据;个别用户存在双附着情况,是由于其中不活动的MSC 用户未达到隐式分离时间导致,此时保留最新活动时间所在MSC 的数据,删除另一个MSC 用户数据。如此该用户主被叫均不会受影响。(2)若HSS 上显示的登陆MSC GT 与用户最新活动时间所在的MSC 不一致,则说明用户此时只能主叫,无法被叫和接收短信;在两个MSC 上删除用户数据,同时在HSS 上发送SND CANCELC 指令,清除用户位置信息。如此用户发起主叫业务或位置更新时,业务即可恢复正常。

5 结论

移动用户对运营商通信网络的感知性非常高,网络异常易引发大量的投诉。尤其是对于无法接收短信的故障,极易引发用户的追责。以上通过对双活产生的场景、原因的分析及可行性应急措施的列举,可帮助相关维护工程师及早规避问题,并能针对用户反映的问题及时进行故障定位,在一定程度上降低移动网络用户“双活”故障的概率,缩短故障处理时间,从而提升用户对网络的感知度。

猜你喜欢
移动网流控短信
流控分会第七届委员会特种流控专业第一次工作会议暨2021特种流控学术研讨会于线上成功召流控分会流控分会
中国机械工程学会流体传动与控制分会智能流控专业委员第二次工作会议
道歉短信
代发短信
央视新闻移动网:移动为先 直播为核 联盟为形
浅析新闻移动直播中报道模式的变革——以央视新闻移动网客户端对2017年全国两会的报道为例
微流控超快混合器及生物大分子折叠动力学应用研究进展
青藏高原地区移动网基站断站问题研究和解决
移动网短消息业务流程及案例分析
“八一”节日短信之一