(中国移动通信集团云南有限公司红河分公司,红河 661100)
TD-SCDMA数据业务的故障排查方法研究
陈捷
(中国移动通信集团云南有限公司红河分公司,红河 661100)
目前传统运营商从话音经营向流量经营战略转型已是大势所趋。假如设备故障导致TD-SCDMA用户PS业务不畅,会严重影响用户感知。本文针对以上问题,通过信令跟踪、指标分析与灌包测试相结合,形成一套行之有效的故障排查方法,有助于TD-SCDMA系统的维护和优化。
TD-SCDMA;数据业务;故障排查
当下数据业务收入超过话音业务已是产业发展到一定阶段的必然趋势,中国移动因此也迎来了从传统话音经营向流量经营战略转型的契机,作为“四网协同”(GSM/TD-SCDMA/TD-LTE/WLAN四网协同发展)网络发展战略中的重要一环,TD-SCDMA网络所承载的用户数与数据业务量随着网络技术的成熟与TD-SCDMA终端的普及与日俱增,其分流作用也日趋显著。
因此保障用户数据业务的高速流畅也成为了网络优化与维护工作的重中之重,假如因为设备故障导致用户PS业务受阻,有悖于流量经营宗旨,将极大影响用户感知。
本文针对TD-SCDMA网络结构特点,提出了一种信令跟踪、指标联合分析与环回灌包测试相结合的故障排查方法,通过当地TD-SCDMA网络实践验证确实有效,为TD-SCDMA网络日常优化与维护提供经验总结。
2.1 网络结构
TD-SCDMA网络结构如图1所示。Node B是TD-SCDMA移动基站,通过标准Iub接口与RNC相连,通过Uu接口与UE进行通信,主要完成Uu接口物理层协议和Iub接口协议的处理。RNC是TD-SCDMA网络的一个关键网元,主要完成对Node B的无线资源控制和移动接入链路管理,处理移动呼叫、切换和功率控制,同时管理RNC本身的各种资源。SGSN(Serving GPRS Support Node,服务GPRS节点)作为GPRS/ TD-SCDMA核心网分组域的重要组成部分,主要完成分组数据包的路由转发、移动性管理、会话管理、逻辑链路管理、鉴权和加密、话单产生和输出等功能,通过Iu-PS接口连接RNC。
Uu接口是UTRAN与用户设备的接口,也称无线接口或者空中接口,Iub口是Node B与RNC之间的接口,Iu-PS接口是RNC与SGSN之间的接口,如图2 UTRAN接口通用协议模型所示,每个接口在无线网络层均可分为用户面和控制面,控制面用于控制无线接入承载及UE和网络之间的连接,用户面用于传输通过接入网的用户数据。
图1 TD-SCDMA网络结构图
图2 UTRAN接口通用协议模型
2.2 PS业务标准流程
PS业务标准信令流程如图3所示,UE经Uu口和Node B/RNC建立起RRC连接,向SGSN初始直传业务请求,再经Iu-PS口至SGSN建立信令连接,信道指派后建立起业务承载附带用户信息,CN和UE间进行鉴权、加密信令交互,然后激活PDP上下文,SGSN和UE间通过RAB指派建立起承载,就开始传输数据,业务完成后,PDP去激活,释放信道连接。
图3 PS业务流程图
从TD-SCDMA网络结构、接口协议与标准业务流程可知,在PS业务流程中,无线网起到传输通道的作用,通道在控制面建立,由用户面承载,如若设备故障引起通道不顺畅,排查工作就应先从控制面入手,再对用户面进行检测。
3.1 控制面排查思路
由图1可知,网络上游结构复杂,涉及不同厂家、不同功能的多种网元实体,一些深层次的网络故障隐蔽性强,监控系统未必能检测出并上报告警提示,但上游的设备故障必然会引起下游终端用户的业务不畅与相关指标的异常波动,常见的表象有网速慢、无响应、掉线等,由于商用网络用户数多,受众面广,业务故障必然引起用户投诉数量激增,故可以根据用户投诉统计,提取相应指标进行分析,在用户投诉现场实地测试,结合后台信令跟踪,抓取异常信令进行原因分析。
3.2 用户面排查思路
上文中如若通道能够在控制面建立,那传输不畅问题就需要从用户面各环节逐段进行排查。如图1所示,TD-SCDMA网络中PS业务的端到端可认为是从UE到SGSN,中间历经多个接口与网元设备。日常维护工作中可以根据异常现象出现的范围、时间、地点、无线环境、终端类型等因素判断故障环节,不同网元故障的影响范围、严重程度各有不同,越是处于网络上游,故障影响越为严重与广泛。在TD-SCDMA网络PS域,RNC与CN间的用户面组网结构如图4所示,RNC侧ROMB板(RNC Operating & Maintenance Board,RNC 操作维护单板)主要负责RNC系统的全局过程处理与操作维护代理,各单板状态的管理和信息的搜集,并维护整个RNC的全局性的静态数据。ROMB单板有4条媒体面地址,板上运行的RPU模块负责路由协议处理。
RNC的GIPI板(GE IP Interface,吉比特以太网接口板)负责各种IP接口和OMCB网关功能,提供最大8×100Mbit/s以太网接口,2×吉比特以太网接口,主要实现 IuPS/IuCS/ Iub 的IP化接口功能和OMCB网关功能,一般配置在RNC1架1框3、4、5、6槽位的GIPI板作用是IU接口。
CE(Customer Edge,用户边缘设备)用于汇接移动核心网和接入网网元和业务系统,并实现与IP承载网的隔离,减小两者的耦合度。同时,管理域和业务域也得到有效区分,IP承载网设备和CE设备分别单独管理,维护界面变得更加清晰。
实际组网中,为了负荷分担与业务保护,GIPI板、近端/远端CE与SGSN媒体面均成对配置并相互连通,以本地实际组网为例,5槽GIPI板连接近端CE1,6槽GIPI板连接近端CE2。远近端CE如图4互通,SGSN侧分为两个媒体面,每一平面与两个远端CE均建立连接。
图4 用户面组网结构图
基于以上用户面的组网结构,可将RNC的ROMB单板到SGSN媒体面间的通道划分为多条路径与多个分段,从ROMB单板开始,逐路由逐路段进行ROMB到GIPI、GIPI到近端CE、ROMB到近端CE、ROMB到 SGSN媒体面的灌包环回测试,就能够有效缩小故障排查范围甚至定位通道断点,有利于及时处理故障与恢复业务。
当地TD-SCDMA网络曾经出现过大面积PS业务不畅的问题,异常表现为PS业务信令连接能够成功建立,但下行速率为零,视频、网页无法打开,断开重连多次有可能恢复正常。该问题短时间就能引起大规模的用户投诉,严重影响当地用户感知,我们根据上文思路,应用信令、指标联合分析与灌包测试相结合的系统排查方法,快速定位到问题所在,故障得到及时处理。
4.1 控制面排查过程
根据以上故障现象,从SGSN侧通过网管系统软件traffica在指定时间段内对PS业务进程统计(如表1所示)发现,没有下行流量的进程数量极大,异常占比达到43.87%,与同SGSN下的Y市相比,远超正常范围。
表1 统计指标分析
选择某用户投诉地进行现场测试,该故障复现几率极高,结合后台的信令跟踪,发现历经RRC连接建立,业务发起、PDP上下文激活等正常步骤后,由于计数时间内无下行速率,RNC发送Iu_ReleaseRequest释放命令,释放原因为radioNetwork=TRANAP_user_ inactivity,发起重连后可能恢复正常,也可能重复多次释放与重连步骤,信令流程如表2所示。
4.2 用户面排查过程
从用户投诉的统计来看,该故障分布范围广,涉及多种不同品牌和类型的用户终端,从市区的拉网路测来看,故障出现的时间地点较为随机,且无线环境大多较为良好,故可排除无线环境的质差、干扰影响和单站或个别终端故障因素,推断问题诱因极可能在于RNC或更上游的设备上,故排查工作的重点转向RNC至SGSN的用户平面。
表2 异常信令分析
按照上文中的排查思路,分别用ROMB板的4条媒体面地址逐次Ping GIPI板、近端CE、SGSN媒体面地址,通过测试结果来确定故障环节。该段链路连接正常。
图5 灌包测试示意图
SGSN媒体面地址返回的数据分组减半(InMsgs:5),出现了严重的分组丢失情况,由此可以缩小排查范围,故障点可能出现在近端CE到远端CE,或远端CE到SGSN通道段。
由于RNC的GIPI板采用负荷分担的工作方式,分别连接近端CE1/2形成双路由保护模式,关闭其中一条路由用户业务不会中断,于是先关闭RNC上5槽GIPI板接口地址,从路由2进行灌包测试正常。之后关闭6槽GIPI板接口地址,倒换至路由1测试时分组丢失问题依然存在。如图6所示。
如图5中虚线所示,具体操作为:顺续用ROMB的4条媒体面地址“112.62.116.17-20”作为源地址,依次向5/6槽GIPI板(接口地址:112.62.116.26/30)、近端CE1/2(接口地址:112.62.116.25/29)、SGSN媒体面1/2(接口地址:112.62.112.132/133)发送10个数据分组(OutMsgs:10),观察目标地址数据分组返回情况,5/6槽GIPI板、近端CE1/2均返回10个数据分组(InMsgs:10),未出现数据分组异常,可判断
图6 CE关闭GIPI接口地址PING包测试
此前路由1上ROMB到5槽GIPI通道已通过检验,做5槽GIPI板到近端CE1的Ping分组测试,收发正常,故可定位故障通路在近端CE1到远端CE1段。由于目前GIPI单板功能不要求能Ping通远端CE、SGSN媒体面地址功能,故障范围已缩小到CE侧,CE工程师对近端CE、远端CE设备进行排查,确定最终问题定位在近端CE1到远端CE1的端口上,对近端CE1进行跳纤处理业务即恢复正常。
如今传统运营商从话音经营向流量经营战略转型已是大势所趋,运营商向用户提供多元PS业务的同时,必须保证业务通道的通畅无阻,才能提升用户感知满意度。
在处理PS业务问题的过程中,关键步骤及故障点信息说明如下:
(1)重视指标分析与用户投诉,由于网络侧涉及多个厂家、多种功能的设备元件,告警监控系统不可能面面俱到,很多隐性故障需要从异常现象与指标波动中寻找蛛丝马迹,步步反推。现场测试可摸清无线环境,对异常现象的详细记录是排查处理的第一步。
(2)结合前台业务验证测试,后台需实时进行信令跟踪与分析。信令是设备交互的语言,建立联系的协议,异常信令的出现往往预示着业务的中断,从异常信令的含义、产生条件、设备来源、方向等方面进行分析,可以大大缩小故障排查范围。
(3)PS业务不畅极有可能是媒体面通道受阻,逐段进行灌包测试是检测数据流断点的一种有效手段,结合有针对性的路径选择、设备重启和配置修改等尝试能更快的定位问题所在,有利于故障排除。
综上所述,只有明确业务流程的关键节点,并掌握系统的故障排查方法,对可能出现的故障点做好经验总结,才能有助于更好地进行网络维护与优化工作。
[1] 张玉胜, 陈欣伟, 高屹, 等. TD-SCDMA网络设计、评估及优化实践[M]. 北京:北京邮电大学出版社, 2012.
[2] 万斌, 高峰, 李率信, 等. TD-SCDMA无线网络评估与优化[M]. 北京:人民邮电出版社, 2009.
[3] 金鑫. TD-SCDMA系统接入性能优化[D]. 吉林:吉林大学,2012.
[4] 赵光胤. TD-SCDMA协议一致性测试研究及其测试例的实现[D]. 北京:北京交通大学, 2011.
[5] 陈清华. TD-SCDMA微基站物理层信令处理研究与实现[D]. 成都:电子科技大学, 2009.
Research on troubleshooting method of TD-SCDMA date service
CHEN Jie
(China Mobile Group Yunnan Co., Ltd. Honghe Branch, Honghe 661100, China)
There's a great trend to change from voice to traff c operation of the traditional telecom operators. If the TD-SCDMA users were unable to enjoy the PS services smoothly, due to the equipment failures, it will have a bad inf uence on the user perception. In connection with the appearance above-mentioned, this paper has explored a series of troubleshooting methods, including follow signaling, index analysis and so on, which was meaningful in maintenance and optimization for the TD-SCDMA system.
TD-SCDMA; data service; troubleshooting
TN929.5
A
1008-5599(2014)07-0015-05
2014-06-13