曾波
(中国移动通信集团广东有限公司深圳分公司,深圳 518048)
GPRS集团专网业务是中国移动GPRS业务的重要组成部分,是移动业务和数据业务的有机结合。随着EDGE、TD-SCDMA、TD-LTE等网络承载的移动数据业务不断发展,GPRS集团专网规模日益增长。目前深圳移动GPRS网络承载着近300条GPRS集团专线业务。
为了进一步分析GPRS集团业务在使用中存在的问题,提高业务的性能,本文以GPRS福彩投注业务为例,对GPRS专网性能进行深入分析,找出其存在的性能问题并加以解决,从而提高GPRS集团专网业务的性能。
深圳GPRS福彩投注业务是深圳移动首个GPRS集团专网业务应用。深圳移动以GPRS为技术支撑,用最简单、最低成本、最安全可靠的方式帮助深圳福彩中心构建覆盖全市的内部网络,为深圳福彩中心提供端到端的全网解决方案,实现彩票实时投注。该业务具有明显的业务示范及较大的社会效应。
GPRS福彩投注业务具有显著的特点:数据量小、实时性高、持续性长,这些特点对我们的GPRS/EDGE网络可以说是个严峻的考验。
目前深圳福彩中心采用GPRS网络进行福彩投注的投注点有300多个点。这些点遍布整个深圳市。经过深圳移动持续的GPRS网络整治及优化,福彩业务的性能日益提高。根据深圳移动与深圳福彩中心的技术交流确认,该业务性能还有提升的空间,有部分福彩投注终端用户反映经常会出现无法正常使用的现象,这些用户集中反映的问题:(1)在开机时频繁出现“白框”,无法连接到福彩服务器。(2)在福彩投注业务进行中出现“掉线”现象,造成业务中断。这些问题直接影响GPRS福彩投注终端用户正常卖票。
这些问题的存在说明,GPRS福彩投诉业务的性能有待提升。针对客户反映的这些问题,本次性能优化工作进行了详细的现场测试及长时间的跟踪分析。从测试分析,发现这些问题涉及面比较广,与网络、终端、客户的使用行为都有一定的关系。
本次优化分析采用两种研究方式对开机及掉线进行跟踪测试,找到出现问题的事件进行分析:(1)现场测试投诉典型的福彩投注点;(2)在机房进行长时间的持续测试福彩测试机。
此类问题的主要表现为在开机初始化过程中,出现白色的对话框提示由于初始化出错无法连接数据库,并提示要求需重新开关福彩投诉机。这就是用户投诉的开机“白框”现象。
下面就针对福彩终端无法开机的原因做详细的分析:
按照深圳福彩投注机的原理,在正常的福彩投注机开机后,将读取相应的AT命令进行PDP激活请求,在正确读取AT命令并显示Ok后,福彩投注机将完成PDP激活并成功连接到福彩服务器的数据库上,终端用户将可以实施福利彩票各种业务的买卖;
而在出现“白框”的时候,从目前的对投诉点的现场观察、模拟和数据的分析看,这个现象的出现有2种情况导致:
(1) 福彩投注机时读取AT命令出错,没有发出APN。
(2) 开机时正确的读取AT命令,发出正确的APN,但是PDP Accept消息被LLC Discard。
3.1.1 福彩投注机在开机读取AT命令时,没有发出APN
开机时正常的读取AT命令为:AT+cgdcont=1,“ip”,“szfcai.gd”,但在出现“白框”时,AT命令的读取总是显示没有“szfcai.gd”,或显示APN error,导致PDP激活失败,无法连接福彩服务器,最终投注机出现白色对话框,显示在初始化过程中出错而无法连接数据库。
根据上述情况,对同期采集的Gb消息(利用K1205测试仪表)和Traffica(厂家设备的事件记录工具)数据进行分析,证实确实是福彩投注机在开机初始化时没有发出相应的APN,PDP激活请求被拒绝,从而导致出现“白框”现象。
可见,福彩终端软件存在一定的问题,有时会不发送APN到网络(网络将拒绝PDP请求),导致无法开机。
3.1.2 网络端发起的LLC Discard导致开机不成功
沙井福彩投注站投诉经常“无法开机“,在对该站点Traffica的数据分析发现特殊的“Ms try to activate same context twice”事件(Cause 0x64)。
分析Gb的数据,看到对于福彩的PDP请求,SGSN已经回应PDP Accept消息给BSC,但是由于“Cell Traffic Congestion”,PDP Accept消息被 Discard,终端没有得到SGSN的Accept,再次尝试PDP激活,而核心网此时察觉这个终端已经存在PDP激活的状态,遂将先前的PDP去激活,而后对此次的PDP请求回应Accept。因此在Traffica显示“Ms try to activate same context twice”事件。而第二次的Accept消息依然被Discard,彻底导致此次福彩机开机PDP请求的失败,最终出现“白框”。
在这个例子中,显示了网络对福彩业务的影响,检查这个福彩机出现问题时的服务小区的话务统计,看到当时的确存在严重的下行TBF建立失败的状况。
可见该网络端发起LLC Discard导致用户无法开机。当然有可能是福彩终端占有的主用小区出现拥塞或其它原因引起LLC Discard。
用户投诉的掉线问题主要表现为在福彩业务进行中有时出现无法连接数据库的提示,并最终提示需要重新开关福彩投注机,造成业务中断。本次测试同样进行现场测试及长期对福彩测试机信令跟踪,现分析如下。
3.2.1 网络端的BSSGP STATUS异常信令导致掉线
利用COMPASS软件对掉线的信令及正常信令进行比较,发现异常的数据传送信令流程,出现大量的BSSGP STAUS;而正常的数据传送信令流程则没有BSSGP STAUS的信令。出现这个问题的原因主要是:在爱立信厂家的PCU上发的数据分组中,有的数据分组包含可选项PFI,而诺西厂家的SGSN不识别PFI,所以对于这种数据分组一律回应 “BSSGP STATUS”,原因值置为“Missing mandatory IE”。(PFI即“Packet Flow Identifier”, 用 来 标 识 Packet Flow Context。Packet Flow Context伴随着PDP context产生和消亡,主要携带QoS的相关信息)。
可见两个设备的兼容性存在一定的问题,产生部分的BSSGP STAUS异常信令导致福彩业务的掉线。
3.2.2 终端MODEM的问题导致掉线
在板田投注站多次进行模拟测试,并成功观察到一次这类投诉现象的出现,过程中明确的显示在这个问题出现前没有任何人对福彩设备进行过任何的操作,即没有任何人为的因素影响导致问题的出现。另外,对测试机进行长时间的模拟测试,发现也有类似的情况。
通过对“掉线”投注点的跟踪,结合Gb和Traffica的数据进行了分析:(1)12:25:16.240时刻终端PDP激活连接网络成功。(2)12:33:30.770时刻前业务中断,但是在Gb接口没有任何的数据显示。(3)12:33:30.770时刻福彩机开机重新连接网络,此时网络察觉福彩机依然处在PDP激活的状态,因此将现有的PDP Context去激活,并同时标识“Implicit Detach”。(4)随后完成Attach的过程并PDP激活连接网络成功。
图1为信令分析对比情况。
从这个典型的掉线的信令流程,可以看出:终端出现掉线时,网络没有收到任何信息,一直认为该终端号码处于PDP激活的状态,当它收到该终端号码的ATTACH请求后,只有先将原来的PDP隐性去激活掉以后才响应ATTACH请求。我们认为当时是该MODEM出现突然掉电或突然吊死的情况。
如果采用另一种品牌的MODEM的进行长时间连续测试,则未发现有这种现象。
可见福彩投注机的部分品牌的MODEM突然掉电或突然吊死的情况导致福彩业务的掉线。
通过上面的详细分析,可以看出引起福彩投注业务性能异常的原因相当多,比如福彩机软件、GPRS网络、终端MODEM等问题。针对这些已发现的问题,本次性能优化分析组制定了相应的解决方案,并进行具体的实施,取得很好的效果。
目前发现主要由下面几个原因引起:(1)福彩机软件的问题, 不发送APN到GPRS网络,这将被网络拒绝。(2)部分小区出现拥塞等现象,导致PDP激活请求被LLC Discard。
4.1.1 福彩机的软件问题
建议福彩中心修改其软件,确保每次PDP激活都发送福彩的专用APN到网络。当然这涉及到他们的软件的重新开发及所有终端软件的更新。
图1 Gb与Traffica的记录对比
同时考虑从GPRS网络侧来解决这个问题。进一步检查福彩号码的HLR用户数据,发现这些号码都是设置了多个APN(有cmnet、cmwap、szfcai.gd)。
根据3GPP的标准:如果用户的HLR数据中仅有一个APN的情况下,当用户发送空APN上来时,网络可以以HLR中的APN进行激活。这个标准为这种解决空APN的PDP激活的问题提供了一种很好的方案。可以从删除其它不必要的APN着手加以解决,建议业务部门与客户协商,取消CMNET、CMWAP等普通业务。
在业务部门的配合下,目前已完成所有用户数据的修改,解决了部分开机出白框的问题。
4.1.2 小区拥塞的问题
组织无线测试人员重新对所有福彩点所在小区的GPRS性能进行测试,将部分有问题的小区通过无线方面的调整得到解决。
从分析发现,主要由下面几个原因引起:(1)BSC与SGSN之间的兼容性的问题,出现BSSGP Status异常信令。(2)部分MODEM出现掉电或吊死的情况。
4.2.1 BSSGP Status的问题
这主要是两个核心网及无线厂家之间的兼容性的问题:BSC端发送的含PRI信息的数据不能被SGSN识别。SGSN经过紧急升级以后,BSSGP Status的信令已不复存在。福彩掉线的问题,大为减少。
4.2.2 Modem的问题
通过本次测试分析,福彩机的部分Modem出现掉电或吊死的情况导致掉线。建议福彩中心更换某种问题比较严重的Modem。从更换的部分点的投诉情况来看,这类问题基本得到解决。
通过对福彩业务的性能异常的情况进行了详细的测试分析,我们认为福彩业务的性能异常问题的原因涉及到很多方面,有GPRS网络、终端问题甚至还有用户的操作的问题。
经过一段时间的整治,福彩业务性能得到很大的提高。当然可能还会存在一些其它的问题,需要进一步的测试分析,但我们相信随着GPRS(包括EDGE、TDSCDMA)网络和终端设备的日益成熟, GPRS集团专网业务性能将会越来越好。
[1]3GPP TS 23.060 General Packet Radio Service (GPRS); Service Description; Stage 2.
[3]李怀明, 邵四清. PS域专网M2M业务终端在线率优化分析[J].电信网技术, 2012(9).