王岩 胡承忠
【摘要】 通过对中兴软交换所带的失败观察的分析和应用,结合核心网指标进行了两者相关性的有益分析。通过分析发现了失败观察收集到的失败信息和核心网指标之间的密切关系,并且通过具体分析失败观察的数据信息和对失败信息具体解码得到的分类数据,提供了一种影响核心网指标变化的具体思路。并且指明了下一步工作的方向和重点。
【关键词】 失败观察 解码信息 位置更新成功率 数据分类
一、引言
中兴WCDMA核心网软交换SERVER上所带的失败观察,主要是用来监控在本交换机下的用户正常或是非正常的通话释放。这里说所得正常情况,包括用户自发的在拨叫后的挂断的用户自身行为,也包括异地用户因为欠费停机而造成漫游限制等正常情况。不正常情况就是本文要着重分析的部分,包括位置更新失败,MM位置更新本端失败,及MSCA局内切换失败等等情况。
因为影响交换的指标就是由这些失败造成的,所以对这些失败的观察和分析有助于发现问题,为下一步解决问题,提升网络指标打下坚实的基础。通过收集失败观察的信息,对各种引起不正常的情况进行分析,发现问题的规律,可以为交换机正常高效率的运行提供帮助。
这里着重以位置更新成功率为例,通过失败观察收集的信息来探讨影响位置更新成功率这个指标的各种情况。中兴失败观察里,提供了很多失败观察的选项,囊括了语音呼叫,短信收发及上网等常用的业务。
位置更新作为其中一项,可以单独进行观察和信息的收集,这样可以提高分析的效率。对位置更新成功率这个指标进行分析,可以在失败观察里只选择位置更新这一个选项。如果有需要,可以根据要分析指标的需要,来选择相应的失败观察选项。
二、失败观察在位置更新成功率分析中的应用实例
2.1 分析数据说明
这里对本文的失败观察的数据做一下说明,为了更好的分析失败观察的数据对位置更新成功率指标的影响,尽量排除因为短期收集数据,以及收集数据量不足等问题所带来的负面影响,本文选取了几天各时段不同的失败观察的信息作为分析参考,其目的是为了分析数据的全面性和可靠性。
2.2 具体分析
对这些数据分析的思路从三方面着手:
一是失败观察收集的具体数据里,各种原因的次数统计和位置更新成功率的变化是否有同样的起伏变化;
二是这些失败观察数据里统计到的IMSI号码是否有固定的号段,或是这些IMSI对应的HLR或VLR用户数据是否有共同的属性;
三是失败观察的具体的解码信息的统计,失败观察的解码信息包括了众多重要的信息,包括发生失败的LAC区域和目的小区,发生失败的相关交互信令,及相关模块号和局向号等等信息。下面一一进行分析阐述。
2.2.1各種原因的次数统计和位置更新成功率起伏变化对应的探讨
因为时间和实际的条件限制(中兴软交换上,存放失败观察文件的系统文件夹的容量只有200M,当超过这个容量时,就会覆盖掉前期观察所存放的文件),这里所收集的数据有所限制。
为了更好的分析数据,这里对上面的数据进行了有效的分类统计,即若干天不同时段,和同一天不同时段的位置更新成功率进行比较。
位置更新失败中,出现次数较多的几类如下:
(1)(VLR)收到MM的Release消息(242),
(2)(MAP)漫游不允许Roaming Not Allowed)(8),
(3)(MAP)未知的用户(Unknown subscriber)(1)
(4)(ProviderErr)收到无效的响应(Invalid Response Received)(134)。
2.2.2 失败观察数据IMSI号码的规律性及用户数据共性的探讨
这里只对位置更新失败的主要原因进行了分析,具体分析如下。
(MAP)漫游不允许Roaming Not Allowed)(8)(1124次)这个原因就是用户漫游权限限制产生的,是一个用户行为,比如外地有本地通限制的用户到泰安就会产生此失败。通过在HLR里查询用户信息,这些用户均没有信息,证实漫游不允许造成的位置更新失败的IMSI对应用户均不是泰安本地用户。
(VLR)收到MM的Release消息(242)(4735次)这个原因是出现次数比较多的,对发生此问题的号码详细解码信息进行统计,对IMSI,IMEI,LAC,小区号进行对比后,发现当IMEI 7 8位是00时,容易发生此问题。经过查询判断有此号码的大多是水货手机,询问厂家工程师,有无对水货手机的限制,目前中兴还没有这方面的支持。然后对问题号码的VLR,HLR数据进行查询,发现有问题的号码大部分都有来话宝设置。
(ProviderErr)收到无效的响应(Invalid Response Received)(134)这个原因的IMSI很有规律,全是4600141052开头的。经过对泰安莱芜的IMSI号段查询,可以确定这个不是泰安莱芜的IMSI号段。
经过详细的解码分析,IMSI号码主要是460014105291019,460014105233987等几个IMSI号码。经过跟踪460014105291019的信令发现,这种类型的IMSI号码均返回了MAP Error的信令,说明这个IMSI是无法位置更新的。
该号码的手机串号IMEI为空(null),而且经常在燃料宾馆和格林商厦出现。可以通过这些信息判断,这个用户所用手机终端一定不是正规行货手机设备,而且SIM卡有问题,可能是自己刷的SIM卡。下一步希望联系到这个用户,即可查明这个问题,进而减少这种位置更新失败。
2.2.3 关于失败观察里的解码信息的统计
这里需要注意的是当一种失败产生时,这个失败不一定对应的只产生一条失败的观察,而是会产生相关的几个失败观察,这就要在后面的解码信息里详细的讨论。
这里以(VLR)收到MM的Release消息(242)失败原因的解码信息为例如表5所示,来说明解码信息的各项的作用。
需要关注的解码信息如下:
(1)根源类型,根源原因说明了(VLR)收到MM的Release消息(242)发生的根本原因。这两个选项说明了,目前发生的失败是由根源原因造成的,可以通过根源原因再查找相关问题。
(2)当前接收事件,当前发送事件,上次接收事件和上次发送事件说明这个失败发生时,信令的过程是怎样。通过这里能很方便的判断出发生的失败在信令的哪个阶段,以及在什么情况下发生的。这都为解决问题提供了很好的信令理论基础。
(3)业务参考模块号,业务参考起始局向号可以得到发生失败较多的相关模块和局向。可以用来定位经常发生失败的物理模块,以及失败发生的软件数据。在硬件软件两方面来定位失败发生的范围,在根本上查找失败的原因。
(4)原始位置信息和目的位置信息中的LAC和CI信息很重要,通过统计这两个数据可以知道发生问题的具体位置。通过大量的数据统计,可以知道是否在某个位置这种失败会经常发生,从而为发现问题区域提供了有力支持。特别是目的位置信息的LAC和CI,均是用户产生失败行为时,发生问题的小区,所以格外的进行了关注。
根据这个实际的情况,编写了一个程序,不但可以分门别类的统计上述的各种数据,而且对目的位置信息的CI进行了换算解码,可以直接得到小区名和对应的地区,为判断失败的范围提供了帮助。
这里统计了5种失败原因的详细解码,这5种失败原因分别如下:
(1)”(MAP)漫游不允許Roaming Not Allowed)(8)”
(2)”(MAP)未知的用户(Unknown subscriber)(1)”
(3)”(ProviderErr)收到无效的响应(Invalid Response Received)(134)”
(4)”(VLR)收到MM的Release消息(242)”
(5)”(MM)IdAuth宏中定时器1超时(IdAuthMacro Timer1 Out)(1084)”
得到了解码的结果之后,可以对详细的解码从三方面进行分析。
一是解码信息分类后的小区地区,以及模块和局向。分析发生的失败行为在哪个区域,或是哪几个模块和局向上比较多。如果一直在一个区域或小区发生问题,则说明这个区域或小区有问题,可以检查这个区域或小区的数据配置,以及和交换侧的数据配置。
如果在一个模块或局向上老是有很多相同类型的失败,则可能对应的单板有问题,或是对应的软交换的设备有问题,这为在没有告警时,而发现潜在的设备问题提供充足的事实依据。可以对问题模块进行处理,避免发生大的设备故障,有力保障了核心网的运行稳定。
二是信令交互时,在哪个信令行为上,发生失败的情况比较多。因为这里收集到的失败大多是从A口,或是核心网网元内部进行交互的信令。以后可以通过观测这些发生问题比较多的信令行为,可以确定是在无线侧哪个BSC上发生失败的情况比较多,或是和哪个核心网网元进行交互时,发生失败的情况比较多。
三是分析统计到的根源类型和根源原因。如果上面两方面没有集中的问题,那么可以通过根源类型和根源原因来进一步查找失败发生的问题。
因为时间仓促,本文对前两方面做了较详细的分析,第三部分因为数据量比较大而且相关的信息很多,这里只提供了下一步工作的具体思路(如上述的关于解码信息的分析)。