许保德+巫江涛
随着移动互联网数据业务的快速发展,以及电信网络结构的演变,传统的网络问题分析方法已经不能适应当前服务环境和网络环境,需要转变思路。大数据技术提供了分布式并行处理大数据量的机制,能够快速处理海量的数据,为运营商以用户感知为中心分析和定界定位问题提供了技术基础。
定界定位的基本思路
每个运营商都在不定时产生着不同的业务数据,当业务出现问题,就需要排查原因。传统的问题定界定位方法一般是按照网络设备的上下级关系逐级查找指标差的占比,例如从全网到核心网网元,然后分析与核心网网元交互的无线侧小区的指标,希望能够找出明显劣化的点,找到劣化点后,再钻取出异常的原始话单和原始信令,分析出原因。
这种金字塔式的分析方法存在以下弊端:
分析问题的入口是顶层的指标,而该指标是大量样本综合计算的结果,对少量的异常问题不够敏感;
自顶向下的分析方法很大程度上依赖于孤立点的存在,当指标之间差距不明显时,该方法往往失灵;
4G网络具有扁平化、资源池化等特点,网络设备的上下级关系不再明显,也更加复杂,分析时很难再逐级查找问题;
只呈现指标的异常,还需要消耗较大的人力进行定界定位分析,才能找到问题。
而基于大数据分析,以用户感知为中心的定界定位方法采取了一种新的定界定位技术,和传统的方法相对应,称之为倒立金字塔分析法。该方法直接将用户话单的异常情况定界定位到劣质点,并给出根本原因,由根因推导出需要优化的网元。
该方法从最底层的原始话单入手,对于系统采集到的每一条原始的话单,判断该话单是否有异常。如果有异常,存在什么样的异常?会对哪些关键指标、哪些业务产生影响?产生该异常的原因是什么?经过这样的分析,我们就可以找到所有的异常话单,以及问题的原因。
数据的采集和处理过程
无线侧的数据是与基站对接数据,不需要探针,异厂家基站可以采用相关公有或私有的接口协商对接。核心网的控制面、用户面数据通过探针采集,不受厂家设备不同的限制。将采集后的数据都输出给大数据平台,进行数据关联、清洗、统计处理。图1是数据采集示意图。
大数据平台采集到数据后首先将核心网的话单与无线关联,关联后生成端到端的话单进行保存。然后按照上面的分析思路进行分析。
鉴于一次业务的异常同时在不同环节都会存在问题,因此需要在每个环节逐一判断。
首先判断无线指标情况,如果存在异常,无线侧计数加一。
然后在核心网或互联网侧定界,首先判断互联网DNS/SP节点的问题,主要分析DNS、TCP、GET的交互过程情况,以及忙闲时的变化情况,如果存在异常计数加一。
再判断核心网侧SGW、MME等网元的全天指标情况,以及忙闲时的变化情况,如果存在异常计数加一。
最后再往终端定界,首先定时维护更新一个异常终端信息,异常终端是由一定周期内连续性指标差等特征判断出来,如果能够与异常终端信息表匹配上,终端侧定界计数加一。
如果以上过程都找不到问题的节点,就定界到其他问题。
我们在此基础上再对异常话单做统计计算,就能得到多维度的统计结果。例如统计出不同环节的问题占比,每个环节的原因占比,统计出每个网元或区域问题波及的用户数、波及的问题话单数量,将问题的严重程度进行量化,并为判断是否是有价值的问题区域提供参照。
应用效果举例
从某省份大数据平台提取的影响用户感知的异常话单原因分布占比如图2所示。可以看出,无线侧和互联网侧原因占比较大。
无线侧占比较高,查看定位的结果主要是弱覆盖区域导致。互联网占比较高的原因,定位到的结果主要是一些国外SP距离较远,以及国内部分其他运营商的SP网络传输存在丢包、负荷高。终端的情况主要是小米等。
手机的问题占比较高。从用户的消费群体来看,小米手机使用者数量较多,其中大部分消费人群是青年人,根据对小米手机的使用流量业务统计发现,即时通信、网页类业务占比55%左右,而视频、下载等消耗流量较大的業务相对较少,占比10%左右,其他类别占比35%。
由于即时通信、网页类单次业务一般流量和时间都较小,测量到的速率类指标一般不高。核心网侧问题较少,相对比较稳定,在忙时有时会有负荷问题。该定界定位结果为该省运营商各个部门进行派单、问题处理提供了数据依据。
端到端自动定界定位技术是网络问题分析自动化、网优自动化、网优无人化大趋势中的基础核心技术之一。中兴通讯凭借30多年的网络优化技术积累及精品网交付经验,拥有绝对领先的网络问题分析算法和数量庞大的问题经验库。
随着大数据技术及人工智能技术的迅速发展,中兴通讯将在未来更高效地协助运营商保障和提升用户的业务体验。