数据挖掘技术在网络质量优化体系中的应用

2012-06-09 07:23王磊王国治王西点

电信工程技术与标准化 2012年11期

王磊，王国治，王西点

（1 中国移动通信集团设计院有限公司，北京 100080；2 中国移动通信集团浙江有限公司，杭州 310006）

1 对于管道模型的认知

现在的网络优化技术还远远未实现智能化，对数据的统计分析和对网络的调整还主要依赖于优化工程师个人经验的判断，可以说，当前对于运营商管道模型的认知尚不能深入，也无法建立起量化的模式。因此，怎样充分利用数据挖掘技术，从海量的运营数据中构建出最有价值的知识和经验模型，成为一项重要课题。如图1所示，运营商对于网络质量的分析主要以第一阶段的数据库统计手段为主，并且已经向第二阶段数据仓库模型演进，而第三阶段的知识挖掘能力尚未构建。

图1 网络质量分析方法的演进

当前，在中国移动的网络中，随着网络的建设、运营和优化调整，每天均会产生大量的资源数据、参数配置数据、话务性能数据、测量报告数据等等，其中很多数据之间往往会存在强相关性，例如参数配置和由此导致的话务性能波动之间就具有很强的因果关系，但类似这种重要的相关性模型，都深深地隐藏在了我们的数据库中，没有被有效的挖掘和识别，更没有被加以利用和分享。

再比如：无线网络参数是经常需要被调整和优化的，但这种调整和优化工作并不是随意进行的，一定是在特定区域，当特定的网络环境条件或用户行为条件发生变化的情况下，呈现出的网络质量不再满足既定的标准，从而进行的网络调整和优化工作。调整后的网络质量由差转好的过程，也预示着在不同的网络场景条件下，不同参数配置所导致的结果不同，这种场景模式的挖掘，将对网络参数的精细化调整带来重要的影响。

移动通信网络质量的波动可能与很多因素有关，有的因素是我们的优化人员己经掌握的，这种掌握有的来源于技术分析，有的来源于以往的经验;有的是我们还没发掘出来的原因，但这种因素是客观存在的，只是我们尚未发觉。

2 数据挖掘在智能网络优化体系中的应用

当前，数据挖掘在通信领域的应用，还主要是在市场方面，如客户忠诚度分析、竞争对手分析等，而在其他行业，数据挖掘技术已被深入研究和应用了多年，如金融保险，信息安全检测，医疗诊断，生物信息识别等等。在通信行业，对网络运维与网络优化数据方面的挖掘应用工作开展的还比较少，因此，还没有将这部分海量数据中蕴藏的巨大价值挖掘出来。

而数据挖掘的主要特点就是对大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助决策的关键性数据。从技术的角度来说，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。而网络质量分析和优化是一个庞大的系统工程，涉及到多维度的海量数据分析，这一切都决定它们的结合应用需要我们在实践中不断地摸索、不断积累经验。

如在网络干扰分析中，最可能运用的挖掘算法为相关性算法，对出现干扰严重时各参数设置的相关性分析，基本上能够得到干扰的原因所在，通过搜索算法找出更为合理的解决方案。在网络切换分析中，通过数据挖掘方法，可以找出在不同的场景条件下，系统切换成功率与各参数设置指标间的关联模式或分类规则，从而对今后的参数设置作出预先指导。

但是，无论针对何种专题应用，在制定具体的网络优化方案前，对网络所处场景进行识别都是一项极为重要的基础性工作，在不同的场景下，即使面对相同的网络质量问题，往往参数取值的选取或调整幅度也会不尽相同，也就是说，不同的场景下，往往会建立不同的参数优化策略，因此，对网络场景的判断准确与否，也将直接影响到参数配置调整的最终效果。本文后续部分将针对这一关键问题，重点探讨数据挖掘算法在无线网络场景识别中的应用。

如图2所示，数据挖掘技术在网络质量分析中的应用流程主要包括数据准备、特征属性选择、场景模型评估与特征描述、网络质量相关性分析及分类预测、知识表达与输出这几个重要环节，而对于模型的评估可通过孤立点检测、偏差值估计来进行。

3 基于聚类算法的无线网络场景识别

无线网络以小区为基本单元，每个小区对象可以被众多特征属性所表征，以GSM系统为例，包含CS/PS域的接入类、保持类、移动类、质量类、资源利用类等特征属性，此外，还包括工程资源类的特征属性，这些属性基本概括了当前小区的无线网络环境和用户行为特点，因此，每个小区均可以看作是一个具有N维属性的数据对象（即用多维空间的一个向量点来表示），在地里维度上，特定区域内的所有M个小区，组成了M×N矩阵（M个对象×N个属性）。

无线场景识别的本质就是要把这些多维空间中的小区对象，按照各自无线网络条件和用户行为特点进行类别划分，而划分的结果是预先未知的，因此，属于无指导学习的范畴。这种网络场景划分工作以往都是根据网络规划经验来人为配置的，是一种粗粒度的定性的划分，并不能作为参数精细化调整的准确依据。

而聚类（Clustering）算法设计就是用于将多维数据对象分组成多个类或簇，划分的最终效果就是使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大，而判断簇间或簇内相似度的依据就是基于描述对象的属性值来计算的，这与无线网络场景识别的需求描述是高度一致的。

无线网络由于特征属性繁多，其场景识别本身就是在高维空间中进行，同时，随着网络建设规模不断扩大，数据集也越来越庞大，这也正是聚类研究的主要方向，主要集中在为大数据量数据源寻找有效且高效的聚类分析方法、聚类方法的可伸缩性、方法对聚类复杂形状和类型的数据的有效性，高维聚类分析技术，以及针对大的数据库中混合数值和分类数据的聚类方法等。

4 K-Means聚类模型实例

以小区接入类模型的分析为例，首先，可根据小区内电路业务及分组业务的各种接入原因的信道请求数量特点进行小区聚类划分，在此基础上，针对不同小区簇，进行的参数配置与接入性能相关性分析将会更加准确。

此处可选取小区级5项特征指标，如表2所示。

图2 数据挖掘在网络质量分析中的应用流程

表1 无线网络场景聚类分析中的技术要求

K-Means算法的工作过程说明如下：首先从N个数据对象任意选择K个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.K个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

算法的时间复杂度上界为O(N×K×T), 其中T是迭代次数。

通过K-Means聚类分析工具，来验证针对上述5项特征指标的小区聚类效果，模拟了150个小区忙时数据，通过聚类自动划分为5组小区集合，图3列出了不同小区簇内及簇间各个属性的均值对比，以及全部数据的均值，同时，可以在括号中看到各个分类结果中包含的小区数量。

选取Cluster#0和Cluster#3为例，即可发现在REQ-REESTB及REQUPDATE特征属性上，这两类小区有明显差异，即在后续分析参数配置模型时也需要区别对待。同时，Cluster#0小区的位置更新次数远高于全网平均水平，而Cluster#3小区的位置更新次数和呼叫重建次数都较低。通过业务领域专家的参与，即可实现对不同场景的特征描述。

5 总结

单一的经验分析不仅跟个人经验有关，而且很难及时准确的发现影响网络运行质量的原因所在，通过挖掘分析，可以为我们未来的优化工作提供更准确的规则信息，使我们能在问题发生以前，提前做好网络的预判和调整，而实现网络参数的精细化配置，很重要的方面就是要增强对无线网络场景的认识水平，通过定量的聚类分析，可以将小区自动划分，从而为后续的参数配置模型分析建立可靠的依据，这也正是本文阐述的主要内容。

表2 特征属性选择

图3 小区场景聚类结果

[1] Han J W, Kamber M著，范明，孟小峰译. 数据挖掘概念与技术，北京：机械工业出版社，2010.

[2] Witten I H，Frank E著，董琳等译. 数据挖掘实用机器学习技术[J]. 北京：机械工业出版社，2006.

[3] 中国移动无线网优平台2.0需求规范(V2).2011,3[S].

[4] 华为技术有限公司，BSC6900产品文档(V900R013C00)[Z]，2011.

[5] 华为技术有限公司，DRNC820产品文档(V400R005)[Z]. 2010.

[6] 李伟斌. 数据挖掘在移动网络优化中的应用[D]. 北京：北京邮电大学，2010.