刘晓琴
(安徽农业大学 经济技术学院,安徽 合肥 230000)
无线网络优化是随着互联网的普及和移动终端设备的快速发展而被逐渐提及的概念,常指通过硬件检查、话务报表统计、现场数据测试、参数分析的方式,从掉线率、网络接通率、切换成功率等关键指标入手,分析网络不稳定等问题的因素,然后通过参数调整、硬件改进等技术手段改善无线网络质量,为用户提供更优质的用户体验[1,2]。实现网络资源优化和提供优质的无线网络服务,才能够获得客户满意,才能够进一步拓展市场。
无线网络的优化受到多种因素的影响,网络优化的过程也是非常复杂而艰难的。随着技术的发展,用户对无线网络质量的要求越来越高,传统的无线网络优化就是通过DT/CQT测试模式和KPI处理模式来进行技术的革新,从整体上来看,这种技术手段能取得比较好的优化效果[3]。但是,在一些 KPI技术良好、DT/CQT测试模式比较一般的区域,个体用户体验会受到影响,个体用户投诉率也会比较高。采用传统的手段进行网络优化,对于网络覆盖优化的结果精准性带来影响,基础数据质量不高:一是由局部向整体衍射的评估方式会导致CQT、路测分析不准确;二是MR技术和KPI技术无法对用户的问题进行精准分析,一些关键数据信息被忽略;三是一般会独立推进2G/3G/4G无线网络的优化,彼此之间的兼容性不佳,跨系统问题容易影响用户评价[4]。
在数据爆炸的信息时代,人们随时随地都会产生大量数据,大数据分析已经被应用在生活的方方面面,这也对无线网络的优化提出了新的要求。通信大数据可以分为运营商产生的数据和用户产生的数据,用户数据分为富媒体数据和自媒体数据,运营商数据包括基础网路数据和日志数据,运营商的数据采集方式包括测试报告(MR)、采集路测(DT)/最小化路测(MDT)、使用习惯、传输分组、终端类型等等。基站端能够获取的数据包括用户通话记录(CDR)、用户位置、接收信号强度(RSSI)等。后台运维可以采取的数据包括话务统计、测量、信令等[5]。互联网端能够获取视频、图片、新闻、应用数据等。运营商能够采集到的数据不仅包括业务的类型、流量、网站访问信息,同时能掌握整体通信信道的状况[6]。在大数据背景下开展无线网络的优化,有以下几个特征:
一是网络覆盖规模越来越巨大,无线网络的承载量面临更高的要求。移动网络的覆盖会产生规模巨大的海量数据,信息量巨大,增加了数据分析的难度,无法做到无线网络的全覆盖和精准移动定位分析。除此之外,移动通信网络具有非常多的网元,不同制式采用不同模式,网络承载力必须不断提升。
二是数据在时间域和空间域之间存在明显差异,这也增加了无线网络优化的难度。无线网络在不同区域的布置方式不同,数据结构也有差异,很难将其整合到统一的平台中。这种差异性导致无线网络部署和优化无法全面统一,增加了工作量和工作难度。
三是数据都是碎片化、零星化产生的,无线网络资源的管控策略也需要逐渐提升。用户使用的移动终端设备的品牌、型号不同,设备的性能有一定差异,用户行为复杂,数据量大,业务体验不同。用户业务模型也具备自身特征,网络数据繁杂,要想在大量数据中分辨出影响网络质量的关键信息,就必须优化数据分析模型,降低数据分析所需的精力和成本,为用户提供更好的服务。
大数据分析是基于海量样本数据展开的,对数据的丰富性、数据量、数据准确性和数据的内在关联性都提出了要求。下面将着重介绍聚类分析、关联分析两种大数据分析策略,并基于此介绍大数据预测分析理论。
聚类分析是在海量数据基础上,从数据多样性、速度、数量等几个属性定义复杂数据,然后根据数据的属性进行聚类,或者用相似类别的模式来划分大量基础数据。聚类分析能够简化数据的处理,提取数据的特征信息点,将同类型的数据归纳起来,然后对其进行预测分析。结合跨类别的数据关联分析,提炼数据价值,能够将原本无序、离散、纷杂的基础信息组织起来,挖掘数据价值。
采集大量无线网络运行基础数据,并对其进行分析归纳,通过聚类分析可以获得比较稳定的群体性活动的聚类资源。关联分析能够帮助找寻出聚类后数据的内在联系,从不同纬度综合分析数据的利用价值,这是利用大数据分析解决问题的关键步骤。
预测分析就是帮助数据分析师在数据基础上对未来可能的事件进行预测判断,数据挖掘和数据的可视化展示分析能够帮助人们更加深入的理解数据。
借助大数据的聚类分析和分类算法,完成无线网络异常小区的识别,采用数据挖掘技术和机器学习技术分析电信网络基站,识别距离群点,进而判断网络基站小区的网络存在的潜在问题,然后建立小区分类模型,对每个基站小区的特征数据点进行判断,识别存在网络异常的小区。
采用Spark提供的机器学习算法实现库MLlib,它支持回归、分类、聚类、关联规则、降维和优化等问题处理。在解决无线网络异常小区识别问题时,主要采用聚类和分类的算法,本文采用基于划分方法的KMeans算法完成聚类分类,然后将基站小区按照性能特征进行分类。
KMeans算法流程:
第一步:确定聚类中心总数,用K表示,然后随机的选择K个特征向量;
第二步:确定算法的迭代次数,用N表示,将第三步和第四步循环运行N次;
第三步:计算聚类中心和特征向量之间的距离,并将特征向量分配到和它距离最近的分组中;
第四步:重新计算各个小组的聚类中心;
第五步:算法输出K个聚类中心。
评估算法的结果,可以用组内平方和WCSS公式来完成:
上式中,xi表示的是其中一个特征向量,ck表示的是这个特征向量分属的类别的聚类中心向量。如果WCSS值越小,则说明分类的内部越密集,聚类的效果越好。
基站小区的分类是一个多元分类的问题,考虑到基站小区的特征属性表示方式,主要用逻辑回归分类算法和决策树分类算法。逻辑回归算法的结果输出是一个二项逻辑回归的模型,针对特征向量,类别判断借助下述公式完成:
无线网络异常小区识别的算法,首先是要构造描述基站小区的特征向量,然后对所有的基站小区进行聚类分类。根据聚类的结果,如果类中基站小区的个数在基站小区总数中所占比例比较小,则表明该基站小区的特征向量是一个离群的点,然后分析离群点的聚类中心的向量特点,判断其关键指标是否确实存在异常。在此基础上,构建基站小区的分类模型,最终形成网络异常小区的识别模型,只要输入基站小区的关键性能指标,就能够判断基站小区是否有网络异常,实现小区网络异常的智能识别功能。
此次以CDMA网络基站小区为案例进行分析,基站小区的特征属性包括天线的角度、天线覆盖范围、用户数量、异常掉线次数、网络下切用户数量、EVDO和CMA1X在网时间、EVDO上行和下行流量,CDMA1X上行和下行流量等,在此基础上构建基站小区特征向量。
对基站小区的特征向量进行聚类分析,按照上述算法进行计算,得出聚类中心个数和分析误差关系,随着聚类中心的增加,聚类分析的误差会逐渐降低。如果聚类中心的数量超过了20,那么误差变化趋势就会趋于平缓,继续增加聚类中心个数对聚类准确性影响不大,所以聚类基站小区的最佳个数为20个。
图1 聚类中心个数与WCSS关系
聚类分析运算结果如表1所示。
表1基站小区网络数据聚类分析结果
对上述数据进行分析,发现类别1、2和4的基站个数比较少,分析聚类中心的特征,发现CDMA1X在网时间长并且网络流量高,所以需要对基站的EVDO网络进行优化。类别3的基站数也少,基站用户少但是流量高,所以应该更加合理的分配基站系统资源,确保为用户提供更优质的服务。类别10和类别18的基站,掉线次数比较高,所以需要对基站的无线信号覆盖情况进行专业检查。类别12和16的基站参数中无线制式回落次数高,说明基站的EVDO网络信号比较差,需要对基站进行故障排查。
通过对大数据应用背景下的无线网络优化的介绍,分析了大数据分析在无线网络优化中的应用,并以基站小区网络异常评估为例分析基于大数据应用的无线网络优化方案,验证大数据分析技术在网络优化决策分析和工作部署中的重要作用。