李炜 王少轩
摘要:文章提出了一种基于人工智能二次聚类的移动通信无线性能仿真研究。首先,用SOM算法将输入数据进行训练,将训练输出的每个节点对应的内部权值向量作为输入模式类的中心向量,同时该中心向量为K-means方法算法中的主中心向量,以进行精确的二次聚合。其次,使用SOM-K算法对移动小区短期的OAM数据进行聚类。与单独使用K-means方法相比,该方法聚类效果明显改善。
关键词:聚类;无线接入网;自组织网;K均值聚类
中图分类号:TP391 文献标志码:A
0 引言
随着人工智能技术的发展,人工智能在移动运营商网络管理中的应用越来越多,特别是在移动通信网络无线侧,使运营商能够有效地监测移动小区性能和无线网络资源分配管理,从而提高网络性能、提高服务质量、降低成本、提升用户体验等[1]。聚类作为一种简单而有效的分析方法,已经引起了许多研究者的关注,同时它也是一种在工业、农业和经济等领域处理大型数据集的标准方法[2]。
聚类是以相似为处理数据的依据,把具有相似特征的数据划归为一个集合。有标记的数据更容易聚类作为一种惩罚,并且可以建立一个激励机制,以促进数据的有效聚类[3]。目前常用的聚类方法有K-means、SOM等。SOM和K-means在移动通信领域的数据监测也被广泛应用,郑舒方[4]提出了K-means聚类算法在通信运营商精准营销中的应用,针对客户数据应用人工智能聚类分析。魏静等[5]提出了基于SOM的无线通信话务量最优加权组合预测,利用SOM神经网络对话务量数据进行自动聚类,分别确定相应最优加权组合预测的权重,进而获得相应的预测值。
1 SOM和K-means
SOM作为一个无监督学习神经网络模型,可用于数据的聚类、降维,是一种容易解释、简单、高度可视化的自动数据分析方法,广泛应用于模式识别、数据挖掘领域中的数据聚类和分析[6]。
SOM算法最大的优点是可以将数据从高维空间映射到低维空间[7]。此外,SOM算法还可以根据数据集之间的相似性自动对数据进行分类,并降低噪声。然而,SOM算法的缺陷是聚类后不能提供准确的聚类信息,SOM聚类具有高复杂度和慢学习速度。SOM遵循一个迭代过程,直到网络收敛[8]。在给定的第t次迭代中,SOM的基本过程可以描述如下。
(1)Xi随机选择输入数据集:X(t)=Xi的一个新样本,i在1和I之间随机选择。
(2)找到X(t)的BMU:在竞争层中搜索一个神经元 q∈ 1,…,P。通过寻找样本之间距离最小的神经元,计算训练数据的每个输入样本的BMU。通过拓扑和邻域半径,BMU和所有邻近神经元向输入样本移动。邻域的大小和移动的强度都会随着时间的推移而减少,以帮助收敛。
minj{‖Wj-X(t)‖}=‖Wq-X(t)‖(1)
其中‖·‖是距离测量。
(3)更新BMU及其邻居的权重,以减小输入样本X(t)之间的距离。
Wj(t+1)=Wj(t)+ρ(t)hci(t)[X(t)-Wj(t)](2)
式中,Wi(t+1)是更新的权重向量;ρ(t)为第t次迭代时的学习速率,通常是迭代次数的单调递减函数,其范围为0~1;hci(t)是邻域函数,通常表示为一个高斯函数,以BMU为中心。
hci(t)=exp-‖ri-rq‖22σ2(3)
式中,rq表示获胜单元的坐标,ri表示映射到竞争层上任意单元的坐标。当t趋近于∞时,hci(t)必须接近于0才能使算法收敛。在机器学习过程中,学习速率和邻域函数的宽度会降低,通常呈线性方式。
(4)重复上述3个步骤,直到学习速率不再改变(即网络收敛性)。
与SOM相比,K-means聚类是将数据集分成不同类别的迭代过程,基于样本的相似性,使内部集群的样本差异较小,而不同集群的样本差异大,适合中小型数据聚类。然而,K-means存在固有的缺点:(1)K均值算法要求提前给出K,但K的值通常难以确定;(2)K均值对噪声和异常值的性能不佳,可在高维数据聚类平衡这2种算法的优缺点[9]。因此,本文提出了结合SOM和K-means聚类的两阶段聚类算法。
2 SOM-K的聚类方法
使用SOM模型用于小区聚类的方法如图1所示。此次,输入空间的维数为n=29,数据项的最大数量为I=85977。
在训练SOM模型之前,输入数据必须进行归一化。否则,直接使用原始数据作为输入数据,可能会因为所取数值的范围产生巨大的偏差。采用以下公式进行标准化:
Oij=xij-min(xj)max(xj)-min(xj)(4)
其中,xij为数据项i中特征j的原始值;min(xj)和max(xj)分别为特征j在整个数据项中的最小数据值和最大数据值;Oij为归一化的值,归一化的结果为[0,1]。
将输入数据归一化后,需要确定在SOM模型的竞争层中使用的最合适的神经元数量P。此次,通过平均量化误差(QE)和拓扑误差(TE)的计算来获得神经元数量P。QE表示输入数据向量与其BMU之间的平均距离,TE表示BMU和第二个获胜神经元不相邻的数据向量的百分比。一般来说,QE和TE越小,SOM模型的操作结果和性能越好。随着拓扑大小的增大,拓扑误差率小于拓扑的大小率,拓扑误差自然就降低。当QE表现出相似的TE值时,QE被认为是选择拓扑大小的主要参数。QE和TE的计算方法如下:
QE=1R∑Rt=1‖X(t)-Wq(t)‖(5)
TE=1R∑Rt=1d(X(t))(6)
其中,X(t)为第t次迭代的输入数据项;Wq(t)为样本X(t)的BMU的权值向量;d(X(t))=1时,如果X(t)的第一个BMU和第二个BMU不相邻,则R为网络收敛前的迭代次数,且d(X(t))=0。
综上所述,本次首先采用MATLAB训练SOM模型,其中分别选择从4个(即2×2网格)到100个 (即10×10网格) 不同数量的神经元。对于每个配置,使用S-Map软件包计算QE和TE的值,在所有训练过的模型中,将选择QE和TE最低的模型。在TE/QE方面提供最佳性能的SOM模型的大小表示为Popt。
利用K-means算法将SOM得到的Popt权值向量聚类为较少的向量Q≤Popt,从而提高总体聚类精度。所得到的Q向量被称为质心或聚类中心K的均值计算是通过选择最小化指数(DBI)的最优聚类数Q来完成,该指数表示簇内距离和簇间距离之和的比值。SOM-K聚类算法称为二次聚类,可以保持SOM网络的自组织特性和K-means算法的高效率。Q簇的DBI由以下表达式定义。
vDB(Q)=1Q∑Qm=1maxl≠mSc(Qm)+Sc(Ql)dce(Qm,Ql)(7)
其中:
(1)Qm和Ql表示Q簇集合中的第m个和第1个簇。
(2)Sc(Qm)=∑i‖Xi-CQm‖NQm是质心团簇内距离的计算。Sc(Qm)是从簇的样本到簇质心的所有成对距离的平均值;Xi是分配给Qm聚类的n维特征向量;CQm是簇Qm的质心。
(3)dce(Qm,Ql)是2个簇Qm和Ql之间的簇间距。DBI可以通过对Q一些数据计算得到,取最小化VDB(Q)的值作为最优值,记为Q*。
(4)最后,通过比较各聚类不同特征的分布情况分析不同聚类的特征。
3 实验与分析
此次试验根据在整个测量期间观察到的整个小区的短期行为来获得小区模型,短期行为是指第一阶段不同小区间的每小时小区的表现,并分析第二阶段小区的时间分布的百分比,获取小区在24 h(1天)内的行为。通过获取到的小区的行为数据,把小区在1 h期间的性能数据作为输入样本进行小区性能指标分析每个小区。本次研究通过对63个小区的数据进行预处理,获得了21341组数据。先计算所有单元的整个测量周期的平均值,选择29维的输入数据到2134个1行向量(每个特征一个),输入数据表示为21341×29矩阵。
对于特定的聚类,计算QE和TE的值,范围从2×2神经元到10×10神经元的配置。当拓扑结构为6×6时,QE和TE达到最小值(QE=0.026和TE=0.047)。
短期行为的簇特征如图2所示,可以发现集群4的特性在这5个集群中性能最好,具有最好的UE、CQI和连接模式,即UE在完成RRC连接建立时进行连接模式,集群4的数据采样时间在上午9点和下午3点的高峰时段是数据使用时间高峰期。集群1的性能最差,它的采样从凌晨2点到6点。集群2和3,其中集群2具有较低的RRC设置失败率和较高的连接模式,这2个集群的其他特征是相似的。这是因为,在相同数量的UEs的情况下,集群3的CQI的值会小于集群2。这意味着与集群2相比,集群3的频道质量更差。集群3的采样时间是从早上6点到早上8点和上午10点到下午2点,这是数据使用的亚高峰期。最后,在这5个集群中,集群5的性能相对较差,仅优于集群1,造成这种现象的原因是,在UE的数量与集群3相似的前提下,这一时期的CQI和连接模式都弱于集群3。这个集群的采样时间几乎是从晚上7点到凌晨1点,这是下班的时间。
短期内不同负荷程度的分布如表1所示,最上面一行为负荷,左列为来自整个63个LTE单元的3种类型的单元。首先,查看单元Ⅲ的低负荷度,时间分布范围为21.4%~27.7%,这是这3种类型的单元中的最高范围。小区Ⅰ的最低百分比范围为10.2%~14.5%,另一方面,高负荷度小区Ⅰ的最高时间百分比范围为3.7%~5.1%,小区Ⅲ的最低时间百分比范围为0~0.55%。这说明小区Ⅰ是最好的组,小区Ⅲ是最差的组。无论在高负荷或低负载下,小区Ⅱ的性能都是中等的。
其次,分析关注高负荷单元可以发现百分比范围最高的小区是小区Ⅰ,和他们的时间分布部分重叠的是小区Ⅱ,例如,小区Ⅰ和小区Ⅱ的时间百分比范围分别为14.3%~15.8%和11.7%~14.5%。同样的情况也发生在次低负荷簇中的Ⅱ、Ⅲ和次低负荷簇的单元中。同时,次负荷小区Ⅲ中低负荷的最高时间百分比范围为30.7%~37.1%,小区Ⅰ的最低比例范围为20%~26.8%。最后,中等负荷是最重叠的分布和各自的范围没有太大不同,除了小区Ⅲ。例如,小区Ⅰ的30.8%~39.1%和小区Ⅱ的30.5%~32.5%在这个周期有很大的重叠时间分布。不同加载程度的3个时间百分比范围重叠的3组单元,可以解释为该时期不同单元的用户流量消耗是相同的。
经上述验证,此次所用的SOM-K 算法可以很好地表征LTE小区性能,为了体现此次研究的意义,特地使用K-means聚类效果进行比较,如表2所示,显示了K-means和SOM-K之间的质心内和质心间距离。可以发现,在集群2和5中,距离K-均值的质心内距离的值大于SOM-K。但距离集群1和3的距离比SOM-K稍小,即与SOM-K相比,簇内距离K-means的距离分布更不平衡,差距更大。同时,距离K-means的质心间距离低于SOM-K,因此,由于簇内距离越短,簇间距离越大,簇性能越好。高维数据集的K-means集群性能比SOM-K要差。
4 结语
基于LTE网络中使用的SOM-K的分析尚未得到推广。研究表明,SOM-K可以用于LTE小区的聚类性能分析,并获得更好的聚类结果。同时,该方法对高维数据的聚类效果明显优于传统的K-means算法。本次在研究小区短期行为时,对不同负载小区的能源消耗也作了简单的统计研究,电信运营商的电力消耗也是巨大的,尤其是在使用智能化网络优化后将会更加明显。总而言之,在LTE网络优化中,使用数据分析和挖掘也意味着可以使用SOM-K方法来调整网络性能,算法成功地利用了大数据对具有几乎实时特征模式的单元进行聚类。
在人工智能、物联网时代,网络性能的好坏将直接影响用户体验和运营商的收益,能耗高成为5G/B5G网络推广难落地的痛点之一。未来5G时代基于网络移动模式管理的智能网络节能降耗将是一个新的研究方向,可减少运营支出和提高蜂窝网络运营商的质量。
参考文献
[1]王海虹,梁磊清.大数据分析在网络运维中的研究和应用[J].电信快报,2023(9):8-10.
[2]邓扬鑫,赵夙,朱晓荣.基于大数据挖掘的LTE网络弱覆盖分析及覆盖优化研究[J].南京邮电大学学报,2021(2):25-33.
[3]汪海涛,余松森.分布式SOM结合K-均值聚类的软件定义网络泛洪攻击检测方法[J].计算机应用研究,2019(11):3423-3427.
[4]郑舒方.K-means聚类算法在通信运营商精准营销中的应用研究[D].吉林:吉林大学,2019.
[5]魏静,李恒超,范平志.基于SOM的无线通信话务量最优加权组合预测[J].计算机工程与应用,2011(14):73-75.
[6]刘韵洁,张娇,黄韬,等.面向服务定制的未来网络架构[J].重庆邮电大学学报(自然科学版),2018(1):1-8.
[7]ANDRADES A G,MUOZ P,SERRANO I,et al.Automatic root cause analysis for LTE networks based on unsupervised techniques[J].IEEE Transactions on Vehicular Technology,2016(4):2369-2386.
[8]顾亦然,陈禹洲.基于SOM-K-means算法的商品评论研究[J]软件导刊,2021(10):68-72.
[9]周欢,李广明,张高煜.SOM+K-means两阶段聚类算法及其应用[J].现代电子技术,2010(16):113-116.
(编辑 沈 强)
Research on LTE wireless performance based AI
LI Wei1, WANG Shaoxuan2
(1.School of Artificial Intelligence, Shaanxi Institute of Technology, Xian 710300, China;
2.Polytechnic University of Catalonia,Barcelona 08034, Spain)
Abstract: This paper presents a simulation study of wireless performance of mobile communication based on artificial intelligence secondary clustering. First, SOM algorithm is used to train the input data, and the internal weight vector corresponding to each node of the training output is taken as the center vector of the input pattern class, and the center vector is the main center vector in the K-means algorithm to carry out accurate secondary aggregation. Finally, this method is used to cluster the long-term OAM data of mobile cell, and the clustering effect is significantly improved compared with K-means method alone.
Key words: clustering; wireless access network RAN; SOM; K-means