基于大数据挖掘的LTE网络弱覆盖分析及覆盖优化研究

2021-05-28 09:15邓扬鑫朱晓荣
关键词:栅格数据挖掘基站

邓扬鑫,赵 夙,朱晓荣

(南京邮电大学 江苏省无线通信重点实验室,江苏 南京 210003)

随着计算机技术和互联网的迅速发展,全球的数据总量呈现爆炸式增长,人们对通信的要求也随之越来越高[1]。LTE的目标是借助新技术和调制方法提升无线网络的数据传输能力和数据传输速度,通过不断优化无线通信技术满足客户对无线通信的更高要求[2]。蜂窝移动通信网络从20世纪80年代发展至今,每10年就会产生标志性的一代技术革新,第五代蜂窝移动通信网络(5G)作为新一代无线通信技术,以其大带宽、低时延、广连接的优势给用户带来满意的交互体验,技术目前已实用,全面推广也将在近两年实现[3]。

在移动网络技术更迭期,如何保证现有的LTE用户的服务质量,精确化现有4G建设投资的同时,为5G预留充足的资源储备成为各大运营商需要重点考虑的问题之一。然而,在4G中基站分布不均匀导致基站覆盖范围的边缘地区或热点区域用户有信号但信号强度不能达到网络要求的标准[4],从而产生弱覆盖。因此,面对蜂窝网络中基站分布不均匀带来的弱覆盖,需要对基站进行规划使网络信号强度达到要求,提高用户体验度;在基站规划过程中,过密的部署将导致运营商成本上升,过疏的部署将无法满足边缘用户的网络需求[5]。因而基站规划中基站的位置与数量成为关键性因素,传统方法中使用数学模型对基站部署的NP⁃hard问题进行建模,通过自定的约束条件进行网络规划[6],该方法存在局限性并不实用。网络规划需要考虑基站容量、覆盖范围并结合当前网络的时空相关性,基站部署涉及的因素复杂,因而需要设计出合理的网络规划方案。

目前,国内外学者针对网络规划问题已做了大量的研究。文献[7]针对覆盖容量优化方案提出新颖的覆盖和容量比例公平(CCPF)分配算法,以最大限度综合覆盖范围和用户数目为效用函数,通过覆盖范围调节来保证合理的网络容量。文献[8]是关于异构网络下的网络规划,提出了逼近算法来解决仅有宏蜂窝的场景与包含微基站的场景两个场景下的网络规划问题。文献[9]研究了异构网络场景中,给定预算情况下的网络规划问题,目标是在满足业务需求点(Traffic Demand Points,TDPs)速率要求的条件下,最大化业务需求点数目。文献[10]针对异构网络环境下的网络规划问题,提出采用前沿的区域划分技术,并使得每个子区域业务负载相同,满足设计蜂窝网络最基本的目标即覆盖和容量,在提高用户QoS的同时大大减少CAPEX和OPEX。文献[11]针对毫米波对网络拥塞敏感的特性,使得网络优化更依赖于城市布局,因此提出了一种在密集的城市环境中完全自动化规划室外毫米波网络的方法,基于位置信息分析毫米波网络的特性并实现获取基站密度和覆盖的目标。

上述文献主要针对异构网络场景进行网络规划,大多数研究人员将实际网络规划问题通过网络最优化问题的目标函数和约束条件建立数学模型,通过合适的算法进行模型求解。但是绝大多数文献在网络规划模型建立中根据对象特征和建模目的进行了大量的假设,大多数问题没有回到现实中来,未用实际的数据对方法进行验证,检验网络规划模型在基站位置部署和基站数量上的适用性。在实际弱覆盖优化中,网络优化工程师通过用个人经验对单个弱覆盖区域进行基站参数调整使得弱覆盖得到改善,然而目前路测采集数据信息庞大,单纯靠传统网优工程师经验分析方法将耗费大量的人力物力,并不能达到网络优化降本增效的目的。

针对上述问题,本文对路测采集的庞大数据采用将网络规划优化问题与数据挖掘技术相结合,以LTE网络为应用背景,利用从现网中获取的大量真实网络数据采用数据挖掘技术将大量数据转换成有用的信息,对采集到的海量的LTE网络数据进行深入分析,发现并提取隐藏在其中的信息与规律,获取的信息将作为基站部署的基础,通过加权KNN算法与粒子群算法对基站进行重新规划,在解决弱覆盖的前提下得到最优的基站规划方案。

1 系统模型

本文提出了一种基于大数据挖掘的LTE网络弱覆盖分析及覆盖优化模型,系统框图如图1所示。首先从蜂窝网络中采集实际环境中的路测数据集,包括基站工参侧数据与采样点用户侧数据。对采集到的蜂窝网络数据进行基站-采样点空间与时间相关性分析,找寻基站分布的规律与基站-采样点弱覆盖分布的规律。通过数据挖掘对采集到的路测数据集进行数据清洗,对原始数据进行预处理后通过随机森林模型对特征进行筛选,减轻维数灾难问题,以降低学习任务的难度。处理之后的数据集放入回归模型学习训练信号预测模型。规划模型基于粒子群算法,在每一次基站位置调整后,通过信号预测模型对采样区域各用户位置的信号质量进行预测,信号质量的变化情况用于评价此次基站调整的适用性,将历史基站调整结果作为经验用于训练基站位置的下一次迭代调整。规划的总目标为通过基站位置和基站数量的调整使得采样区域的信号质量满足要求。

图1 基于大数据挖掘的LTE网络弱覆盖分析及覆盖优化模型

2 基站⁃采样点的弱覆盖分析

如图1所示,本文从LTE网络中的弱覆盖问题入手,通过数据挖掘技术对采样区域的弱覆盖问题进行大数据分析,通过调整基站位置和基站数量对弱覆盖区域进行优化,使得达到采样区域的信号质量要求。弱覆盖是指采样点的信号强度不能达到信号接收质量要求,在指标上为用户的参考信号接收功率(RSRP) <-107 dBm。

2.1 路测数据分析

本文所采取的数据为安徽省六安市LTE用户侧数据与工参侧数据,其中用户数据有300万条、工参侧数据21万条,用户侧具体属性见表1,工参侧具体属性见表2。本文将终端用户与基站进行匹配将双侧属性合并成一个完整数据集,通过用户侧数据的lte_info.eci属性与工参侧数据的CGI属性进行匹配即可得到所有用户所属基站。

表1 用户侧数据属性

表2 工参侧数据属性

2.2 基站⁃采样点的空间相关性

空间自相关是指分布在同一区域内的采样数据在某些变量上存在的潜在相关性。

六安市的基站分布与采样点分布如图2所示。其中横坐标为采样点的纬度,纵坐标为采样点的经度,蓝色三角星标点表示基站位置,圆点表示采样点的位置,圆点颜色深浅程度表示RSRP值的大小,颜色越红表示RSRP值越小,颜色越蓝表示RSRP值越大。

图2 基站及其附近采样点在空间上的弱覆盖分布

从图2可以观察到城市中间地带基站分布密集,城市边缘地带基站少,弱覆盖分布情况良好,边缘地带仅有部分地区弱覆盖较严重,经过经纬度定位可知该区域为汽车客运站,整体上可看出弱覆盖分布在空间上不均匀。

对图2网格从上到下、从左至右进行编号1~25,对各个区域的基站个数与弱覆盖点个数进行比较分析,因弱覆盖点度量和基站个数度量不一致,所以对两个参数进行归一化,如图3所示。其中横坐标为划分的各个区域号,纵坐标为弱覆盖点与基站个数归一化后的值,蓝线表示各个区域基站个数归一化值,红线表示各个区域弱覆盖点归一化后值。

从图3可以看出:基站个数的趋势走向与弱覆盖点个数的趋势走向基本是一致的,说明基站多并没有很好地解决弱覆盖点的个数,一方面的原因是该区域有遮挡物,建筑物布局紧密,导致终端对基站信号接收程度差;另一方面,由于基站部署密集,所在位置能同时收到附近其他基站传来的信号,导致终端在这几个基站之间来回切换使得信号质量变差。

图3 各区域基站个数与弱覆盖点数的相关性

2.3 基站⁃采样点的时间相关性

在时间相关性研究中采用的数据是2019年8月23至26日7时至20时在某个基站下所采集到的终端信息。

首先,以小时为单位计算8月23日当天各小时的弱覆盖率并进行可视化,如图4所示。图4的横坐标为数据采集的时间点,纵坐标为弱覆盖率,蓝色的线表示各网格区域在各个时间点的弱覆盖率变化趋势。

图4 单个基站覆盖范围的采样点在时间上的弱覆盖分布

从图 4 可以看出:7:00、12:00、17:00 这几个时间点是弱覆盖率高的时间点,人流量大导致基站所提供的服务不足以覆盖服务区域的所有终端用户,造成弱覆盖率高的情况出现。这几个时间正好为吃饭时间,通过采样点的经纬度可定位该区域为正阳路美食街。

其次,以天为单位计算8月23至26日每天各小时的弱覆盖率并进行可视化,如图5所示。图5中横坐标为时间点,纵坐标为弱覆盖率,蓝色的线表示各网格区域在各个时间点的弱覆盖率变化趋势。

从图5可以看出该基站覆盖区域弱覆盖率的周期性,从蓝色的趋势线可以看出该基站覆盖区域下每天的弱覆盖率变化基本呈现一致性,说明该基站覆盖区域弱覆盖率呈现出按天的近似周期性的规律。

图5 单个基站覆盖范围的采样点随小时变化情况

3 信号质量预测模型

本文目标为对弱覆盖区域的优化,根据采样区域信号质量的变化对基站进行调整,使得调整后的采样区域的信号质量满足要求。影响信号质量的具体因素包括:(1)基站规划不合理,由于移动用户数量剧增,当前网络需求量与初始规划时存在较大差异,因而存在规划不合理现象。(2)基站覆盖区域环境的变化,区域新建建筑物形成屏蔽造成弱覆盖。(3)工参侧参数设置不合理,比如基站的总下倾角、方位角、天线挂高等。

综上所述,采样区域某个位置用户的RSRP值与上述三方面密切相关,为得到每次基站调整后用户的RSRP值,建立信号质量预测模型,找出用户RSRP值与上述因素之间的联系,完成规划过程的基础工作。

3.1 数据清洗

在2.1节中详细介绍了本文所采用的路测数据信息,想要预测模型达到最优不仅要选择最优的算法,还要尽可能从原始数据中得到更多的信息,怎么获取最全面的信息是本文面临的第一个问题。

在真实数据中,所采用的数据在收集过程中可能存在数据缺采导致大量的缺失值、信息收集不准确导致的异常点等情况,因而需要对原始数据进行数据清洗,本文通过以下几个方法进行数据清洗:

(1)删除所有包含缺值的数据,经过对原始数据的缺值查找发现包含缺值的数据占比不高,因而选择直接删除这些数据。

(2)删除数据中与预测明显无关的特征。包括lte_info.collect_time、lte_info.ul_freq、lte_info.ul_bw、lte_info.dl_bw、频段指示、lte_info.duplexmod、lte_info.subscriber_id、lte_info.dl_freq 与 lte_info.day 等取值对结果不构成影响的。

(3)删除明显异常点。明显异常点为用户的RSRP值不在所有用户RSRP值的平均值±2倍所有用户RSRP值的标准差范围。

(4)删除重复值及包含特殊字符数据。

3.2 重要性排序

用随机森林对特征进行重要性度量和相关性分析,建立基于随机森林的重要性与相关性模型,完成特征筛选。特征重要性评估是看每个特征在随机森林中的每颗树上做了多大的贡献并对其取平均值,比较特征之间的贡献大小。将特征重要性评分用V表示,平均不纯度采用gini指数测量用G表示,假设有m个特征X1,X2,…,Xm,现在计算出每个特征Xj的gini指数评分,即第j个特征在随机森林里所有决策树中节点分裂不纯度的平均改变量。gini指数的计算公式如式(1)所示。

其中,K表示某个特征有K个类,pmk表示决策树的节点m中类k所占的比例。

特征Xj在节点m的重要性,即节点m分支前后的gini指数变化量,如式(2)所示。

其中,Gl和Gr分别表示分枝后两个新节点的gini指数。

如果特征Xj在决策树i中出现的节点在集合M中,那么Xj在第i棵树的重要性如式(3)所示。

假如RF中共有n棵树,那么n棵树的重要性评分如式(4)所示。

最后,将重要性评分进行归一化如式(5)所示。

3.3 信号预测模型建立

本文利用KNN算法对LTE用户侧数据和工参侧数据建立信号质量预测模型。KNN回归算法是监督学习算法,通过对样本在特征空间中的K个最相邻的样本中某个属性的平均值赋予该样本,即得到该样本对应属性的值。该算法对数据没有假设因而准确性高,对异常点不敏感。

KNN算法[12]分为3步:(1)找到k个相邻训练样本计算测试样本T与训练样本S之间的欧几里得距离,T =(t1, t2,…,tm), S = (s1, s2,…,sn),m,n =1,2,3,…, 其中表示样本 tm的第p个特征,那么对测试样本ti计算该样本与训练样本S的距离如式(6)所示。

(2) 按照 d(ti,S) 距离递增排序,选取距离最小的k个点。

(3)计算k个点的属性平均值作为测试样本的属性值。

KNN模型当特征数过多时会出现维度灾难问题,因而本文通过数据挖掘对大量数据进行处理。

从3.2节中重要性程度模型通过计算特征重要性评分V可得出各个特征权重,如式(7)所示。

其中,ωi表示第i个特征的权重值。

特征权重值确定之后,对两样本之间的欧几里得距离即式(6)进行修改,那么,测试样本ti计算该样本与训练样本S的加权距离如式(8)所示。

利用基于数据挖掘的特征加权KNN算法建立预测模型即可解决KNN算法的维度灾难,其具体算法过程如算法1所示。

算法1 基于数据挖掘的特征加权KNN算法

4 规划模型

4.1 问题形成

本文目标是对实际采集的大量数据进行基站再次规划,在采样范围内找到最优的基站位置以及最少的基站个数能降低采样区域的弱覆盖率。

现有网络规划基于公司实际路测采集终端数据与工参侧数据,运营商的MR数据栅格单位为50 m∗50 m,本文提出基于经纬度的MR数据栅格划分对LTE弱覆盖评估的方法,其核心思想:(1)判断栅格的标准为采样点经纬度小数点后的4位数字,如果采样点在小数点后的4位数字都相同则这些点就在一个栅格内,栅格精确度为11.132 m∗11.113 m。(2)计算每个栅格的栅格弱覆盖率(该栅格内RSRP值小于-107 dBm的采样点/该栅格所有采样点),栅格弱覆盖率大于10%的栅格为弱覆盖栅格,统计弱覆盖栅格得到总的弱覆盖栅格。

在整个网络规划过程中总目标函数,如式(9)所示。

其中,N表示采样区域的总栅格数,n表示第i个栅格内的采样点个数,表示第i个栅格上的第k个采样点利用加权KNN算法预测出的信号质量值RSRP,表示第i个栅格上的弱覆盖点个数,yi代表在第i个栅格是否为弱覆盖栅格,用来统计整体采样区域覆盖信号质量未达标准的区域。本模型的目标为在一个粒子无穷多的区域内通过迭代找到最优位置,为解决该问题本文选择粒子群算法,该算法相对于其他算法收敛速度快,具有记忆性,适用于本文的目标寻找最优位置。

4.2 问题求解

4.2.1 粒子群(PSO)算法

粒子群算法[13]是模仿鸟群觅食过程的算法,种群中每个粒子通过自身历史位置经验的学习与最优粒子经验的学习相结合逐步调整自己位置,向最优位置靠近从而获得最优解。

假设搜索空间维度为N维,一个种群由m个粒子组成,粒子i在N维空间上的位置表示为Xi=(xi1, xi2,…,xiN),i= 1,2,…,m, 粒子 i的当前速度为 Vi= (vi1, vi2,…,viN) ,进化过程中,记录微粒到当前为止的历史最优位置 Pi=(pi1,pi2,…,piN) 和所有颗粒的全局最好位置 Pg=(pg1,pg2,…,pgN),PSO算法对粒子的速度和位置更新公式分别如式(10)和式(11)所示。

其中,i=1,…,m,n=1,…,N,t表示迭代次数,Pin表示第i个粒子的当前历史最优解,Pgn表示所有粒子的全局最优解,ω为非负数的惯性因子,c1、c2、r1、r2均为描述粒子自身位置与个体最优及全局最优的权重。

4.2.2 基于粒子群算法的大数据网络规划

假设部署基站数为N,即搜索空间维度为N,初始化种群大小为M,则

在搜索过程中,粒子长度N将随基站数减小,粒子经过的个体最优位置为 (pi1,pi2,…,piN),整个群体中粒子经过的最优位置记为 (pg1,pg2,…,pgN),粒子的位置以及速度更新分别为

在求解过程中,不断调节粒子的位置与更新速度,使目标函数总弱覆盖栅格数最小,对于基站数N,初始化基站数为实际所部署的基站总数,不断减小N,直到找到最小的N能最好地解决弱覆盖栅格。

当前全局最优粒子位置的总弱覆盖栅格数表示为Sg,粒子个体经历过的最优位置的总弱覆盖栅格数表示为Sk,当前全局最优粒子位置记为Xg,粒子个体当前经历过的最优位置记为Xk,最终粒子的最优位置记为X,具体部署算法步骤见算法2。

算法2 基于PSO的大数据网络规划算法

5 仿真分析与性能评估

本文所采取的数据为安徽省六安市LTE数据,其中用户侧数据有300万条、工参侧数据21万条,数据格式在2.1节已介绍。本文通过基站工参侧数据与用户数据来验证本文所提的网络规划模型的可行性,规划结果采用Python Matplotlib工具可视化。

5.1 基于加权KNN的信号预测模型仿真与分析

通过分析基站-采样点之间的空间相关性与时间相关性,可以看出采样区域存在极大的弱覆盖问题。面对庞大的数据集,本文使用数据挖掘对原始数据集进行处理,原始数据集包括42个特征、超过100万条数据,通过数据清洗方法对数据进行处理,经过数据清洗后的新数据集共包括19个特征、802 992条数据。对基站位置经纬度与采样点位置经纬度进行欧式距离计算得到diff特征。参考信号接收功率lte_info.rsrp为预测标签,通过随机森林模型对数据进行重要性排序与相关性分析,建立lte_info.rsrp与各个特征之间的映射关系。

将预处理后的数据集里的特征进行基于随机森林的重要性度量与相关性分析,按不纯度给特征排序。数据集各特征的重要性评分V如表3所示,相关性如图6所示。

根据互信息数与重要性排序对数据进行筛选,从互信息可以看出:lte_info.tac、lte_info.dlbw、lte_info.mcc、lte_info.pci的互相关性比较大,参考重要性排序选择留下lte_info.pci特征,经过特征筛选最终留下 diff、azimuth、A_height、lte_info.pci、power与GSM_neighbor共6个特征。

为解决KNN的维度灾难问题本文提出了基于数据挖掘的特征加权KNN模型。在仿真中,比较KNN模型与基于数据挖掘的特征加权KNN模型的性能。仿真数据为真实采集数据,包括1 156个基站与经过数据预处理后的802 992条用户数据。

表4给出了KNN模型与基于数据挖掘的特征加权KNN模型在仿真数据集的性能比较,本文评价模型性能采用均方根误差(RMSE),其计算公式如式(15)所示。可以看出,基本上基于数据挖掘的特征加权KNN模型准确性上比KNN模型高。

表4 算法在仿真数据集上的性能比较(测试RMSE值)

5.2 规划过程

通过粒子群算法对采集的大数据进行网络规划使得弱覆盖栅格数最低,由于采样区域分布不均匀,多数基站下采样点低于平均采样点,不易看出规划效果,因而选择一部分采样区域进行规划分析,图7为所采集到的初始基站位置及采样点分布,其中横坐标为采样点的纬度,纵坐标为经度,蓝色星标点表示基站位置,圆点表示采样点的位置,图7中初始基站个数为15个,采样点个数为26万个,从图7可以看出,圆点深色面积较大,大部分区域为红色部分区域为深红色,弱覆盖区域面积较大。

图7 初始基站位置及采样点的RSRP值变化情况

本文在部署基站期间,以RSRP值作为衡量弱覆盖的标准,结合粒子群算法,从而决定基站位置和数量,并根据弱覆盖栅格数来判定当前的基站位置和数量是否达到最优。

在网络规划初始阶段,所设定的基站数为原始基站数量15个即粒子长度为15,粒子群算法的参数ω=0.8,c1=0.5,c2=0.5, 粒子群中粒子个数为40 个,最大迭代次数 max_iter=100。

图8为不同基站数量下经过每一次迭代后弱覆盖栅格数的变化。从图8可知,随着迭代次数的增加,弱覆盖栅格数在不同基站数量的情况下都呈减少趋势,当基站数为14时弱覆盖栅格数优化为0个,满足本文设置的弱覆盖率要求,为使基站数达到最优去除冗余基站,将基站数即粒子长度进行减少,当基站数量N减小到11时,经过迭代弱覆盖栅格数可以优化为0个,但减小到10时,弱覆盖栅格数为225个,因而满足要求的最小基站数量为11个。

图9为基站数量为11时各基站位置及周围采样点的RSRP值变化情况。可见图8中的深红色区域基本得到改善,此时弱覆盖栅格数为0个,且基站数达到最小,可见应用粒子群优化算法能使得弱覆盖得到解决,因而验证了本文提出的规划模型的可行性。

图8 在粒子群算法下迭代过程中弱覆盖栅格数的变化

图9 规划后基站位置及采样点的RSRP值变化情况

6 结束语

针对LTE网络的弱覆盖问题,本文提出了基于数据挖掘的LTE弱覆盖分析与覆盖优化模型。首先利用现网中采集的路测数据通过数据挖掘技术来将实际大数据转换成有用的信息,利用随机森林模型选取有用的特征。然后,采用加权KNN算法和PSO算法对现网采样区域的弱覆盖栅格进行优化,得到满足优化弱覆盖要求及基站数量最少的基站部署分布,从而完成对弱覆盖区域优化的网络规划过程。最后,利用现网数据去验证本文所提模型的可行性。实验结果表明,该模型能够很好地解决现网中的弱覆盖情况,提升用户的信号质量,对于弱覆盖下的网络规划具有一定的参考价值。对于下一步工作,将考虑从工参侧参数方向,结合两方面对网络规划问题进行联合优化,使得网络规划更加合理有效。

猜你喜欢
栅格数据挖掘基站
改进支持向量机在特征数据挖掘中的智能应用
基于NETMAX的基站网络优化
栅格环境下基于开阔视野蚁群的机器人路径规划
超声速栅格舵/弹身干扰特性数值模拟与试验研究
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
5G基站辐射对人体有害?
5G基站辐射对人体有害?
反恐防暴机器人运动控制系统设计
可恶的“伪基站”