刘璐,陈睿杰,李嘉
研究与开发
基于MDT重叠覆盖度数据的NN-DBSCAN参数自适应调优研究
刘璐1,陈睿杰2,李嘉2
(1. 中国移动通信集团设计院有限公司重庆分公司,重庆 401121;2. 中国移动通信集团云南有限公司,云南 昆明 650228)
传统网络优化中路测工作存在难以全量测试道路及楼宇、测试工作量大、工作效率低、周期长、受人为因素影响等显性缺点,无法动态关注每个区域网络质量情况,且常规测量报告(measurement report,MR)数据不具备定位信息,无法精确定位如重叠覆盖度问题发生位置。基于最小化路测(minimization drive test,MDT)精准定位系统通过采集底层基站MDT数据,并根据重叠覆盖度算法输出高重叠覆盖度栅格,再通过自适应最近邻-具有噪声的基于密度的聚类方法(-nearest neighbor density-based spatial clustering of applica-tions with noise,NN-DBSCAN)联合算法解决了DBSCAN算法对参数设置敏感性问题,并对问题栅格进行非监督聚类,收敛问题连片区域,通过小区采样贡献度进行栅格区域映射,最终达到精准调整全局最高优先级(TOP)小区,降低小区高重叠覆盖度的目的。
NN-DBSCAN算法;MDT数据;重叠覆盖度;小区贡献度
随着近几年网络建设的大力发展,LTE业务量不断增长、网优规模急剧扩大,干扰问题日益严重,网络容量、覆盖和质量检查矛盾日趋凸显。LTE网络主要以D/F频段组网,无法通过频率规划的方法精确有效降低同频干扰,必须对网络结构进行调整与优化。目前常规采用手段如路测、测量报告(measurement report,MR)数据和道路扫频等数据进行优化,但由于路测数据获取成本较高,MR数据未携带定位信息,扫频数据也仅局限于道路,以及现网工参准确性较差等,重叠覆盖分析误判较多,难以准确定位和分析问题,无法达到优化预期效果。
最小化路测(minimization of drive test,MDT)技术功能主要通过扩展现有无线资源管理(radio resource management,RRM)测量功能和跟踪功能实现,MDT数据测量及解析流程如图1所示。
基站根据网管配置的MDT测量任务下发相关测量配置至终端UE,终端UE在满足测量条件时测量并上报测量信息,包含参考信号接收功率(reference signal receiving power,RSRP)、参考信号接收质量(reference signal receiving quality,RSRQ)等字段,最重要的是携带相关终端UE的定位信息(GPS经度、纬度)[1],基站将收到的终端测量结果和基站自身的测量结果按数据标准要求上报至网管或MDT数据存储处理服务器。
目前MDT支持的测量项主要包括3类,MDT支持测量项见表1。
重叠覆盖问题主要指在网络拓扑空间内,彼此存在深度交叠区域,如RSRP较好但SINR较差,或者多个小区间乒乓切换造成用户感知差问题,重叠覆盖原因示意图如图2所示。
图1 MDT数据测量及解析流程
表1 MDT支持测量项
图2 重叠覆盖原因示意图
MDT栅格:采用目前主流GeoHash位置服务技术,实现栅格定位普通精度为38 m×19 m及5 m× 5 m高精度的GIS渲染。
基于上述MDT栅格进行高重叠覆盖度栅格的计算,涉及以下指标内容:
(1)重叠覆盖采样点:在基站服务小区RSRP≥−110 dBm,同时邻区与主服小区RSRP的绝对差值在6 dB范围内的小区数量[2-3],即:|主服小区RSRP−邻区RSRP|≤6 dB。
(2)栅格重叠覆盖度:栅格重叠覆盖度≥3的采样点/栅格总采样点×100%。
(3)高重叠覆盖度栅格:栅格重叠覆盖度≥15%,该阈值可根据实际情况进行动态调整。
重叠覆盖度栅格内小区采样贡献度:栅格内总共有个小区覆盖,其中,个小区重叠覆盖采样点共计个,第N个小区的重叠覆盖采样点为n个,则第N小区重叠覆盖采样贡献度=n/。
传统高重叠覆盖问题优化主要是基于DT路测数据以及MR数据进行渲染,呈现高重叠覆盖区域,在获取数据便捷性、成本性、时效性、精准性上均劣于MDT数据评估分析效果。
传统高重叠覆盖优化流程如图3所示,传统高重叠覆盖优化流程及判定分析方法均是侧重寻优单例问题小区,而本文主要是对传统高重叠覆盖问题评估阶段进行改进优化,采用较为精准的MDT数据,并依据GeoHash算法形成栅格级数据,通过目前较为成熟的NN与DBSCAN联合非监督机器学习算法,进行高重叠覆盖度栅格的聚类,在此问题聚类区域进一步计算TOP小区贡献度,综合性、全局性地调整TOP小区以实现最终寻优目的。
由于目前密集城区高重叠覆盖度问题相对凸显,且DBSCAN算法在样本集的密度不均匀、聚类间距差相差很大时聚类质量较差等原因,在分析场景上选取站间距较小、MDT高重叠覆盖数据采样的稀疏程度相似、簇密度数据差异不明显的密集城区进行研究。
图3 传统高重叠覆盖优化流程
(1)MDT测量采样策略
考虑全省MR以及MDT数据测量项同时开启、数据服务器负荷因素,可以只开启以下基本测量项。
●全省开启IMM-MDT的M1测量(RSRP、RSRQ,由UE测量)。
●M2测量(PHR最大发射功率余量,由UE测量)。
●M3测量(RIP接收干扰功率测量,由eNB测量)。
●同时开启LOGGED-MDT以及RLF-MDT测量项。
(2)MDT采样周期
全省每个月集中采样10天,取最终全量并集数据。
(3)MDT补采数据机制
通过步骤(1)和步骤(2)中数据采集策略及采集周期可能会出现因厂商MDT服务器IP地址差异、服务器传输模式如SFTP但省端采集侧配置为FTP等问题出现数据采集不全的情况,所以需要针对上述原因补采MDT数据。
(4)MDT数据ETL策略
根据步骤(1)~步骤(3)获取初步MDT数据,经IT支撑平台进行预处理,可输出MDT采样数据,MDT采样样例数据见表2,按优化经验对该数据做进一步数据分析处理。
●栅格总采样点>5采样点。
●栅格重叠覆盖度>15%。
联合上述两个条件输出对应高重叠覆盖度栅格作为研究候选对象栅格。
选取按第2.1节中条件过滤后的高重叠覆盖度栅格,将栅格经度、纬度通过编程工具进行GIS渲染,并使用DBSCAN密度聚类算法将多个邻近高重叠覆盖度栅格聚为一类。
(1)DBSCAN密度聚类寻优流程[4-5]如算法1所示。
算法1 DBSCAN密度聚类寻优流程
输入:数据源集(高重叠覆盖度栅格)
表2 MDT采样样例数据
(2)实现经典DBSCAN主要过程
高重叠覆盖栅格簇群GIS渲染如下。
利用PlotClusterinResult(X,IDX1)函数,可得出在超参数搜索半径、MinPts拟合模型函数,设置不同超参数的聚类效果如图4所示。
由图4可知,DBSCAN算法的搜索半径、MinPts参数需要人为设定,聚类结果敏感度、准确度受其超参数影响较大,需要在高重叠覆盖干扰簇群范围大小与噪点包含度进行寻优平衡,如干扰簇群搜索半径过大,其涵盖小区过多会导致干扰簇群内小区贡献度指标被弱化,无法凸显最严重干扰小区;而干扰簇群搜索半径过小可能会导致无法包含相近样本,从而误判为噪点情况,所以为降低减少人为干预,需要进行机器自适应的DBSCAN超参数调优的研究。
图4 设置不同超参数的聚类效果
根据式(2)中密度阈值过大,可能会导致同簇群中内部被划分为多个集合;如密度阈值过小,则可能引起不同簇群集合间的合并,所以选取合适的密度阈值非常重要。-均值DBSCAN算法需要人为设定初始聚类中心,不能很好地解决聚类结果随机性问题;AF-DBSCAN算法需要选择种子代表对象的数量,代表对象过多则无法发挥算法效率,过少则容易造成对象丢失,影响算法聚类质量。为尽可能减少人为干预,确保聚类效果,本文采用自适应参数NN-DBSCAN算法构建最小距离矩阵,并通过分析数据的NN的数学统计规律,寻优密度阈值列表中的超参数取值,本文算法主要适用于低维且簇密度差异不明显的数据集。
(1)确定搜索半径具体算法思路有以下3个步骤。
步骤2 采用NN算法[8]及knnsearch函数[IDX,Dist]=knnsearch(a,b)遍历计算每个栅格位置与其他栅格位置的距离,并将最小距离值存储至Dist中,记录其数据行号索引值存储至IDX中。
寻优策略执行:输入第2.2节的数据,按照上述算法进行步骤(1)~步骤(3)调优,并使用编程工具建模仿真,搜索半径寻优过程1和2分别如图5、图6所示。
由图5可知,在第4个数据点处出现明显数据凸起,说明在第4~5个点处出现数值阶跃现象。其在图6曲线上则反映A、B两点的拐点处纵坐标阶跃值最大,说明该B点的纵坐标为搜索半径=0.004 49。
(2)确定MinPts值具体算法思路有以下3个步骤。
图5 搜索半径寻优过程1
图6 搜索半径寻优过程2
寻优策略执行:按上述确定MinPts值具体算法思路及步骤采用编程实现,对不同取值曲线进行图形化渲染,MinPts参数寻优过程如图7可知,取离散值1,2,…,15等15条曲线基本形似,呈“前缓后陡”趋势。
图7 MinPts参数寻优过程
图8 自适应KNN-DBSCAN联合算法调优聚类效果
(3)自适应NN-DBSCAN联合算法模型的实效性评估
●噪点率=noise噪点数/对象数。
●最大簇群内TOP问题小区贡献度占比=最大簇群中高重叠覆盖度栅格所辖TOP5小区的采样点/最大簇群中高重叠覆盖度栅格所有小区采样点。
通过表3可知,在自适应NN-DBSCAN联合算法调优层面,当簇群C一定时,噪点率越小越好;在实际网络优化层面,解决高重叠覆盖小区需要以优化最少小区为代价获得最好收效,即最大簇群内TOP问题小区贡献度的占比越高,该簇群的问题小区收敛性越好。
实验组别9、10的噪点率最小,同为4.83%,而最大簇群内TOP问题小区贡献度仅为38.97%;实验组别6、7、8最大簇群内TOP问题小区贡献度同为59.32%,但噪点率依次为9.03%、13.24%、15.34%,均略高于实验组别9、10。另实验组别6与实验组别5在同为8个簇群前提下,虽然实验组别6比实验组别5噪点率稍劣于2.73%,但在最大簇内TOP问题小区贡献度占比方面实验组别6大幅优于实验组别5,领先幅度为20.60%。
表3 不同超参数设置下算法模型KPI验证结果
对MDT高重叠覆盖度栅格基于NN-DBSCAN的联合算法研究,利用编程工具对DBSCAN密度阈值Density参数中搜索半径、MinPts两个超参数进行自适应寻优,从而解决了该算法对参数设置敏感性问题。结合实际网络优化工作特性,高效、快速构建优化区域内高重叠覆盖度簇群,精准识别其簇群中TOP小区,为一线生产提供有效的优化解决方案,确保移动用户的良好感知体验。
[1] 谭钰山, 周文金, 何延. 基于MDT数据的重叠覆盖优化思路及实践[J]. 通讯世界, 2019, 26(12): 6-7.
TAN Y S, ZHOU W J, HE Y. Overlapping coverage optimization idea and practice based on MDT data[J]. Telecom World, 2019, 26(12): 6-7.
[2] 张吉, 赵夙, 朱晓荣. 基于大数据挖掘的LTE网络重叠覆盖优化方法[J]. 南京邮电大学学报(自然科学版), 2020, 40(6): 92-99.
ZHANG J, ZHAO S, ZHU X R. Optimization method for overlapping coverage of LTE networks based on big data mining[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2020, 40(6): 92-99.
[3] 谷欣杏. LTE网络覆盖优化及无线定位优化算法的研究[D]. 北京: 北京邮电大学, 2019.
GU X X. Research on LTE network coverage optimization and wireless positioning algorithm[D]. Beijing: Beijing University of Posts and Telecommunications, 2019.
[4] 宋金玉, 郭一平, 王斌. DBSCAN聚类算法的参数配置方法研究[J]. 计算机技术与发展, 2019, 29(5): 44-48.
SONG J Y, GUO Y P, WANG B. Research on parameter configuration method of DBSCAN clustering algorithm[J]. Computer Technology and Development, 2019, 29(5): 44-48.
[5] 赵文, 夏桂书, 苟智坚, 等. 一种改进的DBSCAN算法[J]. 四川师范大学学报(自然科学版), 2013, 36(2): 312-316.
ZHAO W, XIA G S, GOU Z J, et al. An improved DBSCAN algorithm[J]. Journal of Sichuan Normal University (Natural Science), 2013, 36(2): 312-316.
[6] 何正风. MATLAB在数学方面的应用[M]. 北京: 清华大学出版社, 2012.
HE Z F. Application of MATLAB in mathematics[M]. Beijing: Tsinghua University Press, 2012.
[7] 李文杰, 闫世强, 蒋莹, 等. 自适应确定DBSCAN算法参数的算法研究[J]. 计算机工程与应用, 2019, 55(5): 1-7, 148.
LI W J, YAN S Q, JIANG Y, et al. Research on method of self-adaptive determination of DBSCAN algorithm parameters[J]. Computer Engineering and Applications, 2019, 55(5): 1-7, 148.
[8] 王紫薇, 徐凯, 侯益明. 基于不同距离公式的NN算法对鸢尾花的分类[J]. 无线互联科技, 2021, 18(13): 105-106.
WANG Z W, XU K, HOU Y M. Classification of iris based onNN algorithm with different distance formulas[J]. Wireless Internet Technology, 2021, 18(13): 105-106.
[9] 周红芳, 王鹏. DBSCAN算法中参数自适应确定方法的研究[J].西安理工大学学报, 2012, 28(3): 289-292.
ZHOU H F, WANG P. Research on adaptive parameters determination in DBSCAN algorithm[J]. Journal of Xi’an University of Technology, 2012, 28(3): 289-292.
Research on adaptive optimization ofNN-DBSCAN parameters based on MDT overlapping coverage data
LIU Lu1, CHEN Ruijie2, LI Jia2
1. Chongqing Branch of China Mobile Communications Group Design Institute Co., Ltd., Chongqing 401121, China 2. Yunnan Branch of China Mobile Communications Group Co., Ltd., Kunming 650228, China
In the traditional network optimization, the drive test (DT) work has obvious disadvantages, such as difficult to fully test roads and buildings, large test workload, low work efficiency, long cycle, affected by human factors, unable to dynamically pay attention to the network quality of each area, and the conventional measurement report (MR) data does not have positioning information, so it is impossible to accurately locate the location where the overlapping coverage problem occured. Based on minimization drive test (MDT), the precision positioning system collected the MDT data of the underlying base station and outputted the grid with high overlapping coverage according to the overlapping coverage algorithm. Then, the sensitivity of DBSCAN algorithm to parameter setting was solved through the adaptive-nearest neighbor density-based spatial clustering of applications with noise (NN-DBSCAN) joint algorithm. The problem grid was unsupervised clustered, the problem contiguous area was converged, and the grid area was mapped through the cell sampling contribution. Finally, the global top cell was accurately adjusted to optimize the high overlap coverage.
NN-DBSCAN algorithm, MDT data, overlapping coverage, cell contribution
TN929.5
A
10.11959/j.issn.1000−0801.2022010
2021−09−09;
2022−01−09
刘璐,18323064733@139.com
刘璐(1986−),男,中国移动通信集团设计院有限公司重庆分公司工程师、高级咨询设计师,主要研究方向为无线网络智能优化。
陈睿杰(1987−),男,中国移动通信集团云南有限公司工程师,主要研究方向为大数据分析、AI、智慧运维。
李嘉(1989−),男,现就职于中国移动通信集团云南有限公司,主要研究方向为大数据分析、AI、智慧运维等。