基于决策树的TD—LTE基站规划方法研究

2014-12-26 03:47郭超潘红艳
移动通信 2014年22期
关键词:决策树

郭超+潘红艳

【摘    要】分析了以TD-LTE基站的最近站间距、平均站间距、站高、第1层邻区数作为分类的特征数据,以每个基站实际测试的下载速率为优化目标,构建了决策树算法,将基站类型分为5类。通过实际测试数据验证表明,该方法的精度较高,从而为TD-LTE建网初期新站规划提供了参考。

【关键词】TD-LTE    决策树    平均站间距    紧密邻区数

中图分类号:TN929.53    文献标识码:A    文章编号:1006-1010(2014)-22-0022-04

Research on TD-LTE Base Station Planning Based on Decision Tree

GUO Chao1, PAN Hong-yan2

[Abstract] The feature data of TD-LTE BS based on the nearest base station (BS) distance, the average BS distance, the BS height and the number of the adjacent cell of the first layer are analyzed in this paper. To optimize the actual download rate of BS, a decision-tree algorithm is built to classify BSs into five types. The actual test data validate that the proposed algorithm has high precision to provide a reference to new BS construction in the early stage of TD-LTE network.

[Key words]TD-LTE    decision tree    average base station distance    number of adjacent cells

1   引言

TD-LTE是我国企业主导并被全球广泛认可的4G技术,它采用时分双工方式,是TD-SCDMA的后续演进技术,在20M带宽内可实现下行峰值速率100Mbps、上行峰值速率50Mbps,目前中国移动、中国电信和中国联通都已获得了TD-LTE商用牌照并正式商用。由于TD-LTE同频组网[1],对于干扰的控制要求较高,因此需要对基站的覆盖做合理的规划和控制。根据香农定理,干扰由信噪比决定,在TD-LTE网络表征是SINR值。在网络建设初期,网络的干扰和基站的布局关系很大,基站的站间距控制、高度控制等因素都影响着网络的干扰水平[2],所以必须因地制宜建站,考虑新选站址也是网络建设中最大的难点之一。

本文提供了一种基于决策树的算法,针对建网初期基站选址的合理性问题,将TD-LTE基站的主要因素:平均站间距、最近站间距、站高、紧密邻区数量这4个维度结合,参考实际路测下载速率的数据,运用决策树的方法,对基站的站间距、高度合理性进行了详细的分析和归类,以便更准确地评估基站建设的选址问题,达到在规划阶段控制好干扰的目的,打好网络的结构基础。

2   决策树算法

决策树算法是一种简单却使用广泛的分类技术,它是一种构建分类模型的非参数方法,由节点和有向边组成层次结构。它不需要任何先验假设,也不需要假定类和其他属性服从一定的概率分布。在决策树中,每个叶节点都赋予一个类标号。决策树构造采用的是自顶而下的递归划分方法,沿着树向下,记录会越来越少。目前较为成熟的算法是Quinlan提出的著名的ID3算法[3]和C4.5算法[4],使用熵(Entropy)和Gini指标。

决策树算法具有分类精度高、支持语义数据、简单高效、噪声抑制性能好等特点[5],因此在数据挖掘、图像处理、市场营销等方面应用非常广泛。

3   算法流程

决策树方法的过程通常分为2部分:决策树学习和决策树分类。决策树学习是通过对训练样本进行归纳学习(Inductive Learning),生成以决策树形式表示的分类规则的机器学习(Machine Learning)过程[6],算法的输入是由属性和属性值表示的训练样本集,输出是一棵树形的分类结果。原则上讲,给定的属性集可以构造的决策树的数目达到指数级,尽管如此,人们还是开发了一些有效的算法能够在合理的时间内构造出相对准确的次最优决策树,这些算法一般都采用贪心算法,流程如图1所示。

4   实验与分析

本算法的输入属性包括最近站间距、平均站间距、基站高度、第一层邻区数量以及实际测试下载数据。其中,最近站间距描述的是距离样本站点最近的一个基站的距离;平均站间距描述的是与样本基站相邻的第一层邻区的平均距离;基站高度描述的是样本基站的天线垂直距离水平面的高度;第一层邻区数量描述的是与样本基站切换关系最多的基站的数量;路测下载数据是LTE测试终端MiFi对所有基站的测试PDCP层的传输速率,单位为Mbps。

4.1  决策树建立

移动通信中的基站站间距描述的是网络中基站的密集程度,通常站间距计算采用的是平均计算方法,即根据一定区域的基站数量和覆盖面积计算出平均每个基站的覆盖面积,然后根据标准的三扇区覆盖模型计算出平均站间距。传统的距离计算是按照标准的覆盖面积进行折算,这种算法对于统计的估算较为适用,但是对于精细的规划缺乏依据和准确性。同时,站间距还必须考虑周边站点的结构和分布,因此在此结果上需要进一步的修正才能合理地对站间距进行评估。endprint

本文方法和传统的距离计算法的区别是:本文直接计算基站的最近基站距离,然后根据周边基站的方位角度和距离关系来判断该基站的第一邻区归属,并计算出第一邻区平均距离,再根据最近基站距离、平均距离、站高以及第一层紧密邻区数作为决策树的主要因素构建决策树。

站间距的计算流程如图2所示。

距离算子包括平均站间距和最近站间距,另外计算第一层紧密邻区数量,紧密邻区数是第一层邻区数量,数据来自于OMC网管的切换统计数据,根据切换占比超过总切换数15%的基站作为第一层邻区基站,属性数据模板如表1所示。

4.2  决策树剪枝

在进行决策树分类时,为防止决策树和训练样本集过分拟合,特别是存在噪声数据或不规范属性时更为突出,需要对决策树进行剪枝[5]。剪枝算法通常利用统计方法决定是否将一个分支变为一个结点,通常采用预先剪枝方法(pre-pruning)和后剪枝方法(post-pruning)进行决策树剪枝。预先剪枝方法的优点是在树生长的同时就进行了剪枝,因此效率高,但是它可能产生“视觉界限”,即断绝了其后继节点进行分支操作的任何可能性;后剪枝方法是当决策树的生长过程完成后再进行剪枝,该方法比预先剪枝方法计算时间长,但是可以获得一个分类更准确的决策树。一个好的折中方法是预先剪枝也可以与后剪枝相结合,从而构成混合剪枝方法。

4.3  结果与分析

本文采用的决策树生成实验工具是Matlab7.0,训练样本集为浙江TD-LTE某试商用城市先期开通的401个TD-LTE室外站点,检验数据集为后期开通的98个新TD-LTE站点。

本实验TD-LTE系统的主要参数设置为:系统带宽20M,采用F频段,上下行配比为1:3,特殊子帧配比为9:3:2,MIMO方式为2*2。运用Matlab7.0自带的决策树算法,输出结果如图3所示,原始数据分为10个类,其中△表示根节点,○表示叶子节点,左向箭头判断为“是”,右向箭头判断为“否”。

为了更好地表征分类结果,本文采用了事后修剪方法,将之前决策树建立的10个类按照结果速率的大小进行了类的合并,最终形成了5个类,分别对应低速率、较低速率、中等速率、较高速率和高速率,具体如表2所示。

运用前面的决策树分类依据,对新建设的98个TD-LTE站点进行了PDCP层下载速率预评估,在站点全部开通后又采用MiFi测试终端进行了拉网速率测试,然后将预测数据和实测数据进行分类精度检验,结果如表3所示:

表3    分类检验精度

类别 1 2 3 4 5

测试集数量 8 17 26 16 21

正确分类数 7 16 17 22 18

分类的精度/% 87.5 94.1 73.9 75.9 85.7

总精度/% 81.6

从测试结果来看,总体精度达到了81.6%,对低速率第1类和第2类的识别准确性还是比较高,而对第3类和第4类的识别有些偏差,即存在规划问题的站点测试速率较差,但满足高速率条件的规划站点不一定达到高速率要求,这说明还存在其他的因素影响实际测试速率。

5   总结

本文以TD-LTE基站的最近站间距、平均站间距、站高、第一层紧密邻区数作为分类的特征数据,以每个基站实际测试PDCP层下载速率为优化目标,构建了决策树算法,将基站类型分为5类。从分类的结果可以看出:

(1)在TD-LTE建网初期,平均站间距是影响速率的主要因素,必须保证站间距在一定的合理范围之内,本试点区域的理想门限是415m。

(2)站高要合理。站间距较小时,站高需要控制较低;而站间距较大时,站高可以适当高一些。

(3)最近站间距不能太小。

(4)紧密邻区数在平均站间距不大时也需要进行控制。

需要注意的是,不同城市的场景有所差异,本文所在城市环境得出的结果对相似环境的地区有参考意义,而对差别较大的区域则需要根据实地情况进行决策树分析。

此外,从后续的归类错误的站点问题原因分析可知,要保证网络的高速率,除了基站的规划建设要求达标之外,参数设置、PCI规划、邻区配置、终端性能都会带来一定的影响,这也是后续继续深入研究的方向。

参考文献:

[1] Iana Siomina1, Di Yuan. Analysis of Cell Load Coupling for LTE Network Planning and Optimization[A]. IEEE International Conference on Communications 2012 (ICC 2012)[C]. 2012: 1357-1361.

[2] E Amaldi, A Capone, F Malucelli, et al. Mannino, Optimization Problems and Models for Planning Cellular Networks[M]. In M Resende and P Pardalos, editors, Handbook of Optimization in Telecommunications. Springer Science, 2006: 917-939.

[3] Quinlan J R. Induction of Decision Tree[J]. Machine Learing, 1986,1(1): 81-106.

[4] Quinlan J R. Bagging, Boosting and C4.5[A]. Proceedings of the 13th International Conference on Artificial Intelligence[C]. Portland: AAI Press, 1996,9(2): 300-306.

[5] 申文明,王文杰,罗海江,等. 基于决策树分类技术的遥感影像分类方法研究[J]. 遥感技术与应用, 2007,22(3): 333-338.

[6] 李德仁,王树良,李德毅,等. 论空间数据挖掘和知识发现的理论与方法[J]. 武汉大学学报: 信息科学版, 2002,27(3): 221-233.

[7] 杨学兵,张俊. 决策树算法及其核心技术[J]. 计算机技术与发展, 2007,17(1): 43-45.endprint

本文方法和传统的距离计算法的区别是:本文直接计算基站的最近基站距离,然后根据周边基站的方位角度和距离关系来判断该基站的第一邻区归属,并计算出第一邻区平均距离,再根据最近基站距离、平均距离、站高以及第一层紧密邻区数作为决策树的主要因素构建决策树。

站间距的计算流程如图2所示。

距离算子包括平均站间距和最近站间距,另外计算第一层紧密邻区数量,紧密邻区数是第一层邻区数量,数据来自于OMC网管的切换统计数据,根据切换占比超过总切换数15%的基站作为第一层邻区基站,属性数据模板如表1所示。

4.2  决策树剪枝

在进行决策树分类时,为防止决策树和训练样本集过分拟合,特别是存在噪声数据或不规范属性时更为突出,需要对决策树进行剪枝[5]。剪枝算法通常利用统计方法决定是否将一个分支变为一个结点,通常采用预先剪枝方法(pre-pruning)和后剪枝方法(post-pruning)进行决策树剪枝。预先剪枝方法的优点是在树生长的同时就进行了剪枝,因此效率高,但是它可能产生“视觉界限”,即断绝了其后继节点进行分支操作的任何可能性;后剪枝方法是当决策树的生长过程完成后再进行剪枝,该方法比预先剪枝方法计算时间长,但是可以获得一个分类更准确的决策树。一个好的折中方法是预先剪枝也可以与后剪枝相结合,从而构成混合剪枝方法。

4.3  结果与分析

本文采用的决策树生成实验工具是Matlab7.0,训练样本集为浙江TD-LTE某试商用城市先期开通的401个TD-LTE室外站点,检验数据集为后期开通的98个新TD-LTE站点。

本实验TD-LTE系统的主要参数设置为:系统带宽20M,采用F频段,上下行配比为1:3,特殊子帧配比为9:3:2,MIMO方式为2*2。运用Matlab7.0自带的决策树算法,输出结果如图3所示,原始数据分为10个类,其中△表示根节点,○表示叶子节点,左向箭头判断为“是”,右向箭头判断为“否”。

为了更好地表征分类结果,本文采用了事后修剪方法,将之前决策树建立的10个类按照结果速率的大小进行了类的合并,最终形成了5个类,分别对应低速率、较低速率、中等速率、较高速率和高速率,具体如表2所示。

运用前面的决策树分类依据,对新建设的98个TD-LTE站点进行了PDCP层下载速率预评估,在站点全部开通后又采用MiFi测试终端进行了拉网速率测试,然后将预测数据和实测数据进行分类精度检验,结果如表3所示:

表3    分类检验精度

类别 1 2 3 4 5

测试集数量 8 17 26 16 21

正确分类数 7 16 17 22 18

分类的精度/% 87.5 94.1 73.9 75.9 85.7

总精度/% 81.6

从测试结果来看,总体精度达到了81.6%,对低速率第1类和第2类的识别准确性还是比较高,而对第3类和第4类的识别有些偏差,即存在规划问题的站点测试速率较差,但满足高速率条件的规划站点不一定达到高速率要求,这说明还存在其他的因素影响实际测试速率。

5   总结

本文以TD-LTE基站的最近站间距、平均站间距、站高、第一层紧密邻区数作为分类的特征数据,以每个基站实际测试PDCP层下载速率为优化目标,构建了决策树算法,将基站类型分为5类。从分类的结果可以看出:

(1)在TD-LTE建网初期,平均站间距是影响速率的主要因素,必须保证站间距在一定的合理范围之内,本试点区域的理想门限是415m。

(2)站高要合理。站间距较小时,站高需要控制较低;而站间距较大时,站高可以适当高一些。

(3)最近站间距不能太小。

(4)紧密邻区数在平均站间距不大时也需要进行控制。

需要注意的是,不同城市的场景有所差异,本文所在城市环境得出的结果对相似环境的地区有参考意义,而对差别较大的区域则需要根据实地情况进行决策树分析。

此外,从后续的归类错误的站点问题原因分析可知,要保证网络的高速率,除了基站的规划建设要求达标之外,参数设置、PCI规划、邻区配置、终端性能都会带来一定的影响,这也是后续继续深入研究的方向。

参考文献:

[1] Iana Siomina1, Di Yuan. Analysis of Cell Load Coupling for LTE Network Planning and Optimization[A]. IEEE International Conference on Communications 2012 (ICC 2012)[C]. 2012: 1357-1361.

[2] E Amaldi, A Capone, F Malucelli, et al. Mannino, Optimization Problems and Models for Planning Cellular Networks[M]. In M Resende and P Pardalos, editors, Handbook of Optimization in Telecommunications. Springer Science, 2006: 917-939.

[3] Quinlan J R. Induction of Decision Tree[J]. Machine Learing, 1986,1(1): 81-106.

[4] Quinlan J R. Bagging, Boosting and C4.5[A]. Proceedings of the 13th International Conference on Artificial Intelligence[C]. Portland: AAI Press, 1996,9(2): 300-306.

[5] 申文明,王文杰,罗海江,等. 基于决策树分类技术的遥感影像分类方法研究[J]. 遥感技术与应用, 2007,22(3): 333-338.

[6] 李德仁,王树良,李德毅,等. 论空间数据挖掘和知识发现的理论与方法[J]. 武汉大学学报: 信息科学版, 2002,27(3): 221-233.

[7] 杨学兵,张俊. 决策树算法及其核心技术[J]. 计算机技术与发展, 2007,17(1): 43-45.endprint

本文方法和传统的距离计算法的区别是:本文直接计算基站的最近基站距离,然后根据周边基站的方位角度和距离关系来判断该基站的第一邻区归属,并计算出第一邻区平均距离,再根据最近基站距离、平均距离、站高以及第一层紧密邻区数作为决策树的主要因素构建决策树。

站间距的计算流程如图2所示。

距离算子包括平均站间距和最近站间距,另外计算第一层紧密邻区数量,紧密邻区数是第一层邻区数量,数据来自于OMC网管的切换统计数据,根据切换占比超过总切换数15%的基站作为第一层邻区基站,属性数据模板如表1所示。

4.2  决策树剪枝

在进行决策树分类时,为防止决策树和训练样本集过分拟合,特别是存在噪声数据或不规范属性时更为突出,需要对决策树进行剪枝[5]。剪枝算法通常利用统计方法决定是否将一个分支变为一个结点,通常采用预先剪枝方法(pre-pruning)和后剪枝方法(post-pruning)进行决策树剪枝。预先剪枝方法的优点是在树生长的同时就进行了剪枝,因此效率高,但是它可能产生“视觉界限”,即断绝了其后继节点进行分支操作的任何可能性;后剪枝方法是当决策树的生长过程完成后再进行剪枝,该方法比预先剪枝方法计算时间长,但是可以获得一个分类更准确的决策树。一个好的折中方法是预先剪枝也可以与后剪枝相结合,从而构成混合剪枝方法。

4.3  结果与分析

本文采用的决策树生成实验工具是Matlab7.0,训练样本集为浙江TD-LTE某试商用城市先期开通的401个TD-LTE室外站点,检验数据集为后期开通的98个新TD-LTE站点。

本实验TD-LTE系统的主要参数设置为:系统带宽20M,采用F频段,上下行配比为1:3,特殊子帧配比为9:3:2,MIMO方式为2*2。运用Matlab7.0自带的决策树算法,输出结果如图3所示,原始数据分为10个类,其中△表示根节点,○表示叶子节点,左向箭头判断为“是”,右向箭头判断为“否”。

为了更好地表征分类结果,本文采用了事后修剪方法,将之前决策树建立的10个类按照结果速率的大小进行了类的合并,最终形成了5个类,分别对应低速率、较低速率、中等速率、较高速率和高速率,具体如表2所示。

运用前面的决策树分类依据,对新建设的98个TD-LTE站点进行了PDCP层下载速率预评估,在站点全部开通后又采用MiFi测试终端进行了拉网速率测试,然后将预测数据和实测数据进行分类精度检验,结果如表3所示:

表3    分类检验精度

类别 1 2 3 4 5

测试集数量 8 17 26 16 21

正确分类数 7 16 17 22 18

分类的精度/% 87.5 94.1 73.9 75.9 85.7

总精度/% 81.6

从测试结果来看,总体精度达到了81.6%,对低速率第1类和第2类的识别准确性还是比较高,而对第3类和第4类的识别有些偏差,即存在规划问题的站点测试速率较差,但满足高速率条件的规划站点不一定达到高速率要求,这说明还存在其他的因素影响实际测试速率。

5   总结

本文以TD-LTE基站的最近站间距、平均站间距、站高、第一层紧密邻区数作为分类的特征数据,以每个基站实际测试PDCP层下载速率为优化目标,构建了决策树算法,将基站类型分为5类。从分类的结果可以看出:

(1)在TD-LTE建网初期,平均站间距是影响速率的主要因素,必须保证站间距在一定的合理范围之内,本试点区域的理想门限是415m。

(2)站高要合理。站间距较小时,站高需要控制较低;而站间距较大时,站高可以适当高一些。

(3)最近站间距不能太小。

(4)紧密邻区数在平均站间距不大时也需要进行控制。

需要注意的是,不同城市的场景有所差异,本文所在城市环境得出的结果对相似环境的地区有参考意义,而对差别较大的区域则需要根据实地情况进行决策树分析。

此外,从后续的归类错误的站点问题原因分析可知,要保证网络的高速率,除了基站的规划建设要求达标之外,参数设置、PCI规划、邻区配置、终端性能都会带来一定的影响,这也是后续继续深入研究的方向。

参考文献:

[1] Iana Siomina1, Di Yuan. Analysis of Cell Load Coupling for LTE Network Planning and Optimization[A]. IEEE International Conference on Communications 2012 (ICC 2012)[C]. 2012: 1357-1361.

[2] E Amaldi, A Capone, F Malucelli, et al. Mannino, Optimization Problems and Models for Planning Cellular Networks[M]. In M Resende and P Pardalos, editors, Handbook of Optimization in Telecommunications. Springer Science, 2006: 917-939.

[3] Quinlan J R. Induction of Decision Tree[J]. Machine Learing, 1986,1(1): 81-106.

[4] Quinlan J R. Bagging, Boosting and C4.5[A]. Proceedings of the 13th International Conference on Artificial Intelligence[C]. Portland: AAI Press, 1996,9(2): 300-306.

[5] 申文明,王文杰,罗海江,等. 基于决策树分类技术的遥感影像分类方法研究[J]. 遥感技术与应用, 2007,22(3): 333-338.

[6] 李德仁,王树良,李德毅,等. 论空间数据挖掘和知识发现的理论与方法[J]. 武汉大学学报: 信息科学版, 2002,27(3): 221-233.

[7] 杨学兵,张俊. 决策树算法及其核心技术[J]. 计算机技术与发展, 2007,17(1): 43-45.endprint

猜你喜欢
决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用