于泽洋,周文胜
(1.上海诺基亚贝尔软件有限公司,上海 201204;2.中国电信股份有限公司湖南分公司,湖南 长沙 410011)
移动通信建设中,小区级的流量分布有着重要的意义,在网络规划阶段,这一分布可以影响规划的站数、连接数等基本规划数据;在运营阶段,这一分布可以帮助判断网络结构是否合理,是否需要改进网络结构来提高投资收益等。尤其在现在的大数据时代,获取小区流量的分布并从中抽取具有价值的特征具有更为重要的意义。
但另一方面,由于各小区的位置、人口、经济发展状况等不同,各小区的业务流量也不同。有研究认为,蜂窝移动电话网话务密度图在地域上的分布近似服从瑞利分布的规律[1]。在实际的基站建设中,每个小区的覆盖范围不同,在业务密集区域还存在多载波、小站、室分等多种分流形式,因此,小区的业务流量分布就更为复杂,不能简单认为小区级业务流量符合瑞利分布。
另一个流量分布的研究方向是从人类行为的角度来研究各种业务模型[2],[3],例如短消息[4]、网页[5]、E-mail[6],[7]等,这些模型可以用来在网络规划时做为各种业务模型的参考,但对于实际运营中的网络还缺乏指导意义。
一般认为,小区级的业务流量分布人为因素过多,缺少统一的规律性。因此,有关小区级业务流量分布的研究较少。在网络规划阶段,一般只是根据背包模型、非对称高斯模型等,假定人口、业务分布来对密集市区、市区、郊区等情况进行一般性的估计,得到平均值。在运营阶段,经常把小区简单地分为容量型小区和覆盖型小区,但其具体划分也缺少严格的依据。因此,针对小区级业务流量分布的研究具有重要意义,同时又是目前比较欠缺的一环。
本文收集多个地市的小区级业务流量,利用大数据分析的方法对流量数据进行分析,以期能得到小区级业务流量的一般性规律。需要注意的是,本文并不是找到了一种严格适用于所有地市小区级流量数据的分布,而是提供了一些方法可以对流量数据进行处理,得到近似的分布。
因为本次研究的目的是对整个城市的网络进行评估,所以不宜对数据进行过多剔除。剔除的主要对象为:一是统计期内数据不完整的小区;二是统计期内新开的小区;三是统计期内关闭的小区。下列数据不列入剔除范围:统计期内因故障流量为0或部分时段数据为0的小区。
通常得到的小区流量数据为分时数据,具有较大的偶然性和潮汐性。本文采用了比较简单的平滑化方法,仅仅对分时数据求和与平均处理。
把数据处理成符合高斯分布或接近高斯分布的过程叫正态化处理[8]。高斯分布又叫正态分布,是一种非常经典的分布[9]。高斯分布是人们了解非常透彻且丰富的处理方法。在大数据处理中,很多时候都是把分布处理成高斯分布,然后利用其丰富的处理方法、各种库函数进行进一步的分析。高斯分布的分布密度函数为[9]:
式中,μ为期望值;σ为标准差。
μ=0,σ=1时的高斯分布成为标准高斯分布,其分布密度函数为:
高斯分布的检测方法有很多,其中最常用的是Q-Q图方法。Q-Q图方法把数据分布和标准高斯分布做对比,如果数据分布和标准高斯分布相似,则该Q-Q图趋近于落在y=x线上。如果数据分布和高斯分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上[10],[11]。
布做对比,如果数据分布和标准高斯分布相似,则该Q-Q图趋近于落在y=x线上。如果数据分布和高斯分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在 y=x线上[10],[11]。
1.3.1 对数化处理
对数化处理是一种简单的高斯化方法。取对数后符合高斯分布的数据分布称为对数高斯分布[8],其密度函数为:
对数化处理不能把所有的数据变换为高斯分布。
1.3.2 Box-Cox变换
Box-Cox变换是在大数据时代更为通用的高斯化方法[12]。Box-Cox变换公式为:
为了得到最佳的变换效果,选择不同的 ,使得变换后的分布符合高斯分布,或者得到最小的方差概率(p),然后通过Q-Q图像等方式检验处理后的分布是否符合高斯分布。如果符合高斯分布,我们就能够通过反变换得到原始的小区业务流量分布。但是需要注意的是,Box-Cox方法也不能把所有分布处理成高斯分布。
通过正态化处理,可以使数据近似符合高斯分布,把该分布和高斯分布比较,可以清晰地得到分布本身固有的一些特征。
这是残差分析的一个应用。通过流量数据分布的特征,分析产生这些特征的原因,可以得到期望的理想分布特征,并进一步可以对某一地市的网络结构作出评估。
统计某省种多个地市4G小区级一周日均流量数据,分地市进行分析。下面所有的数据都是某一个地市的日均流量数据。
图1是一个典型地市的小区级流量分布。
图1 某地市各流量小区占比
本文对数据进行分布检验,包括验证数据是否符合高斯分布、Y分布、泊松分布、指数分布、瑞利分布,均得到了否定的答案,且和实际数据存在较大误差。因此可以认为,小区级业务流量分布不符合上述的各种分布。
对原始数据进行取对数,然后进行正态拟合,得到对数变换后,各地市流量数据变换后的频次数据和高斯分布的对比。如图2所示。
图2 对数变换频次图
从图2中可以看出,大部分区间上,变换后的数据和高斯分布基本能够吻合,只是在某些区域内有一些出入。
为了更好检验变换后数据和高斯分布的差别,我们还做了Q-Q图(见图3):
图3 对数变换Q-Q图
从Q-Q图中可以看出,对数变换后,数据和正态分布依然存在较大差异。
各个地市数据Box-Cox变换后的最佳λ,SSE见表1:
表1 最佳Box-Cox变换结果
表1中的ref SSE是指通过对数变换后拟合得到的SSE。从表1可以看出,所有地市的Box-Cox变换的SSE小于对数变换的SSE,即Box-Cox变换的结果比对数变换更接近于高斯分布。各地市流量数据变换后的频次数据和高斯分布的对比如图4所示。
从图4可以看出,大部分区间上,变换后的数据和高斯分布能够较好地吻合,只是在某些区域内有一些出入。为了更好检验变换后数据和高斯分布地差别,我们还做了图5。
图4 Box-Cox变换频次图
图5 Box-Cox变换Q-Q图
从图5可以看出,绝大部分地市的数据和高斯分布吻合较好,但也有几个地市,(例如地市1、2、7)的数据和高斯分布有一定差别。即使这些地市,在大部分区间上,变换后的数据和高斯分布能够较好地吻合,只是在最左侧和最右侧,即超低流量区域和高、超高流量区域内有一些出入。
对比对数变换和Box-Cox变换可以认为,对数变换在后的数据分布从曲线形状上接近了高斯分布,但Box-Cox变换的效果远好于对数变换。
对比图4和图5的各个子图可以看出,这些分布有一定的共性。但对比图1,各个地市正态化变换以后的分布各自特征变得非常明显,显示出了各个网络自身的特性。下面我们以地市1为例进行研究。
在图6所示的为地市1的频次图和残差图中,我们把流量分布曲线分作5段:低流量段(图中①),中低流量段(图中②),中等流量段(图中③),高流量段(图中④),超高流量段(图中⑤)。各段特点如表2所示。
各段频次和高斯分布的差异分析如下:
图6 典型地市分布和高斯分布差异
表2 Box-Cox变换后的地市1各段数据特征
(1)低流量段,频次高于高斯分布。这可能是原始数据中有一些小区可能存在一定的小区在部分时段内有退网、退服等情况,造成了低流量的小区增加;也可能是无效小区过多。
(2)中低流量段,左侧频次略低于高斯分布。这可能是因为低流量段的频次偏高,造成了拟合曲线向左偏移,使得中低流量段的统计频次高于拟合曲线。参考其他地市的拟合曲线可以看出,凡是低流量段频次差异不明显的地市,其中低流量段的拟合也基本看不出差异。
(3)中等流量段,和高斯分布匹配较好。这部分残差看起来比较大时因为这部分小区数量绝对值更大。
(4)中高流量段,频次略高于高斯分布拟合结果。这是由于超高流量小区的容量限制,造成了高流量小区只能达到中高流量。运营商扩容也使得中高流量小区增加而高流量/超高流量小区减少。
(5)高流量段,频次低于高斯分布拟合结果。事实上,高流量段应该称为超高流量段。由于LTE 系统容量能力限制使得小区峰值流量有了一个上限,使得一些本来应该处于高流量段的小区落回到了中高流量段。当然,由于用户行为的不同,小区繁忙时长的不同,造成了实际的超高流量小区的流量上限也有所不同。另外,对于超高流量小区,运营商也会采用各种分流、扩容的方法来降低小区负荷,这也造成了高流量小区的数量减少而中高流量小区的数量增加。
根据上面的分析,差异最大的,也是和网络结构关系最大的是3个区域:低流量区、中高流量区和高流量区。理想的网络具有以下特征:一是低流量小区少;二是中高流量小区多;三是超高流量小区少。
利用Box-Cox变换后的流量分布和高斯分布的对比,可以对地市的网络建设是否合理给出以下参考:
(1)低流量小区分析:第一,短期内的低流量小区的过多,一般是退网、退服小区过多,应加强基站小区的维护,使得更多的小区处于正常的工作状态。第二,而长期的低流量小区过多可能是一些小区没有吸收到足够的流量,应对网络结构进行调整。
(2)中高流量小区和超高流量小区分析:第一,理想的状况是中高流量小区多而高流量小区少,这说明网络结构比较合理,流量密集区的负荷得到了有效的控制,并且大部分业务需求得到了很好的满足。第二,如果超高小区过多,甚至频次超过高斯拟合曲线,而中高流量小区数量少,可能是高负荷小区周边的基站没有有效分流,应该调整该地市网络结构以实现有效分流,或者检测流量密集区域是否需要扩容。第三,如果中高流量小区和超高流量小区都多,则说明网络需要整体扩容。
综上所述,利用Box-Cox变换可以上把一个地市的小区级业务流量近似转化成高斯分布。Box-Cox变换可以作为正态化处理的有效手段,Box- Cox变换后的分布和高斯分布可能存在一定差异,通过分析这些差异可以得到该地市网络的一些基本特征,利用这些特征可以对该移动网络的运维状况,网络结构、网络负荷的状况进行评估。由于数据量较少,且缺乏足够的运维数据与之相印证,定量的评估方法还需要进一步的研究。