基于改进的网格搜索SVR的话务预测模型*

2014-01-24 06:55郭美丽覃锡忠贾振红
计算机工程与科学 2014年4期
关键词:话务量话务向量

郭美丽,覃锡忠,贾振红,陈 丽

(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046;2.中国移动通信集团新疆有限公司,新疆 乌鲁木齐 830063)

基于改进的网格搜索SVR的话务预测模型*

郭美丽1,覃锡忠1,贾振红1,陈 丽2

(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046;2.中国移动通信集团新疆有限公司,新疆 乌鲁木齐 830063)

话务预测是整个通信保障工作的基础,其预测精度决定了整个规划的合理性和科学性。而节假日话务量,具有历史样本量较小和非线性强的特点,传统的预测方法很难实现精确的预测。支持向量机在解决小样本和非线性问题时表现出许多特有的优势。提出了一种改进的网格搜索法和交叉验证法对支持向量回归机(SVR)参数优化选择,并对节假日忙时话务进行预测,并与BP神经网络、基本的SVR和网格搜索SVR三种预测模型进行比较。而且用免疫算法和粒子群算法优化SVR参数与本文算法作比较来预测普通日子的话务量。实验结果表明,基于改进的网格搜索SVR预测精度高、耗时少、稳定性强,具有很好的实用性和推广性。

节假日话务预测;支持向量回归机;改进的网格搜索法

1 引言

每逢重大节假日,如春节、国庆节等,移动通信网络都面临着高话务的冲击。虽然给通信公司带来了巨额的收入,但同时也带来了巨大的压力,因为过高的话务量极易造成交换系统过载,出现电路拥塞、话音接通率下降等现象,给用户也带了极大的不便。而话务量预测是整个通信保障工作的基础,也是移动运营商进行网络规划和建设的依据,其预测精度决定了整个规划的合理性和科学性。因此,移动运营商对话务量预测技术的需求非常急迫。

目前,对回归预测的研究方法有时间序列法、神经网络预测法、支持向量机SVM(Support Vector Machine)[1]等,实际应用中上述方法对月平均话务量、月忙时话务量等能取得较好的效果。但是,节假日当天忙时话务量存在较强的非线性,主要表现在话务量增长在区域分布上不均衡、互联互通话务量增长与本地营销策略关系大和长途话务量的增长幅度大等方面。针对上述问题,传统的预测方法很难实现精确的预测,本文采用优化参数的支持向量回归机建立预测模型。

支持向量机以统计学习理论SLT(Statistical Learning Theory)为基础,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[2]。近几年,支持向量机作为一种预测工具,已经应用在了医疗诊断[3]、电力负荷预测[4]以及能量输出预测[5]等方面。但是,在实际使用支持向量机时,支持向量机参数的寻优非常重要,合适的参数可以直接提高方法性能。本文主要研究的节假日话务量是非线性强的小样本问题,所以本文提出一种改进的网格搜索算法来提高参数优化的准确率,进而提高其优化速度。该方法用于新疆各地区节日话务预测,取得了比较满意的结果,在非节假日的小样本话务预测中也取得了较好的结果。

2 ε-支持向量回归机(ε-SVR)理论[6]

支持向量机是基于Vapnik提出的小样本统计学习理论建立的,以训练误差作为优化问题的约束条件,以置信范围最小化为优化目标。它最终是求解一个凸规划问题,或者是一个二次规划(QP)问题。对于一组给定的数据集T={(x1,y1),…,(xi,yi)}⊂Rd×R,i=1,…,n,回归问题就是要估计出xi与yi的关系:

其中〈·,·〉对应Rd空间的内积。Φ(·)为核函数,可以把训练数据映射到高维空间F上,因此在原空间上解决非线性问题就等同于在新的高维空间上解决线性回归问题。

机器学习理论对这一问题可以表述为在一组函数{f(x,ω)}中寻求一个最优的函数{f(x,ω*)},使得预期的期望风险R(ω)达到最小。

其中,n为样本容量,h为VC维。支持向量机理论把式(2)转化为寻求如下问题的最优解:

其中,ε由不敏感损失函数L(y,f(x,a))来定义,决定了回归曲线的平坦程度,这里是事先取定的一个正数,且0<ε<1。当x点的观察值y 与预测值f(x)之差不超过事先给定的ε时,则认为在该点的预测值f(x)是无损失的,尽管预测值f(x)和观测值y可能并不完全相等。

式(3)中C为惩罚因子,表示对错分样本的惩罚。

由此支持向量机所求得的回归函数可以表示为:

在SVR建模中,考虑到RBF核函数所体现出的较好的性能[7],本文选取式(4)RBF来进行建模研究。实际应用中大多凭经验确定参数或采用试算法,导致由于参数选择不准确而使最后的预测精度低于目标精度。因此,核函数参数和惩罚系数C的选择对SVR的性能至关重要,只有选择合适的模型参数,SVR的优越性才能更好地发挥出来。

3 SVR参数选择方法

3.1 SVR模型选择的研究现状

SVR的参数选择问题,其实质就是一个优化问题。在ε-SVR算法中,参数γ、C、ε对支持向量机的性能有着十分重要的影响。参数γ影响数据在高维空间中分布的复杂度;参数C是经验风险和置信范围的裁决;参数ε确保对偶变量的稀疏性,同时确保全局最小解和可靠泛化界的优化。比较常用的三种参数寻优方法是遗传算法、粒子群优化算法和网格搜索法[7]。前两种算法容易陷入局部极值,无法保证得到最优参数。近几年发展起来的人工智能新方法——免疫算法[8],克服了遗传算法的缺陷,能够寻到全局最优解,但其运算耗时较长。基本的网格搜索遍历了在搜索范围内所有的参数组合,可搜索到最优参数,但是运算量大、耗时长。

对于支持向量机的参数优化问题要根据实际问题具体解决,本文选择网格搜索SVR参数具有以下优势:(1)可以搜索到最优参数;(2)本文只需搜索两个参数(因为由话务预测的先验知识可知SVR的最优参数ε均在[0.0098,0.0109],所以为了节省搜索时间,本文设定ε=0.01),因此运行时间相对较少;(3)每组参数(C,γ)都是独立的,因此很容易实现并行计算。为了使网格搜索能更快更精确地寻到最优参数,本文提出交叉验证与改进的网格搜索法进行SVR参数选择,进而对样本小、非线性强的节假日忙时话务量进行预测。

3.2 网格搜索法

网格搜索算法是一种穷举法,在参数空间每维上取若干分格,遍历输入空间中所有网格交叉点,得到最优解。该算法首先确定每个参数的取值范围,然后对每个参数取值范围按照一定规律插值,得出若干组参数组合;对每组参数组合进行一次计算,应用交叉验证计算其预测误差;对应于预测误差最小的参数组合,就是最优的参数取值。网格搜索法计算过程中各组参数相互解耦,便于并行计算,运行效率高[9]。本文提出一种改进的网格搜索法来提高优化准确率和优化速度。

3.3 改进的网格搜索法

传统的网格搜索比较耗时,且不一定能搜索到满足精度要求的最优参数组合,改进的网格搜索算法通过自动改变搜索范围和搜索步长来更精细地搜索最优参数,最终预测出符合要求的预测精度。该方法选择最佳参数(C,γ)的具体步骤如下:

步骤1设定参数C和γ的取值范围,再设定比较大的搜索步长,以2的幂次方沿着两个参数的不同增长方向生成网格。这样既能遍历所有的参数,又能方便网格的收缩与增长。由此参数将区间分别分为M、N等分,网格中的节点即为给定范围内所有可能得到的参数对。

步骤2针对所有分割组合(Ci,γj)(i=1,…,M,j=1,…,N),对样本集进行训练和测试,比较得到使评价函数最小的参数组合(Ci,γj),判断是否满足精度要求或结果稳定,如果是则转到步骤4,否则转到步骤3。

步骤3选取参数(Ci,γj)相邻的两个区间作为新 的 参 数 范 围 C∈ [Ci-1,Ci+1],γ∈ [γj-1,γj+1],并且分别减少搜索步长的2倍 (可使用其他的收缩率,但因子-2-收缩率是方便的,因为网格数是2的幂次方);再次搜索最优参数组合,判断是否满足精度要求或结果稳定,如果是则转到步骤4,否则在这一步不断循环直到寻找到最优的一组参数组合。

步骤4存储参数,参数优化结束。

4 实例分析

4.1 样本选择

历史数据是话务预测的基石,但历史数据并非越多越好。在进行预测时,一定要选取具有较大相关性的历史数据,数据的相关性越强,对预测准确性的帮助就越大。所谓相关性,是指历史数据所依存的业务环境与现有环境具有较大的相似性。但是,在选取预测基准数据时,往往没有足够的相关性数据。这其中很重要的一个原因是:直接从ACDSee获得的数据往往存在着各种异常因素。如:系统故障等原因引起的数据缺失,促销活动、异常天气等引起的话务量异动等。为了解决相关性数据缺乏的问题,通常需要对历史数据进行清洗,如剔除缺失数据、修正异常数据等,这个过程其实就是要提高数据的相关性,使之更能反映业务现状的特点。本文主要研究的是节假日的话务量,节假日话务量往往具有峰值特性,因此,我们只需选择相关性大的数据也就是峰值周围的数据做样本,并对这些样本做异常数据修正,从而导入到话务预测模型中进行预测。

本文实验的数据是实时新疆移动通信话务量数据,话务量历史数据包括新疆16个地州从2004年1月~2012年5月每天每小时的话务量。为了使移动运营商能够根据预测出的节日忙时话务量对话务信道及时做处理,保障话务高峰期的正常通信,并且能降低误差和减少训练时间,达到最佳的预测效果,本文剔除掉节日前10天的话务数据,选取每年节日10天前的20天最忙时话务量做输入样本,历年节日当天话务做输出样本,同时横向和纵向训练,建立预测模型,最终预测出要预测的节日当天最忙时话务量。本文以预测2012年元旦忙时话务量为例,随机选取新疆五个地区做预测分析。

4.2 话务预测步骤

改进的网格搜索优化支持向量机进行节假日话务预测的步骤如下:

步骤1对话务数据进行预处理,主要是对一些缺失数据和异常数据进行相应处理,如对这些数据取相近的数据填补;

步骤2将选用的话务量数据划分为训练样本和测试样本,并将这些数据进行归一化处理;

步骤3本文设定ε=0.01,设定网格搜索的C、γ值的初始搜索范围和步长,这里设置为γ∈[2-8,28],步长为1,C∈[2-8,28],步长为1;

步骤4根据样本集,利用改进的网格搜索法和交叉验证[8]找出最佳参数组合(Ci,γj)(交叉验证误差是推广误差的一种近似无偏估计,在很多情况下表现出比其他估计量更好的性能[10],本文采用5-折交叉验证);

步骤5根据样本集和最优的(Ci,γj)组合,建立基于网格搜索的支持向量机话务预测模型;

步骤6利用建立好的模型对话务量进行预测。

4.3 预测结果及分析

本文采用MATLAB编写改进的网格搜索寻参程序,结合libsvm支持向量机工具箱,用均方误差MSE作为评价指标。

其中,Xi(i=1,2,…,n)是真实值,Yi(i=1,2,…,n)是预测值,MSE越接近于零,预测效果越好。输入向量的维数选取8,则支持向量回归机的输入值与目标值可以表述为:

SVR参数选择效果如图1所示。得到的最优参数建立SVR预测模型,代入预测样本数据进行运算,预测效果如图2所示。

Figure 1 SVR parameters choice图1 SVR参数选择图(3D视图)

为了说明该方法的优越性,本文首先选取了BP网络、传统SVR和网格搜索SVR与之进行对比,对新疆五个地区元旦当天忙时话务量进行预测。预测误差用相对误差Erep表示,结果如表1所示。

其中,Xi(i=1,2,…,n)是真实值,Yi(i=1,2,…,n)是预测值。

通过表1可知,本文基于改进的网格搜索SVR取得了较好的预测结果,其误差均小于5%,且稳定,运行时间均在3秒左右,符合规范预测精度,完全满足实际预测的需求。而SVR模型虽然运行速度很快,但很难寻到最优模型参数,需人手动多次试验,若有丰富的经验知识,可能会得到较理想的预测结果;BP网络效果要略好于SVR,但由于BP网络易陷入局部极小,预测值波动很大,所以很难对每个地区做精确的预测。基本的网格搜索SVR虽然取得了比较稳定的结果,但会出现个别地州达不到实际要求的精度,即没有搜索到最优参数组合。而本文算法通过改变搜索范围和搜索步长更精细地搜索最优参数直到满足要求的精度才停止。因此,无论是从预测精度还是耗时来说,基于改进的网格搜索的SVR模型均优于传统的SVR模型、网格搜索SVR模型和BP神经网络模型。

Table 1 Comparison of forecast result 1表1 预测结果分析表1

该话务预测模型不仅适合于非线性强的节假日忙时话务预测,也适合平常话务(非节假日)的预测。目前支持向量机参数的选择方法有很多,仍没有形成一个统一的模式,一般视具体情况而定。本文随机选取五个地区的某个平常日子代入话务模型进行预测,另选免疫算法(IA)和粒子群算法(PSO)对SVR寻优并应用于话务预测模型。与本文算法比较,由于前两种算法每次运行的结果不同,某次结果可能是陷入局部极值时所得,不能代表整体预测效果,所以前两种算法均运行50次,取结果的平均值,各算法的误差和运行时间结果如表2所示。

由表2可知,三种算法误差因地区的不同而不同,总体效果差不多。但是,由于PSO-SVR易陷入局部极值,且运行次数多,消耗时间长,IA-SVR能够搜索到全局最优解,但其运算耗时还是较长,在实际应用中影响工作效率;而本文提出的改进的网格搜索法能安全地搜索到SVR的最优参数,不会陷入局部极值且每次运行的结果是相同的。所以,本文提出的算法模型只需运行一次就可得到稳定的值。因此本文算法在稳定性和运行时间上都有很大优势。

Table 2 Comparison of forecast result 2表2 预测结果分析表2

5 结束语

本文利用改进的网格搜索法对支持向量机的关键参数进行寻优,然后进行交叉验证,找出使交叉验证精确度最高的(C,γ)对,进而建立模型并预测话务量,实现了支持向量回归机参数的自动优化选择,避免了通过实验人工选择的盲目性。实验结果表明,本文算法在稳定性、准确率和运行速度等方面明显优于现有算法,是一种预测忙时话务量的有效方法。当然,本文提出的改进的网格搜索法还处于研究的初步阶段,对于参数较少的模型能有效地搜索到最优值,但对于参数多的模型,搜索复杂度加大,可能比较耗时,有待进一步探索。

[1] Vapnik V.Statistical learning theory[M].New York:John Wiley&Sons,1998.

[2] Zhang Xue-gong.About the statistical learning theory and support vector machine[J].ACTA Automatica SINICA,2000,26(1):32-42.(in Chinese)

[3] Khandoker A H,Palaniswami M,Karmakar C K.Support vector machines for automated recognition of obstructive sleep apnea syndrome from ECG recordings[J].IEEE Transactions on Information Technology in Biomedicine,2009,13(1):37-48.

[4] Elattar E E,Goulermas J Y,Wu Q H.Electric load forecasting based on locally weighted support vector regression[J].IEEE Transactions on Systems, Man and Cybernetics,2010,40(1):438-447.

[5] Shi Jie,Lee Wei-Jen,Liu Yong-qian,et al.Forecasting power output of photovoltaic systems based on weather classification and support vector machines[C]∥Proc of the IEEE Annual Meeting on Industry Applications(IAS),2011:1-6.

[6] Deng Nai-yang,Tian Ying-jie.A new method of data mining:Support vector machine[M].Beijing:Science Press,2004.(in Chinese)

[7] Wu Hai-wei,Yu Hai-ye,Zhang Lei.The net photosynthetic rate prediction model based on the optimized support vector machine[J].Spectroscopy and Spectrum Analysis,2011,31(5):1414-1418.(in Chinese)

[8] Huang Yan-qiu.The IA -SVM algorithm research in network intrusion detection[J].The Computer Simulation,2011,28(1):182-186.(in Chinese)

[9] Feng Guo-he.The large sample support vector research based on the clustering[J].Computer Science,2006,33(4):145-147.(in Chinese)

[10] Duan K,Keerthi S S,Poo A N.Evaluation of simple performance measures for tuning SVM hyperparameters[J].Neurocomputing,2003,51:41-59.

附中文参考文献:

[2] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.

[6] 邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004.

[7] 武海巍,于海业,张蕾.基于参数优化支持向量机的林下参净光合速率预测模型[J].光谱学与光谱分析,2011,31(5):1414-1418.

[8] 黄艳秋.IA-SVM算法在网络入侵检测中的研究[J].计算机仿真,2011,28(1):182-186.

[9] 奉国和.基于聚类的大样本支持向量研究[J].计算机科学,2006,33(4):145-147.

The prediction model of traffic based on improved grid search SVR

GUO Mei-li1,QIN Xi-zhong1,JIA Zhen-hong1,CHEN Li2
(1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046;2.China Mobile Group Xinjiang Company Limited,Urumqi 830063,China)

The traffic prediction is the basis of the whole communication's security work,whose prediction accuracy determines the rationality and scientificity of the entire plan.While the prediction of holiday's traffic has the characteristics of small historical sample size and strong nonlinear,it is hard to realize accurate prediction for the traditional prediction method.An improved grid search method for selecting the optimized parameter of Support Vector Regression machine(SVR)and then predicting the busy traffic in holidays is proposed and compared with BP neural network,SVR and grid search SVR.And the traffic of general days is predicted by comparing our method with Immune algorithm and Particle Swarm Optimization algorithm in optimizing SVR parameters.The experimental results show that the improved grid search SVR has a higher forecast precision,a less time-consuming and a strong stability,thus having good practicality and promotion.

prediction of holiday's traffic;support vector regression machine;improved grid search method

1007-130X(2014)04-0707-06

TP181

A

10.3969/j.issn.1007-130X.2014.04.023

2012-09-11;

2012-12-19

中国移动通信集团新疆有限公司发展基金项目(XJM2011-11)

通讯地址:830046新疆乌鲁木齐市胜利路14号新疆大学信息科学与工程学院

Address:College of Information Science and Engineering,Xinjiang University,14Shengli Rd,Urumqi 830046,Xinjiang,P.R.China

郭美丽(1987-),女,新疆塔城人,硕士生,研究方向为人工智能和移动通信。E-mail:guomeili314@126.com

GUO Mei-li,born in 1987,MS candidate,her research interests include artificial intelligence,and mobile communications.

覃锡忠(1964-),男,重庆人,硕士,副教授,研究方向为通信与信息处理。E-mail:qmqqxz@163.com

QIN Xi-zhong,born in 1964,MS,associate professor,his research interest includes communication and information processing.

贾振红(1964-),男,河南洛阳人,博士,教授,研究方向为光通信和信号处理。E-mail:jzhh@xju.edu.cn

JIA Zhen-hong,born in 1964,PhD,professor,his research interests include optical communication,and signal processing.

陈丽(1980-),女,新疆乌鲁木齐人,硕士,高级工程师,研究方向为移动通信。E-mail:chenli@xj.chinamobile.com

CHEN Li,born in 1980,MS,senior engineer,her research interest includes mobile communication.

猜你喜欢
话务量话务向量
向量的分解
聚焦“向量与三角”创新题
浅析电信话务控制
基于时间序列模型的异常话务量分块建模和预测
S1240交换机实时话务量统计的分析与实现研究
“互联网+”高速公路客户服务话务平台研究
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
多基站调度网话务量模型
分段预测法在GSM网络无线话务量预测中的应用