摘要:支持向量机在对非线性复杂问题进行处理的过程中,展现出来的优势特征非常突出,本文针对雾霾天气预测中支持向量机的应用做出了进一步探究,对支持向量机的概念、支持向量机的基本思想、建立雾霾预测模型、预测试验给出了详细的分析。
关键词:雾霾天气;预测;支持向量机
中图分类号:X16 文献标识码:A 文章编号:2095-672X(2020)01-0-01
Abstract:Support vector machines show prominent advantages in the process of dealing with non-linear and complex problems.This paper has further explored the application of support vector machines in haze weather prediction.The concept of support vector machines,the basic idea of support vector machine, establishment of haze prediction model,and prediction experiment are given in detail.
Key words:Haze weather;Prediction;Support vector machine
雾霾的预测和治理目前已经成为人们关注的热点。而雾霾天气中,支持向量机的应用十分关键。以往应用的预测模式,在预测模型建立的过程中,需要预报因子和预报对象的线性相关关系,其中预报因子之间,存在的线性相关性比较小。因此,针对之前使用的统计形式,不能解决存在的非线性关系的雾霾预测问题。其中,V. Vapnik等学者,提出了SLT,为统计学习理论,属于小样本的机器学习理论。在此基础上,对支持向量机方法进行了构建和发展,成为全新的统计学习理论方法,能够对非线性分类和非线性回归进行科学处理。
1 支持向量机的概念
1963年,首次提出了支持向量机,在被提出之后获得了相应的发展,但是21世纪90年代之后,发展的速度非常快,同时衍生出了很多的改进算法及扩展算法[1]。其中便包括了多分类SVM 、最小二乘SVM(Least-Square SVM, LS-SVM)、支持向量回归、支持向量聚类、半监督SVM(semi-supervised SVM, S3VM)等[2]。此外,在人像识别及文本分类中,对支持向量机的应用也非常普遍[3]。
2 支持向量机的基本思想
支持向量机的应用基本思路是,在高维空间对样本进行映射,找到将样本划分成两类的最理想线性超平面。其中需要完成的工作包括:根据Mcrccr核展开定理,利用f,也就是非线性映射,在某个高维或者无穷维特征空间对样本空间进行有效映射,并在特征空间当中对E进行应用,将不灵敏函数进行转换,使其成为误差函数[4]。其中,全部的样本点,对超平面距离的计算,都不大于E时,便可对最理想的回归超平面问题实施转化,对二次凸规划问题进行解决。此外,还能求全局最佳解,使得在对线性学习方法进行应用的过程中,可以在特征空间中,对高纬非线性分类问题和高纬非线性回归问题进行有效解决。
3 建立雾霾预测模型
3.1 PM2.5所产生的危害十分严重,其中最主要的影响因素是气象因子和大气污染物浓度
如果需要应用气象因素参数和数据,可以通过中国天气网进行获取,而大气污染物数据可通过中国环境保护部门对空气质量数据进行的实时发布获取。结合相关资料和以往经验,可对当日的PM2.5污染物浓度预报模型进行有效确定,并明确其中的输入量为可吸入颗粒物、臭氧、一氧化碳、二氧化氮的每日平均浓度,掌握前一天地面最大及最小露点、平均露点和湿度、最低气压以及最大风速、平均风速因子[5]等。
3.2 SVM回归的雾霆预报模型分析
(1)支持向量机的核函数类型的确定。RBF核函数具备的优势特点十分突出,有着性能好及穩定性非常高的特征,并且对于参数的调节比较少。所以,在对RBF核函数的支持向量回归模型进行应用的过程中,RBF核函数为:
(2)支持向量机预测模型当中的参数寻优。一般情况下,根据自己以往的工作经验及相关的实验数据,便可选择相应的向量机参数。其中,对于交叉验证的方法,选择网格搜索法,可对支持向量机的参数C和a进行有效寻找。其中,需要将训练集进行划分,使其有k个子集,这样每个子集,便成为了不同的测试集,并将剩下的子集当做训练集。具体来说便是建模k次,可结合模型的性能,评估出k次的平均绝对误差,这样便可对模型的最优参数进行有效确定。此外,对于网格搜索法的应用,需要将网格当中的点(C,σ)实施穷举搜索。其中C,σ当中的步长增长,为指数增和增长。
对于训练样本,其中的优化参数支持向量机的预测设备,可对相应的支持向量进行获取,这样便能对向量机中的具体结构进行确定。
应用完成训练的支持向量预测器详细预测被测试的样本。
4 预测试验分析
4.1 试验软件
在选择试验软件的过程中,结合实际情况,最终确定了LIBSVM软件。
4.2 预测实验
针对菏泽的雾霾预测,根据菏泽地区的气象资料以及同期大气环境检测资料,对PM2.5进行了详细的预测。因此产生雾霾的季节多发生在春季及冬季,所以在检测日期挑选上,选择了2017年1月到来年3月的相应气象数据以及大气污染数据。其中,将2017年冬季共160组数据做相应的训练样本,在每组数据中,都有12个输入因子及PM2.5的实际值。同时将2017年11月每日的数据做被测试的样本,在每一组数据当中,输入因子数量为12个,并预测每天的PM2.5。针对所使用的网格法及交叉验证,找寻相应的参数。
4.3 实验结果分析
实验应用了菏泽地区2017年10月逐日PM2.5的实测值与预测值之间的对比。经过PM2.5的实测值与预测值之间的对比分析,可以看出,尽管两者存在一定的差距,但是从整体角度看,曲线的拟合度并不低。其一,如果PM2.5发生的波动非常大时,预测工作会比较理想,其曲线针对预测的结果反应十分敏感,但从数值的角度进行分析,存在一定的偏差。其二,PM2.5的预测数值和实际测量数值,产生的线性关系系数为0.80,这便有力地说明了在该模型当中,对于PM2.5的预测有着非常大的优势作用,为雾霾的预测提供了准确的数据依据。
5 结束语
总之,由于人们的生活环境受雾霾影响越来越严重,所以雾霾的预测和治理已经成为人们关注的热点。而霧霾天气中,支持向量机的应用十分关键。支持向量机应用的基本思路是,在高维空间对样本进行映射,找到将样本划分成两类的最理想线性超平面。支持向量机对非线性复杂问题进行处理时,展现出来的优势特征非常突出,对于RBF核函数当中的支持向量回归模型,可以将PM2.5与其影响因子当中产生的非线性关系进行有效反映,其中展现出来的优势为训练速度非常快,并且准确度比较好。
参考文献
[1]程美英,钱干,倪志伟,朱旭辉.基于虚拟多任务二元粒子群算法和分形维数的雾霾天气预测方法[J].系统科学与数学,2018,38(05):623-637.
[2]陆雪华,沙远峰,黄俊理,梁春朵,何永华.基于BP人工神经网络的桂林市雾霾天气预测[J].影像研究与医学应用,2018,2(05):186-188.
[3]杜二玲,卢秀丽,窦林立.支持向量机在雾霾天气预测中的应用[J].内蒙古科技与经济,2017(17):57-58.
[4]朱旭辉,倪志伟,倪丽萍,程美英,李敬明,金飞飞.基于相异度的SVM选择性集成雾霾天气预测方法[J].系统科学与数学,2017,37(06):1480-1493.
[5]侯琼煌,杨航.基于三次指数平滑模型的雾霾天气分析与预测[J].环境保护科学,2014,40(06):73-77.
收稿日期:2019-10-14
作者简介:王英(1978-),女,汉族,本科学历,工程师,研究方向为中、短期天气预报。