大雾情形下能见度的估计及预测

2021-07-06 14:16王雅雪李城刘霆
赤峰学院学报·自然科学版 2021年1期
关键词:回归模型能见度主成分分析

王雅雪 李城 刘霆

摘 要:针对不同大雾情况下的能见度,建立估计与预测模型。通过建立多分类的多元回归模型,研究能见度与地面气象影响因素之间的关系,并对大雾的能见度进行预测。利用2020年研究生数学建模竞赛E题所提供的数据,用主成分分析进行降维,分析每个变量对能见度的影响规律,建立多分类多元回归模型。模型结果表明,风速对能见度的影响程度最大,呈正相关关系;气压越高,能见度越低;温度越高,能见度越大;湿度对能见度的影响程度最小,呈负相关关系。预测结果表明,八点过后能见度逐渐增大。

关键词:能见度;气象因素;主成分分析;回归模型;预测

中图分类号:O212  文献标识码:A  文章编号:1673-260X(2021)01-0009-04

引言

在日常出行中,公路,飞机等都需在意天气问题,尤其是雾霾情况下。而大雾和霾直接影响着能见度这一指标。在能见度很低时,高速公路以及航空公司均会采取封路取消航班等措施。因此,能见度的预测是高速公路和航空公司十分关注的问题。

本文所用资料为2020年“华为杯”研究生数学建模E题所给资料及數据。根据竞赛提供的数据建立模型,探究能见度与地面气象因素的内在关系,并进行预测。

1 模型的建立与求解

1.1 数据处理

原数据给出5755个数值,时间跨度为从北京时间的2020-3-12 8:00到2020-3-13 7:59,每一分钟给出4个数值。将数据进行整合,经过基本的数据筛选,选用每分钟的4个数值的平均值x1,x2,…,x2929个变量作为研究对象,每个指标的数据都从5755个值缩减到1437个值[1]。

原始数据给出29个变量,但其中有很多变量反映的是同一个信息,为进一步判断这些变量之间是否存在线性相关,对这些变量进行多重共线性检验。

共线性可以通过共线统计的方差膨胀因子VIF值来判断,若该值大于5时,则认为自变量可能存在多重共线性的问题。通过SPSS中对上述29个指标变量计算方差膨胀因子如表1所示。

上表显示超过95%的变量的方差膨胀因子VIF的值大于5,说明各个变量指标之间存在着多重共线性,因此不可以直接对上述29个变量进行建模,需要对变量进行进一步降维处理。

采用主成分分析的方法进行降维来处理高维数据,通过正交变化的方式将高维数据尽可能少的投影到低维空间,从而达到简化数据结构的目的[2]。解释总方差结果如表2。

由上表可知,相关系数矩阵的特征根分别为:1=14.006,2=6.401,3=2.083,4=1.485,5=0.915,6=0.561等等,我们发现只有前4个主成分的特征值是大于1,且其方差占所有主成分方差的85.63%,即包含了原始变量的85.63%的信息。一般情况下,主成分累计贡献率达到80%即可满足。该结果可以直接通过碎石图看出,如下图所示。

上图显示在第四个因子之后逐渐趋于平缓,在之后的回归建模时可以取前4个主成分。

根据4个主成分对原指标变量的提取程度,将其4个成分分别命名为风速、气压、温度、湿度,用y1,y2,y3,y4表示。

1.2 模型形式设定

给出的影响因素中,有一个因素是风向,该指标的单位为度,取值在0-360之间,由于风向不具有可加性,不能将其加入模型,再考虑风向因素对能见度的季节性影响尤为重要,因此需要对该变量进行处理。进行数据挖掘将风向分为四类,从而构造3个0-1虚拟变量。将0-90之间的数值取为第1类,为东北方向;将90-180之间的数值取为第2类,为西北方向;将180-270之间的数值取为第3类,为西南方向;将270-360之间的数值取为第4类,为东南方向[3]。

D1=1,东北方向0,非东北方向,D2=1,西北方向0,非西北方向,

D3=1,西南方向0,非西南方向。

根据主成分分析结果,用y1,y2,y3,y4这4个主要变量作为自变量、风向作为虚拟变量建模,为之后根据不同地域的风向预测大雾消散情况做一个理论基础。模型如下:

Z=f(y1,y2,y3,y4,D1,D2,D3)

其中:Z为能见度;y1,y2,y3,y4分别为风速、气压、温度、湿度;Di,i=1,2,3为方向。

现根据上述得到的风速、气压、温度、湿度4个变量指标,分别做出各个变量关于能见度Z的趋势图,初步探究之间的关系。如下所示:

由图2可知,风速与能见度呈正相关关系。虽有一个特殊峰值,但是大致呈线性关系。

由图3可知,气压与能见度呈负相关关系,大致呈线性关系。

由图4可知,温度与能见度呈正相关关系。能见度随温度的升高而增大,前期增大幅度渐渐变小,呈现对数关系;后期增大的幅度渐渐变大,呈现二次关系;图像整体呈线性关系。因此将温度变量纳入模型时,分别考虑其对数形式、一次形式和二次形式。

由图5可知,湿度与能见度呈负相关关系。随湿度增大,能见度逐渐变小;一开始能见度变小的幅度很大,渐渐幅度减小。考虑将该变量的负一次形式纳入模型[4]。

基于温度变量随能见度的变化趋势图,认为温度变量与能见度的关系可能是对数关系、一次关系和二次关系,因此分别将温度变量的对数形式、一次形式和二次形式纳入模型。基于湿度变量随能见度的变化趋势图,认为湿度变量与能见度的关系可能是一次关系和负一次关系,因此分别将湿度变量的一次形式和负一次形式纳入模型。考虑到不同变量纳入模型的不同形式,分别建立5种模型,最终根据拟合程度选出一个最优模型。

建立以下五种模型,依次记为a~e:

Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (a)

Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (b)

Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (c)

Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4+?茁1D1+?茁2D2+?茁3D3 (d)

Z=c+?琢1y1+?琢2y2+?琢3y32+?琢4+?茁1D1+?茁2D2+?茁3D3 (e)

其中:Z为能见度;y1,y2,y3,y4分别为风速、气压、温度、湿度;Di,i=1,2,3为方向。

1.3 参数估计

该参数的p值都小于0.05,均通过显著性检验。

1.4 模型检验

1.4.1 统计检验

从上表可以看出,五种模型的F统计量的p值均为0,则说明这些方程在统计上均是显著的。其次,通过拟合度R2、标准误差、以及F统计量显示,d模型的各項数据均优于其余4个模型,因此在这里选用模型d,模型方程为:

Z=f(y1,y2,y3,y4)=940394+1075.74y1-929.2969y2

+658.8416y3+1822.342+600.2985D1

-81.08468D2+430.219D3

四个方向的平均能见度为:

东北方向:

E(Z|D1=1,D2=0,D3=0)=940399.43+1075.744y1

-929.2969y2+658.8416y3+1822.342

西北方向:

E(Z|D1=0,D2=1,D3=0)=940313+1075.744y1

-929.2969y2+658.8416y3+1822.342

西南方向:

E(Z|D1=1,D2=0,D3=1)=940824.2+1075.744y1

-929.2969y2+658.8416y3+1822.342

东南方向:

E(Z|D1=0,D2=0,D3=0)=940394+1075.744y1

-929.2969y2+658.8416y3+1822.342

1.4.2 预测检验

从建模样本外的测试样本中的原数据中随机取出10个数值,对比模型拟合预测出的浓度值与实际值[5],如表5所示。

上表可以看出,几乎所有的预测值与真实值之间的相对误差都小于1%,大部分的相对误差在0.1%附近,模型拟合较好。

1.5 结果分析

上述建立的模型可知,风速对能见度的影响程度最大。风速越大,能见度越高,风速变化1个单位,能见度变化1075.7个单位;气压与能进度呈负相关关系,气压越高,能见度越低,气压上升1个单位,能见度降低929.3个单位;温度越高,能见度越大,温度升高1个单位,能见度增大658.8个单位;湿度对能见度的影响程度最小,湿度越大,能见度越低[6]。

2 外推预测

用该模型对之后的大雾情形下的能见度进行预测,预测结果如表6。

预测趋势整体平缓,有上升趋势。预测结果图如图6,红色线段为原数据的图像,蓝色线段为预测部分图像,虚线为趋势线。图中可以看出,能见度变化不大,略微有变大趋势。

3 结语

(1)在8:00到14:30,能见度逐渐增大并达到峰值;14:30之后的时间段,能见度逐步降低。在16:14时间点附近,能见度出现急速下降。

(2)能见度与风速、温度成正相关关系,与风速、气压呈负相关关系,与方向因素关系不大。

(3)风速越大,能见度越高,风速变化1个单位,能见度变化1075.7个单位;气压越高,能见度越低,气压上升1个单位,能见度降低929.3个单位;温度越高,能见度越大,温度升高1个单位,能见度增大658.8个单位;湿度越大,能见度越低。

本文考虑到了5种不同的模型形式,估计了未来10个预测值,在之后的研究中,会深入挖掘各影响因素对能见度的影响程度与趋势,建立更适合的模型并进行长期预测。

——————————

参考文献:

〔1〕周建平,张蕾,王传辉,姚叶青,刘承晓.大雾临近预报中高密度能见度数据应用[J].气象科技,2019,47(05):866-871.

〔2〕陈玉蓉.四川盆地低能见度天气的变化分析及其对机场运行的影响[D].中国民航大学,2019.

〔3〕白小云.咸阳机场大雾低能见度资料的分析与应用[A].中国气象学会.第34届中国气象学会年会S16智能气象观测论文集[C].中国气象学会:中国气象学会,2017:10.

〔4〕程航.大连地区大雾气候特征及成因研究[D].兰州大学,2014.

〔5〕刘炳杰.环渤海低能见度分析及短期预报方法研究[D].兰州大学,2010.

〔6〕白小云.咸阳机场大雾天气能见度的观测[J].陕西气象,2005,63(04):42-43.

猜你喜欢
回归模型能见度主成分分析
能见度与NOx、NO2日变化关系分析研究
浅析常州市PM2.5对能见度干扰
农村秸秆处理方式的影响因素
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
电子商务影响因素的计量分析
南京市气溶胶和相对湿度对能见度的影响
恩格尔系数与消费者支出模式变动的关系
1971~2007年五莲县低劣能见度天气变化规律