杨 慧,黄 瑾,罗明良,何昀霞,邓 婕
(西华师范大学 a.地理科学学院,b.四川省干旱河谷土壤侵蚀监测与控制工程实验室,四川 南充 637009)
随着城市化与现代化进程的快速推进及社会经济的迅速发展,各类能源大幅度消耗和大量污染物排放,导致了严重的生态环境问题,其中大气污染尤为突出[1]。近年来,我国大部分地区在冬季时常会出现大范围的雾霾现象。PM2.5和PM10是雾霾的主要组分,其粒径小,比表面积大,富含大量的有毒、有害物质,且在大气中停留的时间长、输送的距离远,并可随着人们的呼吸进入体内;PM2.5和PM10不仅会导致空气质量和能见度下降,人长期暴露于高浓度PM2.5和PM10环境中,还会引发心血管疾病[2-3]、呼吸系统疾病,甚至肺癌[4]。因此,对PM2.5与PM10进行监测,研究其分布特征非常必要。PM2.5与PM10作为区域空气质量的参考,能够反映出区域大气颗粒物污染的状况[5]。但空气质量测量站点分布有限,因此利用有限的观测数据,借助插值方法估计合理的颗粒物(PM2.5、PM10)浓度分布具有重要的现实意义[6-7]。
空间插值利用观测点上获得的数据来估算其他点的数值,通过插值可以将点数据生成栅格表面数据[8]。利用ArcGIS的地统计分析工具(Geostatistical Analyst)对城市空气质量监测点数据进行插值以生成连续的空气质量分布表面[9]。丁卉等[10]在区域空气质量空间插值方法对比研究中得出普通克里金法(Ordinary Kriging,OK)能得到整体最优插值精度。胡稳等[11]基于对贵阳市冬季大气中PM2.5和PM10浓度空间插值及分布研究得出,三角函数是PM2.5空间插值的最适合模型,指数函数是PM10空间插值最适合模型。许珊等[12]基于协同克里金与径向基函数(Radial Basis Functions,RBF)神经网络的PM2.5浓度空间估算结果较好展示了污染的分异特征,且前者较后者更为平滑。汤宇磊等[13]通过机器学习的方法研究了四川盆地PM2.5与PM10高分辨率时空分布及关联分析。杜彦彦和黄青[14]通过OK法分析了河南省PM2.5的时间和空间分布特征。
前人的研究大多是大尺度空间上的研究[15-18],对于小尺度乡镇的研究较少。同时,普通克里金法、泛克里金法(Universal Kriging,UK)、反距离加权法(Inverse Distance Weighted,IDW)、RBF插值法作为常用的插值分析方法,对其插值结果的相似性和差异性有待进一步研究。因此本文选取河南省信阳市172个乡镇的PM2.5与PM10浓度数据为数据源,通过ArcGIS平台使用OK、UK、IDW和RBF插值方法,分别对采样数据进行插值,分析不同插值方法的插值精度以及插值结果相似性。
研究区为信阳市的2个市辖区以及8个市辖县,如图1。信阳市为亚热带季风气候向暖温带过渡气候,空气湿度高,空气质量较好[19]。依据信阳市人民政府发布的2020年5月各乡镇空气质量数据作为数据源,对信阳市的PM2.5浓度和PM10浓度进行空间插值模拟。
对获取的空气质量采样点数据进行检查,分析数据特点。采用直方图、正态QQ图检验数据的分布,确定数据是否需要变换以及变换的方式,使其符合正态分布;然后,进行趋势分析,获得数据的全局趋势。探索数据的半变异/协方差云,了解数据的空间自相关情况和方向影响。
采用OK、UK、IDW、RBF 4种方法对信阳市PM2.5及PM10浓度数据进行空间插值。(1)OK插值:利用那些将要用来插值的离散点集合建立一个变量图,变量图通常包括两个部分:一个是根据实验获得的变量图,另一个是模型变量图。模型变量图是运用一个简单的数学函数来模拟实验获得的变量图趋势。OK的权重不是基于任意的距离函数,而是基于模型变量图[20]。(2)UK插值:通过运用一个漂移项来临时使用固定条件,这个漂移项是运用一个简单的多项式函数来模拟离散点的平均值,残差是漂移和离散点实际值之差[21]。(3)IDW插值:IDW基于相似相近原理,即两个物体越接近,两者的性质就越相似,反之,离得越远的相似性越小。IDW以插值点和样本点之间的距离作为权重进行加权平均,离插值点越近的样本点,赋予的权重就越大[22]。(4)RBF插值:RBF使用五种基函数(高斯曲面函数、多项式函数、线性函数、立体曲面函数、薄板曲面函数)之一处理每一个测量采样值,从而创建精确插值表面[23]
依据插值实现的数学原理分类,IDW与RBF属于确定性的局部插值方法,OK与UK属于地统计插值;依据是否能保证创建的表面经过所有的采样点分类,IDW与RBF属于精确性插值,OK与UK属于非精确性插值[24]。
本文采用平均误差(ME)、均方根误差(RMSE)作为插值结果的评价标准。ME指测量值与预测值之间的平均差值,反映预测误差的整体分布情况,其绝对值越趋于0,准确性越高。RMSE指模型预测结果与测量值的接近程度,此值越小越好[25]。
4种插值方法在相同单元上所得到的插值结果并不一致。当两种插值方法相互比较时,选择一种为基准插值方法,另一种为比较插值方法。相对差系数的计算公式为:[26]
基准插值方法和比较插值方法采用斜率为1的直线来拟合,相对差系数反映了比较插值法和基准插值法之间整体的偏离程度。若α=1,两种插值方法所得结果一致,插值方法之间不存在差异;若0<α<1,α值越小,两种插值方法之间的差异就越大;若α<0,两种插值方法之间没有可比性。α的值取决于哪种插值方法被视为基准插值方法,由于基准插值方法不同,每一对被比较的插值方法都将会产生2个α。
散点图直观地以图形方式表示2个数据集之间的相似性和相关性,揭示算法之间的函数关系[27]。以一种插值方法得到的浓度为X轴,另一种插值方法得到的浓度为Y轴,就能得到关于PM2.5和PM10不同插值方法的插值结果XY散点图。如果两种插值方法的结果一致,则散点图表现为斜率为1的直线,函数关系为Y=X;如果两种插值方法的插值结果不完全相同但有一定联系,则线性回归后的函数关系为Y=aX+b。
PM2.5与PM10浓度数据统计特征值见表1。PM2.5与PM10浓度数据都不符合正态分布,最大值分别为48、77 μg·m-3,最小值分别为10、37 μg·m-3,均值分别为28.38、54.90 μg·m-3。
表1 PM2.5与PM10的统计特征值Table 1 Statistical characteristic values of PM2.5 and PM10
4种插值方法设置参数均为默认,得到的插值误差特征值见表2:对于PM2.5及PM10浓度数据,OK和UK插值精度基本相同;4种插值方法的ME均为负,说明这4种插值整体上略低于实测值,其中,RBF的ME绝对值最接近于0,说明其精度最高;从RMSE看,4种插值方法的插值精度相差不大,但PM2.5的插值精度明显高于PM10。
表2 不同插值方法的插值误差特征值Table 2 Interpolation error eigenvalues of different interpolation methods (单位:μg·m-3)
不同插值方法的相对差系数如表3所示:不同插值方法得到的PM2.5和PM10浓度的相对差系数值具有一定的相似性。当以IDW、RBF作为基准与OK、UK比较时,相对差系数α的值大部分小于0.6,说明IDW、RBF与OK、UK的插值结果差异性较大,其中IDW与OK的插值结果差异性最大。同时OK与UK、IDW与RBF的插值结果相对差系数值均较大,表明OK与UK、IDW与RBF的插值结果具有较高的相似性。相同类型的插值方法得到的插值结果相似性高,而不同类型插值方法得到的插值结果相似性低。同时结合插值误差特征值的分析结果,RBF与IDW的插值结果更优。
表3 PM2.5与PM10不同插值方法的相对差系数Table 3 Relative difference coefficient of different interpolation methods for PM2.5 and PM10
散点图拟合的函数关系如表4所示。以线性回归的相关系数R2作为评价的标准,R2越高说明其回归模拟的效果越好,两种插值方法的相关性也越高。从表中可以看出,不同类型的插值方法的R2都较小,相同类型的插值方法的R2都偏大。对于PM2.5和PM10的插值结果,R2都大于0.5,说明这4种插值方法都具有一定的相关性;R2最高的是IDW与RBF,其值约为0.98,OK与UK次之,表明相关性最高的是IDW和RBF,OK与UK次之。
表4 PM2.5和PM10不同插值方法的函数关系Table 4 Functional relation between different interpolation methods of PM2.5 and PM10
本文基于信阳市各乡镇2020年5月的PM2.5与PM10平均浓度数据,探讨了OK、UK、IDW、RBF 4种插值方法模拟PM2.5与PM10浓度的误差特征与不同插值方法模拟结果的相似性。插值结果的误差特征值表明,RBF的插值误差较小,RBF插值法是逼近理论中的一个有利工具,它最初是散乱数据插值的一种方法,具有计算格式简单、节点配置灵活、计算工作量小、精度相对较高等优点[28]。本文研究数据为信阳市各乡镇站点PM2.5与PM10的月平均数据,在空间分布较散乱,因此RBF插值方法的插值结果较优。
插值结果的相似性分析表明,不同插值方法对PM2.5、PM10模拟的结果并不一致。其中模拟PM2.5和PM10结果中最为相似的是RBF与IDW两种插值方法,相对差系数为0.97或0.98,线性回归相关系数也约为0.98;相似性最差的为IDW和OK两种方法。同时依据插值分类可以看出,相似性分析结果与插值的分类方法相符合。尽管不同插值方法模拟PM2.5、PM10的统计指标接近,但值得注意的是插值结果的相似性存在明显差异。
在数据获取和处理的过程中,不可避免会出现多种误差,在一定程度上影响插值精度。同时,由于数据有限,对于PM2.5、PM10的每小时浓度与日均浓度数据的插值研究有待进一步探讨,不同地区的插值可能会呈现不同的结果,其他的插值方法对PM2.5、PM10插值的对比分析等问题还有待考究。