廖云琛,李明聪,吴 洋,张嘉霖,孙树鹏,尹紫薇
1.天津市津南区气象局 天津 300350;2.天津市东丽区气象局 天津 300300
负氧离子(negative oxygen ion, NOI)是指获得多余电子而带负电荷的氧气离子,是由空气中的自由电子与氧分子相结合而形成的[1-3]。研究表明,除了常见有害气体成分和大气能见度等因素外,负氧离子浓度也是衡量区域空气清洁水平和空气质量的重要指标之一[4-7]。负氧离子在调节呼吸、清除自由基、促进新陈代谢、维持生命体征等过程中发挥着必要作用,其浓度的高低将直接影响人的舒适程度和健康状况[8-9]。随着中国经济的飞速发展及生态文明建设的深入推进,空气环境质量和生态气象服务越来越受到政府机构及社会公众的关注,负氧离子的研究也逐渐成为热点之一[10]。
近年来,国内学者广泛开展负氧离子浓度的监测与分析工作,特别是对不同地区的负氧离子浓度的时间变化特征进行了研究分析。对于负氧离子浓度的日变化,不同地域有不同特点,有单峰型[11]、双峰型[12]、多峰型[13]。同时,许多研究也发现,不同季节负氧离子浓度的变化也有所不同[14-15]。
前人的研究多指出负氧离子浓度与气温、湿度、风速、日照、气压、PM2.5等要素之间有显著关系,受气象要素、植被类型、水源分布、人类活动、生态环境等多种因素影响,不同区域负氧离子的影响因子也存在差异[16-20]。目前构建负氧离子浓度预测模型以基本的回归方法居多[21-23],使用BP神经网络的较少[24]。
本研究利用天津市气象局在蓟州区梁庄子(梁庄子站)和河西区气象雷达研试中心(市区站)建设的2 套负氧离子生态监测站数据,揭示梁庄子站(森林区)和市区站(居民区)负氧离子浓度时空变化特征,并结合负氧离子浓度监测站点周边区域自动站气象要素数据和环境要素数据,了解显著影响负氧离子浓度的因素。利用2种学习方法,分别筛选并建立2 个区域负氧离子浓度最优预测模型,旨在为天津市不同区域空气清新度预报提供参考和为天津市生态环境建设提供科技支撑,并将“绿色发展”理念贯彻到底。
负氧离子浓度监测设备采用北京华创维想科技开发有限责任公司的FR500 负氧离子监测仪,其测量范围为0~50 000 个/cm3,设备分辨率为1 个/cm3,离子迁移率≥0.4 cm2/(V·s)。
本研究使用的逐日负氧离子浓度资料来源为梁庄子负氧离子浓度监测站和市区负氧离子浓度监测站,两站分别位于天津市蓟州区梁庄子镇和天津市河西区气象雷达研试中心。研究选取两站2019年6 月6 日至2022年12 月31 日的逐日负氧离子浓度资料;两站周边的同期区域自动站逐日气象要素资料,包括日平均气压、日最高气压、日最低气压、日平均气温、日最高气温、日最低气温、日平均相对湿度、日最低相对湿度、风速、日照时数、该日是否下雨;监测点所在区域同期的环境监测国控点环境要素逐日资料,包括PM10、PM2.5日平均浓度。由于负氧离子浓度数据易受环境干扰,所以收集到的原始数据存在部分信号噪声的问题,数据质量参差不齐。本研究利用王云等[25]的方法,对负氧离子浓度数据进行了界限值和小时变率质量控制。
利用算数平均方法来统计月平均、日平均、季节平均数据,利用相关分析方法来分析负氧离子浓度与其他要素的相关关系。利用随机梯度下降法、随机森林方法来筛选和建立负氧离子浓度预测模型。随机梯度下降法是通过随机取样和不断迭代更新各影响因子权重,使模型的损失函数的梯度向量达到最小的机器学习方法。随机森林方法是由多个决策树构成的集成学习方法[26]。
2.1.1 平均日变化特征
从梁庄子负氧离子浓度的平均日变化来看(图1a),梁庄子负氧离子浓度一天内的变化范围为859~1 014个/cm3,负氧离子测值较高。一天内总体变化呈“一峰一谷”型,一天内的负氧离子浓度峰值出现在09 时,谷值出现在15 时、16 时,总体表现为凌晨上升、上午至午后下降、而后又再次上升。市区站负氧离子浓度(图1b)一天的变化范围为615~567 个/cm3,浓度相较于梁庄子站明显偏低,且一日内的变化幅度较小。市区站负氧离子浓度一天内的总体变化呈凌晨至白天高、中午至夜间低的波动型态。一天内的负氧离子浓度峰值出现在06 时,谷值出现在13 时,表现为凌晨波动上升、上午至午后下降、而后在傍晚至夜间略有波动,基本呈“一峰一谷”型,但存在较多波动,整体特征不明显,可能是居民区环境和人为干扰导致。总体来看,市区站(居民区)的负氧离子浓度明显低于梁庄子站(森林区),其日变化峰值提前于梁庄子站,谷值也较梁庄子站提前。
图1 梁庄子站(a)和市区站(b)负氧离子浓度日变化图Fig.1 Time series of daily NOI concentration in Liangzhuangzi station (a) and urban station (b)
2.1.2 平均月变化特征
从梁庄子站负氧离子浓度平均月变化来看(图2a),梁庄子站负氧离子浓度全年月变化呈“两峰一谷”型,浓度最高月份分别为5 月(1 055 个/cm3)和12 月(1 069 个/cm3),7 月最低(660 个/cm3)。负氧离子浓度在1—5 月为缓慢上升过程,而后迅速下降,在7 月达到最低,之后至12 月持续上升。市区站负氧离子浓度全年月变化总体特征形态并不明显(图2b),浓度从1 月开始逐渐上升,5—6 月略微下降,在7 月达到最高(822 个/cm3),之后波动下降至1 月,达到最低(440 个/cm3)。
图2 梁庄子站(a)和市区站(b)负氧离子浓度月变化图Fig.2 Time series of monthly NOI concentration in Liangzhuangzi station (a) and urban station (b)
2.1.3 平均季节变化特征
在梁庄子站平均季节变化上(图3):春、冬季负氧离子浓度最高,达1 025 个/cm3;秋季次之,为926 个/cm3;夏季最低,为750 个/cm3。总体来看,梁庄子站平均季节负氧离子浓度为(春季,冬季)>秋季>夏季。从市区站平均季节变化上来看:天津市站监测站夏季负氧离子浓度最高,达696 个/cm3;春、秋季次之,为600 个/cm3左右;冬季最低,为446 个/cm3。总体来看,市区站平均季节负氧离子浓度为夏季>春季>秋季>冬季,可能与当地对应季节的天气状况有关。
图3 梁庄子站和市区站负氧离子浓度季节变化图Fig.3 Histograms of seasonal NOI concentration in Liangzhuangzi station and urban station
2.2.1 影响因子筛选
本文计算了2 个监测站逐日负氧离子浓度与多个要素之间的相关系数。梁庄子站负氧离子浓度与前一日浓度、当月常年平均浓度、日平均风速、日最高气压呈显著正相关关系(表1),表明以上负氧离子浓度伴随以上要素的增大而增大,且与日最低气温、日平均气温、日最高气温、日最低相对湿度、日平均相对湿度、日平均PM10、日平均PM2.5呈显著负相关关系,表明以上负氧离子浓度伴随以上要素的增大而减小。市区站负氧离子浓度与其他要素之间的相关关系表现与梁庄子站略有不同,甚至在某些要素上变化相反,其与前一日浓度、当月常年平均浓度、日最低气温、日平均气温、日最高气温、日最低相对湿度、日平均相对湿度、当日是否有雨、日平均风速、日总云量呈显著正相关,与日平均PM10、日平均PM2.5、日最低气压、日平均气压、日最高气压呈显著负相关关系。
表1 负氧离子浓度与其他要素的相关系数Tab.1 The correlation coefficients between NOI concentration and other factors
基于上述相关性计算结果,选取与2 个监测站负氧离子浓度数据呈显著相关性(通过0.05 和0.01 信度检验)的要素作为模型输入要素。
2.2.2 预测模型建立与筛选
利用2种学习方法,训练2 个监测站点的逐日负氧离子浓度及其对应的输入要素,之后采用随机划分50 次训练和检验样本的方式,计算不同机器学习方法所得到的均方根误差(RMSE),并计算平均值,从而获得不同监测站的2种学习方法的“50 折-交叉均方根误差检验评分”(表2)。对于梁庄子站逐日负氧离子浓度的预测,随机森林方法的RMSE为279.9,随机梯度下降法的RMSE 为285.1,随机森林方法的预测效果略好于随机梯度下降法。对于市区站逐日负氧离子浓度的预测,随机森林方法的RMSE 为240.0,而随机梯度下降法的RMSE 为243.3,随机梯度下降法的预测效果略好于随机森林方法。
表2 不同预测模型的50 折-交叉均方根误差检验评分Tab.2 50-k cross validation RMSE scores for different prediction models
从2022年全年梁庄子站负氧离子浓度模型检验折线图(图4)可以看出,随机梯度下降法与随机森林法所预测的逐日负氧离子浓度变化趋势与实际观测值基本一致,但在极值的预测方面仍有差距,无法预测出负氧离子浓度极端的情况。使用随机梯度下降法与随机森林法预测的市区站逐日负氧离子浓度效果总体相似(图5),2种方法均有较好的模拟效果,但也存在与梁庄子站相同的问题,即负氧离子浓度极值的预测仍存在较大偏差。但是整体上来看,两种学习方法均对2 个监测站的负氧离子浓度预测有一定预报能力和参考价值。
图4 2022年梁庄子站逐日负氧离子浓度观测值与随机梯度下降法(a)、随机森林法(b)预测值对比Fig.4 Time series of NOI concentration observation and prediction from SGD method (a) and random forest method(b) in Liangzhuangzi station
图5 2022年市区站逐日负氧离子浓度观测值与(a)随机梯度下降法、(b)随机森林法预测值对比Fig.5 Time series of NOI concentration observation and prediction from SGD method (a) and random forest method(b) in urban station
综上所述,本文选取RMSE最小的机器学习方法作为适用性的预测模型。
第一,天津市森林区(梁庄子站)负氧离子浓度存在明显的“一峰一谷”型日变化特征及“两峰一谷”型月变化特征。从季节上来看,负氧离子浓度为春季=冬季>秋季>夏季。
第二,天津市居民区(市区站)负氧离子浓度日变化特征基本呈“一峰一谷”型,且月变化特征不明显,起伏波动较大。从季节上来看,负氧离子浓度为夏季>春季>秋季>冬季。
第三,天津市居民区(市区站)的负氧离子浓度明显低于森林区(梁庄子站),其日变化峰值与谷值均提前于森林区。不同区域存在不同的影响要素,部分相同要素对于居民区与森林区逐日负氧离子浓度的影响甚至表现相反。
第四,对于梁庄子站(森林区),构建逐日负氧离子浓度预测模型更适合使用随机森林法;对于市区站(居民区),构建逐日负氧离子浓度预测模型更适合使用随机梯度下降法。
第五,由于观测资料的时间长度问题,所以本文所建立的逐日预测模型在检验极值的精准度方面仍存在一定偏差。随着观测数据的积累,在数据量提升的基础上借助更为先进的机器学习方法将会使负氧离子预报准确率进一步提升。