基于随机森林算法的石家庄市首要污染物分类预报技术研究

2023-04-29 18:03:23张智赵玉广焦亚音李二杰
环境科学与管理 2023年8期
关键词:随机森林

张智 赵玉广 焦亚音 李二杰

摘要:基于2018年1月-2022年6月石家庄市逐日首要污染类型数据和ERA5逐6h再分析气象要素资料,构建7机器学习所需的多维特征量数据集,并利用随机森林算法学习训练,得到石家庄市首要污染物分类预报最佳模型,宴现了不同气象条件下首要污染物分类识别及预报。结果表明,随机森林模型预报首要污染物分类准确率达到76%,对PM10、PM2.5首要污染物分类结果最好,召回率达到93%、89%,O3首要污染物次之,召回率为74%。与中国气象局下发的空气质量指导产品(CMA-ZD)和国家级雾霾数值预报业务系统产品(CUACE)相比,预报准确率分别提升11%、36%,明显优于指导产品。

关键词:首要污染物;随机森林;分类预报;矢量通风系数

中图分类号:X831 文献标志码:B

前言

中国京津冀地区大气污染严重,且污染物类型具有明显的季节特点,冬春季沙尘、夏季臭氧、秋冬季雾霾。特殊的地形、区域污染排放、叠加不利的气象条件,导致京津冀地区重污染天气频发,高浓度颗粒物对公众身体健康产生不利影响。因此,不同类型污染天气的精准预报具有十分重要的意义。

京津冀及周边地区空气污染成因最为复杂,预报难度最大。国内外学者对其都开展了大量的研究,主要分为基于大气动力学方程的数值模式和机器学习预报模型两类。孙苏琪等发现随机森林模型对成都市各污染物浓度的预报效果均优于RFE模型,预报性能较好。侯俊雄等发现多元线性回归模型和随机森林方法建立成都市空气质量模型,前者对O3预报性能较好,后者对PM2.5表较好预报性能。目前数值模式或者机器学习模型预报首要污染物,均是首先通过预报PM10、PM2.5、O3、NO2SO2、CO污染物浓度,在根据环境空气质量指数(AQI)技术规定计算出首要污染物类型。这种间接预报的方法,首要污染物预报准确率较低。

文章将随机森林算法应用于石家庄市大气污染首要污染分类预报研究,构建反应不同污染物的气象条件数据集,通过训练学习达到分类预测的目的,研究结果可为该市首要污染物预报及大气污染精准防控提供参考。

猜你喜欢
随机森林
随机森林算法在中药指纹图谱中的应用:以不同品牌夏桑菊颗粒指纹图谱分析为例
基于随机森林的登革热时空扩散影响因子等级体系挖掘
基于随机森林的HTTP异常检测
个人信用评分模型比较数据挖掘分析
时代金融(2017年6期)2017-03-25 22:21:13
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
软件(2016年7期)2017-02-07 15:54:01
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于奇异熵和随机森林的人脸识别
软件(2016年2期)2016-04-08 02:06:21
基于随机森林算法的B2B客户分级系统的设计