基于Stacking融合模型的乌鲁木齐市空气质量指数预测

2023-06-10 10:09史江振窦燕

农业灾害研究 2023年4期

史江振窦燕

摘要随着社会的发展和公众环保意识的增强，空气质量日益成为公众关注的问题。预测未来空气质量情况，有利于提前采取污染防治措施和居民活动选择。以污染物因素和气象因素作为空气质量指数预测指标，建立基于Stacking融合的预测模型，利用新疆乌鲁木齐市2016年1月至2021年12月的空气污染物监测数据和气象数据，对乌鲁木齐市空气质量情况进行了预报，并与其他算法进行了对比。研究结果表明：Stacking融合模型在AQI数值预测方面的性能优于其他对比模型，具有良好的预测效果。

关键词空气质量预测；Stacking融合模型；空气质量指数

中图分类号：X51 文献标识码：B 文章编号：2095–3305（2023）04–0125-04

随着工业和制造业的发展、车辆保有量的增加，以及城市化的发展，大气环境问题愈加突出[1]。大气污染物的浓度对大气环境质量有很大的影响，尤其是PM2.5、PM10等，它们直接影响能见度，会对吸入者的心血管系统产生不良影响。因此，如何提高空气质量预测的准确性引起了众多学者的关注。选择空气质量指数（AQI）作为大气污染预报的对象。AQI的变化受多种因素的影响，如PM2.5、PM10、SO2、CO、NO2、O3、温度、气压、湿度、可见度、露点等。

目前，空气质量预测法主要有潜式预报、数值预报、统计预报3类[2]。主要被应用于数值预报，污染天气的出现是多种因素综合作用的结果，研究表明，污染天气与细微颗粒物浓度存在一定的关系[3]。杨思琪等[4]将随机森林分类和回归算法应用于预测城市空气质量状况的研究，发现随机森林算法在AQI等级和AQI数值的预测方面，表现出了较好的性能。肖德林等[5]采用CMAQ模型进行预测，发现对PM2.5浓度、主要污染物和空气质量等级的预测准确率低于人工预测，对AQI的预测准确率高于人工预测。郑红等[6]提出一种联合训练模型MLP&ST模型模拟对北京市未监测区域未来时刻的AQI值进行预测，综合考虑气象因素和时空相关性对空气质量的影响。万永权等[7]考虑到气象因素对污染物浓度变化的巨大影响，提出了一种神经网络模型two-phase neural network（2-NN），该模型在短期内对空气质量指数进行预测时比传统方法的准确率更高。张春露[8]应用LSTM时间序列模型对太原市空气质量AQI指数进行预测，该模型具有精度高、预测时间长、适应性强等优点，能够完全逼近非线性映射。史学良等[9]提出了改良后的EEMD-LSTM预测模型，与以往的模型相比，其具有更强的泛化能力和更高的预测精度。方伟等[10]提出了基于时空相似LSTM的空气质量预测模型，通过结合STS-LSTM模型，可以得出更稳定的最终空气质量预测结果。杨张婧等[11]提出了时空特性空气质量预测算法，以LSTM-CNN混合模型在开放数据集中得到了更好的預测结果。有学者研究了LSTM-RNN模型在空气质量预测任务中的性能，并设计了低成本的传感器节点，以形成监测空气质量的无线传感器网络。

此处建立了一种基于Stacking融合模型的空气质量预测方法，将GBDT、Lasso和XGBoost作为基学习器，将线性回归Linear Regression作为元学习器构建Stacking预测模型。该算法考虑了不同模型的差异，并结合了不同算法的优点，通过种异质算法的融合，取长补短，而且通过采用交叉验证的方法，可以避免数据泄露，增强预测效果，实现比单一模型更强的预测性能。

1 算法介绍

1.1 Stacking算法

Stacking模型本质上是一种分层结构，个体学习器被称为初级学习器，组合的学习器被称为次级学习器或元学习器，次级学习器用于训练的数据被称为次级训练集。二次训练集在训练集上用一次学习器得到。通过将不同的算法融合，达到比组成它的基算法具有更高的准确率和更强的泛化能力[12]。其主要算法步骤如下：

第一步，为输入训练集、初级学习算法和次级学习算法。

第二步，为训练初级学习器，使用训练过的初级学习器进行预测，将预测结果作为次级学习器的训练集。

第三步，为将初级学习器预测的结果训练到次级学习器，得到最终训练的模型。

1.2 XGBoost

XGBoost是一个提升树可扩展的机器学习系统[15]。XGBoost的核心算法思想大致如下：

第一步，添加树，重复特征分裂使一棵树生成，每次添加树意味着学习新的函数f（x），以便与前次预测的残差拟合。

第二步，模型完成训练后，XGBoost模型由k个树模型组成，要预测1个样本的特征，这是指根据样本的输入特征，在每棵树中都必须找到1个对应的叶子节点，每个叶子节点对应1个值。

第三步，将k棵树对应叶子节点的值加起来得出模型的输出值，即样本某个特征的预测值。

1.3 Lasso算法

使用L1正则化的模型被称为Lasso回归，是一种客观选取有效变量，解决多重共线性等问题的估计方法。为了使回归模型的残差平方和最小，对回归系数的绝对值的和施加惩罚项。对等于零的回归系数进行筛选。回归的核心是在普通线性回归的基础上添加L1惩罚项。

其中，t与λ一一对应，为调节系数。

令t0=（OLS），当t＜t0时，一些参数值被压缩为0，自动筛除，使线性回归模型的参数维度减小。

1.4 GBDT算法

GBDT （Gradient Boosting Decision Tree）是机器学习中成熟的模型，它的优点是训练效果好，不易过拟合等。为了得到最佳模型，需要用弱分类器（决策树）反复训练。实现GBDT算法的框架是Light GBM，支持高效的并行训练、更快的训练速度、更低的内存消耗、更高的精度，支持分布式快速处理、大量数据等优点。它将弱学习器模型以迭代的方式组合成强学习器，可以处理稀疏数据，灵活实现分布式并行计算，已经被广泛应用于分类、回归预测等机器学习问题。

2 实例分析

2.1 数据获取

所用数据为2016年1月1日至2021年12月31日乌鲁木齐市6项污染物监测数据和气象数据，空气质量指数和污染物浓度数据来源于中国环境总站全国城市空气质量实时监测平台（http：//www.aqistudy.cn/），该平台数据均来自国家环境保护部，污染物数据选取PM10、PM2.5、SO2、NO2、O3、CO日平均浓度。气象数据来源于RP5国际交换气象站（rp5.ru），实际天气数据由地面气象站通过气象数据国际自由交换系统提供，包括温度、大气压、湿度、风速、可见度、露点等指标。

2.2 數据处理

通常在获取的数据中有缺失和离群值，缺失值会影响模型预测的准确性，因此，训练之前要对所收集的样本进行预处理。由于这一时段前后的污染浓度对大气污染的影响较大，而最近邻插值更能反映出与原始数据相近的数据抖动，因此用最近邻插值处理缺失值。

数据归一化，将不同尺度、数量级的资料合并在一起，会产生很大的误差，因此，选用一种基于标准差法的归一化调整。

其中，u和σ分别为向量x的均值和标准差。

在数据集的划分中，模型要有好的泛化能力，需要在训练过的数据集和没有训练过的数据集上同时得出良好的结果。因此，将数据集分成2个部分，训练集和测试集的比例为4∶1。

2.3 主要大气污染物与气象条件相关性分析

采用Pearson相关系数法计算大气污染物浓度与气象条件的相关关系，公式如下：

分别计算各个指标间的相关系数，可看出AQI值与PM10、PM2.5、CO相关性较大，相关系数热力如图1所示。

在图1中，横纵坐标为各个指标，颜色代表相关性，通过对乌鲁木齐市主要污染物浓度实测数据与气象因素的相关性分析，得到结果如下：在各要素中，PM10、PM2.5、O3、SO2与湿度呈显著正相关性；PM10、PM2.5、NO2、SO2、CO与温度呈负相关，O3与温度呈正相关；O3与风速呈正相关；PM10、PM2.5、CO、NO2、SO2与气压呈显著正相关。

2.4 评价指标

采用以下3个指标评价所涉及空气质量预测模型的性能，分别是平均绝对误差（MAE）、均方根误差（RMSE）和决定系数（R2）。其中，平均绝对误差MAE经常被用于对回归模型的误差判断。回归模型的预测误差越小，MAE越小，反之则越大。

均方根误差RMSE是真实值与预测值之差的平方与观测次数比值的平方根，可以很好地表示测量的精密度。RMSE越小，表示模型精密度越高。

可决系数R2表示自变量解释的变异程度占总的变异程度的比例，2越接近1，表示该模型的准确度越高，2有可能为负值。

3 结果及分析

如表2所示，在这3个模型中，测试集中衡量指标值的大小按照模型的顺序排列为：RMSE：Lasso>XGBoost>GBDT>Stacking；MAE：Lasso> XGBoost>GBDT>Stacking；R2：Stacking>GBDT>XGBoost>Lasso；综合分析可知，与另外几种算法相比，Stacking模型对AQI的预测效果更好，测试集上的均方误差也较为稳定，稳健性能也更好，在一定程度上体现了算法的优势，所以可考虑将该算法被用于AQI的预测。结合图2可以发现，Stacking融合模型对AQI的预测近乎与实际数据曲线重合，预测十分有效，具有极高的准确度。

4 结束语

利用Stacking融合模型预测了空气质量指数，在数据处理阶段，填补了缺失值，并对数据做了归一化处理，以此减轻奇异样本数据导致的不良影响。然后搭建Stacking融合模型，选择损失函数及优化器，划分训练集与测试集。最后，将归一化后的乌鲁木齐市2016—2021年数据输入搭建好的模型中，使用训练集数据训练模型，测试集被用于最后评估模型的性能。通过与其他算法作对比，结果表明Stacking融合模型在AQI数值预测方面的性能优于上述算法，Stacking融合模型充分结合了基学习器的优势与差异，以不同基学习器的优势提升和弥补其模型的不足，达到“扬长避短”，可以有效地提高模型的预测精度和泛化能力，能为污染预警、空气污染治理及公民出行提供一定的支持。

参考文献

[1] 陈诚，陈婷.长江沿线化工企业拆迁与搬离对荆州市空气质量的影响[J].公共卫生与预防医学，2022，33（2）：35-41.

[2] 张美根，韩志伟，雷孝恩.城市空气污染预报方法简述[J].气候与环境研究， 2001（1）：113-118.

[3] 谢洁岚，廖志恒，许欣祺，等.基于车载雷达探测的一次华北冬季重污染天气成因研究[J].环境科学学报，2023，43（1）： 255-263.

[4] 杨思琪，赵丽华.随机森林算法在城市空气质量预测中的应用[J].统计与决策，2017（20）：83-86.

[5] 肖德林，邓仕槐，邓小函，等.达州市城区环境空气质量变化趋势及CMAQ模型预报分析[J].中国环境监测，2021，37 （4）：92-103.

[6] 郑红，程云辉，胡阳生，等.基于MLP&ST模型的空气质量预测[J].应用科学学报，2022，40（2）：302-315.

[7] 万永权，徐方勤，燕彩蓉，等.融合气象参数及污染物浓度的空气质量预测方法[J].计算机应用与软件，2018，35（8）： 113-117.

[8] 张春露.基于Tensorflow的LSTM在太原空气质量AQI指数中的分析与预测[D].太原：中北大学，2019.

[9] 史学良，李梁，赵清华.基于改进LSTM网络的空气质量指数预测[J].统计与决策，2021，37（16）：57-60.

[10] 方伟，朱润苏.基于时空相似LSTM的空气质量预测模型[J].计算机应用研究，2021，38（9）：2640-2645.

[11] 杨张婧，阎威武，王国良，等.基于大数据的城市空气质量时空预测模型[J].控制工程，2020，27（11）：1859-1866.

[12] 陆万荣，许江淳，李玉惠.面向Stacking集成的改进分类算法及其应用[J].计算机应用与软件，2022，39（2）：281-286.

责任编辑：黄艳飞

Abstract With the development of society and the improvement of public environmental awareness， air quality has increasingly become a public concern. Predicting the future air quality will help the government to take pollution prevention measures and residents choice of activities in advance. In this paper， pollutant factors and meteorological factors were used as the prediction indicators of air quality index， and a prediction model based on Stacking fusion was established. The air pollution monitoring data and meteorological data of Urumqi from January 2016 to December 2021 are used to forecast the air quality of Urumqi， and compared with other algorithms. The research results show that the Stacking fusion model has better performance in AQI numerical prediction than other comparison models， and has good prediction effect.

Key words Air quality prediction; Stacking fusion model; Air quality index

作者簡介史江振（1995—），男，湖北宜昌人，主要从事大数据分析研究。*通信作者，窦燕（1981—），女，新疆乌鲁木齐人，教授，主要从事资源环境统计和大数据应用研究，E-mail：douyan129@126.com。