俞婧婧 唐立力 吴 浩 王志舜 钟长华
(1.四川轻化工大学自动化与信息工程学院,四川 宜宾 644000;2.人工智能四川省重点实验室,四川 宜宾 644000)
空气质量指数(AQI)是描述空气质量的一个综合指数,是衡量空气质量的重要指标。该指标的计算通常根据PM2.5、PM10、臭氧等多种污染物浓度进行计算。AQI的取值范围在0~500,数值越高,空气质量越差,对人体的危害也越大[1]。AQI是为了让公众易于评估空气质量的好坏,并以数据的形式协助环境管理做出一些重要的决策。1997年6月,我国颁布了国标文件《环境空气质量标准》(GB3095-1996)采用空气污染指数(Air Pollution Index,API)来评价空气质量,API评价体系中仅包含SO2、NO2、PM10这三大污染物。但在实际运用中,我国人民在日常生活中感受到的空气状况与API显示出的空气状况存在非常大的反差,为了解决这一问题,我国于2012年颁布了新的国标文件《环境空气质量标准》(GB3095-2012),用AQI替代API。AQI评价体系在API评价体系的基础上增加了PM2.5、O3、CO这三种污染物。
随着全球工业化与城市化的不断发展,空气污染已成为全球范围内人们广泛关注的问题。近年来,在政府的积极推动下,人们的环保意识有所提高,对降低空气污染付诸行动,但效果甚微。根据相关研究,空气质量的好坏会影响公众的身体健康,暴露在劣质空气中可能引起过敏反应,增加公众患呼吸系统疾病、心血管疾病、神经系统等疾病的概率[2-3]。因此,AQI的预测可以为公众了解当前的空气质量情况,避免长时间暴露在有害气体中,保护公众健康。对于保障人类健康和城市空气污染防治起着至关重要的作用。
Xu 等[4]选择了58个气象因子与多个社会经济因素研究发现气象和社会经济因素都与空气质量密切相关,Ye等[5]针对传统空气污染研究只关注单一污染物问题,研究发现AQI还受GDP、能源消耗以及人口聚集等因素影响。以上研究说明了影响AQI的因素众多。倘若单从气象环境复杂多变这一特点来说,AQI预测的准确度难以保证。并且对于随机序列来说,找出自变量与因变量之间的关系关山难越。因此近些年AQI预测成为了许多学科较受关注的研究课题。目前,针对AQI预测的方法主要有统计预测方法[6]、机器学习的预测方法[7]以及组合模型的预测方法[8]。
统计预测方法在AQI预测中的应用可以追溯到20世纪60年代,当时美国政府开始研究如何减少城市空气污染。为了更好地监测和预测空气污染情况,政府开始建立空气质量监测站,收集气象数据和AQI等信息。随着数据收集的不断增加,政府开始尝试使用统计预测方法来预测AQI。
统计预测方法需在建模前对历史数据进行预处理,然后在处理好的数据中选择部分训练数据构建数学模型,最后使用构建好的数学模型预测未来值。在预测的过程中,需要对模型不断地迭代更新,使其能够适应数据与环境的变换。统计预测方法是一种常用的AQI预测方法。目前,常见的统计预测方法包括多元线性回归模型(MLR)、时间序列模型、灰色模型(GM)等。
MLR是根据实际问题确定自变量与因变量,并利用样本建立多元线性回归模型。其因可以处理多个输入变量的优点而被广泛使用,但该模型的稳定性受输入变量之间相关性影响,并且过多或过少的自变量都会导致模型预测能力下降。因此该模型通常用于模型比对,如Lei等[9]通过实验将MLR与机器学习的预测方法进行比较后发现,MLR的预测性能不及机器学习预测方法;石晓文等[10]为了证实长短期记忆网络(LSTM)的预测精度,将LSTM与支持向量机(SVM)、MLR、反向传播神经网络(BP)进行实验比对,得出LSTM在AQI≤200时预测精度高。
时间序列模型包括自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)以及差分自回归移动模型(ARIMA)等预测模型,这些模型都是用于时间序列数据预测。ARIMA是基于ARMA模型衍生出来的,ARMA由AR与MA模型组成。其中AR描述了当前值与前几个值之间的关系,MA描述了当前值与前几个随机误差之间的关系。ARMA通常包含两个参数:自回归项的数量p与移动平均项的数量q,在建模过程中这两个参数需要根据历史数据进行选择。因ARMA对非平稳时间序列的拟合效果较差,故ARIMA在ARMA模型的基础上引入了差分的概念,使其可以处理非平稳序列。基本思想是先对原始时间序列进行阶数为d的差分将信号与噪声分离,此时非平稳序列变为了平稳序列,然后再把无噪声的信号作为数据源应用ARMA模型来获得预测值。Slini等[11]使用ARIMA模型预测AQI,但该模型的缺点是对于高阶差分的计算较为复杂、仅挖掘时间序列自身的数据特征,在实际应用中较为简单。孙朝云等[12]通过对比多个模型(含MLR与ARIMA)的决定系数(R)值得出LSTM、门控循环单元(GRU)和双向长短期记忆网络(Bi-LSTM) 性能较好。
灰色模型主要包括GM(1,1)模型和GM(2,1)模型。GM(1,1)模型是通过对原始数据进行累加后得到累加数列,然后通过建立一阶线性微分方程对累加数列进行预测。GM(2,1)模型在GM(1,1)模型的基础上增加了一阶差分序列,以便获得更为准确的预测结果。灰色模型对小样本数据集具有较好的预测效果,计算速度快、精度高且不受噪声影响。但是,当数据呈周期性、季节性时,该模型可能出现较大误差,需要进行适当的预处理。并且,灰色模型的预测精度受参数影响较大,即若参数选择不当,模型的预测能力将会受到影响。因此有学者在灰色模型的基础上进行了优化研究,如Xiong 等[13]在灰色模型的基础上进行了扩展,改进了参数估计法,获得了令人满意的预测结果。此外,经研究发现数据质量也会直接影响该模型的预测结果,且因其依赖历史数据,导致其在中长期预测中的效果不佳[14]。
总的来说,统计预测方法是基于统计数据和历史数据来构建数学模型,利用构建好的模型预测未来的AQI值。统计预测模型虽然可以高效地分析并处理历史数据,以便精确地预测未来值,但该方法的局限性在于它不能很好地处理非线性关系和复杂的影响因素。并且,统计预测方法一般不考虑空气污染物浓度,而是只通过分析空气质量的历史数据来预测AQI,仅根据局部数据规律建立模型,并不适用于中长期预测。
机器学习预测方法一般需要较大的数据量,因其拥有着强大的计算能力,且在不同领域应用广泛。目前,BP、SVM、随机森林(RF)、极限学习机(ELM)、LSTM等机器学习预测模型在AQI预测研究中备受学者青睐。
BP神经网络通过反向传播算法来训练模型,不断调整网络中的权重和偏置,以适应新的数据从而使预测结果更加准确[15]。该网络可以模拟非线性数据,适合用于复杂的预测问题。闫妍等[16]使用BP神经网络预测AQI,得出该模型虽然速度慢,但适应性较好,得到的结果比对还算成功。此外,单一的BP神经网络在搜索较大解空间时,容易陷入局部最优,影响预测结果。
SVM是一种常用的分类回归算法,对于小样本的数据集具有较好的泛化能力。此外,SVM具有较好的非线性建模能力。其核心思想是通过计算找到一个最佳分离超平面对新数据进行分类[17],当数据不是线性可分时,通过核函数将数据映射到高维的空间中进行处理。在实际应用中,SVM需根据具体情况选择合适的核函数与调节参数来优化分类效果。王春梅等[18]将BP与SVM用于预测西安的AQI,通过实验对比得到BP与SVM在预测上虽有较大误差,但预测结果与实际值的总体走势相差不多,并且BP的均方误差值略大于SVM的均方误差值。但当数据集规模较大时SVM训练速度慢,且其对噪声及异常值比较敏感,在训练前需进行预处理。
RF是决策树(DTs)与装袋(bagging)算法的结合,由多个相互独立的RF组成,各个RF之间随机抽取特征进行训练,最终综合各个RF的输出结果进行预测。杨思琪等[19]研究运用了RF及回归算法构建了AQI预测模型,并进行了分类模型的对比。该研究表明RF泛化性与稳健性较好,且在预测AQI时有较高的预测精度。但当数据集中噪声较大时,使用RF会导致模型产生过拟合现象。
ELM输入层接收数据特征,隐藏层中每个神经元随机生成权重,采用sigmoid等激活函数将输入特征映射到到非线性空间,最后将结果传输至输出层进行线性回归得到预测结果[20]。该模型训练速度快并且可避免局部最优问题[21]。李泽婧等[22]所做实验中ELM预测AQI的MSE达到了6.923。但由于ELM的隐藏层节点数、权值和阈值是随机生成的,从而出现ELM学习能力下降的问题[23]。
LSTM是一种循环神经网络(RNN),该模型通过一系列LSTM单元处理输入数据,每个LSTM单元包括输入门、遗忘门以及输出门。其中,输入门决定当前时间步输入的数据对当前状态的影响,遗忘门决定了上一个时间步的状态对当前状态的影响,输出门控制当前状态的输出。LSTM从时间序列数据中学习长期依赖关系,有效地捕获长序列之间的时间相关性。张春露等[24]利用LSTM模型预测空气质量指数,虽然其预测的精准度不错。但将LSTM应用到AQI预测中存在训练时间长、容易过拟合、受限于数据质量以及需要大量数据等缺点。
综上可知,虽然机器学习在AQI预测研究中广泛应用,但目前对于机器学习算法与空气质量问题结合所需关注和解决的问题主要有:(1)如何在保证模型精度的同时减少计算复杂度;(2)如何避免过拟合;(3)如何避免局部最优;(4)如何选择合理算法以提高预测准确性和预测精度保持较高水平;(5)如何提高数据质量等。
组合预测方法是指将两个及两个以上的模型通过取长补短组合在一起后使预测效果提高。组合预测模型不仅具有适应未来预测环境变化的能力,还弥补了单一模型的预测精度与稳定性差的问题[25]。目前,组合预测方法主要包含基于模型融合的组合预测方法、基于数据融合的组合预测方法以及基于参数优化的组合预测方法。
基于模型融合的组合预测方法是指将多个不同的预测模型组合进行预测,基本思想是综合多个模型的预测结果,以不同权重进行组合来提高预测准确性和鲁棒性,例如, Song等[26]为了提高AQI预测的准确性,将径向基函数神经网络(RBFNN)、集合经验模态分解(EEMD)以及ARIMA三种模型通过权重分配进行组合来预测AQI,结果表明组合模型可以提高AQI预测的精度,有效减少了预测误差。
基于数据融合的组合预测方法是通过将多源数据进行融合预测,正如前面所说,影响AQI的因素有很多,因此需要输入数据中纳入对其影响大的影响因子。例如,杨丰玉等[27]在预测AQI时将风力这一影响因子融合进来,实验表明,融合风力影响因子与传统K邻近(KNN)相比AQI的预测准确率显著提升。
基于参数优化的组合预测方法是通过优化算法来选取模型中的最优超参数,例如,为了解决BP收敛速度慢,容易陷入局部极小值的问题,Xu等[28]通过对惯性权重的优化来改善粒子群优化算法(PSO)的探索能力,再将优化后PSO与BP组合,以优化BP的权值和阈值,最终通过对比实验表明作者提出的改进PSO-BP算法具有较高的预测精度。
综上可知,不同的AQI预测方法都有各自的独特之处。组合预测方法的优势在于其灵活性,它通过将多个不同的预测模型、数据源和特征选择算法结合起来,提高AQI预测的准确性和鲁棒性。为了更好地比较不同方法的特点,本文提供以下表格,总结了统计预测方法、机器学习预测方法和组合预测方法之间的比较,如表1所示。
表1 不同方法比较
近些年,随着环境科学领域对空气质量问题的日益关注,AQI预测成为了该领域的一个重要研究焦点。本文采用综述的方式,系统阐述并分析了AQI预测方法的演进历程以及不同预测方法的特点和适用场景。尽管目前AQI预测研究已经取得了一定的研究成果,但依然存在以下挑战和问题:
(1)复杂的影响因素。空气质量波动往往受到多种复杂因素的共同影响,包括气象条件、人类活动、地理位置等因素。举例来说,气象因素如温度、湿度、风速等会对颗粒物的浓度和扩散产生影响,温度和湿度的变化可能会导致颗粒物的浓度波动,风速则会影响颗粒物的扩散和输送[29],这些效应常常呈现为非线性关系,使得建立精准的AQI预测模型变得更具挑战。因此在进行AQI预测时必须考虑这些因素对AQI的直接和间接影响,研究人员须深入挖掘这些复杂的空间关联,特别是考虑到城市内不同区域之间的空气质量差异。
(2)数据质量问题。在一些发展中国家和地区,AQI监测系统不完善,监测站点不足,会导致数据缺失、噪声干扰严重等问题,这会影响预测模型的准确性和鲁棒性。因此,除了需要加强监测设备的更新和维护、提高数据质量之外。可以考虑采用合适的数据处理方法和技术,以减少数据缺失和噪声干扰的影响。举例来说,采用数据插补的方法填充数据缺失的部分,以维持数据的完整性,例如,线性插值、均值替换、回归替换等方法根据历史数据来估算缺失的数值以确保检测数据的连续性;采用噪声滤波技术减少噪声对数据的干扰,例如,使用平均滤波、中值滤波、小波变换等技术平滑数据,去除异常值,以提高数据质量。
(3)时空特性建模挑战。空气质量受季节、时间和地理位置等因素的影响,在时空维度上存在明显的变化。考虑到时间因素,过去的AQI数据对未来的空气质量具有直接影响,因此,需要建立模型来捕捉历史数据对AQI预测的影响。这可能需要动态更新权重以反映不同时间点的重要性,以确保模型能够充分考虑历史数据的影响。此外,空间依赖性在AQI预测中也至关重要,因为不同地理位置之间的气象条件和人类活动水平差异较大,直接影响空气质量。因此,建立空间关联模型来考虑不同区域之间的空气质量差异是一项重要挑战。空间插值、地理信息系统(GIS)等方法可以用于建立这种空间依赖性的模型,从而更准确地预测不同地区的AQI。
总的来说,解决这些挑战需要继续深入研究和发展AQI预测模型,结合先进的数据处理技术、时空建模方法以及监测设备的改进,以提高AQI预测的准确性和可靠性。这将有助于更有效地管理和改善空气质量,保护环境和人类健康。