基于W-Gea算法的汽车尾气数据精准预测研究

2024-09-23 00:00曹意吴倩倩冯欣悦
无线互联科技 2024年17期

摘要:随着我国人民生活水平和汽车制造技术水平的快速提升,社会汽车保有量迅速增长,然而汽车排放的有害物质(CO、HC、NO)引发的城市大气污染问题也日益严重。目前,遥感检测技术在检测汽车尾气含量时容易受到天气影响,导致取样数据不准确等问题,给汽车监管部门的精准执法带来了较大困难。文章利用遥感检测仪对汽车尾气数据进行采集,研究了精准预测汽车排放有害物质(CO、HC、NO)数据的方案,提出了W-Gea算法,实现了对汽车尾气数据的精准预测。

关键词:W-Gea;汽车尾气;预测算法;增强梯度

中图分类号:TP312 文献标志码:A

0 引言

目前,基于遥感检测技术的方法被广泛用于汽车尾气排放污染物含量的检测,但存在一定的缺陷,在实际检测过程中非常容易受到天气的影响,从而导致检测到的单个汽车尾气排放数据中存在大量的异常和残缺数据[1]。本文针对含有大量异常、残缺的原始尾气数据(CO、HC、NO)不能直接进行汽车尾气监测的问题,研究出精准的预测算法,以对这些异常、残缺数据进行精准预测。

1 数据获取

本文利用获取到的完整汽车尾气数据集进行汽车尾气含量预测研究。遥感尾气监测系统基本原理如图1所示。

将遥感尾气检测设备安装在接近汽车排气管的尾部,被测汽车按照平时正常行驶状态分别在不同天气(雨天、阴天、多云、晴天)下以不同的车速(10、30 km/h)行驶2 km,分别在20天里每天进行10次重复采集,获取汽车尾气数据结果(CO、HC、NO)。记录10辆汽车的车牌号、车主信息、汽车速度、车身长度、车辆质量、汽车排量、是否有汽车催化转化器和当天温度信息。

2 汽车尾气含量预测算法

2.1 加权增强梯度算法

一般的集成回归树的原理如图2所示,基本思想是通过不断地添加一个新的回归树,通过特征树的分裂重新生长一棵树。每次增加一棵新的回归树,本质是通过特征属性去训练学习这棵树对应的新函数,目的是将前一棵树训练学习完的残差放到下一棵树对应的函数中去继续训练学习,这样通过不断的迭代、不断的训练学习使得最后的预测值更加接近真实值。当在设定空间完成K棵树的训练学习后,就会得到最终的预测值。最终的预测值是将要预测样本的特征值随机地对应到每棵树的某个叶子节点上,经过迭代、训练、学习后将每棵树上对应同一样本特征的叶子节点上的数加在一起得到的值。

结合梯度提升树和对权重自行选择2种方法的高效融合实现加权增强梯度算法(Weighted Gradient Enhancement Algorithm,W-Gea)[2]。W-Gea对具有规律结构化的数据有着很强的建模能力,可以对数据的特征进行自行选择,不易发生数据过度拟合的情况,并且支持多线程并行处理。本节利用获取的汽车尾气数据建立W-Gea的预测模型。针对给出的训练学习的样本数据集,W-Gea算法通过加强学习去迭代、训练、学习每次增加的回归树,并自行对影响遥感检测技术检测的不稳定因素进行加权处理。

模型的输入包括通过遥感检测技术获取的汽车尾气中完整的CO、HC、NO含量(单位:g/km)、汽车速度、车身长度、汽车质量、汽车排量、烧然是否有催化转化器、当天温度。模型的标准输出包括基于遥感检测技术检测的异常、残缺汽车尾气中CO、HC、NO的预测含量。

2.1.1 预测函数

W-Gea的预测函数P(x)为:

其中,yi为预测值,f(x)为回归树对应的函数,η为f(x)的设定空间,q(x)为样本x对应到回归树某个叶子节点上的特征值,w为该叶子节点的预测值,wq(x)为第k棵回归树对应函数fk对样本的预测值。

2.1.2 目标损失函数

W-Gea的目标损失函数L(P)为:

W-Gea在第t次迭代后的预测值为前t-1次迭代后的预测值与第t棵回归树的预测值之和,得:

y(t)i=y(t-1)i+ft(xi)(5)

目标损失函数为:

对目标函数L在yt-1i处进行泰勒展开式展开,可得:

其中,对一阶梯度gi,二阶梯度hi有:

对公式(7)进一步化简得:

将:

带入公式(10),可得化简后的目标函数:

定义一棵树上的每个叶子节点上的特征值集合为:

Ij={i|q(xi)=j}(13)

目标损失函数转化为一个一元二次函数:

进一步化简得:

其中

令公式(14)中目标损失函数L(t)1的导数为0,可得L(t)1的最小值,则该叶子节点最终的预测值:

L(t)1的最小值为:

进而通过不断列举出每棵树的不同结构,并根据公式w*j迭代学习后确定最优回归树结构。但是回归树的叶子可无限增加,因此穷举法不现实。W-Gea设计时加入了贪心算法,利用贪心算法去分割已经存在的每棵树的叶子节点,这样就可避免穷举法去增加不同结构的树。每一个叶子节点在进行分割前和分割后的增益为:

基于上述函数思想,对9个维度的输入数据分别乘上平均权重作为W-Gea模型的输入,权重计算公式为:

最后,选择分割前与分割后增益Gain最大的叶子节点进行贪心算法的分割,定义最开始回归树的值为0,通过不断分割、学习、迭代确定最终K棵回归树 的最优结构,从而确立了W-Gea算法的模型,对汽车尾气数据进行预测。

2.2 实验结果与分析

本文将获取的汽车尾气完整数据作为验证数据集,对获取的汽车尾气完整数据进行人为删除部分数据,将处理得到的数据集作为尾气预测数据集。在尾气预测数据集上训练预测模型,确定体现算法相对准确的4个指标:平均方根偏差(Mean Root Deviation,MRD)、相关系数R、拟合度(Degree of Fitting,DF)和平均绝对偏差(Mean Absolute Deviation,MAD)。MRD、R、DF和MAD指标定义如下:

CO尾气含量预测如图3和表1所示。

HC尾气含量预测如图4和表2所示。

NO尾气含量预测如图5和表3所示。

从实验结果可以看出:W-Gea的尾气含量预测算法准确性最好。在对CO、HC和NO尾气含量预测时,相关系数R分别为0.87、0.85、0.86高于0.75、0.73、0.71(XGBoost)和0.64、0.70、0.66 (MLP)。从预测结果可以看出:对汽车尾气污染物CO、HC、NO进行预测时,W-Gea算法的测试指标R和DF都高于XGBoost方法与MLP方法[3-4],其测试误差MRD和MAD也最小,对CO、HC、NO的预测得到了相同的结论。

从图3、图4与图5中的W-Gea曲线与真实值曲线比较可知,W-Gea的汽车尾气含量预测的结果与真实的汽车尾气数据结果几乎重合,得出该算法模型对汽车尾气测试样本中汽车尾气含量的预测结果更接近于真实值。因此,在基于不同测试指标对遥感技术检测到的汽车尾气中大量的异常数据、残缺数据进行预测的表现,可得W-Gea的尾气含量预测算法模型与XGBoost方法和MLP方法相比,对汽车尾气数据的预测效果具有更好的准确性。

3 结语

本文针对遥感检测技术检测汽车尾气排放污染物数值时,检测结果易受到天气环境影响而得到异常、残缺数值的问题,利用经过处理得到的汽车尾气测试数据集,建立本文中W-Gea的尾气含量预测算法模型,对汽车尾气排放的真实水平进行预测,并通过实验证明W-Gea模型预测的准确度高于XGBoost算法和MLP方法。

参考文献

[1]石于.我国机动车尾气排放控制现状与对策[J].智能城市应用,2022(1):70-72.

[2]LUCA P D,NICOLA F.Energy consumption forecasts by gradient boosting regression trees[J].Mathematics,2023(5):1068.

[3]陈玉敏,魏阳,常政威,等.基于遥感数据和XGBoost算法的31个城市NO2、CO2浓度比率变化特征[J].地球科学与环境学报,2023(6):1355-1367.

[4]崔立卿,王胜男,袁海范,等.基于神经网络MLP和RBF的全社会用电量预测研究[J].电力大数据,2023(9):31-39.

Research on accurate prediction of automobile exhaust data based on W-Gea algorithm

Abstract: With the continuous improvement of people’s living standard and the rapid improvement of automobile manufacturing technology in China, the number of vehicles in the society has grown rapidly, but the urban air pollution problem caused by harmful substances (CO, HC, NO) emitted by vehicles is also becoming more and more serious. At present, remote sensing detection technology is easy to be affected by weather when detecting automobile exhaust content, resulting in inaccurate sampling data and other problems, which brings great difficulties to accurate law enforcement by automobile regulators. In this paper, the remote sensing detector is used to collect the vehicle exhaust data, and the accurate prediction scheme of the vehicle emission harmful substances (CO, HC, NO) is studied, and the W-Gea algorithm is proposed to realize the accurate prediction of the vehicle exhaust data.

Key words: W-Gea; automobile exhaust; prediction algorithm; gradient enhancement