姜宁超, 景敏,2*, 司冰琦, 贺兆南, 韩亨通, 陈曼龙,2
(1.陕西理工大学机械工程学院, 汉中 723000; 2.陕西省工业自动化重点实验室, 汉中 723000)
石油类产品社会生产活动中的广泛应用,但是在其运输过程中,由于各种不可控因素导致进入农田等土壤环境,并造成严重的污染[1]。土壤中的石油类污染物主要集中在表层及浅层,破坏土质结构,造成土壤质量下降[2]。石油类产品及其系列产品流入土壤中,严重危害周围生态环境,也很大程度上阻碍土地的可持续发展[3]。因此,为了分析土壤中成分已知的机油污染物的含量问题,提出一种新的机油污染物浓度检测方法进行分析,这对后续被污染土质修复等具有重要意义。
由于土壤自身复杂的结构,对其中石油类污染物检测分析有一定的困难。由于近年来微电子技术、材料以及激光技术的进步,荧光检测技术得到了快速发展。作为一种新兴检测方法,荧光光谱分析方法是一种快速、无损的检测方法。与使用传统检测方法相比,其具有灵敏度高、响应时间短、对样品无破坏性等优点[4],目前已被广泛应用于对土壤、水等环境中烃类污染物的检测。
王书涛等[5]利用三维光谱结合交替惩罚四线性分解 (alternating penalized quadratic linear decomposition,APQLD)对痕量多环芳烃(polycyclic aromatic hydrocarbons,PAHs)进行准确的测定浓度。崔耀耀等[6]利用重构的三维光谱和偏最小方差判别分(partial least squares discriminant analysis,PLS-DA)相结合,对水体中的航空煤油、柴油、汽油和润滑油进行正确地识别。Pelta等[7]利用高光谱成像技术对不同污染状况下的土壤中石油碳氢化合物(petroleum hydrocarbon compounds,PHCs)的含量进行有效的分析检测。夏延秋等[8]利用贪心算法、遗传算法对润滑油红外光谱波段筛选,并结合极限学习机(extreme learning machine,ELM)建模,提高了对润滑油地定性定量分析效率。韩嘉庆等[9]基于近红外光谱分析技术,提出了具有迭代保留信息变量的随机蛙跳(randomized frog hopping with iteratively preserved information variables,IRIV-RF)波长选择算法结合偏最小二乘回归(partial least squares regression,PLSR)建模,提高了农机润滑油污染浓度预测性能。李婧等[10]基于拉曼光谱分析结合长短期记忆(long short-term memory,LSTM)神经网络的方法,对润滑油中冷却液的浓度进行预测,实验结果表明:提高了预测效率。张志刚等[11]基于随机森林预测模型,提高了公路隧道CO含量的预测精度。陈志坤等[12]应用数据缺损重构法消除瑞利散射,结果表明:该方法是有利于消除瑞利散射的。杨仁杰等[13]将二维荧光相关谱结合多维偏最小二乘(multidimensional partial least squares,N-PLS),对土壤中蒽和菲进行有效分析。李爱民等[14]利用三维荧光光谱结合多维化学计量方法检测对土壤中蒽、芘、菲3种多环芳烃的检测是可行的。刘晓星等[15]通过Fisher判别函数构建化学指纹模型,对中东原油和非中东原油进行正确识别。Passoni等[16]基于拉曼光谱检测技术,采用二次距离判别分析结合主成分分析(principal component analysis,PCA)对汽车润滑油进行光谱差异鉴别,使得拉曼无损判别评价成为可能。谷艳红等[17]利用平行因子分析(parallel factor analysis, PARAFAC)结合交替三线性分解 算法(alternating trilinear decomposition,ATLD)建模,提高了对土壤中的机油、润滑油和柴油的检测效率。实验结果表明了有一定的检测精度。程朋飞等[18]研究表明,通过三维荧光光谱结合交替残差三线性化算法(alternating residuals trilinearization,ART)对0#柴油、97#汽油和煤油的胶束溶液进行有效的预测。
机油浓度预测分析是一种常见的机油质量检测方法,其基本原理是通过对机油样品的物理性质和化学成分进行分析,预测其浓度信息。传统预测分析方法不能有效处理非平稳信号、无法适应多尺度信号、对信号要求高等不足。因此,提出选取小波峭度为特征的预测分析方法,对3种机油进行浓度预测分析。
为了验证对土壤中机油成分已知,浓度未知的机油浓度预测的可行性,提出以小波峭度为特征参数,利用荧光光谱分析方法与回归算法分别建立4种预测模型,并验证预测精度。这对于及时发现和处理土壤中的机油浓度问题,土壤污染检测和环境保护具有重要的研究和应用价值。
机油不同系列或相同系列不同型号之间,因为其生产工艺和含有不同添加成分,使得机油的成分有所差别。因此不同机油含有不同的荧光团,受光照激发后,其荧光光谱则表现出不同的特征峰。某一油类污染物质在激发光作用下产生的荧光光谱的形状与分子跃迁的能级有一定的关联,不同种类的油类物质,其形成的光谱形状不一致,因此可利用荧光光谱法对待测的机油污染物的种类与含量进行检测,如图1所示。
图1 3种机油的荧光光谱Fig.1 Fluorescence spectra of three oils
图1所示的光谱曲线是齿轮油、摩托车机油、发动机油取相同浓度时,在365 nm激发光照射下的产生的荧光光谱曲线。由图1可知,360~370 nm有荧光尖峰,分析可知该处是光源365 nm波长的荧光强度。而荧光光谱主要集中在波长400~650 nm的范围,齿轮油的荧光峰位置位于407 nm处,发动机油荧光峰位置位于540 nm处,摩托车机油荧光峰位置位于417 nm处。综上所述,由图1中的荧光光谱曲线可以看出,不同品牌的机油表现出不同的荧光特性,其激发产生的荧光峰强度以及对应的波长中心位置也不同。可见,光谱曲线可以作为机油浓度预测的依据。
小波峭度参数是一种作为分析信号中非高斯性质的统计量,它可对于信号中的突变点或非线性特征进行检测。在机油荧光光谱分析中,小波峭度可用于检测光谱信号中的峰值和谷底,进而可以用于对机油浓度信号进行预测分析。小波峭度计算每一组n维向量[n1,n2,…,n1 000]的小波峭度,用这个小波峭度反映这组n维向量的信息。然后用这个小波峭度作为特征去建模。
引入小波峭度参数可以进一步提高机油浓度预测分析的准确性和稳定性。通过对不同浓度的机油样品进行测量,并提取小波峭度参数作为特征向量,结合回归算法对机油样品的浓度进行预测,从而实现机油质量的快速检测。
由于石油类产品污染物在近紫外区域有较强的吸收,而紫外光源作为理想的检测光源,具有单色性好,光束扩散小,可以近似看作平行光等优点。因此,利用紫外光源均匀照射样品表面,激发产生的荧光经光纤传输至光谱仪显示荧光光谱,最终传至计算机负责控制与数据处理来获取机油污染物特征信息。实验系统结构如图2所示。
图2 实验系统结构图Fig.2 Structure diagram of test system
实验所采用的激发波长为365 nm的紫外LED光源,光谱仪选用长春新产业光电技术有限公司的Aurora 4000型光纤光谱仪,采用3 648像素的CCD(charge-coupled device)线性阵列探测器,分辨率是0.02 nm,光谱探测范围是200~1 100 nm采样间隔1 nm,狭缝为10 μm,分辨率是0.75 nm。实验所用的辅助设备包括电子秤、聚光透镜、带刻度滴定管、土壤筛、10 mL石英比色皿、暗室环境箱等。
实验所用土壤样本采集于实验中心车间附近,经烘干,30目实验标准筛过筛、研磨等步骤后,去除土壤中的大颗粒杂质,使土质干燥细腻。实验所用机油来自市场,选取洛生L-CKC220齿轮油、APSIN 10 W-40发动机油、捷豹200 SF MA 15W-40摩托车油3种。实验土壤经天平称取等质量10 g土壤,分别与3种机油单独混合并摇匀,样本浓度范围为0.01~1 mL/g(以间隔0.01 mL/g逐步添加),各制备100组样本,共计300组样本。此外,为了减小实验模型预测误差,均采集3次数据,共计900组实验数据,以此模拟土壤机油污染浓度的变化过程。
实验在采集污染机油的荧光光谱过程中避免样本中有气泡产生,由于机油样本中存在气泡会使得光谱采集过程中产生光散射等情况,降低光谱数据分类检测的精度。因此,对所有实验样本均静置3~5 min,等待气泡排出后再进行光谱数据获取。本实验以机油浓度作为自变量进行建模预测分析。如图3所示。
图3 实验土壤样本Fig.3 Experimental soil samples
为了对土壤中成分已知的样品机油浓度进行预测,实验制备各300组不同比例的浓度混合样本,选取前240组作为训练集样本组进行校正训练,后60组作为待测集样本组进行浓度预测。利用小波峭度作为特征的回归算法建立的回归模型进行不同油种之间的浓度预测分析。
在对利用回归算法建立回归模型并对所选用的小波峭度特征参数进行分析。通过对参数小波峭度在光谱曲线中的的分布做直方图,并利用高斯拟合的手段保留曲线。如图4所示。
图4 特征参数小波峭度分布图Fig.4 Wavelet kurtosis distribution of characteristic parameters
由图4可知,横轴表示小波峭度的取值范围,它是无量纲参数,纵轴表示小波峭度集中分布出现的频率。从图4中可知,齿轮油、发动机油、摩托车机油的小波峭度主要集中在0~40其频率达到最大,而在40~50,齿轮油的有少量分布。通过对3种机油的特征参数的拟合分析,反映3种实验机油光谱信号幅值概率密度函数陡峭程度。
可以看出,其中摩托车机油的频率强度是0.1,其次是齿轮油的频率强度,达到0.05,再次是发动机油的频率强度达到0.025。综上所述,小波峭度特征在一定程度上表征了齿轮油、发动机油、摩托车机油的在光谱曲线上的分布特性。
3.2.1 随机森林回归模型预测结果分析
为了预测10 g样本土壤中3种机油的浓度,实验选取齿轮油、发动机油、摩托车机油各300组机油样本数据,样本浓度为0.01~1 mL/g的范围,每种机油样本选取前240组为训练集,后60组为测试集。对L-CKC220齿轮油、APSIN 10 W-40发动机油、捷豹200 SF MA 15 W-40摩托车油,利用随机森林回归模型预测浓度。预测结果如图5~图7所示。
图5 齿轮油预测结果Fig.5 Forecast results for gear oil
图7 摩托车机油预测结果Fig.7 Forecast results for motorcycle oil
在图5~图7中,横轴为真实浓度,纵轴为预测浓度。蓝色虚线为预测浓度等于真实浓度,训练集和测试集数据点越接近蓝线,表明预测越准确。可以看出,红色测试集点的分布和绿色训练集点的分布主要集中于基线两边,可以看出,该模型对3种机油浓度预测的结果,训练集和测试集数据点分布集中,其中有少量异常数据的分布较为分散,分析原因,是由实验系统环境以及实验人员的主观性造成的。实验结果表明,回归模型对于土壤机油的浓度预测是可行的。
由图5~图7可知,在含有小波峭度的随机森林回归算法预测结果当中,齿轮油测试集数据与训练集数据主要集中在最佳预测直线的两侧,其中含有小波峭度的训练集数据点和测试集数据点主要分布在最佳预测直线两侧,有少量测试集数据点分布较为分散。无小波峭度预测当中,测试集数据点相较于含有小波峭度的数据点分散程度更大。由上述3种机油的预测图示结果,可以得出含小波峭度的预测结果相比无小波峭度的预测结果更接近真实值。
综上所述,实验结果表明,提出的小波峭度参数可以提高齿轮油、发动机油和摩托车机油的浓度预测精度。
3.2.2 随机森林回归模型预测结果评价
通过随机森林回归模型对齿轮油、发动机油、摩托车机油样本浓度进行预测,如表1所示。
表1 随即森林回归模型预测结果
表1中,模型评价指标均方根偏差(root mean square deviation,RMSD)是衡量观测值与真值之间的偏差,其值反映两者之间的距离,RMSD越低,预测集数据点距离直线越短。模型相关系数RP是一个统计量,表示两个变量之间的线性相关程度,数值越大,表示模型的拟合效果越好。
通过表1中模型相关系数和均方根偏差的数据分析,对齿轮油、摩托车油和发动机油,含小波峭度的回归模型的相比无小波峭度的回归模型预测的RP和RMSD分别提高了1.2%、2.2%、1.9%和14.9%、32.4%、16.8%。因此,含有小波峭度参数的模型预测结果优于无小波峭度的模型预测结果,在一定程度上也验证了该特征参数在回归模型浓度预测中的具有较好的预测能力。
3.2.3 3种机油的模型预测精度分析
利用真实浓度与加入小波峭度特征前后的浓度预测,选取浓度为0.01~0.3 mL/g的齿轮油、发动机油、摩托车油各30组数据,误差规定在7%以内,并对3种机油的预测精度进行分析。如图8所示。
图8 随机森林模型预测结果Fig.8 Prediction results of random forest model
在图8中,分别对齿轮油、摩托车机油和发动机油的预测准确率进行分析。通过对3种油的预测浓度值与真实浓度值的对比分析,可以看出数据的分布程度,其数据主要集中在真实值两侧分布,有少量预测数据点分布距离真实值较为离散,可以看到每种机油的含有小波峭度的浓度预测结果相比于无小波峭度的浓度预测结果预测的准确率更高。如表2所示。
表2 随机森林预测精度结果
由表2可知,每种机油选取30个样本(样本浓度为0.01~0.3 mL/g),选取含有小波峭度的预测精度相比无小波峭度的预测精度,对齿轮油、摩托车机油、发动机油的浓度预测精度分别提高了6.67%、6.66%、9.96%;表明小波峭度特征在不同油种的浓度模型预测中可以提高的预测精度。
3.2.4 多回归模型浓度预测精度分析
常用回归分析算法有线性回归、随机森林[19]、Robust、Adaboost[20]、GBDT(gradient boosting decision trees)、决策树[21]、支持向量机等,为了验证选取的小波峭度参数在其他算法的适用性,对每种算法选取30组数据进行浓度预测验证,将预测误差规定在7%以内,并对预测结果进行对比分析。如表3所示。
表3 多回归模型预测精度对比Table 3 Comparison of prediction accuracy of multiple regression models
由表3可知,通过对每种机油选取的30个样本中,Adaboost预测模型选取小波峭度相比无小波峭度的预测精度,对齿轮油、摩托车机油、发动机油的浓度预测精度分别提高了10%、3.33%、3.33%;GBDT预测模型选取小波峭度相比无小波峭度的预测精度,对齿轮油、摩托车机油、发动机油的浓度预测精度分别提高了3.33%、6.67%、6.67%;决策树预测模型选取小波峭度相比无小波峭度的预测精度,对齿轮油、摩托车机油、发动机油的浓度预测精度分别提高了3.34%、6.66%、6.67%。
综上所述,基于小波峭度特征的3种回归模型对于机油的浓度预测均有提升,表明基于小波峭度对于机油污染物浓度预测精度提高,具有一定的有效性。
3.2.5 多回归模型预测结果分析
在机油污染物浓度预测分析中,常用回归分析算法有线性回归、随机森林[19]、Robust、Adaboost[20]、GBDT、决策树[21]、支持向量机等,为了验证选取的小波峭度参数在其他算法的适用性,对每种机油选取300组数据进行浓度预测,并对样本集进行划分,选择240组为训练集,60组为测试集。利用小波峭度作为回归模型的输入,并将多个回归模型预测结果进行对比分析。如表4所示。
表4 多回归模型预测结果对比
由表4可知,通过Adaboost算法、GBDT算法和决策树算法构建回归模型对齿轮油、发动机油、摩托车机油进行浓度预测。通过评价指标RP和RMSD分析可知,Adaboost回归模型对齿轮油、摩托车机油、发动机油,分别提高了1.1%、0.6%、1.2%和5.9%、0.5%、4.0%;GBDT回归模型对齿轮油、摩托车机油、发动机油,分别提高了1.7%、0.2%、1.9%和14.8%、0.8%、15.0%;决策树回归模型对齿轮油、摩托车机油、发动机油,分别提高了0.4%、0.6%、0.5%和2.6%、0.2%、3.1%。因此,可以看出,选取小波峭度的模型预测相比为选取小波峭度的模型预测,在Adaboost、GBDT、决策树回归模型当中均有提高,其中GBDT回归模型对于3种机油浓度预测的效果最优,表明小波峭度在对机油浓度预测精度的提高具有一定的有效性。
综上所述,实验数据表明,小波峭度在多个回归预测模型中是可行的。因此提出以小波峭度参数对于土壤中机油浓度预测分析具有较好的预测性能。
(1)建立基于反射光谱的污染物机油浓度检测系统,提出以小波峭度作为量化参数并构建基于荧光光谱分析的随机森林回归预测模型,并对回归模型方法的分析结果进行了评估。实验结果表明,通过随机森林回归模型对齿轮油、摩托车机油和发动机油的RP和RMSD进行分析,分别提高了1.2%、2.2%、1.9%和14.9%、32.4%、16.8%;对齿轮油、摩托车机油、发动机油的浓度预测精度分别提高了6.67%、6.66%、9.96%。因此,表明小波峭度在机油浓度预测中可以有效地提高预测精度,具有良好的预测性能。
(2)通过Adaboost算法、GBDT算法和决策树算法预测模型进行测试和验证,得到了较好的预测结果,并与传统的机油浓度预测方法相比,具有更好的预测性能和较低的误差率。
(3)提出基于小波峭度的机油表层污染物浓度的预测方法,可以拓展到土壤表层其他污染和环境检测领域,为保障农业农作物生长和土壤环境,提供重要的理论支持和技术指导。此外,还可以进一步研究该方法的优化和改进之处,以提高模型预测精度和可靠性。