基于主成分分析和偏最小二乘回归的烟煤水分近红外检测

2015-11-10 05:49马公喆杨晓丽汪文超陈云秀
云南化工 2015年1期
关键词:烟煤煤样光谱

马公喆,杨晓丽,汪文超,陈云秀

(曲靖师范学院化学化工学院,云南曲靖655011)

水分含量是煤品质非常重要的检测参数之一,水分含量对煤加工、运输、销售均起到至关重要的作用。水分传统检测方法是热重分析,缺点是耗时较长。近红外光谱采集1 100~2 500 nm范围内的光,主要反映物质分子中C-H、N-H、O-H、C-O和S-H等基团振动的合频与倍频吸收[1]。因此,近红外光谱可以通过O-H基团吸收获得水分含量信息。目前已有一些科研工作者对近红外光谱技术用于煤中水分含量的检测进行了研究。武中巨等采用近红外光谱技术和偏最小二乘对褐煤品质进行了快速检测,结果表明水分检测误差较大[2]。Dong W K等从近红外光谱中提取了5个波长点用于实现煤品质的快速检测,检测误差在10%左右[3]。Wang Y等将小波变换方法用于提高近红外光谱在煤品质检测中的应用并低降建模难度[4-6]。

本文针对烟煤中水分含量的近红外快速检测,采用常用的主成分分析和偏最小二乘回归建立检测模型。

1 实验

采集曲靖富源地区烟煤样品100个,将煤样粉碎研磨到0.180 mm(80目)。采用热重分析检测煤样中水分含量[7]。精确称量空气干燥煤样1.0±0.1 g(精确至0.000 2g),将煤样平铺于干燥恒重的Φ40 mm称量瓶。打开称量瓶盖,放入预先鼓风并已加热至105~110℃的干燥箱中,在一直鼓风的条件下干燥40 min。从干燥箱中取出称量瓶,立即盖上盖,放入干燥器中冷却至室温(约20 min)后,称量。再进行检查性干燥,每次30 min,直到连续两次干燥煤样的质量减少不超过0.001 g或质量增加时为止。

采用Thermo AntarisⅡ光谱仪采集烟煤的近红外光谱数据,光谱范围4 000~12 000 cm-1,分辨率8 cm-1,扫描次数8。

2 算法

2.1 偏最小二乘

偏最小二乘(partial least squares,PLS)[8]是一种基于因子分析的多变量校正方法,利用自变量矩阵中提取出的隐变量来建立模型,可以充分利用因变量矩阵和自变量矩阵的信息。PLS比多元线性回归、主成分回归等线性模型更稳定。

偏最小二乘法的基本数学模型为:

式中n为样本数,r为自变量数,m为因变量数,s为隐变量数。E和F分别为关于X和Y的线性模型的残差矩阵。

当E的元素服从正态分布时,根据最大熵原理,最大熵Hmax的大小取决于方差σ2:

此处eij为残差,(r-s)为自由度。当σ2最小时,建立的数学模型具有最佳的预测效果。

PLS中的隐变量个数是十分重要的,只有确定出恰当的隐变量数,才能消除噪声、避免过度拟合、获得良好预测效果。PLS一般采用交互验证(Cross-validation)的预测误差平方和(predicted error sum of squares,PRESS)确定隐变量数,当PRESS最小时,该隐变量数最佳。

2.2 主成分分析

主成分分析(principal component analysis,PCA)是一种统计分析方法,可以进行数据降维、变量提取、数据压缩、分类、聚类等处理[9]。主成分分析将数据进行特征分解,构造新变量(称为主成分)并保证各变量之间正交。方差越大的主成分含原变量信息量越大。提取较少几个主成分就可以包含原数据的信息,将高维数据降到低维。

3 结果与讨论

首先采用PCA将含有1557个变量的高维近红外光谱数据映射到低维空间,再根据低维特征变量建立PLS模型。为了检验建模效率,将100个样本分为校正集和预测集,其中校正集包含85个样本,预测集包含15个样本。

3.1 PLS隐变量数

PLS先提取数据的特征信息(隐变量)再建立预测模型,因此提取出的特征数目(隐变量数)会直接影响模型的性能。考察了1~15个隐变量数下模型的预测性能,结果见表1。从表1中可见,随着PLS隐变量数的增加,预测误差先减小后增大。当隐变量数为3时,预测最准确,平均预测绝对百分误差为0.0828。

表1 PLS隐变量数对模型检测精度的影响Tab.1 Effect of the number of hidden variables PLS on model detection accuracy

PLS 主分量个数 平均预测绝对误差 平均预测绝对百分误差0.0023 0.0927 5 0.0021 0.0856 6 0.0025 0.0977 7 0.0024 0.0971 9 0.0029 0.1156 10 0.0031 0.1247 11 0.003 0.1202 12 0.0032 0.126 13 0.0034 0.1342 14 0.0033 0.1328 4 15 0.0033 0.1323

3.2 PCA主成分数

PCA提取出的主成分包含样本有用信息并能剔除一部分无用信息,主成分个数直接决定数据压缩及滤噪效果。本文将PLS主分量数固定为3,考察了PCA主成分数3~30对建模的影响,见图1。

图1 PCA主成分数对预测效果的影响Fig.1 Effect of PCA main components on predict result

图1表明,随着主成分数的增加,平均预测绝对误差和平均预测绝对百分误差呈现相同的变化趋势,随着波动先下降后上升。当主成分数为16时获得最低平均预测绝对百分误差,0.0728。

3.3 PCA-PLS预测结果

为了进一步考察模型的预测性能,表2列出了真实结果、预测结果和预测百分误差。结果表明有5个样本预测偏差较大,超过了0.1,其余10个样本预测效果较好。总而言之,可以通过PCA-PLS方法结合近红外技术实现烟煤中水分检测。

表2 PCA-PLS结果Tab.2 PCA-PLS results

4 结论

本文收集了100个烟煤样品,针对烟煤水分检测探讨了近红外光谱法快速检测的可行性。采用主成分分析和偏最小二乘分析近红外光谱,主成分分析用来对近红外光谱压缩、滤噪,偏最小二乘用来建立检测模型。通过对模型参数的考察和优化,最佳平均预测绝对百分误差为0.0728。结果表明近红外光谱技术可以用于烟煤水分快速检测。

[1]McDonald R S.Infrared spectrometry[J].Analytical Chemistry,1984,56:349R-372R.

[2]武中臣,熊智新,王海东,等.褐煤品质的傅里叶变换近红外光谱定量分析[J].光谱实验室,2008,25(5):819-823.

[3]Dong W K,Jong M L,Jae S K.Application of near diffuse reflectance spectroscopy for on-line measurement of coal properties[J].Korean Journal Chemical Engineering,2009,26:489-495.

[4]Wang Y,Shi G,Zhong X,et al.PLS regression on coal infrared spectrum with wavelet pre-processing[J].Applied Mechanics and Materials,2011,80-81:279-283.

[5]Wang S,Feng X,Zhou J,et al.Fourier transform near infrared spectroscopy analysis of power plant coal quality[J].Advanced Materials Research,2011,236-238:799-803.

[6]WangY,Wang D,Xin H,et al.PLS regression on wavelet transformed infrared spectra for prediction of coal contents[J].R.Chen(Ed.):ICICIS 2011,PartⅠ,CCIS 134:348-353.

[7]常宏,李爱启,王洪伟,等.煤中水分的快速测定[J].煤质技术,2004(2):50-52.

[8]Haaland D M ,Thomas E V.Partial Least-Squares Methods for Spectral Analyses.1.Relation to Other Quantitative Calibration Methods and the Extraction of Qualitative Information[J].Analytical Chemistry,1988,60:1193-1202.

[9]Jolliffe I T.Principal Component Analysis[J].New York,USA:Springer-Verlog,1986.

猜你喜欢
烟煤煤样光谱
基于三维Saab变换的高光谱图像压缩方法
煤中水分存在形式及不同能量作用下的脱除机理探究
2020年泰国动力煤进口量同比增长8.48%
2月份泰国动力煤进口量环比增长5.43%
气氛及后置催化剂对平朔烟煤热解特性的影响
高光谱遥感成像技术的发展与展望
烟煤烟气吸附剂脱汞技术的现状及展望
水分对某矿突出煤层坚固性系数影响研究
突出煤样孔径分布研究
星载近红外高光谱CO2遥感进展