CARSiPLS用于烟煤中水分与挥发分的近红外光谱测定

2018-01-19 09:37,
理化检验-化学分册 2017年6期
关键词:烟煤区间光谱

,

(曲靖师范学院 化学与环境科学学院, 曲靖 655011)

目前,煤的工业生产常需要进行实时分析,用以满足生产参数调整、事故分析等[1]。传统分析方法繁琐、耗时,难以满足需求。近红外光谱包含O-H、N-H、C-H、S-H等化学键的合频及倍频吸收,具有快速、无损等特点[2]。文献[3]报道可以从近红外光谱挖掘煤品质的信息,如水分、相关的挥发性物质、氧等。最近,近红外光谱技术开始用于煤的分类、水分、灰分、挥发分、含硫量、固定碳、发热量等检测[4-5]。

由于近红外光谱信号严重重叠,常需要计量学方法进行解析。偏最小二乘法(PLS)作为一种多元校正模型,常用于解析近红外光谱[2,6-7]。PLS可以结合变量筛选方法提高模型的预测能力和稳健性[8],如间隔法[9]、无信息变量消除法[10]、竞争自适应重加权采样法(CARS)及其改进方法[11-12]、移动窗口法[13-14]等。间隔偏最小二乘法(iPLS)将整个光谱分割成多个等宽子区间,根据误差筛选区间。CARS模仿进化论中“适者生存”原则,对变量逐步淘汰,具有很高的计算效率。

CARS间隔偏最小二乘回归法(CARSiPLS),首先对光谱进行分区,在每个区间进行变量筛选,重复分区和变量筛选过程,提高变量筛选效率。本工作将CARSiPLS用于烟煤中水分、挥发分的近红外光谱测定。

1 试验部分

1.1 样本

收集100个烟煤样本,将煤样粉碎,过0.180 mm筛。

1.2 水分和挥发分的常规测定

水分测定采用快速热重分析[15],每个样品平行测定3次,以平均值作为水分含量。水分的最高含量、最低含量和平均含量分别为0.063 4%,0.007 5%,0.024 6%。挥发分的测定采用重量法(GB/T 212-2008煤的工业分析方法),得最高含量、最低含量和平均含量分别为0.374 4%,0.114 3%,0.259 4%。

1.3 光谱采集

采用Thermo Antaris Ⅱ傅里叶变换近红外光谱仪,采集烟煤样品近红外漫反射光谱,波数范围4 000~10 000 cm-1,分辨率8 cm-1,扫描次数64。

2 方法与原理

CARSiPLS对光谱重复进行分区策略和CARS[9,16]变量筛选,每次从各区间筛选出PLS回归系数权重大的点,去掉权重小的点。整合各区间筛选出的变量,利用校正样本集计算模型训练平均绝对百分误差(MAPE)。选择最低MAPE对应的波长组合。从统计学角度出发,变量数过少易造成欠拟合,变量数过多易造成过拟合。为了避免变量过分消除,出现欠拟合现象,限制最终筛选出的变量数不少于5倍PLS建模主成分数。具体步骤如下:

1) 光谱矩阵X(m×n)为全部光谱矩阵,m为样本数,n为变量数。Y(m×1)为目标变量矩阵。为了保证样本选择的无偏性,按照目标变量的分布选择训练样本集、校正样本集和预测样本集。训练样本集用于建立PLS模型,校正样本集用于判断CARS变量筛选结果,预测样本集用于检验CARS筛选出变量的准确性。按照挥发分含量从低到高排序,从第40号到58号样本,每隔一个选取为预测样本集,所构成的预测样本集(pX)包含10个样本;从第30号到38号样本和第60号到68号样本,每隔一个选择为校正样本集,所构成的校正样本集(xX),包含10个样本;其余样本作为训练样本集,所构成的训练样本集(tX)包含80个样本。水分和挥发分采用同样的集合划分。

2) 将训练集和校正集的整条光谱分为nn个nw宽区间,若变量数小于nw,以变量数为准。

3) 每个区间建立PLS模型,得到回归系数bi(nn×1),按式(1)计算每个波长的权重wi。

i=1,2,3…,nn(1)

将wi从大到小排序,存储于Wi,按式(2)计算各波长的累计权重sWi。

i=1,2,3,…,nn(2)

4) 删除累计权重超过阈值(per)的波长。

5) 将各区间筛选出的波长重新组合成新光谱训练集ntX和相应的校正集nxX,计算MAPE。

6) 重复步骤2~5,直至变量数少于PLS建模主成分个数。

7) 将变量数大于PLS建模主成分个数的5倍且MAPE最小值对应的变量作为最终筛选结果,用筛选出的变量进行预测。

3 结果与讨论

3.1 nw的影响

PLS主成分个数决定预测准确性,为了降低CARSiPLS建模参数搜索难度,首先确定PLS全光谱最佳回归主成分个数,将CARSiPLS的主成分个数同样设置。水分的PLS最佳回归主成分个数是5,挥发分最佳回归主成分个数是1。试验将per暂定为0.5,考察了nw在10到200区间,每隔10个增长区间获得的预测均方差(RMSEP),见图1。

(a) 挥发分

(b) 水分图1 nw对RMSEP的影响Fig. 1 Effect of nw on RMSEP

由图1可知:RMSEP在随着nw变化上下波动,说明CARSiPLS对nw参数敏感,模型性能易受到nw影响。区间较宽时,包含的变量数较多,无用信息易混淆在重要信息中。而区间较窄时,包含的变量数较少,重要信息易被当作无用信息被剔除。在图1中RMSEP随nw上下波动,说明有用信息与无用信息混在一起,不易区分。对于挥发分,当nw<50和nw>80时,nw的变化对RMSEP影响不大;当nw处于50到80区间时,RMSEP随着nw变宽而降低。说明光谱中关于挥发分的相关信息混杂在光谱中且数量不多,只有适当宽度的nw才利于剔除无用信息。对于水分,当nw≤70时,RMSEP较低;而当nw>70时,RMSEP在较大范围内剧烈波动。说明光谱中关于水分的信息较多且混在众多无用信息之中,难以区分。对于挥发分,当nw=80时,RMSEP最小,为0.007 9。对于水分,当nw=160时,RMSEP最小,为0.002 8。

3.2 per的影响

为了进一步探讨CARS对模型性能的影响,考察了per在0.40~0.95之间变动时对RMSEP的影响,见图2。对于挥发分,考察per时nw取80;对于水分,考察per时nw取160。

(a) 挥发分

(b) 水分图2 per对RMSEP的影响Fig. 2 Effect of per on RMSEP

由图2可知,RMSEP随per增大而波动。较小的per将去除较多变量,既有可能快速筛选变量也可能丢失有用信息。较大的per将去除较少变量,既可能保留有用信息也可能导致混入无用信息。对于挥发分,当0.75≤per≤0.90时,RMSEP较小,说明挥发分相关信息易被剔除,需要较大的per才能够筛选出。对于水分,RMSEP随per增大而波动上升,说明水分相关信息分散,需要各区间尽快剔除无用信息。nw与per互相影响制约,nw在10~200区间、per在0.40~0.95区间,寻找参数最佳组合,使RMSEP最低,模型预测最准确。对于挥发分,nw=70、per=0.95时,RMSEP最小,为0.006 7;对于挥发分,nw=160、per=0.45时,RMSEP最小,为0.002 8。

3.3 变量筛选

CARSiPLS根据MAPE确定最终变量筛选结果,变量筛选过程见图3和图4。

(a) 挥发分

(b) 水分图3 运行次数对MAPE的影响Fig. 3 Effect of number of runs on MAPE

(a) 挥发分

(b) 水分图4 运行次数对变量数的影响Fig. 4 Effect of number of runs on number of variables

由图3和图4可知:对于挥发分和水分,变量数随着运行次数增加由快到慢递减。说明CARS可以有效去除无用变量,运行次数增多无用变量越来越少,因此变量数减少也逐渐减慢。在变量筛选过程中,MAPE随着变量数减少出现波动。对于挥发分,MAPE在前几次CARS中基本没有变化,然后略增大,继而出现明显减小。说明光谱中挥发分相关变量较少,需要多次CARS才能有效筛选。对于水分,MAPE先略有减小,而后随着变量减少而增大。显而易见,光谱中与水分相关变量数较多,CARS易去除有效变量导致模型预测能力下降。经CARS,挥发分建模波长个数由1557个减至15个,水分建模波长个数由1557个减至317个,显著降低了模型的变量数。

CARSiPLS筛选出的挥发分建模波长分别为4 072.9,4 076.8,4 107.6,4 169.3,4 192.5,4 196.3,4 200.2,4 215.6,4 234.9,4 254.2,4 400.8,4 589.8,4 593.6,4 813.5,4 879.0 cm-1,位于CH、CH2合频吸收区域。煤的挥发分有效成分主要包含甲烷、乙烷、乙烯,主要是C-H键成分,CARSiPLS的筛选结果与实际一致。水分的建模分布在全光谱范围内,水分的有用信息主要是O-H键吸收,但是煤中有机物成分也含有O-H键,O-H键吸收既包含水分信息又包含有机物信息。C-H键、S-H键、N-H键吸收只反映有机物信息。结合C-H键、S-H键、N-H键吸收,从O-H键吸收中扣除有机物信息有望获得水分相关信息。C-H、N-H、O-H、S-H化学键在4 878~6 897 cm-1产生第一谐波;在5 882~9 524 cm-1产生第二谐波;在9 524~1 4286 cm-1产生第三谐波。综上所述,猜测水分相关信息遍布整条光谱。CARSiPLS筛选结果表明水分信息变量数从1 557个减少至317个,分布在整条光谱,通过删除一部分无用信息可以明显提高模型预测准确度。

3.4 预测结果

为了进一步考察CARSiPLS的预测性能,表1、表2中分别列出了挥发分和水分的CARSiPLS、PLS、iPLS的预测结果。

表1 CARSiPLS、PLS、iPLS对挥发分预测结果Tab. 1 Prediction results of volatiles by CARSiPLS, PLS and iPLS

由表1可知:在挥发分预测中,CARSiPLS与PLS和iPLS相比,MAPE和RMSEP较小,误差也较小。CARSiPLS可以有效提取出近红外光谱中烟煤挥发分的相关信息,提高预测精度。

表2 CARSiPLS、PLS、iPLS对水分预测结果Tab. 2 Prediction results of moisture by CARSiPLS, PLS and iPLS

由表2可知:iPLS与PLS相比并不能够有效提取出烟煤水分相关变量,模型预测RMSEP从0.003 6增大到0.005 0。分析其原因,推测iPLS效果不佳是由于水分相关信息分散在整条谱图中,难以提取。CARSiPLS可以有效提取近红外光谱中烟煤水分相关信息,将模型预测RMSEP减小至0.002 8;且与iPLS相比,减小了误差。综上所述,CARSiPLS可以有效筛选变量、提高预测精度。

本工作结合CARS策略和iPLS提出了CARSiPLS,用于近红外光谱变量筛选。为了考察模型性能,将该方法用于建立烟煤中水分和挥发分的近红外检测模型,挥发分建模变量从1557个减少至15个,水分建模变量从1557个减少至317个,模型预测MAPE、RMSEP减小,误差也减小。研究结果表明CARSiPLS可以有效降低变量数目,提高模型预测精度。

[1] 苏彩珠,陈晓翔,黄文志,等.应用NIRS分析技术快速检测煤炭质量[J].检验检疫科学, 2007,17(6):34-35.

[2] FERRARI M, MOTTOLA L, QUARESIMA V. Principles, techniques, and limitations of near infrared spectroscopy[J]. Canadian Journal of Applied Physiology, 2004,29(4):463-487.

[3] MIKIO K, TADAYUKI T, TAKAHIRO A, et al. Application of near infrared spectroscopy to rapid analysis of coals[J]. Spectroscopy Letters, 2002,35(3):369-376.

[4] BONA M T, ANDRÉS J M. Coal analysis by diffuse reflectance near-infrared spectroscopy: Hierarchical cluster and linear discriminant analysis[J]. Talanta, 2007,72:1423-1431.

[5] DONG W K, JONG M L, JAE S K. Application of near infrared diffuse reflectance spectroscopy for on-line measurement of coal properties[J]. Korean Journal of Chemical Engineering, 2009,26(2):489-495.

[6] GELADI P, KOWALSKI B R. Partial least square regression: A tutorial[J]. Analytica Chimica Acta, 1986,185:1-17.

[7] WOLD S, MARTENS H, WOLD H. The multivariate calibration problem in chemistry solved by the PLS method[M]. Berlin: Springer, 1983:286-293.

[8] THOMAS E V, CHEM A. A primer on multivariate calibration[J]. Analytical Chemistry, 2008,66(15):795A-804A.

[9] NORGAARD L, SAUDLAND A, WAGNER J, et al. Interval partial least-squares regression (iPLS): A comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy, 2000,54(3):413-419.

[11] LI H D, LIANG Y Z, XU Q S, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009,648(1):77-84.

[12] ZHENG K Y, LI Q Q, WANG J J, et al. Stability competitive adaptive reweighted sampling (SCARS) and its applications to multivariate calibration of NIR spectra[J]. Chemometrics and Intelligent Laboratory Systems, 2012,112(6):48-54.

[13] JIANG J H, BERRY R J, SIESLER H W, et al. Wavelength interval selection in multicomponent spectral analysis by moving window partial least squares regression with applications to mid-infrared and near-infrared spectroscopic data[J]. Analytical Chemistry, 2002,74(14):3555-3565.

[14] DU Y P, LIANG Y Z, JIANG J H, et al. Spectral regions selection to improve prediction ability of PLS models by changeable size moving window partial least squares and searching combination moving window partial least squares[J]. Analytica Chimica Acta, 2004,501:183-191.

[15] 常宏,李爱启,王洪伟,等.煤中水分的快速测定[J].煤质技术, 2004(2):50-52.

[16] 张华秀,李晓宁,范伟,等.近红外光谱结合CARS变量筛选方法用于液态奶中蛋白质与脂肪含量的测定[J].分析测试学报, 2010,29(5):430-434.

猜你喜欢
烟煤区间光谱
你学会“区间测速”了吗
基于三维Saab变换的高光谱图像压缩方法
2020年泰国动力煤进口量同比增长8.48%
2月份泰国动力煤进口量环比增长5.43%
气氛及后置催化剂对平朔烟煤热解特性的影响
高光谱遥感成像技术的发展与展望
烟煤烟气吸附剂脱汞技术的现状及展望
全球经济将继续处于低速增长区间
区间对象族的可镇定性分析
星载近红外高光谱CO2遥感进展