高光谱技术识别煤岩的特征波段筛选方法研究

2022-04-25 12:39吴剑飞
黑龙江工程学院学报 2022年2期
关键词:煤岩波段波长

吴剑飞

(安徽理工大学 空间信息与测绘工程学院,安徽 淮南 232001)

长期以来,煤炭在中国的能源结构中都占据着主导地位。采煤过程中常伴随着岩石的获取,对煤与岩石的识别分类消耗大量人力、物力和时间[1]。我国煤炭百万吨死亡率高,采煤装置落后,导致采煤仍属于高危行业,因此,发展“无人化”智能采煤,保障采煤工作人员生命安全,提高煤岩识别效率,是未来煤炭开采技术发展的关键所在[2]。

近年来,光谱分析技术在煤种鉴别、煤质分析和煤岩识别等领域得到广泛应用[3]。其中,高光谱技术以其波段多、精度高的优势已经成为采煤区煤岩动态识别的有效方法之一。然而,煤与岩石存在“异物同谱”现象,使得高光谱技术应用于实际煤岩识别仍有阻碍。这主要是因为基于全波段所建的分类模型常存在冗余信息和干扰信息,影响模型的运行速度和精度。前人所做研究中[4-6]提出了有助于识别煤与岩石的特征波段,提供了较好的煤岩识别理论基础和建模参考,然而以单个波段和双波段建立的分类模型存在有效信息使用不足的现象。提取与煤岩识别相关的特征波段建立分类模型可以较好地解决上述两种问题。目前,国内关于采用机器学习算法提取煤与岩石的特征波段的研究较少,而比较不同算法提取效果的研究更是鲜见报道。

本研究采用多种光谱变换方法和特征波段提取方法对煤与岩石的高光谱图像数据进行处理,分别建立了基于全波段和特征波段的分类模型,并对模型预测结果进行分析和比较,以期为高光谱技术实际应用于煤岩识别提供参考。

1 材料与方法

1.1 研究区概况及样本采集

研究区位于安徽省淮南市(东经116°21′21″~117°11′59″、北纬32°32′45″~33°0′24″),该地区矿产资源丰富,是中国13个亿吨煤炭基地之一。因此,淮南地区采煤智能化建设的开展有助于提高当地矿产资源的开采效率,促进淮南乃至江淮流域产业转型升级[7]。根据GB/T 5751《中国煤炭分类》,淮南矿区主要产出1/3焦煤、气煤、瘦煤和焦煤。根据GB/T 17412.3-1998《岩石分类和命名方案》,淮南矿区选煤厂中岩石种类主要为砂岩、页岩、泥岩等。本试验选用的样品来源于淮南市谢桥矿区与潘一矿区的选煤厂,在矿区两名采煤经验丰富的工作者协助下,获取33组样本,其中,煤样14组,岩样19组。

1.2 高光谱数据获取

使用空气干燥箱干燥样品直至其质量恒定,对收集的块状煤样表面打磨平整。采用ASD FieldSpec4便携式地物光谱仪采集高光谱数据。仪器波长范围为350~2 500 nm,其中,350~1 000 nm波长的采样间隔为1.4 nm,1 000~2 500 nm波长的采样间隔为2 nm,每个样本测得30条光谱,剔除异常光谱后取平均值作为该样本的光谱,每组数据采样前均进行标准白板校正。

1.3 光谱数据预处理

采用MATLAB 2017a软件对原始光谱(Original Spectrum,OS)进行预处理,并利用Origin 2019b软件制图。预处理包括多项式卷积平滑法(Savitzky-golay Smoothing, SG)处理、多元散射校正(Multiplicative Scatter Correction,MSC)、标准正态变量变换(Standard Normal Variate Transformation, SNV)和归一化(Normalize,Norm)[8-9]。其中,SG可有效消除基线漂移等噪声,SNV和MSC可消除样品表面分布不均和光程变换导致的散射效应影响。

1.4 煤岩光谱差异机理分析

由图1可知,煤的整体反射率较低,上升平缓,而岩石反射率偏高。由于水分子O-H官能基伸缩振动的第一倍频,岩石在1 450 nm附近有较强吸收谷[10]。在1 900 nm附近,岩石产生第二个较强吸收谷,这是由于岩石中有二价铁离子和煤样中有Al2O3。由于Al元素在煤中主要以Al2O3的形式存在,在岩石中主要以Al(OH)3的形式存在,导致在2 130~2 250 nm波段范围内煤与岩石的表现上产生较大差别。Al(OH)3的Al-OH晶格振动使得其在2 210 nm附近具有强吸收峰[11]。由于煤岩组分特性的不同,其吸收谷深度之和、斜率和曲线凹凸度有所不同,例如岩石光谱曲线的吸收谷深度之和远大于煤光谱曲线的吸收谷深度之和;岩石光谱曲线在1 100~2 500 nm波段的斜率基本为负值,而煤光谱曲线在该波段的斜率基本为正值;煤岩光谱曲线的凹凸度平均约相差13倍[12]。

图1 经平滑预处理后的煤岩高光谱曲线

1.5 RF随机蛙跳算法

Random Frog是利用候补变量集合对总变量集合进行反复迭代选择,最终获取少量变量的高维数据变量选择方法。每一次迭代分为以下3个主要步骤:首先确定一个包含N1个变量的变量子集V0;然后基于V0中变量的特征和选择概率,提出包含N2个变量的候补子集V1替代V0;计算每个变量的选取概率[13]。

1.6 SPA连续投影算法

SPA是一种使矢量空间共线性最小化的前向变量选择方法[14],该算法的具体步骤如下[15]:首先在光谱数据中选择一条光谱列向量作为起始向量;然后计算其他列向量在起始向量上的投影;再挑选出最小投影作为下一个投影的起始向量,直到挑选变量个数达到输入迭代数;最后将提取的所有波长组合进行多元线性回归,从局部最小的RMSE中选择预测精度最高的波段组合作为最优波段组合。

为降低起始向量选取的随机性,本研究采用Araújo MCU等[15]提出的选取起始光谱向量的方法。

1.7 CARS竞争性自适应重加权采样算法

CARS[16]是以达尔文进化论的“适者生存“为指导理论,采用蒙特卡洛采样以及偏最小二乘回归法的特征波段优选方法。CARS法的每个采样周期可分为4个连续的步骤[17-18]:首先采用蒙特卡洛采样法从校正集中选取样本,进行PLSR建模;然后计算波段回归系数的绝对值权重,经衰减指数法计算后,剔除绝对值较小的波段变量;接着采用自适应加权算法在剩余波段变量中选取波段,进行PLSR建模;最后选取交叉验证的均方根误差最小的模型对应的波段变量作为选择的特征波段变量。

1.8 建模方法

采用支持向量机(Support Vector Machine,SVM)和偏最小二乘线性判别分析(Partial Least Square- Linear Discriminant Analysis,PLS-LDA)对优选波段和全波段进行识别模型的建立,模型识别效果采用识别正确率表示。

2 结果与讨论

2.1 CARS法筛选特征波长组合

基于CARS算法提取煤岩识别的特征波长运行过程如图2所示。

由于CARS中的蒙特卡洛采样随着采样次数的不同呈现不同的运算结果,所以文中通过设定不同的采样次数后分别进行运算以选取相对较优的波长变量组合。如图2所示,采样次数较少时,由于衰减指数的作用,CARS法选取的波段变量数由总波段变量数快速下降到较低水平,随着采样次数增加,选取变量数的降低幅度减缓。交叉验证均方根误差随着运行次数的增加呈现出下降与上升交替进行的趋势,图中“*”竖线标出最小交叉验证均方根误差值对应的采样次数,为欠拟合与过拟合的交汇点,故选取该点处的最优波段。“*”竖线之后交叉验证均方根误差开始增大,是由于有效变量被删除了。在SG-CARS中最终选取了365、366、381、394、395、401、1 421 nm共7个特征波段;在MSC-CARS中最终选取350、351、359、360、371、815、816、817、818、819、2 118、2 119、2 120 nm共13个特征波段;在SNV-CARS中最终选取了2 206、2 207 nm共2个特征波段;在Norm-CARS中最终选取了365、2 128、2 208、2 209、2 210、2 211 nm共6个特征波段。

图2 CARS优选波长过程

2.2 SPA法筛选特征波长组合

基于SPA算法提取煤岩识别的特征波长运行过程如图3所示。SPA法在运行过程中通过分析投影向量的大小进行特征波长变量的筛选,通过计算模型的RMSE值确定波长子集即为优选波长。

图3 SPA优选波长结果

图3中红色正方形圈出点表示为最优特征波长变量。在SG-SPA中最终选取了350、563、1 387、1 861、2 500 nm共5个特征波段;在MSC-SPA中最终选取350、371、397、745、1 373、1 407、1 774、1 965、2 008、2 134 nm共10个特征波段;在SNV-SPA中最终选取了350、402、438、616、827、1 276、1 320、1 382、1 423、1 962 nm共10个特征波段;在Norm-SPA中最终选取了372、394、648、2 151、2 485 nm共5个特征波段。

2.3 RF法筛选特征波长组合

基于RF算法提取煤岩识别的特征波长运行结果如图4所示,其中,波段对应的柱形高度表示该波段被选择的概率。结合波段共线性和岩石的高光谱曲线中的特征吸收峰进行RF特征波段的选择。可见,被选概率高的波段存在聚集性,表明能用于煤岩识别的波段一般处于某几个敏感波段范围内。

图4 RF优选波长过程

在SG-RF中最终选取了437、443 nm共2个特征波段;在MSC-RF中最终选取1 705、1 780、1 816、1 826、1 885 nm共5个特征波段;在SNV-RF中最终选取了1 496、2 436 nm共2个特征波段;在Norm-RF中最终选取了1 356、2 484、2 499 nm共3个特征波段。

2.4 模型运行结果分析

为对比验证波段优选方法对特征信息的提取作用,建立不同处理方式下基于全波段光谱数据的煤岩识别模型,表1列出了基于优选波段组合和基于全波段所建识别模型的精度比较。可见,波段优选算法将总数为2 151个的全波段压缩至少量波段,使用少于总波段数1%的波段建立的识别模型的识别效果总体上优于基于全波段所建模型的识别效果。这是由于煤岩的高光谱信息存在“异物同谱”现象,其中,大部分信息对于模型的识别起到“误导”作用,不能作为识别的依据,而基于全波段的识别模型对这些误导性信息进行了训练,因此,识别精度并不理想。波段优选算法提取了有效波段,剔除了无效信息,降低了模型的复杂度。

表1显示Norm-CARS-PLS-LDA模型和SG-RF-SVM模型对煤岩识别效果最优,建模集和测试集的识别率均达到100%,其中,Norm-CARS和SG-RF分别提取了6个波段和2个波段,仅占全波段的0.28%和0.09%。由上述波段优选结果可以看出,优选波段大多分布于350~450 nm、1 250~1 450 nm、1 700~1 900 nm和2 100~2 300 nm之间,表明这些波段范围可以用于煤岩高光谱识别。其中,优选波段多位于吸收谷的最低点(吸收谷深度),即煤岩反射率相差最大处,或是吸收谷斜率最大或斜率变化率最大的波段处,表明了岩石吸收谷的信息是用来作为煤岩识别的重要依据,这也验证了王赛亚等[12]提出的岩石吸收谷深度之和、曲线斜率和凹凸度可用来进行煤岩识别的研究。

表1 识别模型判别结果

3 结 论

基于高光谱技术从定性分析和特征识别两个角度,对煤与岩石进行识别研究,主要结论如下:

1)由机器学习算法优选的波段主要在350~450 nm、1 250~1 450 nm、1 700~1 900 nm和2 100~2 300 nm之间。

2)经不同光谱预处理建立的煤岩识别模型的性能有所差异,MSC处理后所建模型的建模集和测试集识别精度均未达到100%,其预测效果低于SG、SNV和Norm预处理后所建模型的识别效果。

3)采用CARS、SPA和RF优选出的波段低于全波段总数的1%,同时提高了模型识别精度。优选波段多处于岩石的光谱曲线吸收谷附近,其波段对应的反射率可以显示出波谷的特征信息。所建识别模型中Norm-CARS-PLS-LDA和SG-RF-SVM模型的识别精度最高,建模集和测试集的识别精度均达100%。

由于本试验所有样本的高光谱数据均在样品表面打磨平整后获取,而实际采煤活动多在粉尘环境下进行,情况复杂,煤和岩石的表面积有不同矿物质颗粒和粉末,因此,虽然本实验建模集和测试集的识别正确率达100%,但要应用于实际工业活动需要结合现场情况建立全面的模拟试验。

猜你喜欢
煤岩波段波长
最佳波段组合的典型地物信息提取
玉华矿4-2煤裂隙煤岩三轴压缩破坏机理研究
基于CT扫描的不同围压下煤岩裂隙损伤特性研究
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
日常维护对L 波段雷达的重要性
基于测井响应评价煤岩结构特征
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量