基于近红外光谱波段优选的针叶木材基本密度估测模型的优化研究

2020-03-11 05:32尹世逵冯国红李春旭赵婧含孟永斌李耀翔

中南林业科技大学学报 2020年3期

尹世逵，冯国红，李春旭，赵婧含，孟永斌，王晨，李耀翔

（东北林业大学工程技术学院，黑龙江哈尔滨 150040）

中国东北林区作为重点国有林区，曾因人类对森林过度索取，森林资源已变得相对贫乏，因此最大限度地合理利用现有森林资源显得尤为重要。木材性质是评定木材质量等级、确定木材最佳用途的重要依据。木材基本密度作为木材质量等级评定的重要参数之一，在木材材性研究、森林培育和林木育种等方面也具有重要应用。落叶松、红松、云杉、冷杉作为东北林区主要的针叶树种，用途广泛，是具有高经济价值的优良树种，在东北林区针叶树种中具有重要地位。

随着科技的不断发展，近红外光谱分析技术作为一种新型的无损检测技术，已被国内外学者广泛应用到检测木材密度、含水率、强度等木材性质的研究中[1-7]。Mauricio 等基于近红外光谱技术，结合偏最小二乘法利用近红外光谱全波段建模，对花旗松削片样品密度进行快速预测，为进一步准确评估花旗松实时密度研究提供理论依据[8]。Valentina 等利用近红外光谱分析技术，选取不同的近红外光谱波段建模，对葡萄树叶片水分状况快速测定，得到校正和验证相关系数分别在在0.77～0.85 范围内和0.67～0.77 范围内，模型预测效果较之全波段光谱有所提升[9]。

江泽慧等利用近红外光谱分析技术对杉木、毛竹、落叶松等密度、纤维素结晶度、木质素、强度等进行研究，结果表明，近红外光谱技术可以实现木材性质的快速预测[3,4,11]。张慧娟等研究近红外光谱建模波段的不同对木材含水率的模型精度影响，将全光谱波段分割成连续的几个波段分别参与建模，最终选取最优的建模近红外波段实现对木材含水率的精准预测[11]。熊雅婷等采用不同的波段变量筛选方法对白酒酒醅成分性质建模分析，结果表明采用波段变量优选方法使模型精度更高，模型更简化[12]。陈玥洋等对眼房水葡萄糖浓度的近红外光谱波段，采用不同的波段变量筛选方法，使得模型的效果提升[13]。

由于近红外光谱波段区域存在与木材基本密度相关性较小或不相关的特征，在构建模型时会引入冗余的信息，使得偏最小二乘模型的预测误差增大，模型效果变差。近红外光谱数据波段优选方法对模型的预测精度和拟合效果有重要影响。由于目前尚未见到相关资料报道记载，究竟哪种近红外光谱波段优选方法会使得木材基本密度模型效果最好，因此本研究对比分析不同近红外光谱波段优选方法对针叶木材基本密度模型建模精度的影响，以此确定最优的波段优选方法，进而对针叶木材基本密度实现高精度的估测。

传统的木材取样方式具有一定的破坏性，例如张怡卓等将树木伐倒后，切割成圆盘截取标准式样，结合近红外光谱对木材基本密度建模研究[14]。而取完样品之后，树木将被完全破坏。本研究采用破坏性最小的树木生长锥取样方式进行密度研究，这种方式具有野外作业取样方便、测定快速、成本低等优点，对目标树种取样后，不影响树木正常生长发育，结合近红外光谱分析技术对树木密度进行动态监测，实现真正意义上的无损检测。

江泽慧等以杉木为例，研究了含水率对木材近红外光谱的影响。研究表明近红外光谱的吸光度会随着木材样品含水率增大而提高，样品近红外波形趋势大致相同，可以在不同含水率下预测木材样品的气干密度[4]。周竹等研究表明针叶木材样品缺陷位置的近红外光谱的吸光度数值比正常位置低，整体波形趋势大致相同[15]。江泽慧等研究表明木材样品横切面、径切面、弦切面部位的近红外光谱数据存在一定的差异，但均可用于模型构建进行木材密度预测，且模型效果较好[3]。本研究选用健康木没有缺陷的木材样品参与实验研究。

本研究以东北林区落叶松、红松、云冷杉为研究对象，利用近红外光谱分析技术，进行波段优选，将筛选好的特征波长点对应的数据作为建模变量，构建三种针叶木材基本密度通用模型，为木材基本密度的批量快速测定提供技术支持，同时也为后续树种研究、针叶木材加工利用和林木剩余物估算[16]等方面提供理论依据。

1 研究区概况

研究所用的针叶木材样品采集于黑龙江省哈尔滨市方正县星火林场，地理坐标为128°13′41″～ 129°33′20″E、45°32′46″～46°09′00″N。方正县属丘陵低山地区，海拔一般在300～700 m 之间。星火林场的气候属于寒温带大陆性季风气候。林场雨量充沛，年平均降水量579.7 mm，属于中纬度地区。总日照时数为1 178 h，日照百分比为54%，平均日照时间为8 h，土壤类型为暗棕壤森林土。

2 样品制备与数据获取

2.1 样品采集与制备

实验样品采自星火林场15 块立地条件相似的样地（20 m×20 m）。每块样地随机选取红松、落叶松、云冷杉针叶树种的标准木各3 棵，在胸径处由南向北采用生长锥穿过树心钻孔取样，取样深度大约为树木胸径的2/3，样品直径约为5.15 mm，样品长度100～350 mm 不等，本次实验获取红松、落叶松、云冷杉生长锥样品各45个，共计135个针叶木材样品。在样品采集完成后，采用活性黏土填堵取样留下的孔洞，帮助树木自我治愈，并防止昆虫对敏感树种的侵害，以免对树木后期生长发育造成影响。

2.2 木材基本密度测定

由于实验获取的木材生长锥样品长度不一，因此采用排水法获取木材的基本密度，按照《木材密度测定方法》（GB/T 1933—2009）的标准进行。为了得到较稳定的模型，每个木材样品均在横断面处采用80 目的砂纸打磨5 次，使其表面粗糙度参数Ra 基本接近12.5 μm。在实验室将生长锥样品进行时长为48 h 的浸水处理，由于水在标准状况下的密度为1 g/cm3，样品浸入水后排出水的体积等同于样品的体积。测定时，将烧杯盛水至适当深度放置于电子天平上，记录此时电子天平的示数，将针叶木材样品固定于铁针上，而后将铁针浸入水下1～2 cm 后，待其稳定后，记录此时的天平示数，前后两次示数之差即为木材样品体积，通过计算即可得到样品的基本密度。木材基本密度测定结果见表1。

所测样品的基本密度范围为0.259 1～ 0.534 1 g/cm3，平均值为0.403 0 g/cm3。在本次实验中，将所采集的135个针叶木材样品按照2:1 的比例随机分成校正集90个和验证集45个（表2）。

表1 针叶木材样品基本密度统计Table 1 Basic density statistics of coniferous wood samples

表2 实验样品验证集与校正集密度统计表Table 2 Experimental sample verification set and calibration set density statistics table

2.3 样品近红外光谱的获取

利用美国ASD 公司生产的LabSpec® Pro FR/A114260 便携式快速扫描光谱仪获取4 种针叶木材生长锥样品的近红外光谱信息，仪器的波长区域为350～2 500 nm，光谱分辨率为3 nm@700 nm， 10 nm@1 400 nm 和2 100 nm。

实验在室温20 ℃、空气湿度为50%的条件下进行。为保证数据准确，避免木材样品中水分子的含氢基团对于近红外光谱吸收的影响，将针叶木材样品放入烘干箱，在105 ℃下进行烘干处理，直到针叶木材样品完全干燥并冷却至室温20 ℃，采用二分光纤探头采集木材样品的近红外光谱。将近红外光谱仪光纤探头对准白板进行空白校准（校准白板由聚四氟乙烯材质制成）后采集木材样品近红外光谱。

江泽慧等研究表明，木材样品的3 种切面的近红外光谱包含的信息均能表征木材样品，且信息含量较为丰富[12]。因此本研究应用光谱仪二分光纤探头采集样品横断面近红外光谱（即木材样品弦切面光谱），对针叶木材样品相对的两个端面各采集3 次近红外光谱。近红外光谱仪会在1.5 s 内对针叶木材样品连续扫描30 次，取其平均近红外光谱作为最终的输出光谱，采集间隔为1 nm，记录近红外光谱区波长范围为350～2 500 nm（图1）。

图1 135个木材样品全波段近红外光谱图Fig.1 Full-band near-infrared spectrum of 135 wood samples

3 光谱波段优选方法与建模评价

3.1 波段优选方法

近红外光谱的波长范围为780～2 500 nm，每一个波长点对应一个近红外光谱数据，近红外光谱全波段一共包含了1 700个数据点，在这些波长点中可能包含了背景噪音等冗杂信息，不可避免的会存在共线性问题，这都会对模型的预测精度和拟合效果产生影响，因此对近红外光谱波段进行优化与变量选择有重要意义。常见的波段优选方法有竞争性自适应重加权法（Competitive adaptive reweighted sampling,CARS）、无信息变量消除法（Uniformative variable elimination,UVE）和间隔偏最小二乘法（Interval partial least square,iPLS）等。

竞争性自适应重加权法（CARS）是模仿达尔文进化理论中适者生存的原则，每次通过自适应重加权采样[17]（Adaptive reweighted sampling,ARS）技术在偏最小二乘（PLS）模型中筛选具有大回归系数绝对值的波长点，并去除具有小权重和较低信息含量的波长点。最后，通过交互检验选择具有最低交叉验证标准偏差（RMSEC）的子集，并且有效地选择与测量属性相关的最佳波长组合[18]。

无信息变量消除法（UVE）是由Centner 等提出，并用于近红外光谱数据处理，其目的是减少最终PLS 模型中包含的变量数量，降低模型的复杂性，提高PLS 模型的预测效果[9]。UVE 法用作PLS 回归系数的变量筛选方法，基本思想是使用回归系数作为波长重要性的度量指标，通过引入系统噪音变量，有效去除系统噪音，最终保留有用波段的信息变量。

间隔偏最小二乘法（iPLS）将测量的光谱划分为N个等宽的波段区间，将每个波段区间中连续的M个波长点作为窗口，选取最大主成分数，并使用PLS 为每个窗口建立预测模型，根据模型评估系数，找到与每个波段间隔对应的最优主成分数，最后比较每个窗口的最佳预测模型，确定目标光谱信息含量最多的建模区间[19]。

3.2 建模方法

在近红外光谱分析建模方法中，偏最小二乘法（PLS）可以有效解决近红外光谱信息量多的问题，采用逐步增加新信息的方法，在一定的程度上可以消除由外界噪音所带来的影响，提高数据精度，并且将自变量与因变量矩阵的关系关联起来，以此获得最佳的模型。偏最小二乘回归法又是多元线性回归法和主成分回归法的有效结合体，因此基于以上特性，本研究采用偏最小二乘法对实验样品进行建模分析。

将所采集的实验样品近红外光谱数据导入ViewSpecPro 软件中，进行近红外光谱筛选，取样品近红外光谱数据的平均值作为所测样品的近红外光谱数据，导入化学计量学软件unscrambler9.7进行处理。为消除高频噪声、基线漂移、光散射等影响，将近红外光谱数据转换成吸收度值后，利用卷积平滑处理的预处理方式对近红外光谱进行预处理。然后采用CARS、UVE 和iPLS 方法对近红外光谱波段进行特征变量优选，最后建立偏最小二乘法的针叶木材基本密度近红外模型，上述采用的CARS、UVE、iPLS 等算法程序均在软件MATLAB 2012a 中进行。

3.3 模型评价

评价模型的质量主要采用相关系数R、校正均方根误差和预测均方根误差（RMSE）等参数指标，其公式如下：

式中：n是建模所用样品数，si是实测值，是实测值的平均值，是预测值。

相关系数越大说明模型的拟合效果越好，校正均方根误差越小表明模型的拟合性越好，预测均方根误差越小，模型拟合预测效果越好，并通过完全交互验证（Full cross validation）方法检验模型，评价模型效果，确定最佳的模型优化方法，得出最优针叶木材基本密度近红外模型。

4 结果与分析

4.1 不同密度木材样品近红外光谱特征

如图2a 所示，以红松木材样品为例，横坐标为近红外光谱的波长，纵坐标是近红外光谱的吸收度，A、B、C 分别代表对应基本密度为最小值、接近平均值、最大值的3个红松木材样品的近红外光谱曲线，其数值分别为0.283 3、0.372 5、 0.508 0 g/cm3。

由图2a 可知，随着红松木材样品密度的增大，

图2 针叶木材近红外原始光谱图Fig.2 Near-infrared original spectrum of coniferous wood

4.2 近红外光谱波段优选

4.2.1 竞争性自适应重加权法（CARS）

利用CARS 法对实验样品基本密度近红外光谱进行关键变量的筛选，筛选结果见图3。图3 中a、b 和c 分别表示在1 次CARS 算法运行中随着采样次数（本次采样次数设定为50 次）的增加，变量数量和十字交叉验证RMSECV 数值以及每个变量回归系数的变化。

图3a 表示由于指数衰减函数的作用，随着蒙特卡洛（Monte Carlo）运行次数的增多针叶木材样品变量数目由快至慢地递减，即在采样次数较少的时候，变量数目在快速地减少，而随着采样次数的变多，变量数目减少的速率降低。表明该算法在数据筛选过程中，精准的对变量进行“粗略选取”和“精细选取”。

图3b 表示交叉验证RMSECV 数值变化趋势图，反映对关键变量的筛选过程。即随着采样次数的变多，单个PLS 模型的交叉验证RMSECV 数值呈现从大变小，再从小变大的变化过程。当采样的次数为35 时RMSECV 达到最小值（在图3c 中“*”垂线表示），表明在第1～34 次的模型采样运算过程中，在近红外光谱数据中和估测木材样品基本密度值无关的变量信息被大量去除。同时可以看到采样次数达到35 次以后RMSECV 数值明显呈现上升趋势，这表明一些关键的变量信息被剔除，致使模型的整体性能变差。

图3c 反映了针叶木材样品变量在每次采样中回归系数的变化路径，图中的符号“*”表示此刻对应着残差值的最低点，与图3a、图3b 的结果相互对应，表明此时运行蒙特卡洛次数到35 次时，获得的变量子集所建立的偏最小二乘模型的交叉验证RMSECV 数值最小，因此可以确定该子集是与估测针叶木材样品基本密度相关较高的关键变量子集，此时变量筛选的结果最佳，共计得到含有17个变量的关键变量子集。

图3 基于CARS 的木材近红外光谱关键变量筛选结果Fig.3 Screening results of key variables in wood near-infrared spectroscopy based on CARS

利用CARS 法筛选所得到的特征波长点，如表3 所示。以木材基本密度为针叶木材样品数据真值，在近红外光谱波长为350～2 500 nm 的范围之间，消除大部分的无关信息变量，最终选取17个近红外光谱特征波长点的所对应的吸收度数值作为特征变量值参与针叶木材基本密度PLS 模型的构建。

表3 CARS 筛选结果Table 3 CARS screening results

4.2.2 无信息变量消除法（UVE）

UVE 作为一种基于回归系数稳定性分析的变量选择方法，采用该方法在近红外光谱波长为350～2 500 nm 的范围内进行变量优选，进行变量稳定性分析。运行计算得到结果（图4），在图正中位置的一条竖直实线作为分界线，分界线左侧为波长变量数据，右侧为随机引入的系统噪音变量数据，在图中上下两条与横坐标轴平行的实线为变量稳定性的上下阈值线。通过设定初始阈值，确定变量选择范围。依据UVE 算法工作原理，可以认定处于两条阈值线之间的变量是无关信息变量，超出阈值的部分为有用信息波长变量，同时用符号“*”标记，因此本研究选取阈值线上下两侧的近红外光谱波段作为特征波长点构建针叶木材基本密度模型。

通过无信息变量消除法计算筛选，统计最终筛选得出符合要求的特征变量点的数量为930个，将其作为数据输入参与针叶木材基本密度模型的构建。

4.2.3 间隔偏最小二乘法（iPLS）

基于iPLS 算法原理，将近红外光谱全波段分割成20个等距波段进行PLS 计算，并在交互验证后，得到其波段筛选结果（图5）。图中纵坐标表示各波段交互验证均方根误差（RMSECV），图中的虚线表明近红外全光谱区（350～2 500 nm）建模的交互验证均方差值。

由于验证均方根误差值越小的特征变量波段越好，故本研究选取虚线以下的RMSECV 数值相对较低的特征变量波段进行数据建模，结合图5 最终选取5、6、7、9、10、11、12、14、15、16、17号波段为建模波段。根据相对应的近红外光谱波段，得出对应的光谱数据值，将特征波长点映射到近红外全光谱波段（350～2 500 nm）中，并筛选特征变量参与针叶木材基本密度模型的构建。

4.3 木材基本密度预测模型

在利用变量筛选方法选出近红外光谱特征变量后，结合偏最小二乘法对针叶木材基本密度数值，分别建立近红外全光谱结合偏最小二乘法（全光谱-PLS）、竞争性自适应重加权法法结合偏最小二乘法（CARS-PLS）、无信息变量消除法结合偏最小二乘法（UVE-PLS）、间隔偏最小二乘法结合偏最小二乘法（iPLS-PLS）这4个针叶木材基本密度模型，得到主成分贡献率（图6）。

图4 UVE 近红外光谱波段筛选结果Fig.4 UVE near-infrared spectral band screening results

图5 iPLS 近红外光谱波段筛选结果Fig.5 iPLS near-infrared spectral band screening results

由图6 可得出各针叶木材基本密度模型校正集和验证集的主成分数贡献率，在随着主成分数的增加的同时，校正集模型的贡献率呈现不断上升的趋势，当校正集贡献率达到最大值时，此时对应的主成分数即最佳主成分数，在选取最佳主成分数下构建针叶木材基本密度模型将使得模型的拟合效果达到最佳。因而在确定最佳主成分数后，构建模型得到不同波段优选方法处理后，得到针叶木材基本密度模型相关系数和均方根误差值等模型结果（表3）。

由表3 可知，全光谱-PLS 模型的验证集相关系数和均方根误差分别为0.794 0 和0.036 6，最佳主成分数分别为2，由于模型的波段较长，包含了大量的背景噪音等一些其他的无关信息变量，而有用信息变量不明显，故模型选取的最佳主成分数较低，模型的精度不高。而CARS-PLS 模型的验证集相关系数和均方根误差分别为0.842 7 和0.031 4，最佳主成分为3，由于选取的变量数较少，导致参与建模的部分有用信息量精简，使得最佳主成分数提升不明显，但整体模型的精度有所提升。

图6 4 种模型主成分贡献率Fig.6 Four components of the main component contribution rate map

表3 不同波段优选处理建模结果Table 3 Different bands preferred processing modeling results

而UVE-PLS 模型的验证集相关系数和均方根误差分别为0.856 7 和0.029 7，最佳主成分数分别为9，表明在进行变量选择时，去掉了大量的背景噪音等无用的信息量，使得有用信息量明显突出，因而建模时的最佳主成分数明显增加的同时，也在保留关键特征变量数较多的情况下优化模型，使得模型复杂程度降低，提升模型运算速度。

在这3 种波段优选的方法中，利用iPLS-PLS方法得到的针叶木材基本密度模型结果最好，得到校正相关系数为0.938 0，校正均方根误差为0.021 8，验证相关系数为0.895 9，验证均方根误差为0.028 0，模型的最佳主成分数数值最大为10，几个评价模型的参数均表明在3 种模型中iPLS-PLS 模型的稳定性和精度最佳。

通过研究可以得出，在经过近红外光谱波段选择后，近红外光谱变量的数量明显减少，针叶木材基本密度模型的运算速度提升，波段优选的模型相关系数较全光谱模型均有所提高，说明模型的拟合效果提升。同时波段优选模型的校正和验证均方根误差相对全光谱模型均减小，模型的拟合性变好，表明通过波段筛选可以有效地优化针叶木材基本密度模型，提升模型精度和拟合效果。

针叶木材作为天然高分子混合物，其内部结构复杂而且组织成分信息多变，为针叶木材基本密度模型的构建带来一定困难，但采用iPLS 法进行筛选出关键变量，可以有效达到优化模型的效果。iPLS-PLS 波段筛选法适合针叶木材基本密度预测的变量筛选法，可以做到有效筛选近红外光谱波段变量，使参与建模的变量数量减少、模型简化、提高模型运算速度，并提升针叶木材基本密度模型的拟合效果和精度。

采用iPLS 法筛选波段并利用偏最小二乘法优化建模后，将未参与建模的针叶木材样品近红外光谱数据作为输入，得到针叶木材基本密度数值结果，如图7 所示。横坐标表示针叶木材样品基本密度测定值，纵坐标表示针叶木材基本密度预测值。

图7 iPLS-PLS 针叶木材基本密度模型预测结果Fig.7 iPLS-PLS conifer wood basic density model prediction results

由图7 可见所建立基本密度实测值与预测值的回归趋势线基本与1:1 理想趋势线重合，针叶木材基本密度模型模拟线偏离1:1 线越少，模型预测的效果越好[22]。而模型预测相关系数为0.88，由于数值大于0.80，表明模型预测效果较好[23]。校正集和验证集检验参数表明所建立模型精度较高，达到完全交互验证的模型检验要求，结果确定基于iPLS-PLS 的针叶木材基本密度模型可以实现对针叶木材基本密度的准确快速估测。

5 结论与讨论

本研究运用近红外光谱分析技术结合偏最小二乘法构建针叶木材基本密度模型，对比分析针叶木材样品分别在CARS、UVE、iPLS 波段优选方法下，构建的针叶木材基本密度模型的拟合效果，根据模型评价参数确定针叶木材基本密度最优估测模型。

对比分析针叶木材基本密度模型结果得出，通过波段筛选可以有效地简化模型，提升模型预测精度、拟合效果以及稳定性。在3 种变量优选方法后所建立的模型中，利用iPLS-PLS 方法筛选变量得到的模型结果最好，针叶木材基本密度模型校正相关系数为0.938 0，校正均方根误差为0.021 8，验证相关系数为0.895 9，验证均方根误差为0.028 0。

本研究得出采用iPLS 方法对近红外光谱波段进行筛选时，保留关键有效信息的特征波段，又去掉大部分无用的信息波段，可以实现对波长的快速选择。确定iPLS 方法优化的针叶木材基本密度模型为最优模型，其模型精度最高，可以更快速、便捷地进行针叶木材树种基本密度预测。同时结合针叶木材的其他基本性质评定木材的质量等级，确定针叶木材最佳用途，获取最大的经济效益，也为后续针叶木材其他方面的性质研究提供依据。

本研究针叶木材基本密度近红外估测模型是建立在东北林区红松、落叶松、云冷杉三种针叶木材样品的基础上，对于其他针叶木材的基本密度估测的可靠性有待进一步研究验证，在后续研究中可以通过采集多种不同的针叶树种木材样品，参与基本密度估测模型的优化验证及模型校正，以扩大针叶木材基本密度估测模型的应用范围。将本研究的木材基本密度估测模型应用于检测针叶木材的基本密度，在后续研究中会应用近红外光谱技术对取样前的活立木基本密度真值进行测定与计算，以便与优化后的模型进行对比分析，综合评价现有模型的不足，并调整模型增强模型的实用性。

本研究采用针叶木材样品绝干状态下的光谱数据构建基本密度估测模型，考虑到后续模型迁移时实验测定的温度、湿度等实验条件的影响，在后续研究中会进行多批次采样，模拟不同的温度、湿度等应用场景，依据不同条件下的光谱数据对基本密度估测模型的参数进行调优，以反映最真实的木材基本密度信息，增强模型的泛化能力。