庞晓宇,杨 忠*,吕 斌,贾东宇
1. 中国林业科学研究院林业新技术研究所,北京 100091 2. 中国林业科学研究院木材工业研究所,北京 100091
基于近红外光谱与误差反向传播神经网络技术的三种人工林木材识别研究
庞晓宇1, 2,杨 忠1, 2*,吕 斌2,贾东宇2
1. 中国林业科学研究院林业新技术研究所,北京 100091 2. 中国林业科学研究院木材工业研究所,北京 100091
利用近红外光谱结合误差反向传播神经网络(BP)对三种人工林木材(尾叶桉、马尾松、南方无性系I-72杨)进行识别,探讨隐含层神经元个数、光谱预处理方法、光谱范围对BP网络模型的影响,并与SIMCA法所建模型做比较。结果表明: (1)BP网络结合全波段(780~2 500 nm)近红外光谱数据建模,识别正确率达到97.78%,并确定隐含层神经元数为13;(2)全波段光谱建模比短波段(780~1 100 nm)和长波段(1 100~2 500 nm)光谱建模识别效果好,其识别正确率分别为97.78%, 95.56%和96.67%,用一阶导数和二阶导数对全波段光谱进行预处理后,BP网络模型识别正确率分别为93.33%和71.11%;用多元散射校正(MSC)对全波段光谱进行预处理后,BP网络模型识别正确率为98.89%,(3)在三种波段(780~2 500,780~1 100和1 100~2 500 nm)光谱建模的情况下,BP网络建模识别正确率分别为95.56%, 96.67%和97.78%,SIMCA模型识别正确率分别为76.67%, 81.11%和82.22%,BP网络建模比SIMCA法建模对三种人工林木材的识别正确率高。
BP网络;近红外光谱;SIMCA;分类;尾叶桉、马尾松、南方无性系I-72杨
我国木材资源短缺,为了缓解这一矛盾,必须大力发展人工林并高效利用木材资源。我国人工林保存面积达8亿多亩,居世界第一,其中杨树总面积超过1亿500万亩,桉树总面积6 000多万亩,马尾松是我国南部重要用材树种,经济价值高,然而,传统的木材品质鉴别方法需要消耗大量的人力、物力及时间,因此,寻求一种快速、准确、低成本地评价木材性质的方法是木材科学研究的重要内容之一。近红外光谱分析技术是一种无损、快速的木材识别技术,九十年代开始有用于识别木材的研究[1-2],近十几年,国内外研究均取得一定进展,但都是采用传统的多元统计方法对近红外光谱建模,主要是主成分分析法(principal components analysis,PCA)[3]、簇类独立软模式法(soft independent modeling of class analogy,SIMCA)[4-5]和偏最小二乘回归法(partial least squares regression,PLSR)[6 -8]。
人工神经网络是一种强容错性、强抗干扰的非线性建模方法,近红外光谱结合人工神经网络在木材领域的研究很有限,在材质预测方面,李湃等对落叶松密度[9-10]和含水率[11]进行预测,Christian等[12]预测了火炬松的气干密度、微纤丝角、硬度、管胞长度和管胞壁厚,Watanabe等[13]预测了木材表面的干燥应力,在木材识别领域,马明宇等分别用广义神经网络和BP神经网络对不同产地和品种的89个木材切片近红外光谱进行识别,重点探讨了白噪音和偏置对识别效果的影响,但每种树种建模数量过少。本研究对我国产量大、应用广且具有代表性的桉树、马尾松、杨树三种人工林木材树种进行识别,分别用近红外光谱结合误差反向传播神经网络(back-propagation network,BP)和SIMCA法建立模型,并对两种方法进行比较,旨在为近红外光谱结合人工神经网络对人工林木材树种快速识别的可行性进行研究。
1.1 样品和光谱的采集
试验采用的马尾松(Pinusmassoniana)和南方无性系I-72杨(Populus×euramericana (Dode) Guineir cv. ‘San Martino’ (1-72/58))采自安徽省黄山区黄山公益林场(东经118°14′~118°21,北纬32°4′-32°10),尾叶桉(Eucalyptusurophylla)采自广东省遂溪县城月镇雷州林业局迈进林场(东经109°39′~110°38′,北纬20°18′-21°30′),将新鲜原木旋切为2 000 mm×1 300 mm×1.7 mm的木板,在大气中自然干燥,为了方便测量,再将气干后的木板加工成400 mm×200 mm×1.7 mm的小木板,每个树种90个样品,共270个样品。
选用美国ASD公司生产的Field SpecR近红外光谱仪(350~2 500 nm)进行光谱采集,用白板(商用聚四氟乙烯)校准,光纤探头垂直于样品表面,每扫描30次并自动平均为一条光谱后保存起来,光斑直径为1.8 cm。为减少每次操作状态不同造成的误差,每次光谱采集前都要对近红外光谱仪预热30 min。
1.2 数据分析
近红外光谱经ASD提供的专业软件转换成光谱数据文件,用Unscrambler 9.2软件对光谱数据进行预处理和SIMCA分析,用Matlab2012b进行人工神经网络数据分析。
图1为BP网络对木材近红外光谱数据分析流程图,其中X是输入向量,Y是隐含层输出向量,O是输出层输出向量,d是期望输出向量,V是输入层到隐含层权值,B是输入层到隐含层阀值,W是隐含层到输出层权值,G是隐含层到输出层阀值,Emin是目标误差,η是学习率,q是训练次数,p是训练样本,Ep是每个样本误差,ERME是网络总误差。
图1 BP网络分析木材近红外数据流程图
图1中,(1)对网络赋予随机的初始权值和阀值,将样本模式计数器p和训练次数计数器q置为1,误差E置0,η设为0~1内的小数,Emin设为一个正的小数;(2)木材近红外光谱数据作为输入向量,输入网络,计算各层输出y和o;(3)计算每个样本的输出误差;(4)计算各层误差信号;(5)调整网络权值和阀值;(6)检查是否对所有样本完成一次轮训,若没有完成,计数器p增1,返回步骤(2),否则转步骤(7);(7)检查网络总误差是否小于目标误差,若是,则建模成功,否则E置0,p置1,返回步骤(2)。
2.1 近红外光谱结合BP网络建模对人工林木材的识别
尾叶桉、马尾松、南方无性系I-72杨三种木材的近红外光谱数据进行建模,每个树种有90条光谱,随机选取其中2/3用于建模,1/3用于预测,共180条光谱用于建模,90条光谱用于预测。建模的光谱范围为780~2 500 nm,通过PCA法在近红外波段上提取特征向量,由于前8个主成分的累计贡献率达到99%以上,能代表原光谱包含的大部分信息,所以将8个主成分的得分矩阵作为BP网络模型的输入向量。网络期望输出采用0,1分类,若是该树种,对应位置显示为1,否则,显示为0,则桉树为1 0 0,马尾松为0 1 0,杨树为 0 0 1,当样品对应位置网络输出值大于0.5,且其他位置小于0.5时,则判定该样品识别正确,否则为错误,采用均方根误差(RMSEP)和正确率反映模型对未知样本的预测效果,正确率越高,RMSEP越小,模型的拟合效果越佳。
建模采用单隐含层的前向BP网络,输入层到隐含层为线性传递,隐含层到输出层为对数传递,随机赋予网络初始权值和阀值,采用L-M(Levenberg-Marquardt)算法对网络权值和阀值进行调整,以得到小于目标误差的参数向量,学习率为0.1,最大训练次数为50 000次,设定的目标误差为0.001,网络误差为均方误差。网络隐含层神经元数一般由经验公式得出,a为0~10之间的常数,m和n分别是输入、输出神经元个数,表1中分别显示7种神经元数建立的模型,每类模型预测十次,取十次结果平均值作为最终结果。
结果表明,BP网络结合近红外光谱能较好的识别木材,最高正确率达到97.78%,由于本实验均采用Levenberg-Marquardt算法建模,模型收敛速度快,且输出向量较少,所以BP-Model1-7的建模时间短,均在2 s以内。在所有模型中,桉树和马尾松都各有一个树种不能正确识别,杨树中有两个树种不容易识别,但通过调整隐含层神经元数,可以对模型优化,一般隐含层神经元数越多,拟合程度越高,但神经元数过多,可能出现过拟合现象,降低识别率,同时神经元数越多,内部运算越复杂,建模耗时越长,对计算机的运算能力要求越高,所以对于非线性较弱,输入和输出波形不复杂的识别系统,在隐含层神经元数不多的情况下,也能得到较好的识别效果,所以综合考虑,Model4中,隐含层数为13时,既满足正确率高,均方根误差较小的要求,又不会对建模时计算机运行造成负担。
2.2 BP网络的近红外模型优化研究
BP网络模型优化,从光谱预处理和波段选择两方面进行研究,分别选取780~1 100,1 100~2 500和780~2 500 nm三种波段建模,并对全光谱数据进行一阶导数、标准正态变换(standard normal Variation,SNV)和多元散射校正(multiplicative scatter correction,MSC)预处理,对不同波段光谱数据和同一波段不同预处理后的光谱数据分别进行主成分分析降维,选取贡献率达到99%以上的主成分作为输入向量,神经元数确定为13,建模如表2所示。
表1 不同隐含层神经元数的BP网络模型
表2 不同预处理和光谱波段选择的BP网络模型
由BP-Model 4,BP-Model 8和BP-Model 9的总正确率得出,780~2 500 nm波段建模识别效果最好,780~1 100 nm波段建模识别效果最差,从各树种的识别情况,可知在1 100~2 500 nm波段对桉树和马尾松都能全部识别,杨树有两个识别错误,而在全波段范围,杨树能全部识别,桉树和马尾松各有一个样本识别错误,不同波段所包含的木材化学信息不同,识别效果有一定的差异。对全光谱波段数据分别进行三种光谱预处理,结果显示,多元散射校正能提高模型识别正确率。一阶导数和二阶导数处理后的数据建模,识别正确率下降很多,并且贡献率达到99%以上需要的主成分数过多,说明导数处理后光谱数据的关联性降低,可能原因是导数处理使近红外数据失真。
2.3 BP网络模型和SIMCA模型比较
图2为三种人工林树种780~2 500 nm的近红外光谱图,每个树种选取三条样品光谱作图,可以直观的看出,三种木材光谱图能相互区分,但桉树和杨树光谱较接近,而马尾松光谱与另两种木材光谱区别明显,造成这种现象的可能原因是杨木和桉树均为阔叶材,而马尾松为针叶材,针阔叶材的化学组成和解剖构造都有一定差异,为进一步区分这三种木材,对其进行PCA分析,图3为三种木材所有样品的PCA得分图,从图中可以看出,样品聚成三簇,但桉树和杨树较接近,有个别样品混合到一起,马尾松能很好的与另两种树种区分开,这与图2显示的结果一致,马尾松样品的簇类较分散,是由该样品自身差异较大造成。
图2 三种木材近红外光谱图
图3 三种木材近红外光谱的PCA得分图
SIMCA是以主成分分析为基础的分类方法,表3中显示了三种波段SIMCA模型的预测结果,并且与BP网络模型预测做对比,结果表明,对不同波段的建模效果,SIMCA法显示的结果与BP网络建模呈现的规律相同,均是780~2 500 nm波段建模识别效果最好,780~1 100 nm波段识别效果最差,但在三种波段模型中,BP网络模型的木材识别率均明显高于SIMCA模型的识别率,并BP网络采用L-M算法对权值和阀值调整建模,建模时间比SIMCA法短。
表3 SIMCA与LM-BP网络模型比较研究
利用近红外光谱结合误差反向传播神经网络对三种人工林木材树种的识别进行了研究。BP网络对近红外全光谱建模识别三种人工林木材树种,识别率达到97.78%,识别效果较优,并神经元数确定为13;BP网络模型优化研究,对光谱进行预处理,并用不同波段光谱建模,结果显示,全波段光谱建模比短波段(780~1 100 nm)和长波段(1 100~2 500 nm)光谱建模识别效果好,其识别正确率分别为97.78%,95.56%和96.67%,多元散射校正处理能提高BP模型识别正确率至98.89%,一阶导数和二阶导数预处理会使识别正确率分别下降至93.33%和71.11%;在三种波段光谱建模的情况下,BP网络建模识别正确率分别为95.56%,96.67%和97.78%,均高于SIMCA法建模对三种人工林木材树种识别正确率76.67%,81.11%和82.22%,并且建模时间要明显小于SIMCA方法;上述结论说明近红外光谱结合误差反向传播神经网络技术可用于人工林木材树种的快速识别。
[1] Borga P, Hämäläinen M, Theander O. Holzforschung-International Journal of the Biology, Chemistry, Physics and Technology of Wood, 1992, 46(4): 299.
[2] Brunner M, Eugster R, Trenka E, et al. Holzforschung-International Journal of the Biology, Chemistry, Physics and Technology of Wood,1996, 50(2): 130.
[3] Russ A, Fiserova M. Wood Res., 2011, 56: 93.
[4] Bächle H, Zimmer B, Wegener G. Wood Science and Technology, 2012, 46(6): 1181.
[5] Dawson-Andoh B, Adedipe O E. Wood Science and Technology, 2012, 46(6): 1193.
[6] Braga J W B, Pastore T C M, Coradin V T R, et al. Iawa Journal, 2011, 32(2): 285.
[7] Watanabe K, Abe H, Kataoka Y, et al. Jpn. J. Histor. Bot., 2011, 19: 117.
[8] Horikawa Y, Mizuno-Tazuru S, Sugiyama J. Journal of Wood Science, 2015. 1.
[9] Li P, Zhang H F, Li Y X, et al. Advanced Materials Research, 2010, 129: 306.
[10] Lia Y, Lia P, Jiangb L. J. Inf. Comput. Sci., 2012, 13: 3783.
[11] Li P, Li Y X. Advanced Materials Research, 2012, 502: 253.
[12] Mora C R, Schimleck L R. Wood Science and Technology, 2010, 44: 561.
[13] Watanabe K, Kobayashi I, Matsushita Y, et al. Drying Technology, 2014, 32(5): 590.
[14] MA Ming-yu, WANG Gui-yun, HUANG An-min, et al (马明宇, 王桂芸, 黄安民,等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2012, 32(9): 2377.
(Received Sep. 26, 2015; accepted Jan. 14, 2016)
*Corresponding author
Recognition of Three Types of Plantation Wood Species with Near Infrared Spectra Coupled with Back-Propagation Network
PANG Xiao-yu1, 2, YANG Zhong1, 2*, LÜ Bin2, JIA Dong-yu2
1. Research Institute of Forestry New Technology, Chinese Academy of Forestry, Beijing 100091, China 2. Research Institute of Wood Industry, Chinese Academy of Forestry, Beijing 100091, China
In this study, the near infrared spectroscopy coupled with Back-Propagation (BP) network was used for the recognition of three kinds of plantation wood (Eucalyptusurophylla,Pinusmassoniana,Populus×euramericana (Dode) Guineir cv. “San Martino” (1-72/58)). The study considered the effects of hidden layer neurons number, spectral pretreatment method and spectral regions on BP model, which are compared with SIMCA model simultaneously. The results showed that, (1) the recognition rate was 97.78% achieved by BP network model with hidden layer neurons number 13 and the spectral region of 780~2 500 nm. (2) BP model with spectral region of 780~2 500 nm was more robust than the other two BP models with spectral regions of 780~1 100 and 1 100~2 500 nm, of which recognition rates were 97.78%, 95.56% and 96.67%, respectively. After the full spectra was pretreated with the first derivative and the second derivative methods, the recognition rates of BP models fell down to 93.33% and 71.11%. However, the recognition rate of BP model rose to 98.89% with the full spectra being pretreated by the multiplicative scatter correction (MSC). (3) Compared with SIMCA models that recognition rates of three spectral regions (780~2 500, 780~1 100 nm, and 1 100~2 500 nm) were 76.67%, 81.11% and 82.22% respectively, BP network work models had higher recognition rates.
BP network; Near infrared spectroscopy; SIMCA; Classification;Eucalyptusurophylla;Pinusmassoniana;Populus×euramericana (Dode) Guineir cv. “San Martino” (1-72/58)
2015-09-26,
2016-01-14
国家自然科学基金项目(30800889,31370711)资助
庞晓宇,1990年生,中国林业科学研究院林业新技术研究所硕士研究生 e-mail: 408311170@qq.com *通讯联系人 e-mail: zyang@caf.ac.cn
O657.3;S781
A
10.3964/j.issn.1000-0593(2016)11-3552-05