应用遗传算法-主成分分析-反向传播神经网络的近红外光谱识别树种效果1)

2020-06-27 16:08冯国红朱玉杰徐华东蒋天宁
东北林业大学学报 2020年6期
关键词:紫檀识别率贡献率

冯国红 朱玉杰 徐华东 蒋天宁

(东北林业大学,哈尔滨,150040)

为了满足国民经济发展及人民生活用材日益增长的需要,我国每年需要从欧美、东南亚、非洲等地区进口上千万立方米的木材[1-2]。据海关进口数据统计,2018年仅第一季度我国的原木进口量达1 437.86万m3。数量庞大的进口木材中树木种类多样,而同材积不同树种的木材价格差异巨大。正因如此,以次充好的现象常有发生,如蚁木(Tabebuiaspp.)冒充紫檀木(Pterocarpusspp.)、铁木豆(Swartziaspp.)冒充红酸枝(Dalbergiaspp.)等。树种不符已经成为进口木材贸易中最常见的欺诈手法,快速、准确的鉴别树种是维护进口贸易公平、公正,解决进口贸易纠纷、保证良好市场流通的关键[3-5]。

近红外光谱技术具有绿色、快速、无损等优点,许多研究者结合支持向量机、反向传播(BP)神经网络等分类方法,将近红外光谱技术应用于木材种类识别[6-10]。由于近红外光谱的数据量较大,因此,往往需要对其做数据降维处理,主成分分析法(PCA)是较常采用的降维方法之一[11-12]。许多研究者在选择主成分个数时,仅凭累积贡献率的大小进行选择,而主成分分析方法中关于累积贡献率的考虑原则一般为大于85%即可[13-16]。可见,依据此原则进行选择时,主成分的可选范围较宽,选择的主成分数越多,累积贡献率越大,越容易满足此原则。因此,选择主成分时主观性往往较强,大部分选择接近100%的。分析支持向量机、BP神经网络等分类方法的特点可知,输入特征数量的多少会影响这些方法识别的准确率,因此,有必要将主成分的选择与分类方法结合考虑,寻找一种更恰当的主成分选择方法,以保证分类方法获得较高的识别率。

本文以风车木(Conbretumimberbe)和非洲小叶紫檀(PterocarpustinctoriusWelw)为研究对象,以BP神经网络为分类方法,依据遗传算法(GA)寻优能力[17-18],运用GA对主成分进行寻优;通过分析主成分经GA寻优前后BP神经网络的识别结果,揭示GA用于主成分寻优的规律;以期为近红外光谱应用PCA依据BP神经网络识别树种时,提供一种更恰当的特征选择方法,从而保证更理想的识别效果。

1 材料与方法

1.1 主要仪器与数据采集

主要仪器:美国ASD公司生产的LabSpec 5000光谱仪,波长范围350~2 500 nm,光谱分辨率——分辨波长在700 nm时分辨精度为3 nm、分辨波长在1 400 nm时分辨精度为10 nm、分辨波长在2 100 nm时分辨精度为25 nm,使用光谱仪配套的软件Indico Pro Version3.1采集光谱。

数据采集:木材试样为6 cm×4 cm×1 cm的木块,每块木块采集10组光谱数据,风车木和非洲小叶紫檀各采集150组,共采集300组。

1.2 数据预处理

平滑处理:采用7点移动平滑处理。

波长的筛选:观察平滑处理的光谱图,两端的谱图噪声较大,选取波长为500~2 200 nm的数据为分析范围。

归一化处理:将数据集映射到[0,1]上。

1.3 GA-PCA-BP神经网络识别方法

设计思路:利用遗传算法进行优化计算[19-22],需要将解空间映射到编码空间,每个编码对应问题的一个解(即为染色体或个体)。此处将编码长度设计为N(N=选择的主成分个数),染色体的每一位对应一个输入自变量,每一位的基因取值只能是“1”和“0”两种情况,如果染色体某一位值为“1”,表示该位对应的输入自变量参与最终的建模;反之,则表示“0”对应的输入自变量不作为最终的建模自变量。选取测试集数据均方误差的倒数作为遗传算法的适应度函数,经过不断地迭代进化,最终筛选出最具代表性的输入自变量参与建模。

设计步骤如图1所示。

(1)单BP模型建立。为了方便比较遗传算法优化前后的识别效果,采用选取的主成分做输入自变量。

(3)优化结果输出。经过一次次的迭代进化,当满足迭代终止条件时,输出的末代种群对应的便是问题的最优解或近优解,即筛选出的最具代表性的输入自变量组合。

(4)优化BP模型建立。根据优化计算得到的结果,将选出的参与建模的输入自变量对应的训练集和测试集数据提取出来,利用BP神经网络重新建立模型进行测试,从而进行结果分析。

2 结果与分析

2.1 光谱分析

经过平滑处理后的光谱图显示,风车木和非洲小叶紫檀两种树种的光谱图存在明显的差异(见图2)。

2.2 主成分分析

对风车木和非洲小叶紫檀的平滑处理数据进行主成分分析,获得20个主成分的贡献率和累积贡献率(见表1)。由表1可见:风车木的前3个主成分累积贡献率超过了85%,而非洲小叶紫檀的前3个主成分累积贡献率未达到85%,前4个主成分累积贡献率超过了85%。因此,按照累积贡献率大于85%的选取原则,风车木可选前3个及以上主成分为特征,非洲小叶紫檀可选前4个及以上主成分为特征,考虑到选取3个主成分为特征,个数较少,不利于识别,且为了使两树种的研究具有一致性,本文选取前4个及以上的主成分作为识别特征进行研究。

表1两树种的主成分贡献率和累积贡献率

主成分风车木贡献率/%累积贡献率/%非洲小叶紫檀贡献率/%累积贡献率/%157.957.950.650.6223.281.122.473.0310.491.510.183.141.292.75.388.451.193.82.390.760.594.31.392.070.494.70.992.980.395.00.593.490.395.30.493.8100.395.60.394.1110.395.90.394.4120.296.10.394.7130.296.30.395.0140.296.50.395.3150.296.70.395.6160.296.90.395.9170.297.10.296.1180.297.30.296.3190.297.50.296.5200.297.70.296.7

2.3 PCA-BP神经网络法的树种识别

分别以前4~前20个主成分作为特征,采用Matlab软件对BP神经网络识别风车木和非洲小叶紫檀的效果进行测试。测试中从290组样本中随机选取240组样本作为训练样本,50组作为测试样本,每种情况测试20次。对测试结果进行平均、变异性等整理(见表2)。

由表2可见:以前4~前8主成分为特征时,正确识别率较高,平均值最小为85.7%,最大为92.5%;以前9~前20个主成分为特征时,正确识别率不高,平均值最小为41.8%,最大仅为71.8%。对比前4~前8和前9~前20识别率的变异系数,前者较小,说明前4~前8主成分作为特征时,正确识别率的稳定性较好。

表2 不同主成分数的正确识别率

为进一步分析不同主成分数作为输入特征时BP神经网络识别的差异性,对前4和前5的识别率进行t大小指数主要体现了相邻检验,对前4~前6、前4~前7、…、前4~前20的识别率分别进行方差分析(见表3)。由表3可见,取前4~前8主成分分别为输入特征时,识别的差异性不显著(P>0.05)。当选取的主成分数达到9时,差异性开始显著(P=9.36×10-5<0.05)。观察主成分数大于9之后的P值发现,随着主成分数的增加,P值越来越小;当选取的主成分数为12时,P值仅为1.04×10-11;当选取的主成分数为20时,P值为4.36×10-36,几乎为零。随着选取的主成分数的不断增加,BP神经网络识别的差异性越来越明显。

表3 不同主成分数的差异性检验

2.4 GA-PCA-BP神经网络法的树种识别

考虑寻优后主成分数应≥4,因此,寻优前主成分数应大于4,这里从6开始,以前6~前20个主成分作为寻优前的特征,应用GA对其进行寻优。以寻优后的主成分组合作为BP神经网络的输入量,对BP神经网络识别风车木和非洲小叶紫檀的效果进行测试,测试方法同“PCA-BP神经网络法的树种识别”,将寻优后的平均识别率和变异系数整理(见表4)。

表4 GA寻优后的正确识别率

比较表3和表4可见:应用GA对主成分进行寻优后,BP神经网络识别的准确率有所提高,变异性有所下降。前6~前17个主成分经过GA寻优后,识别的准确率均较高,平均值最小为86.5%、最大达98.0%,前6~前12主成分寻优后的平均识别率均在90%以上。

依据表3、表4,对寻优前后的识别率和变异系数进一步做方差分析(见表5)。由表5可见:得到的P值分别为8.000×10-6、5.447×10-3,均小于0.05,表明寻优前后识别的准确率和变异性均存在显著的差异。

同样,为进一步分析不同主成分数经GA寻优后BP神经网络识别的差异性,对前6和前7寻优后的识别率进行t检验,对前6~前20寻优后的识别率分别进行方差分析(见表6)。由表6可见:前6~前17主成分经GA寻优后,BP神经网络获得的识别率差异性不显著(P>0.05);当寻优前的主成分数达到18及以上时,BP神经网络获得的识别率差异性显著(P<0.05)。

表5 识别率和变异系数的方差分析

表6 GA寻优后的差异性检验

整理GA寻优后的主成分编号,由于数据较多,此处仅列出了前6~前9各自的10次寻优结果(见表7)。由表7可见:寻优后的主成分组合中均包含了第1和第2主成分,第3、第4主成分出现的频次也较多;表明GA的寻优结果与主成分的贡献率有关,主成分的贡献率越大,越容易被选择;这与原有主成分的选择原则具有一致性。此外,训练样本发生改变时,寻优的主成分组合又有所不同,表明GA寻优时除了考虑主成分的贡献率,还与选择的样本有关。与原有选择固定的主成分作为特征相比,该方法更灵活,因此,更能保证识别的准确率。

2.5 PCA经GA寻优前后的结果比较

未经GA寻优的主成分,选择时大多仅凭累积贡献率,选择的主成分是固定的。经过GA寻优的主成分组合,会包含贡献率大的主成分,同时,会随着样本的变化而发生改变,选择的主成分更灵活。

表7 GA寻优后的主成分编号

“PCA-BP神经网络法的树种识别”中,前4~前8主成分作为输入变量时,正确识别率较高,当主成分数大于8时,识别率下降,主成分数越多下降的越显著。可见,此时获得高的识别率的主成分区间较窄,仅有5种情况识别效果理想。此种情况显然不利于主成分数的选择,若仅考虑累积贡献率,以较多的主成分作为特征,得到的识别率将较低。

“GA-PCA-BP神经网络法的树种识别”中,以前6~前17个主成分进行寻优识别时,识别率均较高,当以前18~前20个主成分进行寻优识别时,识别率较低。对比未经寻优的识别结果可看出,此时获得高的识别率的主成分区间较宽,从前6~前17有12种情况可供选择,显然这种方法更利于主成分的选择。一般以累积贡献率选择主成分个数时,大多不会超过17个,因此,依据GA对主成分寻优时,只要选择的主成分不是太少,便可获得较好的识别效果。

比较寻优前后的变异系数,经过寻优之后的变异系数较寻优前小,表明其正确识别率的波动较小,识别结果更稳定。

3 结论

本文依据GA-PCA-BP神经网络对近红外光谱识别树种进行了研究。以风车木和非洲小叶紫檀为研究对象,应用PCA对近红外光谱数据进行了特征提取,利用GA对主成分特征进行了寻优,分别将寻优前和寻优后的主成分特征作为BP神经网络的输入变量,进行树种识别测试。结果表明:依据BP神经网络识别树种时,运用GA对近红外光谱的主成分特征进行寻优,可使寻优前的主成分特征的选择变得更宽泛,更容易保证BP神经网络获得较高的识别率,且识别结果更稳定。利用近红外光谱依据GA-PCA-BP神经网络方法识别树种是一种理想的方法。

猜你喜欢
紫檀识别率贡献率
水边的紫檀靠椅
一种通用的装备体系贡献率评估框架
中国紫檀博物馆
14.8%
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
不变的是流光还有那一抹紫檀之美
紫檀树