王承琨,赵 鹏,李祥华
1. 广西科技大学电气电子与计算机科学学院,广西 柳州 545006 2. 东北林业大学信息与计算机工程学院,黑龙江 哈尔滨 150040 3. 黑龙江科技大学电子与电信工程学院,黑龙江 哈尔滨 150022
紫檀属约有30种木材,分布于东南亚热带及非洲热带地区,其属内稀有树种数量较多,流通在市场上的木材价格较高。 同属木材具有相似的特征,不法商贩经常“以假乱真”,使消费者的合法权益受到侵害,因此使用有效、 快捷的方法对紫檀属木材树种进行识别具有重要的意义。
在树种识别的过程中,找到能够描述树种信息的特征向量尤为重要。 目前能够获得特征向量的途径主要包括木材的DNA(deoxyribonucleic acid)信息、 木材解剖学信息、 宏观切面信息以及光谱信息。 使用木材的DNA信息和木材解剖学信息的树种识别方法具有较高的识别正确率,但是这些方法识别步骤较为繁琐且需要非常专业的设备,对于非专业人员来说是一类门槛很高的识别方法。
与木材的DNA信息和解剖学信息相比,木材的宏观信息和光谱信息更容易获取,已经有大量学者通过上述信息找到了描述木材树种的有效特征向量[1]。 Zamri等[2]使用I-BGLAM(improved-basic gray level aura matrix)对52种木材横切面的纹理特征进行了提取,该方法与传统的GLCM(gray level co-occurrence matrix)相比具有更高的识别正确率。 Rosli等[3]利用GLCM特征和BP(back propagation)神经网络实现了不到一秒的时间内快速识别热带树种。 Oktaria等[4]使用CNN(convolutional neural networks)卷积神经网络对30个树种的木材横切面进行了树种识别。 Ibrahim等[5]使用木材横切面的管孔统计特征和I-BGLAM特征对木材树种进行了模糊分类识别。 Yusof等[6]使用GA (genetic algorithm)对木材横切面的管孔特征做了特征提取,然后使用KDA(kernel discriminant analysis)和GSVD(generalized singular value decomposition)分解对GA提取到的特征向量做了非线性特征提取,进一步提高了识别正确率。 上述方法均是在单一信息源情况下对树种进行识别,复现上述方法应用于紫檀属木材后发现,上述方法均不能得到较高的识别正确率。 这主要是由于紫檀属木材树种的图像信息和光谱信息较为相似,无法通过单一特征向量对这些木材树种进行区分。
因此采集了5种紫檀属木材的横切面、 弦切面和纵切面的宏观图像信息和光谱信息,考虑将木材切面的纹理特征和光谱特征进行融合,使用融合后的特征对紫檀属的树种进行识别,以期使用木材的多种特征向量加强对木材树种的描述,从而提高紫檀属木材树种的识别正确率。
紫檀属属于蝶形花科,按照GB/T 18107—2000《红木》可以将该属木材分为紫檀木类、 花梨木类以及亚花梨木类。 本工作以紫檀属中5种木材为研究对象,这些木材主要来自国内的红木商家,其详细信息详见表1。 为了防止同质化的出现,在不同商家购买了同种木材样本,这样就可以保证同种木材样本不来自于同一棵树木或全部来自于同一区域。
表1 样本资料Table 1 Sample data
为了方便数据的采集,使用圆台锯将所有木材样本的尺寸统一为长宽高分别为2 cm×2 cm×3 cm的木块,其中长宽对应木材的横切面,其面积为2 cm×2 cm,径切面或弦切面的面积为2 cm×3 cm,锯片尺寸规格为110×0.8×20×108T。 每一块原始木料的形态是不规则的,切割出的样本数量也并不统一,在这些切割后的样本中随机选择2个样本作为原始木料所代表的标准样本,挑选过程中要选择不开裂、 没有虫蛀的样本,最后每个树种产生了50个样本,实验样本集中包含了250个样本。 为了获得较为清晰的木材切面图像,需要使用1 000目的砂纸对木材的各个切面进行打磨。
数据采集平台主要包括光谱采集平台和图像采集平台,图1中分别给出了它们的示意图。 光谱采集平台由美国Ocean公司生产的Optics USB2000-VIS-NIR微型光纤光谱仪、 光源以及采集软件3个部分组成; 图像采集平台主要由支架、 相机镜头、 光学显微镜、 LED(light-emitting diode)光源以及采集软件5个部分组成,该平台可以小倍率放大物体,放大倍率约为10~100倍,光学显微镜可以手动调焦,LED光源为白光,亮度可调节,相机镜头最高支持分辨率为1 920×1 080像素。
图1 木材特征采集设备(a): 光谱采集平台; (b): RGB图像采集平台Fig.1 Wood feature acquisition platforms(a): Spectrum acquisition; (b): RGB image acquisition
采集木材切面上5个不同位置的光谱,并取这些光谱的平均光谱反射率作为样本的光谱反射率曲线。 为了防止光谱失真,每测量5个样本的木材光谱反射率后需要使用白板对其进行校正。
Optics USB2000-VIS-NIR微型光纤光谱仪的波长范围为339.8~1 026.63 nm。 光谱仪采集到的光谱波段信息包括可见光波段,该波段的光谱信息对木材切面的颜色、 光源以及木材的含水率十分敏感。 因此在采集光谱数据时一定要确保木材切面的颜色、 光源以及木材含水率的稳定,降低外界环境对上述因素的干扰,为此,所使用的木材样本均在切割前进行了烘干,其含水率保证在10%以下,室内温度湿度环境保持稳定。
图2中的第一行、 第二行、 第三行图像分别代表紫檀属木材的横切面、 弦切面以及径切面。 图2中的所有RGB(red-green-blue)图像都是在相同比例尺下进行放大的,图2(a)中给出了比例尺。 从图2可以看出紫檀属木材三个切面的RGB图像具有较强的相似性。 在使用纹理特征对木材树种进行识别时,需要消除颜色特征对图像特征的影响,因此在提取图像纹理特征之前必须要将RGB图像进行灰度化。
1.2.1 纹理特征提取方法
纹理特征描述了木材切面上的灰度变化; 影响木材纹理特征的因素有很多,主要包括木材的管孔分布、 木射线走势、 颜色变化等因素。 本工作考虑了多种木材纹理特征描述方法,主要包括GLCM,LBP(local binary pattern)[7],
图2 紫檀属木材切面示意图(a): 大果紫檀; (b): 刺猬紫檀; (c): 安氏紫檀; (d): 非洲紫檀; (e): 赞比亚紫檀Fig.2 Images of Pterocarpus section(a): Pterocarpus macrocarpus; (b): Pterocarpus erinaceus; (c): Pterocarpus antunesii;(d): Pterocarpus soyauxii; (e): Pterocarpus tinctorius
I-BGLAM[8],MFS(multi fractal spectrum)[9],这些算法将分别与光谱特征进行融合,以考虑不同纹理特征在融合光谱特征后的识别正确率。
为了加快识别速度,在提取木材切面纹理特征值前需要将木材切面的图像尺寸压缩到像素。
1.2.2 光谱特征提取方法
使用光谱仪采集到的光谱数据波长范围在339.8~1 026.63 nm之间,其光谱分辨率为0.335 3 nm,光谱数据的维度多达2 048。 由于光谱仪器设备自身的问题,光谱数据在低波长端反射率极易受到干扰,失真程度较大,因此只保留了376.64~1 026.63 nm的光谱数据,其维度为1 950。 为了增强光谱数据的可分性还需要对数据进行SNV(standard normal variate)变换。
图3(a)中给出了原始光谱反射率曲线、 图3(b)中给出了SNV变换后的光谱曲线。 SNV变换后的光谱曲线的维度为1 950,如果直接对这些光谱进行分类处理,不仅容易出现“维数灾难”现象,而且数据处理速度也受到一定影响,因此对光谱数据进行降维处理十分有必要。
对比了多种降维方法的光谱分类效果,这些方法主要包括线性降维方法中的PCA(principal component analysis),非线性降维方法中的KPCA(kernel principal component analysis)和Laplacian,以及波段选择方法SPA(successive projections algorithm)[10]。 PCA, KPCA和Laplacian降维方法是针对整个光谱数据进行的,主要是通过数学变换提取出光谱中最有意义的信息。 SPA的主要思想是消除特征变量间的多重线性关系,从而选择出信息量大的特征波长。
基于典型相关分析CCA(canonical correlation analysis)的特征融合方法可以让两种不同的特征向量融合为一个全新的向量,该向量能够更加有效的描述待识别对象[11],算法具体描述如下:
图3 原始光谱数据与SNV校正结果(a): 原始光谱; (b): SNV校正后光谱曲线Fig.3 Original spectra and SNV corrected spectra(a): Original spectra; (b): SNV corrected spectra
(1)
(2)
根据Sun的定义,融合后的特征为典型相关判别特征,其特征融合策略有两种,这两种融合策略分别为式(3)和式(4),式(3)的融合方法被叫做“concat”,融合后的特征向量记为Z1,式(4)的融合方法被叫做“sum”,融合后的特征向量记为Z2。
(3)
(4)
本文利用支持向量机SVM(support vector machine)作为木材树种的分类器。 为了防止过拟合的现象出现,下面的识别正确率均采用的是交叉验证中的“留一法”,该方法的基本思想是将样本集中的每一个样本单独拿出作为测试集,其余的所有样本作为训练集对其进行训练,从而判断样本集中每一个样本的识别正确率,最后将判断正确的样本数量除以总数量便得到了识别正确率[13]。
单独使用光谱特征对紫檀属树种进行识别时,影响识别正确率的因素主要包括降维方法和降维维数,图4中给出了使用PCA,KPCA和Laplacian三种降维方法的紫檀属木材识别正确率与特征维数之间的关系,从图4中可以看出,随着特征维度的增加分类正确率逐步上升,当维度超过10维后识别正确率逐渐趋于稳定,PCA降维方法所对应的识别正确率高于KPCA和Laplacian,其识别正确率高于94.00%。 以木材横切面的光谱特征为识别对象时的识别正确率略高于其余两个切面的识别正确率。
图4 特征维数与识别正确率的关系Fig.4 Feature dimension and accuracy
表2中给出了不同降维方法的最高识别正确率所对应的特征维数,同时也给出了SPA选择的最佳波段和识别正确率。 从表2中可以看出在木材横切面上SPA波段选择方法的识别正确率高于Laplacian和KPCA,但低于PCA降维方法的识别正确率。 木材弦切面和径切面上SPA波段选择方法的识别正确率高于其他降维方法。
单独使用纹理特征对紫檀属树种进行识别时需要将紫檀属木材切面的图像进行灰度化以消除颜色对纹理特征的影响。 表3中给出了使用不同纹理特征对紫檀属木材进行识别时的识别正确率。 通过表3可以发现4种纹理特征中正确率较高的是LBP和I-BGLAM两种纹理特征。 GLCM,LBP和I-BGLAM三种纹理特征提取方法均在横切面上取得了较高的识别正确率,MFS纹理特征提取方法在弦切面上取得了较高的识别正确率。
表2 不同降维方法下的最高正确率Table 2 The highest accuracies under different dimension reduction methods
表3 使用纹理特征的木材树种识别率(%)Table 3 Accuracies of wood species usingtextures features (%)
另一方面通过表2和表3还可以发现,使用光谱特征的识别正确率高于使用纹理特征的识别正确率,这是因为同属木材的切面具有相似的纹理特征,由此可见单独使用纹理特征对紫檀属树种进行精准识别是不可行的。
表4分别考虑了使用“concat”融合策略和“sum”融合策略的木材识别正确率。 其中表的横向代表光谱特征提取方法,纵向代表的是纹理特征提取方法,表中所列出的正确率是其横坐标的光谱特征提取方法和纵坐标的纹理特征方法相融合的识别正确率。
表4 “concat”和“sum”融合策略下的正确率(%)Table 4 Accuracies of “concat” and “sum” fusion schemes (%)
从表4可以看出使用“concat”和“sum”两种融合策略的最高分类正确率具有一定的差异,在弦切面和径切面下,两个融合策略所得到的最高分类正确率是相同的。 三个切面上的木材识别正确率最高均为99.20%,与单独使用纹理特征或光谱特征相比,使用融合后的特征对紫檀属木材进行识别时具有更高的识别正确率。
为了能够进一步体现出光谱特征和纹理特征的互补作用,将数据集进行划分,每个树种随机选择40个样本作为训练集,其余10个样本作为测试集。 选择木材横截面上的光谱使用PCA进行降维,使用I-BGLAM提取纹理特征,并采用“concat”融合方法对测试集木材树种进行识别,其识别结果如图5所示。 将数据集按照上述方法进行分类时其正确率只体现在测试集中的50个样本上,训练集数量也会减少,此时得到的测试集正确率与之前的交叉验证率“留一法”会有一定的差异。 前面提到的交叉验证中的“留一法”是每次测试时,每个树种随机选择49个样本作为训练集,剩下的1个样本作为测试集。 这样,全部5个树种的训练集有245个样本,测试集有5个样本。 该测试过程重复执行,直到对所有样本都测试一次后结束。
从图5中可以看出,单独使用纹理特征对紫檀属树种进行识别时其错误的样本较多,单独使用光谱特征对紫檀属树种进行识别的错误样本数量明显少于单独使用纹理特征的样本数量。 融合后的特征可以大幅度降低错误样本数量,图5中的测试集样本中只有2个样本被误分到了其他树种中,其分类正确率为96.00%。 因此可以发现融合的特征可以弥补单独使用光谱特征和纹理特征的不足,从而更加准确的描述样本个体。
图5 测试集样本的识别情况Fig.5 Identification of test set samples
对比方法主要包括GLCM算法、 I-BGLAM算法、 CNN算法、 管孔统计特征算法、 核遗传算法以及颜色特征的分类方法。 各种算法得到的最高识别正确率如表5所示。 因在表3中已经列出了GLCM和I-BGLAM两种算法的识别正确率,所以表5中没有重复列出。
表5 其他木材识别方法与本方法的正确率对比
通过表5可以发现,目前较为传统的木材树种识别方法并未得到较高的识别结果。 这主要是因为上述这些方法均是以木材切面的宏观图像特征为研究对象,同属的木材在切面上具有较为相似的纹理特征和管孔特征,出现样本错分的情况是在所难免的。
本实验所使用的计算机配置为: CPU: Intel I7-6700,内存: 8G,显卡: AMD Radeon R7 200 机械硬盘容量为1TB。 表6中给出了一个样本光谱特征、 纹理特征以及融合算法所需要的计算时间,这里的计算时间均是重复计算50次所得到的平均时间。
表6 提取单一样本特征的时间Table 6 Extraction time of single sample features
从表6可以看出单一样本的光谱特征和纹理特征提取速度是十分迅速的,如果将PCA方法和I-BGLAM相结合整体时间大约在0.033 s左右,不仅可以得到较好的识别正确率也可以满足识别速度的需求。
将5种紫檀属木材与30种其他木材进行混合,从而试证本方法是否适合其他木材树种。 这30种木材中既包含了阔
图6 30种木材横切面的平均光谱曲线(a): 表7中前15个树种; (b): 表7中后15个树种Fig.6 Average spectral curves of cross sections of 30 wood species(a): The first 15 tree species in Table 7;(b): The last 15 tree species in Table 7
表7 30种木材样本的详细信息Table 7 Details of 30 wood species samples
续表7
叶木材也包含了针叶木材,也包含了一些同属木材。 表7中给出了这30种木材的详细信息,图6和图7中分别给出了这30种木材的光谱信息和图像信息。 每种木材样本数量与每种紫檀属木材样本数量50相一致,30种木材样本的总数量为1 500。
表8中给出了单独使用光谱特征、 纹理特征以及特征融合后的识别正确率,融合策略使用的是“concat”。 从表8可以看出,使用融合后的特征的识别正确率高于使用单一特征的识别正确率。 使用SPA+LBP的正确率是最高的,正确率可达98.29%。
值得强调的是表8中的识别正确率为35种木材的混合识别率,即对35种木材进行综合识别的正确率,这也间接的证明了本算法不仅适用于紫檀属木材的树种识别,对于其他木材也可以有效识别。
图7 30种木材横切面示意图(序号含义参见表7)Fig.7 Transverse section of 30 wood species (the number of each illustrations corresponding to Table 7)
表8 35个树种数据的正确识别率Table 8 Classification accuracy of 35 tree species data
使用两种成本较低的设备仪器采集了木材三个切面上的光谱信息和图像信息,提取木材切面上的光谱特征和纹理特征后,将光谱特征和纹理特征使用典型相关性分析进行融合,通过SVM分类器对紫檀属的树种进行了识别,并得出了以下的几个结论: (1) 在单独使用木材的光谱特征或纹理特征对紫檀属树种进行识别时,使用木材横切面的信息可以得到较高的识别正确率。 在使用融合特征对紫檀属树种进行识别时,木材的三个切面均可以得到较高的识别正确率,其正确率最高可达99.20%。 (2) 本方法的识别速度较快,PCA+I-BGLAM的方法提取样本特征,适用于对速度和精度有一定要求的木材树种识别情形。 (3) 从识别方法上讲,使用PCA+I-BGLAM的方法在木材横切面和径切面上具有较高的识别正确率,使用PCA+LBP的方法在木材径切面上具有较高的识别正确率。 (4) 实验验证了本方法不仅适用于紫檀属木材,而且也适用于其他属的木材树种识别。 (5) 通过与其他木材识别方法比较发现,本方法在识别紫檀属木材的树种时具有更大的优势。