基于光谱和Gabor纹理信息融合的油桃品种识别

2019-09-25 04:23苗荣慧黄锋华杨华
江苏农业科学 2019年6期
关键词:极限学习机光谱信息主成分分析

苗荣慧 黄锋华 杨华

摘要:为实现油桃品种的快速且无损鉴别,对油桃高光谱图像中的光谱和图像信息进行分析。在光谱信息提取中,采用偏最小二乘回归(partial least squares regression,简称PLSR)从全波段光谱数据提取9个特征波长。在图像信息获取中,采用主成分分析(principal component analysis,简称PCA)获得主成分图像,并提取主成分图像的Gabor纹理特征。分别建立基于特征波长光谱特征、主成分图像纹理特征和光谱纹理特征融合的最小二乘支持向量机(least squares support vector machine,简称LS-SVM)和极限学习机(extreme learning machine,简称ELM)油桃品种判别模型。结果表明,基于融合特征的LS-SVM和ELM模型识别率分别为94.7%、92.1%,较单独采用光谱信息和纹理信息的识别率都高,说明采用光谱信息和Gabor纹理信息融合的方法可以实现油桃品種判别,为农产品无损检测提供参考价值。

关键词:油桃品种识别;光谱信息;Gabor纹理信息;主成分分析;最小二乘支持向量机;极限学习机

油桃具有极高的营养价值,它含有人体所必需的多种氨基酸,而且油桃可以补气养血、提高免疫力、具有较高的药用价值[1]。因此,开展油桃品种识别对于提高其品质和市场竞争力具有重要的作用。随着果蔬科技的发展,油桃品种的培育也有了很大的进步,相继出现了曙光、华光等产品。产品分级在水果的标准化和商品化过程中具有重要意义,传统的人工分级方法存在检测效率低、精度低等问题,而高光谱成像技术能够将光谱和图像信息相结合,实现无损、快速、精准检测,近年来,该技术已广泛应用于水果检测[2]。

目前,国内外已有一些学者对油桃内外部品质进行无损检测。谷静思采用多种降维方法从介电频谱和近红外光谱的全谱中提取特征变量,建立多种油桃品质和品种的预测模型,综合系统地比较了介电频谱和近红外光谱在油桃品质检测方面的优劣,但其仅利用了油桃的光谱信息实现了油桃品质检测[3]。喻晓强等分别应用光谱图像技术对油桃糖度和硬度进行无损检测,为计算机图像在水果内部品质的无损检测方面提供了技术依据[4-5]。本研究以不同品种油桃为研究对象,运用高光谱成像系统采集中油4号、中油5号和中油9号等3种类型的油桃近红外高光谱图像信息。从光谱和图像等2个方面对不同油桃类别样本进行快速、无损检测。为油桃等水果类农产品的无损检测在线识别研究提供基础。

1 材料与方法

1.1 近红外光谱图像获取

试验油桃材料采购于山西省运城市万安村果园,采摘的样本形状相近、成熟度统一、大小均匀,油桃品种为中油4号、中油5号、中油9号等3种类型。试验中所用的高光谱图像采集系统主要由CMOS相机、光谱仪、面阵探测器电控位移台、计算机和暗箱等组成(图1)。光谱范围为874~1 734 nm,光谱分辨率为2.8 nm,光谱采样间隔为0.59 nm,光源为150 W石英卤素灯。通过高光谱成像系统采集3种共153幅高光谱样本图像,其中47幅中油4号、50幅中油5号、56幅中油9号。样本大小为320 349,每幅图有256个波段。获取的3种类型油桃近红外样本图像如图2所示。由图2可知,近红外光谱图像无彩色信息,该图为由多个波段合成的伪彩色图。图3为本研究识别方法流程。

1.2 高光谱图像校正

在高光谱图像采集过程中,由于光源强度分布不均匀会影响采集的高光谱图像质量,因此须对每幅图像进行黑白校正[6]。在采集图像时,先做白板(99%以上的反射率)校正获得全白的标定图像IW,再在完全避光条件下暗校正(0的反射率)获得全黑的标定图像ID,按照式(1)对原始绝对图像进行标定,得到相对图像R,此时的相对图像灰度值分布在0~1之间。

2 光谱特征提取

在光谱数据的提取过程中,采用手动选取方式在原始图像上选取不规则多边形区域作为感兴趣区域(region of interest,简称ROI)。本试验中使用ENVI 4.7软件实现感兴趣区域的提取,求得区域内所有光谱曲线的平均值作为该样本的光谱特征值。由于获得的光谱数据包含由试验环境引起的噪声[7],须对其进行光谱预处理。本研究采用多元散射校正、变量标准化和导数法多种光谱预处理方法实现油桃光谱数据的预处理。本研究采用Matlab7.5实现光谱数据的处理以及判别模型的建立。

2.1 光谱预处理

由图4可知,中油4号、中油5号、中油9号3类油桃样本均具有明显的波峰和波谷便于建立分类判别模型。但在874~1 069、1 640~1 734 nm 范围内可以看出,3类油桃的光谱信息有明显的重叠现象,采用全波段建立分类模型不能够达到分类精度的要求,因此须对全波段光谱信息进行降维处理,实现特征波长的选取。

2.2 特征波长选取

高光谱数据具有波段多、数据量大、冗余性强等特点,全波段建模会产生Hughes现象,建立的模型性能差、效率低[8]。而降维可以用较少的数据维数代替原始高维信息,在降低数据量的基础上最大程度表示原始信息。

偏最小二乘回归(partial least squares regression,简称PLSR)基于PLS算法原理,通过选取回归系数的局部极值实现特征波段的选择[9-10]。因此,本研究采用偏最小二乘回归方法获取特征波段。在寻找回归系数的局部极值中,设定两峰值之间的最小间隔数(mpd)是获得特征波长的关键。本研究中光谱数据的回归系数多峰值现象较明显,曲线不够平滑,图5-a为最小间隔条件为3的局部极值。由图5-a可知,获取的特征波长有27个,容易陷入局部极小值。为了过滤掉单周期内的干扰极值,通过多次试验,最终设置最小间隔条件为6,获取9个特征波长。图5-b为获取的局部极值点,它们分别为918、1 096、1 119、1 160、1 190、1 382、1 531、1 588、1 649 nm。

3 纹理特征提取

3.1 主成分分析

主成分分析(principal component analysis,简称PCA)是一种可以去除波段之间多余信息、将原始图像信息压缩成少数几个有效波段的方法,且生成的合成图像颜色、饱和度更好,各波段间不相关[11]。因此,本研究首先采用主成分分析获取主成分图像,提取贡献率较高的主成分图像,在主成分图像的基础上获取图像纹理特征,达到特征提取的目的。

对全波段油桃高光谱图像进行主成分分析,表1为3种类型油桃前10个主成分图像的特征值和累计贡献率。通常情况下,当累计贡献率高于85%,就认为重新组成的特征子集可以反映样本的原始光谱特征信息。由表1可知,这3种类型油桃的前5、4、3个主成分图像的累计贡献率分别高达99.9%,说明用少数几个主成分图像可以最大程度表示原始图像信息。由图6可知,3种图像前2个主成分基本保留了油桃的绝大部分信息,PC3~PC6均有不同程度的条带噪声。在图6-a中,PC1包含原始数据的信息最多,为油桃的外部轮廓信息;由于试验的高光谱图像是在暗箱中获取的反射光谱图像,图像中存在反射光区域,PC2则为每个油桃样本的反射光区域,该部分不适合作为油桃的特征向量。因此,针对中油4号,本研究选择PC1图像进行后续纹理特征的提取。在图6-b、图6-c中,PC1和PC2均能够很好地表示油桃的外部轮廓信息,因此针对中油5号和中油9号选择前2个主成分图像进行纹理特征提取。

3.2 Gabor纹理特征提取

纹理信息是图像中非常重要的特征,它为模式识别和理解提供了大量的信息[12]。Gabor小波变换技术具有尺度与方向可调性,对于纹理的能量特性、粗糙特性、结构特性等都产生了很好的应用效果[13]。因此,本研究采用Gabor滤波器提取经过主成分分析得到图像的纹理特征。将图像与Gabor滤波器卷积得到一系列的滤波图像,每幅圖像都描述了一定尺度和一定方向度上面的图像信息[14]。

因为图像的最低数字频率为0,最高数字频率根据奈奎斯特定理可知为0.5,而且该频率范围可以反映人眼视觉对纹理特征的感知[15]。因此,本研究Gabor滤波器组的参数设置:尺度参数p设为4;方向数为4,即每个尺度对应4个不同的方向(即θ为0°、45°、90°、135°);中心频率的最小值和最大值分别设置为0.125、0.200。最终得到不同方向和不同尺度的16个Gabor滤波器,对图像进行滤波处理。图7为中油4号PC1图像上提取的纹理特征结果。输出的滤波结果只有图像的能量信息,没有位置信息,能够较好地反映图像的纹理特征。试验中,每幅图像会得到16个纹理特征值,最终作为判别模型的输入向量。

4 基于光谱信息和纹理特征融合的油桃种类识别

在构建分类判别模型之前,须对样本集进行分集。本研究采用Kennard-Stone算法实现样本的分集,Kennard-Stone算法的核心思想是根据样本间的欧氏距离选择最具代表性的样本,该算法可以实现从样本集中选出预定数目的样品[16-17]。本研究从153个样本中选择115个作为训练集,剩余38个样本作为测试集,具体分集结果如表2所示。数据融合方式包括数据层融合、特征层融合和决策层融合。本研究将获得的9个光谱特征波长数据和16个纹理特征数据在特征级上进行融合。将光谱特征信息、图像纹理特征信息和两者融合特征信息分别输入分类器,比较3种情况分类识别的正确性。

4.1 LS-SVM品种判别模型

最小二乘支持向量机(least squares support vector machine,简称LS-SVM)是一种改进的支持向量机(SVM)算法[18-19],它通过求解一组线性方程代替SVM中复杂的二次优化问题来获得支持向量,与SVM相比,它具有更好的泛化能力,能够减少训练时间以及简化计算的复杂度。LS-SVM将输入变量映射到高维特征空间,在高维空间中构造最优决策函数,根据结构风险最小化原则优化参数,将优化问题改成等式约束条件,利用拉格朗日乘子方法求解最优化问题,对各个变量求偏微分[20]。其公式如式(2)所示。

4.2 ELM品种判别模型

极限学习机(extreme learning machine,简称ELM)是在单隐含层前馈神经网络的基础上提出的一种新算法[21-22]。与传统神经网络相比,极限学习机训练过程具有训练速度快、泛化能力好等优点。使用极限学习机对数据集进行训练时,仅须确定隐含层神经元的数量。

5 结果与分析

本研究分别建立基于特征波长光谱特征、主成分图像纹理特征和光谱纹理特征融合的最小二乘支持向量机和极限学习机的油桃品种判别模型。在LS-SVM模型的建立中,采用网格搜索算法和10折交叉验证实现惩罚参数C和最有参数γ的搜索。通过多次试验,分别设置log2C取值为1~7的整数,log2γ取值为-16~-4的负整数,结果如图8所示。图中色条代表搜索参数对应的识别率,颜色越深,识别率越低,最终确定C取值为32,γ取值为0.005。在ELM建模中,通过试验确定隐含层神经元个数为50。

由表3可知,在LS-SVM分类模型中,基于光谱信息、纹理信息和光谱纹理融合信息样本的总体识别正确率分别为86.8%、92.1%、94.7%,其中基于融合信息的识别率最高,为94.7%。在ELM分类模型中,基于光谱信息、纹理信息和光谱纹理融合信息样本的总体识别正确率分别为84.2%、84.2%、92.1%,其中基于融合信息的识别率最高,为 92.1%。在3种类型的油桃中,中油5号的识别正确率最高,可以达到100%。基于信息融合的识别结果高于单一的光谱信息和纹理信息识别结果。结果表明,采用光谱信息与纹理信息融合的方法可以有效实现油桃品种的识别。

6 结论

试验探索采用高光谱成像技术对油桃品种进行鉴别的可行性。以油桃为研究对象,采集3种油桃品种的近红外高光谱图像,并将光谱信息与纹理信息相结合构建分类判别模型。在光谱特征提取中,运用PLSR提取特征波长。在纹理特征提取中,在运用PCA获取主成分图像的基础上,提取Gabor纹理特征。将提取的光谱特征和纹理特征输入LS-SVM和ELM分类判别模型。结果表明,在LS-SVM分类模型中,基于光谱信息、纹理信息和融合信息样本的总体识别正确率分别为86.8%、92.1%、94.7%,其中基于融合信息的识别率最高;在ELM分类模型中,基于光谱信息、纹理信息、光谱纹理融合信息样本的总体识别正确率分别为84.2%、84.2%、92.1%;针对油桃的分类模型总体识别正确率可以达到84%以上。可见,本研究采取的光谱信息与纹理信息融合的方法可以有效实现油桃品种的识别,为农产品无损识别提供依据。

参考文献:

[1]黄锋华. 基于高光谱成像技术的油桃品质检测及品种判别研究[D]. 太古:山西农业大学,2016:9-18.

[2]薛建新,张淑娟,张晶晶. 壶瓶枣自然损伤的高光谱成像检测[J]. 农业机械学报,2015,46(7):220-226.

[3]谷静思. 基于介电频谱/近红外光谱技术检测采后桃和油桃的品质及品种[D]. 杨凌:西北农林科技大学,2014:1-5.

[4]喻晓强,刘木华,程仁发. 油桃糖度的光谱图像检测技术研究[J]. 江西农业大学学报,2007,29(6):1035-1038.

[5]刘木华,赵杰文,程仁发. 苹果硬度品质的光谱图像检测技术研究[J]. 食品科学,2008,13(3):418-422.

[6]Baranowski P,Mazurek W,Wozniak J,et al. Detection of early bruises in apples using hyperspectral data and thermal imaging[J]. Journal of Food Engineering,2012,110(3):345-355.

[7]倪茜茜. 基于高光谱成像技术的红酸枝品种识别[D]. 杭州:浙江农林大学,2015:1-4.

[8]梁 亮,杨敏华,李英芳. 基于ICA与SVM算法的高光谱遥感影像分类[J]. 光谱学与光谱分析,2010,30(10):2724-2728.

[9]Elmasry G,Sun D W,Allen P. Non-destructive determination of water-holding capacity in fresh beef by using NIR hyperspectral imaging[J]. Food Research International,2011,44(9):2624-2633.

[10]Wu D,Sun D W,He Y. Application of long-wave near infrared hyperspectral imaging for measurement of color distribution in salmon fillet[J]. Innovative Food Science and Emerging Technologies,2012,16:361-372.

[11]李勋兰,易时来,何绍兰,等. 高光谱成像技术的柚类品种鉴别研究[J]. 光谱学与光谱分析,2015,35(9):2639-2643.

[12]张 艳. 基于Gabor滤波器的纹理特征提取研究及应用[D]. 西安:西安科技大学,2014:1-4.

[13]杨宏雨,余 磊,王 森. 基于Gabor纹理特征的人脸识别方法[J]. 计算机应用研究,2011,28(10):3974-3976.

[14]宋余庆,刘 博,谢 军. 基于Gabor小波变换的医学图像纹理特征分类[J]. 计算机工程,2010,36(11):200-202.

[15]李 钰,孟祥萍. 基于Gabor滤波器的图像纹理特征提取[J]. 长春工业大学学报(自然科学版),2008,29(1):78-81.

[16]郭文川,刘大洋. 猕猴桃膨大果的近红外漫反射光谱无损识别[J]. 农业机械学报,2014,45(9):230-235.

[17]Kennard R W,Stone L A. Computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.

[18]Zhu F,Zhang D,He Y,et al. Application of visible and near infrared hyperspectral imaging to differentiate between fresh and frozen-thawed fish fillets[J]. Food and Bioprocess Technology,2013,6(10):2931-2937.

[19]薛建新,张淑娟,孙海霞,等. 可见/近红外光谱结合软化指标快速判定沙果货架期[J]. 农业机械学报,2013,44(8):169-173.

[20]李勋兰,易时来,何绍兰,等. 高光谱成像技术的柚类品种鉴别研究[J]. 光谱学与光谱分析,2015,35(9):2639-2643.

[21]Huang G B,Wang D H,Lan Y. Extreme learning machines:a survey[J]. International Journal of Machine Learning and Cybernetics,2011,2(2):107-122.

[22]Cambria E,Huang G B,Lekamalage C K L,et al.Extreme learning machines[trends & controversies][J]. IEEE Intelligent Systems,2013,28(6):30-59.楊 斯,黄铝文,张 馨. 机器视觉在设施育苗作物生长监测中的研究与应用[J]. 江苏农业科学,2019,47(6):179-187.

猜你喜欢
极限学习机光谱信息主成分分析
基于植被光谱信息的龟裂碱土碱化程度预测研究
基于极限学习机的玻璃瓶口缺陷检测方法研究
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
基于关节信息和极限学习机的人体动作识别