基于高光谱成像技术的酿酒高粱品种分类

2021-03-18 02:59:30孙婷田建平胡新军罗惠波黄丹黄浩平
食品与发酵工业 2021年5期
关键词:高粱纹理波长

孙婷,田建平,胡新军*,罗惠波,黄丹,黄浩平

1(四川轻化工大学 机械工程学院,四川 宜宾,644000)2(四川轻化工大学 生物工程学院,四川 宜宾,644000)3(酿酒生物技术及应用四川省重点实验室,四川 宜宾,644000)

高粱是我国重要的粮食作物之一,因其籽粒中含有丰富的营养物质在酿酒行业有着“好酒离不开红粮”的精辟论断,每年需求量高达2 000万t[1]。目前,酿酒高粱品种主要以高淀粉含量的泸州红、青壳洋、睿糯7号等糯高粱为主。由于酿酒高粱种类繁多,产地各不相同,籽粒中的淀粉、蛋白质、脂肪和单宁等含量有较大差异,导致酿造出的白酒在香型、风格、品质和产酒率上也有很大的差别[2]。由此可见,在高粱原材料分批入库前准确高效地对高粱品种进行鉴别,对酿造过程中泡粮时间、用水量、蒸粮时间等生产工艺控制,对产出优质白酒具有十分重要的指导意义[3]。传统的鉴别方式主要有人工经验判别和生物抽样检测[4],前者易受主观影响,效率低,难以形成统一的标准,后者操作繁琐、费时费力,两者都无法满足现代白酒企业对酿酒原料高粱的鉴别需求[5],因此急需寻找一种快速、准确且简便的高粱品种分类检测方法。

高光谱技术作为一种高效无损检测技术,可同时获取对象的光谱信息和空间信息[6],光谱特征通常在农副产品的分类、质量检测和指标评价等领域运用更多[7-9],空间图像信息的应用较少,但也有研究人员试图将高光谱的光谱信息和图像信息结合起来,以提高模型的准确性和可靠性[10]。如王彩霞等[11]利用特征波长、颜色特征以及纹理特征分别建立了偏最小二乘判别模型(partial least squares discriminant analysis,PLS-DA)鉴别5个牛肉品种,结果显示特征波长结合纹理特征的模型识别效果最佳,预测集识别率为93.55%,均高于纯光谱数据的精度;HUANG等[12]结合玉米种子的光谱特征、形态特征和纹理特征分别建立了支持向量机模型(support vector machine,SVM)来判别17个玉米品种,结果显示结合光谱信息和图像信息在测试集上的准确率达到92%,高于只使用单一信息建模精度;邢素霞等[13]同样结合光谱信息和图像信息建立径向基函数(radial basis function,RBF)神经网络对鸡肉品质进行分类,测试集分类正确率达到100%。

本研究的目标是结合光谱信息和图像信息对11个高粱品种进行分类,同时通过比较及外部验证优化高光谱技术结合机器学习方法鉴别不同高粱品种,以提高其在应用过程中的准确性和效率。主要对高粱高光谱数据进行预处理,选取特征波长,从图像中提取灰度共生矩阵(gray level co-occurrence matrix,GLCM),分别基于全光谱、特征波长、纹理特征(GLCM)及其融合数据建立高粱的分类模型,最后使用未参与建模的验证集数据对所建模型进行外部验证。

1 实验部分

1.1 样品准备

实验选用2个批次共11种不同品种的高粱,分别来自四川泸州、宜宾地区和山东济南地区,详细的产地、收获年份和批次如表1所示,其中矮抗8号、红塔2号和铁杆1号为白高粱,其余为红高粱。样本去除杂质,每次选取约120 g高粱装袋为1个样本,每种高粱取50个样本,并均匀平铺于直径80 cm的培养皿中,直至与培养皿边缘齐平,共计550个样本。使用Kennard-Stone(KS)算法将样本划分为400个训练集和150个测试集,此外,每种高粱再采集20个共计220个样本用于模型外部验证。

表1 高粱品种参数Tabel 1 Parameters of sorghum varieties

1.2 仪器与设备

采用芬兰Specim公司生产的高光谱采集系统,主要部件有:FX10E型号的高光谱相机(Specim,芬兰),其外形尺寸为150 mm×75 mm×85 mm,质量为1.4 kg,探测器类型为InGaAs,视场角FOV为38°,相机输出为12 bit,空间分辨率为1 024×628像素,2组功率为150 W的卤素灯光源(OSRAM,德国),高精度电控载物台(Specim,芬兰)、Lumo-scanner专用软件(DELL,美国)以及辅助支架。

为了保证样本光谱信息和图像信息的完整性,具体的参数设定如表2所示。

表2 高光谱采集参数设置Tabel 2 Hyperspectral acquisition parameter settings

1.3 高光谱图像采集与标定

采集前调整好系统参数,尽量保持外部环境一致,按照样本编号将装满高粱的培养皿放置在载物台上依次扫描,得到770组高粱样本的原始高光谱数据。为了减少传感器暗电流噪声和光强变化对图像信号产生的影响,需要对获得的高光谱图像进行黑白校正[14],校正公式见公式(1)

(1)

式中:R,校正后的光谱图像;I0,原始高光谱图像;Id,盖上镜头采集的暗参考图像;Iw,采集的标准白板图像,这样高光谱图像的每一个像素点均对应一条光滑的光谱曲线。

2 理论与方法

2.1 数据预处理

感兴趣区域(region of interest,ROI)的选取对后续的建模分析至关重要,每个高粱样本统一选取一块100×100像素无杂质、亮度均匀的区域,按照校正公式(1)计算出每个像素的反射率,再对ROI区域内所有像素点反射率求平均值,进而得到了样本的光谱曲线。为了提取高光谱图像中光谱有效信息,需要对光谱数据进行预处理来减少光谱信号中的光散射、高频噪声等干扰信息[6]。多元散射校正(multiplicative scatter correction,MSC)可有效地消除散射带来的光谱差异,从而增强光谱与数据之间的相关性,该方法通过理想光谱修正光谱数据的基线平移和偏移现象[15],具体实现方法见公式(2)~(4)。

①计算平均光谱作为标准光谱:

(2)

②将每个样本的光谱与平均光谱进行线性回归运算,得到每个样本相对于标准光谱的尺度平移量和偏移量:

Si=miP+bi

(3)

③原始光谱减去求得的基线平移量后除以偏移量,得到校正后的光谱:

(4)

式中:Pi,j,标准光谱矩阵;Si,j,原始光谱矩阵;n,样本数量;j,波段数量;Si,每个样本的光谱向量;mi,相对偏移系数;bi,平移量;Simsc,i样本的MSC校正光谱。

2.2 特征波长筛选

采集的400~1 000 nm范围内的高光谱数据有448个波长,存在大量冗余和多重共线性问题,需要从这些波段中选取最具代表性的特征波长。连续投影算法(successive projection algorithm,SPA)是一种使矢量空间共线性最小化的前向变量选择算法[16],其运算过程为:首先随机选择一个波长,分别计算该波长与剩余向量的投影,将最大投影值的波长选入特征波长;再对没选入的波长重复以上过程,直至获得特征波长数量则截止[17]。选用此方法筛选特征波长。

2.3 图像信息提取

不同品种的高粱颗粒在外形、大小、颜色上都有不同程度的差异,会直接反映在图像信息中,而目前的相关研究大部分只使用了光谱信息,却忽略了图像信息。GLCM是一种描述图像信息的常用方法,用于计算相邻像素之间不同灰度值的组合数目,以此反映在指定方向上的梯度信息[18]。先将高粱灰度图转换为固定级数的灰度图,分别从0、45°、90°、135°四个方向计算灰度图的能量、熵、惯性矩和相关性,计算公式如(5)~(8),再以这4个参数的平均值和方差作为图像纹理特征的典型性信息:

(5)

(6)

(7)

(8)

式中:L,灰度级数;P(i,j),转换L级后的图像;i,一个像素的灰度值;j,距离i固定步长像素的灰度值;μx和μy,平均值;δx和δy,方差;其中:

(9)

(10)

(11)

(12)

2.4 建模方法

SVM是一种以结构风险最小化原则为基础的模式识别算法,主要思路是把训练集数据从输入空间非线性地映射到一个多维度的特征空间,然后在多维度的特征空间中通过最小化某种损失函数获得一个线性的拟合函数[19],寻找新的最优分类面作为决策面,实现不同类数据的分离。PLS-DA是一种多元分类模型,是基于偏最小二乘回归的高维线性判别模型分类技术。该方法首先将样本类别进行数值标定并作为反应变量,再运用偏最小二乘回归建立反应变量与解释变量之间的关系模型,比较模型的反应变量预测值大小,从而确定各样本的类别[20],适合于变量数众多且存在多重共线性的情况,是常用的有监督统计模式识别方法[21]。极限学习机(extreme learning machine,ELM)作为一种单隐层前馈神经网络,主要由输入层、隐含层和输出层组成,随机产生网络的输入权值和隐层节点偏置值,将输入数据与权值矩阵作乘积运算再加上偏置矩阵的结果输入到激活函数,输出层把激活函数的输出与连接权值作乘积运算,从而得到最终的预测结果[22]。训练过程无需过多的人为干预,运算速度快,对于数据量很大地情况能够有效的提高运算效率[23]。

通过正确率、运行时间及外部验证结果对预测模型进行综合评价分析[24],按公式(13)计算正确率:

(13)

式中:TP,正确分类的高粱类别;FP,错误分类的高粱类别。

3 结果与分析

3.1 高粱光谱曲线分析

11类高粱共计550个样本的原始光谱曲线和MSC预处理后的光谱曲线如图1所示,每个颜色代表不同的类别。

a-原始光谱曲线;b-经MSC预处理光谱图1 高粱样本的光谱曲线Fig.1 Spectral curve of sorghum samples

2幅图在400~1 000 nm波长范围内高粱光谱曲线的总体趋势相似,均呈上升趋势,波峰波谷变化较平缓,且出现了部分曲线交叉重叠的情况。预处理后的曲线重叠明显减少,噪声也更少,各样本曲线的辨识度更高。其中白高粱矮抗8号、红塔2号和铁杆1号的光谱曲线均在其余高粱的上方,其在430~890 nm的曲线走势也与其余高粱有明显差异,这些信息可以将红白高粱较容易地区分开。8类红高粱在400~500 nm的反射率大致相同,这会对分类造成困难;几乎对于所有品种,光谱均在600、890、950和990 nm附近出现峰和谷,这可能与羧基官能团所带分子键的伸缩振动有关。以上的差异性为运用高光谱识别高粱品种提供了有效判别依据。

a-均方根误差变化趋势图;b-SPA选择的最优波长位置;c-典型特征波长下的高光谱图像图2 特征波长的提取过程Fig.2 The process of extracting characteristic wavelengths

3.2 最优特征波长选取

使用SPA算法从448个波长中筛选特征波长,图2-a为均方根误差(root mean square error,RMSE)的变化趋势图,可见随着波长数量不断增加,误差逐渐减少,在数量达到48之后误差基本保持稳定,说明此时已没有冗余波长可筛除,最终使用RMSE值为0.485 3时对应的48个波长为最优特征波长。它们的具体位置如图2-b红色标记所示,其中图2-c是澳洲高粱5个典型特征波长的图像,能够代表大部分信息,具有特征性。将特征波长存储在550×48矩阵中,光谱减少量为89.3%,极大地缩短了计算时间。

3.3 图像特征提取

将每个样本的灰度图像转换成16级灰度图,依次对770个高粱样本进行图像特征提取,距离参数值取1,方向选取 0、45°、90°和135°,部分代表样本的纹理特征如表3所示,将其存储在550×8矩阵中作为图像特征。

表3 高粱纹理特征参数Table 3 Sorghum texture feature parameters

3.4 高粱分类建模效果

使用11类高粱的全光谱数据、48个特征波长数据及其融合纹理特征的数据分别建立SVM、PLS-DA和ELM分类模型。其中SVM使用10折交叉验证选取最佳的c、g值,核函数采用RBF;PLS-DA在建模前使用10折交叉验证选取最佳主成分数,主成分数根据建模输入数据不一,图3为550个样本全光谱建模前2个主成分PC1(74.04%)、PC2(21.49%)的散点图,可以看出不同品种的高粱分布较分散,比较容易区分;ELM则随机产生输入层和隐含层之间的连接权值矩阵W,隐含层偏置矩阵B,激活函数选取Sigmoid函数。建模的参数设置和各模型的精度如表4所示。

图3 PLS-DA全光谱建模前两个主成分图Fig.3 The first two principal component graphs of PLS-DA full spectrum model

表4 各模型参数及分类结果Table 4 Parameters and classification results of each model

对比不同模型在5类数据集上的表现,整体来看SVM模型在训练集和测试集的正确识别率大于PLS-DA和ELM,但是运行时间也更长。使用纹理特征数据建模的精度均在80%~87%之间,相对其他数据集精度较低,说明单一的纹理特征信息不能全面地反映不同高粱品种的差异。比较使用全光谱和特征光谱建模时,特征光谱的正确识别率根据数据集而不同,有时高于全光谱,有时低于全光谱,总体来看两者精度相差不大,说明筛选出的特征光谱中包含了大量有效的光谱信息,使用特征光谱对高粱进行识别是可行的,且减少了计算时间。此外可知,在结合了图像信息纹理特征以后,全光谱和特征光谱的正确识别率均有所提升,可以说明结合纹理特征后的数据更全面地表达了样本的分类信息,可以提高高粱品种的识别率。在上述的所有模型中,特征光谱结合纹理信息建立的SVM模型精度最高,训练集和测试集的正确识别率分别为96%、95.3%,运行时间为9.561 s。综上所述,结合光谱信息和图像信息的高粱品种识别方法是可行的。

3.5 模型外部验证

为了进一步验证上述模型的准确性和稳定性,采用外部验证方式验证模型效果,即将未参与建模的220个验证样本组成的验证集代入模型进行预测,代入模型的数据集以及模型参数与上述建立的模型保持一致,外部验证的正确分类率如表5所示。综合比较,SVM模型的验证效果最好,ELM次之,PLS-DA相对来说最差,其中特征光谱结合纹理特征的SVM模型验证集识别准确率达到91.8%,能够满足精度要求,但是由于SVM分类器训练过程中需要寻找支持向量,所以耗时相对较长,未来可以与粗集理论等结合提高分类效率。

表5 各模型验证集分类结果Table 5 Classification results of validation set of each model

4 结论

本文基于高光谱技术光谱和图像信息结合的方法对11个品种的高粱进行识别研究。采集高粱的高光谱图像,使用SPA算法从MSC预处理后光谱中筛选出48个特征波长,再提取图像的纹理特征,分别基于纹理特征、全光谱、特征光谱及其结合图像信息分别建立了SVM、PLS-DA和ELM分类模型,最后使用未参与建模的数据进行外部验证。结果表明,使用特征光谱结合纹理特征建立的SVM分类模型效果最佳,测试集的正确识别率为95.3%,验证集的精度达到91.8%,可见光谱和图像结合的方法可以有效实现酿酒高粱的快速识别,且提高了模型的识别精度,这为不同酿酒原料的检测和酿酒自动化的实现提供了理论基础。

猜你喜欢
高粱纹理波长
我终于认识高粱了
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
特产研究(2022年6期)2023-01-17 05:06:16
高粱名称考释
古今农业(2022年2期)2022-08-15 01:39:52
高粱红了
青年文学家(2022年1期)2022-03-11 12:27:39
基于BM3D的复杂纹理区域图像去噪
软件(2020年3期)2020-04-20 01:45:18
使用纹理叠加添加艺术画特效
双波长激光治疗慢性牙周炎的疗效观察
TEXTURE ON TEXTURE质地上的纹理
Coco薇(2017年8期)2017-08-03 15:23:38
日本研发出可完全覆盖可见光波长的LED光源
中国照明(2016年4期)2016-05-17 06:16:15
消除凹凸纹理有妙招!
Coco薇(2015年5期)2016-03-29 23:22:15