基于高光谱图像光谱变量和颜色特征的霉变玉米籽粒识别

2022-03-05 03:59赵雪晴
食品与机械 2022年12期
关键词:直方图纹理籽粒

李 伟 赵雪晴 刘 强

(1. 淮安市职业教育教学研究室,江苏 淮安 223001;2. 江苏科技大学,江苏 镇江 212100;3. 苏州大学,江苏 苏州 510632)

传统的玉米籽粒霉变识别方法有感官评价和理化成分检测[1]。感官评价简单、省时、成本低,但评价结果容易受到外界环境和视察员主观情绪的干扰,且有毒物质也会对视察员的健康构成威胁[2]。理化成分的测定一般采用高效液相色谱、聚合酶链反应、酶联免疫吸附试验等检测方法[3]。虽然这些方法可对霉变玉米籽粒实现更精确的测量和定性分析,但需要昂贵的测试设备和专业的技术人员,且测试过程复杂和耗时[4]。

近年来,电子鼻、机器视觉、近红外、高光谱成像等无损检测技术已被成功应用于霉变玉米籽粒的识别[5-7]。电子鼻技术主要利用特定的传感器,根据挥发性有机化合物信息的变化来识别玉米籽粒的霉变程度[8];但在流动状态下,气体浓度会发生变化,影响其对霉变玉米籽粒的识别精度[9]。在易于使用和低成本的替代方法中,可见—近红外(Visible-Near infrared,Vis-NIR)光谱技术和机器视觉因具有快速、简单和在线图像分析的能力近年来吸引了越来越多的关注[10]。模拟人类视觉系统的机器视觉可以根据颜色、大小、表面纹理等外部属性有效评价玉米籽粒质量[11];但玉米籽粒只有轻微霉变且无明显症状时,机器学习对霉变玉米籽粒的识别准确率较低[12]。Vis-NIR光谱技术可将光谱信息与物质内部成分含量联系起来,利用光谱曲线分析对象内部成分的变化[13];但近红外光谱的点扫描方式在很大程度上限制了其对霉斑分布不均匀样品的检测[14]。

高光谱图像技术是一种将传统图像处理技术和光谱技术相结合的技术,可以同时克服机器视觉对玉米籽粒识别的不足(对出现轻微霉变但无明显症状的玉米籽粒识别效果差)和光谱技术的局限性(对霉斑分布不均匀玉米籽粒样品的检测效果差),实现霉变玉米籽粒的快速、无污染、无损检测[15-16]。Ma等[17]基于从Vis-SWNIR高光谱图像中提取的光谱和纹理信息,开发了鲜肉和冻肉的分类模型,该分类模型优于光谱和纹理单独的分类模型。为了快速、无损检测出贮藏玉米籽粒不同霉变状况,提升玉米收贮环节质检效率,杨东等[18]利用高光谱成像技术结合颜色矩阵构建玉米籽粒霉变等级分类模型,该分类模型对训练集和测试集中玉米籽粒的分类准确率分别为94.21%,93.86%。因此,将不同高光谱图像系统的光谱和图像特征信息进行融合,可为构建不同霉变程度玉米籽粒的精确识别模型提供一种重要的研究思路。

高光谱图像技术虽具备了一定的图像处理功能,但对霉变玉米籽粒图像等复杂图像的处理能力有限[19],为进一步提高对霉变玉米籽粒的识别准确率,研究拟将高光谱图像技术与其他图像处理技术结合,提出基于高光谱图像光谱变量和颜色特征分析的霉变玉米籽粒识别新方法。

1 玉米籽粒高光谱图像获取和校正

1.1 玉米籽粒图像获取

利用如图1所示的可视—短波近红外(Visible short wave near infrared,Vis-SWNIR)和长波近红外(Long wave near infrared, LWNIR)高光谱反射率成像系统,分别获取波长范围为600~1 000,1 000~1 600 nm的霉变玉米籽粒样品的高光谱图像[20]。

Vis-SWNIR高光谱成像系统包括一台成像光谱仪(ImSpector V10EQE)、一台分辨率为502像素×500像素的电子多重电荷耦合器(Electron multi-plying charge-coupled device,EMCCD)相机(Andor Luca EMCCD DL-604 M)、一个相机镜头(OLE23-f/2.4)、一个控制移动平台操作和一个用于高光谱图像采集的五铃光学光谱立方数据采集软件。LWNIR高光谱成像系统包括一个成像光谱仪(ImSpector N25E)、一个分辨率为320像素×256像素的电荷耦合装置(Charge-coupled device,CCD)相机(Xeva2.5-320)、一个相机镜头(HSIA-OLE22)和五铃光学光谱立方数据采集软件。这两个高光谱采集系统共用2个300 W的卤素灯,通过大约45°的角度调整以提供稳定的光源;共用一个电动位移台(EZHR17EN),用于样品放置;共用一台装入2种高光谱采集软件的计算机(Lenovo,Intel (R) CPU E3-1231 v3 @ 3.40 GHz)。

为了采集到高质量的不饱和、不失真的图像,采用直线扫描法采集样品的高光谱图像,设置Vis-SWNIR高光谱系统镜头到移动平台的距离、曝光时间和移动平台速度分别为430 mm、3 ms、2.6 mm/s,LWNIR高光谱系统镜头到移动平台的距离、曝光时间和移动平台速度分别为310 mm、5 ms、40 mm/s。

选择“苏玉20”作为试验玉米样品,建立一个玉米籽粒图像数据库。将玉米籽粒按照霉变程度分为33个组,如表1所示。为避免或降低样品摆放方式对数据采集效果的影响,每种霉变程度的玉米样品被分为10组,每组样品100 g,堆叠装在圆口、平底容器内。每组样品的组成取决于玉米霉变百分比,例如,若玉米样品的霉变百分比为2%,则称重98 g的无霉变玉米籽粒和2 g的霉变玉米籽粒构成该样品并混合均匀。在采集每组样品的高光谱图像时,每采集一次,将玉米籽粒翻动重新混合一次,每组样品采集10张高光谱图像。对于每个类别,捕获了100张玉米籽粒样品图像,总计3 300张图像。

图1 高光谱图像采集系统

表1 玉米籽粒类别及其霉变百分比

根据《中华人民共和国标准化法》[21]和《关于执行粮油质量国家标准有关问题的规定》[22],将玉米籽粒分为3个超类:① 霉变程度在可接受的范围,霉变玉米籽粒百分比≤2%,此类玉米籽粒在买入或售出时的价格与无霉变玉米籽粒的价格相同(超类0);② 霉变玉米籽粒百分比超过2%但≤8%,霉变程度在可接受的范围,但此类玉米在买入或售出时的价格需在无霉变玉米籽粒价格基础上打一定折扣,扣价在6%以上(超类1);③ 霉变玉米籽粒百分比>8%,霉变程度在不可接受的范围,归为不可接收或出售玉米籽粒(超类2)。

1.2 高光谱图像校正

对原始高光谱图像进行校正,以消除光源和相机暗电流变化的影响[23]。在与样品相同的采样环境下,使用白色特氟龙板(99%反射率)获得标准白色参考图像。关闭光源并盖上镜头以获得黑色参考图像(0%反射率)。利用黑白参考图像通过式(1)计算校正后的图像。

(1)

式中:

qO——原始高光谱图像;

qW——白色参考图像;

qB——黑色参考图像;

qC——校正后的高光谱图像。

2 基于高光谱图像光谱变量和颜色特征的霉变玉米籽粒识别方法

2.1 图像分割和光谱变量提取

为提取感兴趣区域(Region of interest,ROI)信息,采用掩模方法对校正后的高光谱图像进行目标与背景的分割。由于Vis-SWNIR和LWNIR高光谱图像在849,1 098 nm 处的灰度图像与玉米籽粒的光谱强度差异最大,因此使用849,1 098 nm处的灰度图像通过设置适当的阈值来构建二值掩码。将对应的高光谱图像乘以滤波后的掩模,去除背景信息。在ROI区域提取样品的光谱信息,前期的图像分割和光谱信息提取在ENVI 4.8软件中完成,后续的图像处理工作和分类模型的建立等过程均通过MATLAB 2019b完成。

由于提取的光谱数据包含大量的信息,需要选择最优波长来提高分类精度,这将大大提高后续的数据处理速度。采用连续投影算法(Successive projections algorithm,SPA)来选择最优波长。为了克服原始数据的不稳定性、线性相关性和奇异性,采用SPA保留光谱数据的有用信息,去除多余的光谱,减少变量数量,从而选择出最优波长。无霉变和4种典型不同霉变程度玉米籽粒的光谱图像实例如图2所示。

图2 无霉变和4种典型不同霉变程度玉米籽粒的

2.2 玉米籽粒图像颜色和纹理特征提取

图像可以由一组数据表示,也称为特征向量,特征向量的每个元素代表从图像中提取的一个数据属性。图像数据的内在特征可通过颜色和纹理等图像描述符获得。

(1) 颜色描述符:通过颜色描述符提取数字图像特征的过程鲁棒性很好,因为这些属性很少依赖于图像的大小、方向和视角。为量化图像的颜色特征,定义一个RGB颜色空间[23]。RGB颜色空间模型的优点主要包括计算复杂度低和对几何变化的鲁棒性。此外,它是一个可以紧凑表示的模型[24]。

RGB空间模型由3种不同的颜色通道(R为红,G为绿,B为蓝)组成,是图像处理和计算机视觉中最常用的模型之一[25]。RGB空间模型中的每个像素元素可有256个色调,其值为0~255。因此,每个图像像素都可用8位二进制数字表示。颜色直方图是表示颜色特征最直接、最有效的方法之一[24]。在24位深度的RGB空间中(每种颜色占8位),颜色直方图可以用具有768个属性的向量表示(每个RGB波段有256个属性)。每个属性的出现次数组成直方图的x轴,y轴表示这些元素的频率分布(或密度)。因此,直方图构建过程旨在根据在每个像素中找到的相应色调值来不断调整直方图波形。

(2) 纹理描述符:通过纹理对图像数据进行表示是描述图像区域特征的一种常用方法。直观地说,这些纹理元素描述了图像的平滑、粗糙度和规则性方面的属性。纹理提取和表示的常用方法是局部二进制模式(Local binary pattern,LBP)方法。LBP方法的目标是根据像素的邻域元素,计算图像中每个像素的局部二值模式;根据该模式的出现次数,构建纹理直方图,描述图像中数据的纹理属性。因此,通过LBP方法构建的纹理直方图可作为图像中数据属性提取的描述符。对于图像中出现的每个像素,纹理描述符通过比较图像像素和以其为中心的半径为R的圆形区域内相邻元素之间的强度(灰度)差异提取图像纹理特征。像素qp的LBP参数LLBP,qp计算公式:

(2)

式中:

x——相邻像素qp与中心像素qc的强度差;

P——分析的相邻像素数。

函数s(x)的计算:

(3)

图3给出了根据式(2)计算给定像素qp的LBP参数LLBP,qp的示例。通过LLBP,qc生成的输出矩阵,可以构建基于特征添加的纹理直方图。

图3 给定像素qp的LBP参数示例

2.3 光谱变量和图像颜色、纹理特征的组合

数据组合的目的是将多个试验指标的不同数据通过各种方法进行组合,得到一个混合数据库,提高数据处理的有效性。多传感器图像的数据组合通常分为像素级、特征级和决策级3个操作层次。像素级组合是最低的处理,它直接将初始超立方体数据合并到大量数据源中,需要大量的数据计算;特征级组合使用统计方法结合从超立方体中提取的几个特征,如纹理、灰度梯度和边界特征,以及形状;在决策级组合中,需要从输入超立方体中获取增值数据,对这些数据进行逐条处理,利用决策规则对信息进行组合,提取信息。所提方法将SPA得到的光谱特征和颜色直方图的颜色特征或纹理直方图的纹理特征在特征层面进行组合,以整合超立方体的光谱和颜色或纹理信息,加强数据处理,提高霉变玉米籽粒识别准确率。

2.4 玉米籽粒分类

2.4.1 分类原理 对象分类是机器学习的一个重要应用领域,它依赖于监督分类算法来评估未来的对象实例。监督分类以图像集(xi,yi)为基础,图像集中xi∈XM表示由M个特征组成的实例,yi表示xi所属的真实类k。监督分类过程首先根据图像集中对象的特征建立类分布模型;然后,当出现新的测试实例(xi特征已知,yi类未知)时,监督算法通过基于图像集构建的分布模型来评估实例所属的类k。

每一类对象都由基于图像集元素的原型特征向量表示。监督分类算法采用基于最小距离方法的距离分类器,该分类器使用距离函数来建立原型向量和未知模式的新元素之间的接近标准。根据该标准,将未知模式新元素划归到与之距离最近的原型向量所对应的类。

通过将每一类对象的原型建立为元素之间的平均向量,每一类对象的质心(以及原型向量)的计算:

(4)

式中:

r——类的标签;

Nr——类r的特征向量的数量;

xn——第n个特征向量;

R——标准对象类的数量。

通过距离函数,可以计算出特征向量与每个vr原型的接近程度。因此,如果距离值是所有类中最小的,x将被分配给标签类r。常用于计算两对象之间距离的函数包括曼哈顿距离(L1距离)函数、布雷—柯蒂斯距离(BC距离)函数和库尔贝克—莱布勒距离(KL距离)函数等。L1距离由赫尔曼·闵可夫斯基在19世纪末提出,可以用方程(5)表示。

(5)

BC距离函数,又称归一化方法,在植物学、生态学和环境科学领域被广泛应用。BC距离函数返回0和1之间的距离值,数值越接近于零,所分析元素之间的相似性就越大;如果得到的距离越接近1,两个元素之间的相似程度就越低。

(6)

KL距离用于计算两个对象概率密度函数之间的距离,常用于模式识别、图像处理、分类和异常检测等问题。KL距离也称为相对熵,是计算两个对象概率密度函数p(x)和q(x)之间距离的不对称度量,如方程(7)所示。KL距离的值越小,p(x)和q(x)就越相似。

(7)

2.4.2 玉米籽粒分类流程 根据提取的高光谱图像特征,对霉变玉米籽粒进行识别,并对识别准确性进行评估。

霉变玉米籽粒识别流程:① 利用图1结构获取的图像建立一个玉米籽粒图像数据库;② 对每幅玉米籽粒图形进行图像分割和光谱变量提取;③ 提取玉米籽粒图像的颜色并生成颜色直方图;④ 光谱变量和图像颜色直方图特征组合,形成特征集合;⑤ 通过距离函数对特征集合中的特征分析,确定图像中玉米籽粒所属类别;⑥ 计算对每种玉米籽粒类别的平均识别准确率和平均识别偏差。

3 仿真结果与分析

当霉变玉米籽粒识别方法对测试图像中玉米籽粒的识别类属于图像中玉米籽粒所在的实际超类时,分类结果被认为是正确的。例如,如果一个玉米籽粒属于第3类(真实类),而玉米籽粒识别方法将该玉米籽粒分类为第5类(评估类),则认为该分类结果是正确的,因为第3类和第5类同属于超类1。为定量描述实际和评估类之间的差异,计算玉米籽粒类识别准确率和类评估偏差。

玉米籽粒类识别准确率rclass和类识别偏差Δclass分别通过式(8)和式(9)计算。

(8)

Δclass=cevaluate-creal,

(9)

式中:

np——对玉米籽粒类准确评估的次数;

ns——对玉米籽粒类评估的总次数;

cevaluate——玉米籽粒类评估所得的类序号;

creal——玉米籽粒实际类序号。

例如,如果实际类为第3类,评估类为第5类,则类偏差Δclass=2。

所提方法对玉米籽粒类和超类的识别效果分别如表2和表3所示;当将所提方法中的特征集合替换为光谱变量和图像纹理直方图特征组成的特征集合时,调整后的方法对玉米籽粒类和超类的识别效果分别如表4和表5所示。

表2 所提方法对玉米籽粒类的识别效果

表3 所提方法对玉米籽粒超类的识别效果

表4 选用光谱变量和图像纹理直方图特征组成的特征集合的方法对玉米籽粒类的识别效果

表5 选用光谱变量和图像纹理直方图特征组成的特征集合的方法对玉米籽粒超类的识别效果

由表2可知,以类间距离表示的最大平均识别偏差为1.12(使用L1距离),最佳平均识别准确率为97.59%(使用BC距离)。因此,在绝大多数情况下,所提方法可对霉变玉米籽粒种类进行正确识别。

由表3可知,所提方法获得的霉变玉米籽粒超类平均识别准确率超过96%。观察每个距离函数值发现,对玉米籽粒超类的识别准确率和识别偏差的最佳平均值与玉米籽粒图像所属的超类直接相关。例如,使用BC距离时超类0的平均识别准确率最高(97.61%),而超类1和超类2的平均识别准确率分别出现在使用L1距离(94.68%)和KL距离(99.76%)。因此,最适合所提方法的距离函数将取决于玉米籽粒图像所属的超类。

玉米籽粒图像的平均颜色直方图和该图像的实际类的平均颜色直方图以及两者之差如图4所示。由图4可知,玉米籽粒类型评估偏差始终在0值附近波动,这是所提方法能够准确识别玉米籽粒图像中霉变玉米籽粒种类的重要原因。

图4 玉米籽粒图像的颜色直方图

由表4可知,选用光谱变量和图像纹理直方图特征组成的特征集合时,以类间距离表示的最大平均偏差值为3.29(使用L1距离和KL距离)、最佳平均识别准确率为80.19%(使用BC距离)。因此,在多数情况下,选用光谱变量和图像纹理直方图特征组成的特征集合的方法可对玉米籽粒的种类进行正确识别,但识别效果不如所提方法。

由表5可知,选用光谱变量和图像纹理直方图特征组成的特征集合的方法对超类0的最佳平均准确度值为95.26%(使用L1距离)、最小类识别偏差为1.22(使用L1距离)。对于超类1,选用KL距离时获得最高准确率,62.11%;与超类0获得的准确率相比,存在33.15%的差异,这是因为超类1有两个边界类(类3和类8)。对于超类2,选用BC距离时获得最高准确率(84.52%),该准确率受到超类2的边界类(类9)的影响。

如图5所示,应用LBP方法生成的不同玉米籽粒类的纹理直方图非常相似,因此,通过直方图之间的距离来识别真实的霉变玉米籽粒类变得困难。直观地说明了所提方法比选用光谱变量和图像纹理直方图特征组成的特征集合的方法获得了更准确的玉米籽粒类别识别准确率和最小识别偏差的原因。

图5 玉米籽粒图像的纹理直方图

当选用光谱变量和图像纹理直方图特征组成的特征集合时,由于边界类3和8的平均直方图分别与类2(超类0)和类9(超类2)的直方图非常相似,导致选用光谱变量和图像纹理直方图特征组成的特征集合的方法对超类0的识别准确率受到边界类2的影响、对超类1的识别准确率受到边界类3和8的影响、对超类2的识别准确率受到边界类9的影响。相比之下,选用光谱变量和图像颜色直方图特征组成的特征集合的所提方法对超类0、1、2的识别准确率受边界类的影响较小,从而可获得更高的平均识别准确率和最小的识别偏差值。此外,最适合所提方法的距离函数将取决于玉米籽粒所属的超类。

为进一步验证所提方法的有效性,将所提方法与文献[18]中基于高光谱图像+随机蛙跳+极限学习机的方法(HSI+RF+ELM)、文献[26]中基于高光谱图像+稀疏自动编码器+卷积神经网络的方法和文献[27]中基于高光谱图像+蚁群优化+BP神经网络的方法对玉米籽粒超类的识别效果进行对比,结果如表6所示。

表6 所提方法与文献[18]、[26]和[27]中方法对玉米籽粒超类的识别准确率

由表6可知,所提方法对于超类0玉米籽粒的识别准确率比文献[18]、[26]和[27]中的方法分别高1.12%~3.58%,0.30%~2.76%,1.61%~4.07%;对于超类1玉米籽粒的识别准确率比文献[18]、[26]和[27]中的方法分别高2.08%~2.52%,1.36%~1.80%,2.27%~2.71%;对于超类2玉米籽粒的识别准确率比文献[18]、[26]和[27]中的方法分别高2.90%~3.74%,2.99%~3.83%,3.51%~4.35%;对于霉变玉米籽粒的平均识别准确率比文献[18]、[26]和[27]中的方法分别高2.31%~2.99%,1.83%~2.51%,2.74%~3.42%。所提方法与文献[18]、[26]和[27]中的方法均能以较高的准确率识别玉米籽粒所属超类,但所提方法的识别准确率更高。

为进一步提升试验结果的可信度,重新取一批样品来组建测试组:每种霉变程度的玉米样品被分为5组,每组样品100 g,每组样品的组成取决于玉米霉变百分比。在采集每组样品的高光谱图像时,每采集一次,将玉米籽粒翻动重新混合一次,每组样品采集10张高光谱图像。对于每个类别,捕获了50张玉米籽粒样品图像,总计1 650张图像。

将所提方法与文献[18]中基于高光谱图像+随机蛙跳+极限学习机的方法(HSI+RF+ELM)、文献[26]中基于高光谱图像+稀疏自动编码器+卷积神经网络的方法和文献[27]中基于高光谱图像+蚁群优化+BP神经网络的方法对测试组玉米籽粒超类的识别效果进行对比,结果如表7所示。

由表7可知,对测试组中霉变玉米籽粒的识别和对比结果表明,尽管样本数量减少了50%,但所提方法对霉变玉米籽粒所属超类的识别准确率仍然明显高于文献[18]、[26]和[27]中所提出的方法。

表7 所提方法与文献[18]、[26]和[27]中方法对测试组玉米籽粒超类的识别准确率

4 结论

研究提出一种基于高光谱图像光谱变量和颜色特征的霉变玉米籽粒识别方法。该方法先对每幅玉米籽粒图形进行图像分割和光谱变量、颜色特征提取,并基于颜色特征生成颜色直方图;将光谱变量和图像颜色直方图特征组合,形成特征集合;通过距离函数对特征集合中特征的分析确定图像中玉米籽粒所属类别。为验证所提方法的有效性,将所提方法与文献[18]、[26]和[27]中的方法对玉米籽粒识别效果进行了对比。对比结果表明,所提方法与文献[18]、[26]和[27]中方法均能以较高的准确率识别玉米籽粒所属超类,但所提方法的识别准确率更高。对测试组中霉变玉米籽粒的检测和对比结果表明,尽管样本数量减少了50%,但所提方法对霉变玉米籽粒所属超类的识别准确率仍然明显高于文献[18]、[26]和[27]中所提出的方法。该方法可实现被测玉米籽粒样品是否霉变以及霉变程度的准确判断,有望为玉米霉变籽粒高光谱现场识别设备研发提供技术支持。由于对霉变玉米籽粒的识别准确率与距离函数密切相关,后期将通过进一步的理论分析、研究和试验验证,确定距离函数的选择依据和方式。

猜你喜欢
直方图纹理籽粒
符合差分隐私的流数据统计直方图发布
籽粒苋的饲用价值和高产栽培技术
籽粒苋产量低的原因及高产方法
基于BM3D的复杂纹理区域图像去噪
用直方图控制画面影调
使用纹理叠加添加艺术画特效
玉米机械脱粒籽粒含水量与破碎率的相关研究
TEXTURE ON TEXTURE质地上的纹理
中考频数分布直方图题型展示
圆投影及直方图不变矩在多视角产品检测中的应用