基于模糊聚类分析的结球甘蓝等级检测

2021-02-10 11:54葛成鹏王振兴李民赞李鸿强
河北建筑工程学院学报 2021年3期
关键词:长轴结球甘蓝

葛成鹏 王振兴 孙 红 李民赞 李鸿强*

(1.河北建筑工程学院,河北 张家口 075000;2.中国农业大学现代精细农业系统集成研究教育部重点实验室,北京100083)

0 引 言

卷心菜,通称“包菜”,学名“结球甘蓝”,是一种常见蔬菜.结球甘蓝在我国“菜篮子”中占有重要的地位,是家庭主要食用蔬菜之一.

农业部2008年5月16日发布《结球甘蓝等级规格》(NY/T 1586-2008)标准[1],等级鉴别标准见表1.

表1 结球甘蓝等级评价标准

如表1所示,结球甘蓝等级主要评价指标是叶球大小,外观,紧实度,修正度,老帮,焦边,侧芽,机械损伤,病害,虫害.度量值是一致,基本一致,相似;整齐,基本整齐,不整齐;有或者无;大量,少量,度量值界限模糊.

结球甘蓝等级外在品质的评价,主要依靠人工感官判断,存在判别标准不一致、效率低、误差大、准确性低等缺点.机器视觉技术[2]结合模式识别方法作为一种无损检测技术,在农产品等级检测[3]方面应用比较广泛.胡光辉等[4]提出了一种基于机器视觉和主成分分析优化神经网络的哈密瓜成熟等级识别方法,预测准确率达86.59%.童旭[5]对无瑕疵水果的颜色特征、纹理特征和形态特征包括高度特征提取后,选取通过主成分分析后保留了95%的特征的12维向量作为输入,建立了基于粒子群优化的BP神经网络用于水果表面等级分类识别.Unay D[6]在多光谱图像上,通过与茎/花萼区域的最小混淆来精确分割缺陷之后,从分割区域中提取统计、纹理和几何特征,利用这些特征训练统计分类器和句法分类器对水果进行两类和多类分级,总准确率为93.5%.

本研究,按照《结球甘蓝等级规格》(NY/T 1586-2008)标准,基于机器视觉技术,对结球甘蓝等级的无损检测方法进行研究,为结球甘蓝的等级评定提供一种新的方法.

1 材料和方法

分级试验所用结球甘蓝为圆头结球甘蓝,共计108个试验样品,根据国标,人工确定各个样品的等级,二级、一级、特级的比例接近1:2:2.其中,80个样品组成聚类集,用作聚类分析,另外28个样本组成测试集,用于等级测试.

1.1 结球甘蓝等级评价指标对应图像特征

结球甘蓝的图像采集在白炽灯光源、背景为黑色的试验箱内进行.首次采样时,将结球甘蓝正对相机放置,调整物距和焦距,使相机采集到的图像达到最佳效果,固定参数以便后续图像采集,并将采集到的图像数据保存至计算机存储.结球甘蓝等级指标与图像特征对应关系如表2所示.

表2 结球甘蓝等级指标与图像特征对应关系

叶球大小评价指标,选择面积,长轴长,短轴长,等价直径,体积,周长形状特征.外观、修整度、侧芽评价指标,选择长轴与X轴的交角,扩展度,偏心率,平滑度形状特征[7-14].老帮、焦边、机械损伤、病虫害评价指标选择绿色比例,色度、饱和度、亮度均值颜色特征[15-18],帮-叶像素比,斑纹比,惯性矩,能量,同质性纹理特征[19-24].紧实度评价指标选择椭圆度、圆形度.图像中图形的面积可用同一标记的区域中像素的个数来表示,记作A0.图像周长用同一标记的区域轮廓中像素的个数来表示,记作l.长轴长是像素意义下与对象图形具有相同标准二阶中心矩的椭圆的长轴长,记作maxl,短轴长是像素意义下与对象图形具有相同标准二阶中心矩的椭圆的短轴长,记作minl.长轴与X轴的夹角是像素意义下与对象图形具有相同标准二阶中心矩的椭圆的长轴与X轴的交角,单位为度,记作ort.扩展度是同时在区域和其最小边界矩形中的像素比例,记作ext,偏心率是与区域具有相同标准二阶中心矩的椭圆的离心率,记作ect.等价直径是与区域具有相同面积的圆的直径,记作d,计算公式为:

(1)

平滑度是与区域具有相同面积的圆的周长与区域周长的比值,用来刻画甘蓝外表面的光滑程度,比值小说明甘蓝表明褶皱多,比值大说明甘蓝表明光滑无褶皱,记作phd.体积是像素意义下与对象图形具有相同标准二阶中心矩的椭圆和与区域具有相同面积的圆的所对应的旋转体的体积的平均值,记作vol,化解后的计算公式为:

(2)

绿色比例是将RGB空间图形转换成HSV空间图像,分别获得H、S、V分量图像,求得各个个分量图像的灰度均值,分别记作hm,sm,vm.健康的结球甘蓝表面以绿色为主,有老帮、焦边、机械损伤、病害、虫害等损伤的结球甘蓝,损伤部位的颜色表现为非绿色,通过计算绿色像素在图形范围内的比例,反映结球甘蓝外表的老帮、焦边、机械损伤、病害、虫害等情况,根据颜色统计结果,定义H分量值大于等于90且小于等于150,同时,S分量值大于等于0.2的像素和图形其它像素和的比值,记作gr.

斑纹比是经过纹理滤波,滤波后所得斑纹图像如图1所示,可以看出结球甘蓝表面的斑纹,在结球甘蓝图像范围内,统计非零值的像素的个数,与整个结球甘蓝图像范围内像素个数求比值,记作bwb.

图1 斑纹图像

帮-叶像素比是对S分量图像,经过阈值分割,结球甘蓝的帮、叶的灰度值有明显的不同,这也符合人的实际观察,在购买的甘蓝中,甘蓝的帮、叶的色调是绿色,但是饱和度不同,也就是虽然同为绿色,但是绿色的程度不一样.帮和叶比值计算过程:经过对S分量图像的阈值分割,帮-叶分割处理效果如图2所示,可以看出结球甘蓝表面的帮和叶区分开来,在结球甘蓝图像范围内,计算零值的像素个数与整个结球甘蓝图像范围内像素个数的比值,记作byb.

图2 帮-叶分割效果图

圆形度用来描述对象形状接近圆形的程度,记作r0,计算公式为:

(3)

椭圆度用来描述对象形状接近椭圆的程度,记作r1计算公式为:

(4)

基于灰度共生矩阵,提取结球甘蓝纹理特征参数,其中最重要的纹理特征参数有如下3个:分别是惯性矩,记作Q1,能量,记作Q2,同质性,记作Q3.公式如下:

(5)

(6)

(7)

1.2 检测方法

1.2.1 模糊聚类方法

国标“NY/T1586—2008结球甘蓝等级规格”中依据外观特性,将一个批次结球甘蓝分为3级,是一个聚类过程,3级之间评价指标的度量值没有明确的界限,当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法[25-29].

给定样本的观测数据矩阵

(8)

其中,X是n×p数据矩阵,代表n个样本,每个样本有p个变量.模糊聚类就是讲n个样品划分为c类,记V={v1v2…vc}为c个聚类中心,其中Vi={Vi1Vi2…vip}(i=1,2,…,c),在划分中,每个样品不是严格的划分为某一类,而是以一定的隶属度属于某一类.

令uik表示第k个样品xk属于第i类的隶属度,这里:

定义目标函数:

(9)

其中,U=(uik)c×n为隶属度矩阵,dik=‖xk-vi‖.模糊C均值聚类法的聚类准则是求U,V,使得J(U,V)取得最小值.计算步骤为:

第1步:确定类的个数c和幂指数(m>1),用[0,1]上的均匀分布随机数初始化隶属度矩阵令l=1表示第1步迭代.

第2步:通过公式10计算第l步的聚类中心V(l)

(10)

第3步:修改隶属度矩阵U(l)计算目标函数值J(l).

(11)

(12)

第4步:通过设置隶属度终止容限或最大迭代次数停止迭代,否则l=l+1,转到②继续执行.

经过以上步骤的迭代之后,可以求得最终的隶属度矩阵U和聚类中心V,使得目标函数J(U,V)的值达到最小,根据最终的隶属度矩阵中U中元素的取值可以确定所有样品的归属.

1.2.2 等级识别方法

1.2.1节可以获得各个等级的聚类中心,计算待识别样本到3个等级的聚类中心的欧氏距离,将待识别样本判别为到聚类中心距离最小对应的类别.

2 结果与分析

2.1 图像参数分析

图像参数共21个,对21个参数进行相关性分析.结果见表3所示,21个参数中,圆形度和椭圆度之间最大正相关,相关系数为0.28,偏心率与同质性之间最大负相关,负相关系数为-0.27.其他参数之间的相关系数介于-0.27到0.28,参数之间弱相关,都可以作为分析变量.

表3 参数间相关系数统计表

2.2 模糊聚类

模糊聚类结果,第1类有18个样本,第2类有32个样本,第3类有30个样本.参数归一化后,3类样本的均值统计见表4.

表4 特征参数均值统计表

第1类样本的长轴,夹角,扩展度均值最大.第2类样本的面积,短轴,等价直径,周长,椭圆度,体积,能量,同质性均值最大.第3类样的圆形度,H分量均值,S分量均值,V分量均值,绿色像素比例,帮-叶比,惯性矩,斑纹比均值最大.从参数表现优异的个数来看,第1类样本预判为二级,第2类样本预判为一级,第3类样本预判为特级.

老帮、焦边、机械损伤、病害、虫害的评价,强调绝对数量上的差别,评价值为绝对数量的特征有:H,S,V均值,绿色像素比,帮-叶比,惯性矩,能量,同质性,斑纹比.3类样本以上评价值平均值的大小关系比较复杂,如图3所示,做雷达图分析如下:类别3除去能量指标,其它指标基本都向最外层圆圈扩展延伸,在雷达图上覆盖面积最大,类别2在除去惯性矩,帮叶比,绿色像素比例之外,其它指标都比类别1的指标更向外扩展,雷达图上所覆盖面积大于类别1.

图3 H均值等平均值雷达图

参数归一化后,3类样本的标准偏差统计见表5.叶球大小、外观、紧实度、修整度的评价,查看类内样本的一致性,类内样本的特征指标(面积,长轴长,短轴长,等价直径,体积,周长,长轴与X轴的夹角,扩展度,偏心率,平滑度,椭圆度,圆形度)标准偏差越小越好.第1类样本的椭圆度,圆形度,平滑度标准偏差最小,第2类样本的长轴,等价直径,体积,长轴与X轴的夹角标准偏差最小,第3类样本的面积,短轴,周长,扩展度,偏心率标准偏差最小.从参数表现优异的个数来看,第1类样本预判为二级,第2类样本预判为一级,第3类样本预判为特级.

表5 特征参数标准偏差统计表

从以上3个角度分析,第1类结球甘蓝是二级,第2类结球甘蓝是一级,第3类结球甘蓝是特级.

2.3 等级识别

通过2.2节的模糊聚类,计算得到3个等级的聚类中心,中心向量见表6.

表6 各个等级中心向量

计算测试样本到各个等级中心的欧氏距离,以距离最小判定测试样本的等级归属.

测试结果见表7.特级样品10个,一级样品12个,二级样品6个,测试集中各个等级样品数量与聚类集中各个等级样品数量占比基本一致.

表7 测试样本等级识别结果

3 结 论

本研究根据《结球甘蓝等级规格》(NY/T 1586-2008)标准中结球甘蓝等级的判别依据,提出了基于机器视觉结合模糊聚类分析的等级判别方法,用于结球甘蓝等级检测,结论如下.

结球甘蓝等级划分标准中共有9个等级评价指标,本文确定了包括形状、颜色、纹理21个图像特征参数表示,参数间的相关系数介于-0.27~0.28,21个图像特征参数之间弱相关,可以作为评价指标的替代表示.

等级评价指标的度量值均为定量描述,度量值界限模糊,根据聚类原则,选用模糊聚类方法进行聚类分析,将结球甘蓝聚类集样本划分为3类.分析3类样本图像特征参数的均值和标准偏差,根据各个类别中图像特征参数的均值和标准偏差表现优异的个数,确定了3个聚类类别与3个等级的对应关系.

通过计算待测结球甘蓝样本与聚类集中各个等级中心的欧氏距离,以距离最小确定待测样品的等级归属,聚类结果和测试结果与根据国标方法的分级结果一致.

猜你喜欢
长轴结球甘蓝
设施结球生菜绿色生产技术
单管立式长轴多级熔盐泵的研发及应用
椭圆与两焦点弦有关的几个重要性质及其推论
超声引导下长轴与短轴法在NICU患者动静脉置管的比较
不同肥料在结球生菜上的应用效果研究
上海地区秋季设施栽培结球生菜品比试验
变色的紫甘蓝
厨房色彩游戏
紫甘蓝
保护地结球生菜为啥不结球