赵君君, 王小鹏, 渠燕红
(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)
基于分水岭和区域面积加权的粘连枸杞分级方法*
赵君君, 王小鹏, 渠燕红
(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)
针对枸杞分级过程中出现的粘连枸杞分级效率不高、准确性低的缺点,提出了一种基于形态学分水岭和区域面积加权的粘连枸杞分级方法。对粘连的枸杞图像进行形态学预处理消除枸杞烘干晾晒过程中产生的细小噪声,在保持区域轮廓位置不变的同时,尽可能地消除不规则边缘;运用标记极小值的分水岭算法分割图像,依据枸杞红色分量的分布剔除霉变颗粒,对正常枸杞二值图像运用区域面积标记算法扫描标定各个目标获取颗粒的面积,并用霍特林算法获取颗粒的长宽比;以长宽比作为面积的权值对面积加权修正后进行聚类分析,分成3类。实验结果表明:该方法能够较快速、准确地对不同大小的粘连枸杞颗粒进行分类。
粘连枸杞; 形态学分水岭; 区域面积加权; 聚类分析; 枸杞分级
传统枸杞分级主要采用人工挑拣方式,人工判别枸杞的大小、颜色及表面缺陷,速度慢、效率低、可靠性不高,影响了枸杞的价格和销售,不符合精品外运的发展要求[1]。随着自动化技术的发展,国内外研究了基于机器视觉的农产品分级方法,文献[2,3]针对非粘连红枣、大米的分级,通过设计硬件系统或者提取目标的大小、形状等特征参数建立相应的模型进行分级,对非粘连农产品的分级效果较好。文献[4]提出了基于机器视觉的多铆钉自动检测算法,提取阈值分割后铆钉的轮廓,通过计算铆钉轮廓各点在两侧支撑区间内曲率的方法识别铆钉。文献[5]提出了基于机器视觉的枸杞分级方法,对非粘连枸杞的色泽特征和大小特征进行两级分类,第一级依枸杞的色泽特征分成2类,第二级依枸杞的大小特征分成3类。针对粘连枸杞进行分级,先通过色泽特征剔除霉变颗粒提升分类的效率,然后标定正常颗粒的面积和长宽比,并对枸杞颗粒面积进行加权修正,加权值为对应枸杞颗粒的长宽比。CCD图像传感器采集粘连枸杞图像先经过预处理、标记极小值的分水岭算法分割后提取枸杞图像RGB的R分量,根据R分量的分布剔除霉变颗粒、运用区域面积标记算法和霍特林算法标定颗粒面积及长宽比;最后以枸杞颗粒的长宽比作为面积的权值对面积进行修正,对修正后的面积运用k-means算法进行聚类分析,实现粘连枸杞的分级。
粘连枸杞分级主要分为2个部分,如图1所示,即粘连枸杞图像分割和粘连枸杞聚类。粘连枸杞图像分割可分为预处理和图像分割;粘连枸杞聚类可分为特征提取、区域面积及长宽比标定和基于k-means面积加权聚类。1)对粘连枸杞图像预处理消除细小噪声和不规则边缘;2)利用标记极小值的分水岭算法分割粘连图像;3)提取分割图像单个颗粒的R分量,依据R分量的分布剔除霉变颗粒;4)运用区域面积标定算法和霍特林算法标定分割区域的面积及长宽比,以获取的长宽比作为面积的权值运用k-means聚类算法对加权面积进行聚类分析。
图1 粘连枸杞分级流程
2.1 预处理
枸杞在采摘晾晒烘干过程中容易受到光照、灰尘等因素的影响,导致枸杞颗粒内部出现灰点,颗粒边缘产生不规则细节等噪声,不利于二值图像面积和长宽比的准确标定。为此,首先对CCD采集的粘连枸杞图像进行预处理,灰度化后作高帽变换增强灰度图像的对比度如图2(a)所示
I=0.098 9fr+0.257 0fg+0.214 0fb
(1)
式中fr,fg和fb分别为粘连枸杞彩色枸杞图像RGB分量;I为灰度化之后的图像。然后采用OTSU法(即大律法或最大类间方差法),对高帽变换后的图像作二值化处理,二值化后枸杞图像中存在由于表面纹理和灰点所产生的孔洞问题给后续局部极小值的标记产生较大影响,导致分水岭分割时严重的过分割,如图2(b)所示。采用3×3的圆盘型结构元素作形态学面积开运算填充颗粒内部的孔洞,并用5×5窗口的中值滤波法平滑颗粒边缘如图2(c)所示。
图2 粘连枸杞图像预处理
2.2 图像分割
粘连枸杞的分割对后续单个枸杞面积和长宽比的标定、分类至关重要。与文献[6]和文献[7]的分割方法相对比,标记极小值的分水岭算法[8,9]不仅能分割枸杞目标与背景,且能分割粘连枸杞。针对图2(c)运用bwareaopen函数先去除非粘连的颗粒并标记粘连颗粒的连通域,然后对该连通域进行欧氏距离变换;再标记变换后深局部最小区域位置;最后对深局部最小区域的距离变换运用标记极小值的分水岭算法分割,分割过程如图3(a)~(f)所示。
图3 粘连枸杞分割过程
3.1 特征选择
大小和色泽特征是枸杞分级的主要依据[10]。合并非粘连枸杞颗粒后,图像由单个的连通区域组成,每个连通区域为单个枸杞颗粒,依次扫描每个连通区域提取单个枸杞RGB的R分量。选取正常枸杞颗粒和发生霉变的颗粒各50颗,分别绘制正常颗粒和发生霉变颗粒的R分布直方图如图4(a),(b)所示,横轴为R分量0~255等级,纵轴为每个等级出现的平均次数。可以看出:正常颗粒的R分量分布集中在75~150之间,而霉变颗粒的R分量相对分散分布在0~150之间。因此,根据枸杞R分量的分布对霉变颗粒进行标记,用含有霉变颗粒的图像减去标记的霉变颗粒得到正常枸杞颗粒图像。如图4(c)为含有霉变颗粒的图像,图4(d)为剔除霉变颗粒后的图像。考虑到枸杞本身的形状特点,将分割颗粒区域的面积和长宽比作为衡量枸杞大小的特征参数。枸杞颗粒面积的测量采用区域面积标记算法,逐行、列,从上到下,从左到右扫描二值图像,每次扫描对单个颗粒进行面积标定,如图5(a),(b)所示为标定2副枸杞颗粒的面积;获取单个枸杞颗粒的长宽比时,首先需要获取枸杞的边缘坐标,选用bwboundaries函数获取枸杞的边缘和边缘像素坐标,然后运用霍特林变换[11]获取枸杞的最小外接矩形,进而得到枸杞的长宽比。部分枸杞标定的面积及长、宽比,如表1所示。
3.2 区域面积标定
设置一个标记目标区域的标记符数组flag,初始值为1;设置一个标记颗粒个数的变量final,初始值为0。
1)以4邻域方式扫描二值图像当前像素的左、左上、上及右上像素,并对连通域用当前flag值进行标记,每次标记一个连通域,flag值加1。
图4 R分布剔除霉变枸杞
图5 枸杞颗粒面积标记
图像a标号面积长宽比图像b标号面积长宽比114542.16113922.21213932.24218112.17313741.78313772.01416321.47415091.14515311.5354341.64616741.79614352.29716651.69712212.14815111.12815341.15917632.23915841.091015821.791016101.261116591.621115141.34123431.05123861.18
2)判断同一目标是否有不同标记符,如果有,则存入等价数组equal[12];否则,回到步骤(1)继续扫描。
3)设置一个标号矩阵label保存所有的标记符,同时flag值减1。
4)扫描等价数组equal,检测并替换等价标记符获得颗粒总数final,根据final值重新扫描标号矩阵label,替换等价标号。
5)根据final值遍历所有已标记的连通域,并对每个连通域重新进行标号,更新标号矩阵label,并统计标号区域的像素数作为相应的枸杞面积。
3.3 获取区域长宽比
按照各单连通区域的标号依次获取枸杞颗粒的边缘坐标,每个边缘像素点作为一个二维向量Xi=[ai,bi]T,i=1,2,…,n,其中,n为边缘像素点的个数。根据Xi计算枸杞边缘像素坐标的均值向量mx和协方差矩阵cx,即
(2)
(3)
由于cx是2×2阶的实对称矩阵,故特征向量只有2个,特征向量矩阵A=(e1,e2)T,用式(3)进行霍特林变换得到新的坐标系向量
Yi=A(Xi-mx),i=1,2,…,n
(4)
该坐标系以枸杞颗粒的质心(均值向量坐标mx)为原点,以最大特征值对应的特征向量e1,e2的方向作为新坐标系横轴和纵轴方向,坐标轴旋转变换后得到枸杞颗粒最小外接矩形的长宽比
(5)
式中 xmax和xmin为新坐标系下枸杞颗粒边缘像素点横坐标的最大值和最小值;ymax和ymin为纵坐标的最大值和最小值。
3.4 基于k-means的面积加权聚类
k-means动态聚类算法[13]是通过迭代寻找c个聚类的一种划分方案,用c个聚类的均值代表相应各类样本时所得到的总体误差最小。若Ni是第i类Γi中的面积及长宽比的样本个数,x为面积,k为长宽比,则样本均值ei可以由面积x以k加权获得
(6)
采用基于欧氏距离的最小距离分类器,基本思想是根据训练集按照算术平均生成代表该类的中心向量e1,e2,…,ec,c为类别数目。对于每一个待分类样本x,加权后计算其与类中心向量之间的距离,最后判定x属于与之距离最近的类。距离计算采用欧氏距离
Di=‖k·x-ei‖2,i=1,2,…,c
(7)
将Γi中各样本x的加权与均值ei的误差平方和对所有类相加后为
(8)
式中Je为误差平方和准则,度量了c个样本子集所产生的总的误差平方,使得Je最小的聚类是误差平方和准则下的最优分类。k-means算法步骤如下:
1)初始划分3个聚类,计算第i类样本Γi的ei及Je,i=1,2,3;
2)任取一个样本x,加权后计算离它最近的聚类中心ei,并将其归到所对应的聚类ci;
3)更新聚类中心ei及Je,i=1,2,3;
4)迭代计算Je至收敛,则停止;否则,转步骤(2)。
为了验证对粘连枸杞分级的有效性,运用Matlab对308颗去除霉变颗粒的样本枸杞面积加权后进行聚类分析,由Silhouette函数绘制聚类轮廓图如图6(a)~(c)所示,相对分成2类和4类而言,分成3类时类内相似度较高,而类间相似度较低,再由聚类散点图,如图7所示,分成3类时各类别较集中,类间相似度较低,效果最佳,针对308颗样本枸杞训练所得分类基准如表2所示。选用1 540颗枸杞(约500 g)作面积和长、宽比标定,并对加权面积重复4次作聚类分析,与采用人工挑拣的方法进行对比,实验结果如表3所示,本文方法平均每次耗时约为7.95 s,人工挑拣平均每次耗时约为300 s;同样,对1 540颗枸杞运用本文方法进行聚类分析分成3类准确性约为96 %,人工挑拣的准确性约为85 %。实验结果表明:该方法相比人工分类能更快速、准确地对粘连枸杞进行分类。
图6 聚类分析轮廓
图7 k-means聚类结果
加权面积类别分类基准范围1类≥25002类≥18003类<1800
表3 本文方法与人工挑拣方式对比
提出了基于形态学分水岭和区域面积加权的粘连枸杞分级方法,先运用标记极小值的分水岭算法对经过预处理除噪后的粘连枸杞图像进行分割,考虑到分类效率的提升,选取枸杞颗粒图像的R分量,根据R分量的分布剔除霉变颗粒减少分类的数量;然后以面积和长宽比为特征参数,运用区域面积标记算法和霍特林算法标定各个正常颗粒面积大小及长宽比,将面积和长宽比特征结合在一起,以长宽比作为面积的权值对面积进行修正,最后运用k-means动态聚类算法对加权后的面积进行聚类分析,实现了粘连枸杞的分割到分类的完全自动化。实验结果表明:该方法能够较快速准确地对粘连枸杞进行分类。
[1] 崔 萍,汪泽鹏.宁夏枸杞产业发展现状及对策[J].北方果树,2008(5):36-37.
[2] 许 敏,马 钺,陈 帅.基于计算机视觉的红枣形状识别方法研究[J].传感器与微系统,2013,32(4):23-26.
[3] Jain N K,Khanna S O,Jain K R.Development of a classification system for quality evaluation of oryza sativa L(rice)using computer vision[C]∥2014 International Conference on Communication Systems and Network Technologies(CSNT).2014:1088-1092.
[4] 郭全民,胡 辉.基于机器视觉的多铆钉自动检测算法研究[J].传感器与微系统,2013,32(4):48-50.
[5] 王履程,谭筠梅,王小鹏,等.基于机器视觉的枸杞分级方法[J].计算机工程与应用,2013,49(24):16-18.
[6] 陈亚军,刘 丁,梁军利,等.一种无须预指定分割区域数的自适应多阈值图像分割方法[J].模式识别与人工智能,2014,27(11):993-1004.
[7] 柯 卫,王宏力,袁 宇,等.基于区域生长法的星图中星的提取方法[J].传感器与微系统,2015,34(12):57-58.
[8] 冈萨雷斯.数字图像处理[M].阮秋琦,译.3版.北京:电子工业出版社,2011.
[9] 高 丽,杨树元,李海强.一种基于标记的分水岭图像分割新算法[J].中国图象图形学报,2007,12(6):1025-1032.
[10] 林 楠,杨宗学,蔺海明,等.不同产地枸杞质量的比较研究[J].甘肃农业大学学报,2013,48(2):34-39.
[11] 刘璎瑛,丁为民,陈建伟,等.基于霍特林变换的稻米彩色图像粒形检测算法[J].中国水稻科学,2010,24(3):325-328.
[12] 刘奇琦,龚晓峰.一种二值图像连通区域标记的新方法[J].计算机工程与应用,2012,48(11):178-180.
[13] 安计勇,高贵阁,史志强,等.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133.
Method of classification for touching wolfberry based on watershed and regional area weighted*
ZHAO Jun-jun, WANG Xiao-peng, QÜ Yan-hong
(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
Aiming at problem of poor efficiency and low accuracy of manual operation of sorting the touching wolfberry,a touching wolfberry classification method based on morphological watershed and regional area weighted is proposed.Morphological operation is used for touching wolfberry image pre-processing to eliminate noise interference caused by drying or basking,remain the position of the region outline unchanged while eliminating irregular edges as much as possible;the watershed algorithm is used for image segmentation that has been marked the minimum region.According to the red(R)component distribution of the single wolfberry in the image,the mildew wolfberry particles will be removed,and through area mark algorithm,particles area of the normal binary wolfberry image will be labeled,and using Hotelling algorithm to obtain length-width ratio of particles;using the length-width ratio as weighting of area for cluster analysis after weighting correction,it is divided into three kinds.The experimental results show that this method can classify different sizes of touching wolfberry more quickly and accurately.
touching wolfberry; morphological watershed; regional area weighted; cluster analysis; wolfberry classification
10.13873/J.1000—9787(2017)09—0049—04
2016—09—26
国家自然科学基金资助项目(61261029)
TP 391.4
A
1000—9787(2017)09—0049—04
赵君君(1987-),男,硕士研究生,主要研究方向为数字图像处理。
王小鹏(1969-),男,通讯作者,博士,教授,主要从事数字图像处理,多媒体技术以及虚拟现实技术等研究工作,E-mail:zjjsincerely@foxmail.com。