基于图像处理的花生荚果品种识别方法研究

2012-11-28 02:29韩仲志邓立苗于仁师
中国粮油学报 2012年2期
关键词:荚果识别率图像处理

韩仲志 邓立苗 于仁师

基于图像处理的花生荚果品种识别方法研究

韩仲志 邓立苗 于仁师

(青岛农业大学理学与信息科学学院,青岛 266109)

为实现品种鉴定与真伪识别的自动化,基于图像识别的方法,采用扫描仪采集了20个品种,每个品种100颗花生果正面和2个侧面的图像,分别获取每幅图像的形态、颜色和纹理三大类共50个特征,并对这些特征进行主分量分析(PCA)优化,针对优化和没有优化的特征,搭建了人工神经网络识别模型和支持向量机模型,并采用两种模型进行品种识别,结果表明,采集的特征经PCA优化后表现出更强的识别性能,SVM较神经网络识别效果总体上得到提高,并且识别效果稳定。品种的数量对识别效果有影响,在通常情况下可根据品种的数量来确定特征的数量,可以进一步提高效率,对20个品种,需要选择超过15个特征。颜色类特征比形态类和纹理类特征具有更好的识别效果,经过不同类别的特征组合后,整体上识别性能达到90%以上,基本可以推广到实际生产中使用。

花生荚果 品种识别 神经网络 支持向量机 主分量分析

我国花生产量居世界第一,并且新品种的数目很多,花生品种鉴定与检测是花生新品种选育的重要内容。我国的花生DUS测试指南[1](简称指南)规定花生荚果形态特征为主要性状,数据采集主要依靠目测分级及手工测量,存在速度慢、精度低、客观性差等问题。而且,随着注册品种增加,客观上要求添加新的性状以区别类似品种。

图像处理技术和生物化学技术与分子技术一样,是国际植物新品种保护联盟(UPOV)认可的植物DUS测试新技术[2]。图像处理技术通过采集种子外观特征数据,并根据这些特征鉴别不同品种。韩仲志等[3-4]基于图像的外观表现型提取了玉米种子的数十个特征,基于这些特征采用软件分析方法,证实了图像处理技术在玉米种子检验过程的应用可能;作者曾深入探讨了花生籽仁在品种识别中的作用[5-7],也得出了较好的结论。另外图像处理的方法还用在了诸如小麦[8]、水稻[9]等其他作物上,然而在花生荚果种子品种识别检验过程中使用此方法较少。花生荚果作为花生重要的器官,具有重要植物分类学和作物学地位,是新品种DUS测试的重要对象。一些遗传因素和环境因素会反映在荚果外观表现上,进而能够鉴别不同的品种。基于这一点,本研究主要探讨了花生荚果识别过程中特征数量、特征优化算法、识别模型、样本数量、以及特征组合等对识别率的影响,以进一步考察识别过程中的关键影响因素。

1 材料与方法

1.1 试验材料

供试的花生品种共有20个,均来自农民自留种,试样品种分别来自河北、山东日照、潍坊、青岛和莱阳主要花生产区,主体北方大花生品种(表1)。每个品种选取正常无破损100粒带壳花生种子。

表1 试验材料

用扫描仪采集图像,扫描式按固定次序与方向将种子摆放于扫描仪上,将扫描仪盖板完全打开进行图像扫描。因为背面图像很难获取,为获得更为全面的图像,分别对每一品种荚果进行正面和侧面扫描,如图1。

图1 扫描图像样片

试验用的扫描仪型号为佳能 CanoScan 8800F,平板式CCD扫描仪,光学分辨:4 800dpi×9 600dp;最大分辨率:19 200dpi,扫描范围:216×297 mm;使用的计算机为联想ideaCentre Kx 8160:CPU为Intel酷睿2四核 Q8300 2.5GHz,内存 DDRIII4G;闪存1 G,硬盘500 G;Winows XP操作系统。

1.2 特征提取与特征优化

图像的预处理包括图像的增强、去噪、中值滤波、边缘检测、形态学操作和图像的色彩空间转换等常规的预处理方法。提取的外观特征共分3大类50个特征,其中颜色特征、形态特征和纹理特征分别从彩色图像、二值化图像和纹理图像获取。形态类包括反映大小的有8个:面积、长轴长、短轴长、长度、宽度、周长、等面圆直径、凸形面积;反映形状的有5个:椭圆度、矩形度、圆形度、紧凑度、凹凸比;颜色类包括RGB颜色空间的三个分量的均值、方差、偏度和峰度与HSV颜色空间三个分量的均值、方差、偏度和峰度;纹理类包括灰度图像均值、方差、平滑度、三阶矩、一致性、熵;及包括反映种子图像灰度值次数分布特点的7个统计不变矩。对这些特征的定义参见相关文献[10-12]。图像预处理和特征提取过程均基于Matlab R2008a软件编程实现。

传统的特征降维与优化是基于二阶统计量进行的主分量分析(PCA)方法[10],PCA是统计学中分析数据的一种有效的方法,其目的是在数据空间中找一组向量以尽可能地解释数据的方差,将数据从原来的R维空间降维投影到M维空间(R>M),降维后保存了数据中的主要信息,从而使数据更易于处理。PCA方法是沿数据集方差最大方向寻找一些相互正交的轴,主成分分析方法是一种最小均方误差下的最优维数压缩方法。

1.3 识别模型的构建

本试验所涉及的识别模型为BP人工神经网络算法和支持向量机模型。BP(Back Propagation)神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层、隐层和输出层,共三层结构[13]。本试验所取各层神经元数目为50-17-20,输入层为特征数共50个,输出层为20个品种,隐含层神经元数目目前没有理论上的指导,选用的17为多次实验得到最佳值。

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有2个互相平行的超平面。建立方向合适的分隔超平面使2个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小[2]。鉴于本试验需要对多个品种进行识别,所以本试验需要构建一个多类SVM分类模型[14],类别数为20。

2 结果与分析

2.1 特征对识别模型的影响

通过特征提取每个籽粒的50个特征,由于每个品种100粒花生,共20个品种,所以得到2 000×50的统计特征矩阵。基于这些统计特征分别使用人工神经网络(ANN)和支持向量机(SVM)算法进行特征识别,由于上述统计特征数据量大,而且特征之间存在大量的信息冗余,所以有必要进行数据降维和特征优化。试验中使用了PCA方法进行优化,将优化后的特征,作为ANNs和SVM的输入,得到识别结果。图2是两种模型对不同处理特征的识别效果。可见随着特征数量的增加,识别率总体上是增加的,当特征数量达到一定数值后,数量的增加对识别率增加影响不太明显,进一步增加特征数量将不能有效的提高识别率。

图2 两种模型对不同处理特征的识别效果

另外,PCA特征较原始的统计特征在同一种识别模型上都表现出一定的优越性,可见,在提取到反映作物本身的特征后,有必要对这些特征进行PCA分析,进一步去除数据冗余,提高识别效果。

容易发现神经网络的识别能力较SVM的识别能力要差很多,特别在特征数量较大的情况下,SVM能充分发挥算法的优越性,而神经网络显得逊色不少。还有就是神经网络由于初始权值是由系统随机给出,所以带来识别结果的不稳定性,图2中是识别每个数据为相应条件下识别10次得到的最高值。但还是不能有效消除不确定性,建议在将来的试验中,将识别次数重复200次以上,从而减少这种干扰。

在使用PCA特征时主分量的个数影响着识别结果,图3中列出了前5个主分量的贡献率和累积贡献率,可见当主分量个数达到5个时,此时测得累积贡献率大于85%,已经能够在很大程度上代表原始统计特征的主要信息。

图3 前5个主分量贡献率与累积贡献率

2.2 样本数量对识别结果的影响

试验中采集的品种数量共20个,随着样本数量的增加,数量从1增加到20,识别效果总体上呈下降趋势。图4是选择5个特征时,SVM模型中统计特征和PCA特征在样本增加时的识别率表现。

图4 SVM在样本增加时的识别率

容易看出总体上PCA特征较原始统计特征在识别率上能够提高10%左右,并且使用5个特征,在类别较少时能够区分不同的品种,如两个品种的二分类,原始统计特征和PCA特征识别率分别达到88%和91%,当品种增加到20个时,这一数字下降到45.3%和51.6%。然而,在现实品种识别过程中,涉及的品种数目往往较少,采用较少的PCA特征能够完成这一任务。基于PCA特征的SVM模型是一种识别过程中的优选模型。

2.3 特征类别及组合对识别率的影响

为考察不同类别的特征对品种识别的影响,将三大类特征分别计算,得到的识别率效果如表2。针对20个品种,单独使用原始统计特征,形态类、颜色类、纹理类特征的识别率分别达到了55.7%、97.9%和85%,经过PCA优化后,识别率提高到98.7%、99%和99.1%。PCA优化对形态类和纹理类特征的优化效果明显,使用特征组合后不管是形态+纹理、颜色+纹理、还是形态+颜色,识别率都达到了99%以上,基本上能够对对所有品种进行检出。统计特征和PCA优化特征对品种识别率的影响不大,究其原因是,当特征数量比较多的情况下识别率已经达到了较高的水平,而且特征之间纯在一定的冗余信息,特征的增加并不能进一步提高识别率。

表2 特征组合的识别效果

3 讨论

植物器官的大小取决于细胞的分裂与生长,形状主要依赖于细胞分化,颜色则与显色物质的代谢密切相关,纹理则是细胞分裂、生长、分化与代谢相互作用的最终形态体现。因此,可以大体上认为这4种属性的性状之间是相互独立的,另外遗传力与识别率之间存在高度的正相关关系[10]。本研究中花生荚果图像特征的确定就是基于这点认识。

采用图像处理方法的作物种子识别,不仅可以替代部分人工测量,获得更高精度的结果,而且还能够提供新的DUS候选性状[3],供遗传育种家参考。本研究发现花生荚果图像的特征提供了有价值的品种性状,采用合适的模型能够对种子的真伪进行有效鉴别。PCA优化特征总体上比原始统计特征具有更好的识别性能,三大类特征中,颜色特征的识别效果明显较形态和纹理特征好。原因是采集的颜色特征数量较多,还有可能品种由于种植在不同地区土壤条件差别较大,以及品种本身遗传上的颜色差别所至。反映形态特征在品种识别中并不是好的特征,可能是由于产地的不同、土壤环境等影响着花生荚果的发育。前人在研究亚麻品种识别时证实了这一点,仅用4个形态性状无法正确区分53个亚麻品种类群,增加3个颜色性状后,获得了理想的类群[13]。

所采集的花生品种均来自农民的自留种,由于这些种子在多年的种植过程中不可避免的会产生品种的混叠,导致品种不纯,造成识别结果上的偏差,更多的采集育种家种子进行进一步测试将会使检测结果更好,更有说服力。

本研究主要是识别不同的品种,有涉及识别同一品种的良莠问题,对同一品种的良莠的鉴别是品种检测中的一个重要问题,对其准确鉴别仅使用图像识别的方法可能识别结果并不是太理想,品种的良莠更多的是反映在品种的生命力、品种环境适应性及品种的丰产基因上体现出来,可能还需要更多的化学以及生物培育方法来鉴别。

虽然本研究适用于品种的真伪测试,及适用于遗传育种及种质资源保护领域。然而只是这个领域的初步结果,所以,在正式用于品种测试和鉴定之前,有必要进一步扩大测试品种数量,进一步考察候选性状的品种间多样性、品种内一致性、地点年际间稳定性。

4 结论

为实现品种鉴定与真伪识别的自动化,采用图像识别的方法,采集了20个品种,每个品种100颗花生果正面和2个侧面的图像,分别获取每幅图像的形态、颜色和纹理三大类共50个特征,对这些特征进行PCA优化,针对优化和没有优化的特征,搭建了人工神经网络识别模型和支持向量机模型进行品种识别,结果表明,采集的特征经PCA优化后表现出更强的识别性能,SVM较神经网络识别效果总体上得到提高,并且识别效果稳定。品种的数量对识别效果有影响,在通常情况下可根据品种的数量来确定特征的数量,可以进一步提高效率。颜色类特征比形态类和纹理类特征具有更好的识别效果,经过不同类别的特征组合后,整体上识别性能达到90%以上,已经基本可以推广到实际生产中使用。

[1]农业部植物新品种测试(广州)分中心.花生新品种DUS测试性状照片拍摄规范[S].中国农业出版社,北京,2010,6

[2]杨雪.支持向量机多类分类方法的研究[D].哈尔滨:哈尔滨工程大学,2006:17-22

[3]赵春明,韩仲志,杨锦忠,等.玉米果穗DUS性状测试的图像处理应用研究[J].中国农业科学,2009,42(11):4100-4105

[4]韩仲志,赵友刚,杨锦忠.基于籽粒RGB图像独立分量的玉米胚部特征检测[J].农业工程学报,2010,26(3):222-226

[5]韩仲志,赵友刚.基于计算机视觉的花生品质分级检测研究[J].中国农业科学,2010,43(18):3882 -3891

[6]韩仲志,赵友刚.基于外观特征识别的花生品种与品质检测方法[J].中国粮油学报,2009,24(5):123-126

[7]韩仲志,赵友刚.花生外观品质品种图像分析与系统仿真[J].中国粮油学报,2010,25(11):114 -118

[8]Sakai N,Yonekawa S,Matsuzaki A.Two- dimensional image analysis of the shape of rice and its application to separating varieties[J].JFood Eng,1996,27:397 -407

[9]Dubey B P,Bhagwat SG,Shouche SP,et al.Potential of artificial neural networks in varietal identification using morphometry of wheat grains[J].Biosyst Eng,2006,95(1):61-67

[10]杨锦忠,张洪生,郝建平,等.玉米果穗图像单一特征的品种鉴别力评价[J].农业工程学报,2011,27(1):196-200

[11]郝建平,杨锦忠,杜天庆,等.基于图像处理的玉米品种的种子形态分析及其分类研究[J].中国农业科学,2008,41(4):994 -1002

[12]杨锦忠,郝建平,杜天庆,等.基于种子图像处理的大数目玉米品种形态识别[J].作物学报,2008,34(6):1069-1073

[13]庞涛涛,姚建斌,杜黎明.人工神经网络分类鉴别苦丁茶红外光谱[J].光谱学与光谱分析,2007,27(7),1336-1339

[14]韩仲志,杨锦忠.多类SVM分类算法玉米品种识别中的应用研究[J].农机化研究,2010,32(11):159 -163.

Study on Variety Identification of Peanut Pods Based on Image Processing

Han Zhongzhi Deng Limiao Yu Renshi
(College of Information Science and Engineering,Qingdao Agricultural University,Qingdao 266109)

In order to realize the automation of peanuts variety identification and recognition,based on image recognition method,we have obtained the 20 varieties images of peanut pods by scanner.Each pod includes one front and two side images of 100 peanuts respectively.For each image,we have acquired 50 characteristics including shape,color and texture categories and PCA optimization is conducted on these characteristics.Directed at the characteristics optimized by PCA and none,we construct the artificial neural network models and support vector machine model to identify different species.The results show that the acquisition features optimized by PCA show stronger recognition performance and SVM has higher recognition effect and more stability than neural network.The number of species affects the identification results.Under normal circumstances,we can determine the number of species by the number of features to improve the recognition efficiency.For 20 varieties,selecting more than 15 features is more appropriate.Features of color have better recognition results than texture and morphological character.Combining the characteristics of different categories,the overall recognition performance can reach more than 90%,which basically can be extended to actual production use.

peanut pods,variety identification,neural network,support vector machine,principal

S126

A

1003-0174(2012)02-0100-05

国家农业转化基金(2010GB2C600255)、山东省自然科学基金(ZR2010CM039)、山东省科技攻关项目(2009GG10009057)、青岛市科技发展计划(11-2-3-20-nsh)

2011-05-28

韩仲志,男,1981年出生,讲师,农业图像处理

于仁师,男,1963年出生,副教授,农业信息化

猜你喜欢
荚果识别率图像处理
花生荚果离散元仿真参数标定*
基于Workbench LS-dyna的花生荚果脱壳受力仿真研究
海战场侦察图像处理技术图谱及应用展望
人工智能辅助冠状动脉CTA图像处理和诊断的研究进展
基于EDEM的发散带式花生荚果分级机的仿真与试验
基于ARM嵌入式的关于图像处理的交通信号灯识别
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
花生除杂(清选)分级机的设计与研究
听力正常青年人的低通滤波言语测试研究*
机器学习在图像处理中的应用