于仁师 孙华丽 韩仲志
摘要:为了比较玉米品种图像识别中各种神经网络识别模型的性能,搭建了一套基于统计特征提取和模式识别分类算法的玉米品种识别系统。采用扫描仪获得了11个玉米品种每个品种50粒子粒图像,基于图像的统计特征,分别研究了7种人工神经网络(ANN)模型(BP、rbf、pnn、pnn、compet、sofnl、ELM)的识别性能,进一步考察了极限学习机(ELM)、支持向量机(SVM)模式分类过程性能。结果表明,在同样的情况下SVM模型较ANN模型的特征识别率高,另外神经网络模型grnn和ELM识别效果较好,其他识别模型性能较差。对11个玉米品种种子的最高检出率为91.73%,另外,所采用的特征降维方法、特征维数、初始权值的随机性选择等因素都会影响模型的识别效果,这对玉米种子纯度和品种真实性检验中人工神经网络模型的构建具有指导意义。
关键词:玉米种子;品种识别;人工神经网络;支持向量机
中图分类号:S513;S326 文献标识码:A 文章编号:0439-8114(2016)09-2366-04
近年来,假种子事件频发,给农业造成巨大损失,农民由于缺乏识别种子的能力和设备,往往不能有效区分各个品种,迫切需要一种快速的种子识别方法。数字图像识别作为一种快速识别技术而被广泛应用,在水稻、小麦和花生等作物种子识别上都有成功应用的报道。
现代玉米种植和水稻一样,广泛杂交育种,不能自留种,增大了不法商家贩卖假种子的空间。为了有效鉴别玉米种子的真伪和类别,郝建平等、杨锦忠等通过数十个外观特征,采用图像处理的方法识别种子:韩仲志等研究了对种子识别起关键作用的特征提取方法,如子粒的胚部特征和果穗DUS测试特征的提取方法:另外杨锦忠等针对玉米果穗形态研究了品种识别问题,对关键特征进行了选择优化。
在玉米识别相关算法和系统工程应用之前,需要对品种识别过程中的关键因素进行有效的性能与效率测试。由于人工神经网络方法广泛应用于识别问题,本研究拟针对不同的神经网络模型进行比较研究,进而考察各种模型的效能,为将来品种识别软件的开发与工程应用提供算法支持。
1 材料与方法
1,1 试验材料
供试玉米品种共11个,均是北方黄玉米品种,种质来源为青岛农业大学种质资源库,每个品种50粒种子。采用平板扫描仪采集图像(图1)。基于Matalb2010b编程,采用子粒区域标记的方法将图像中各个子粒的子图(SubImage)提取出来。然后进行特征提取。
1.2 特征提取
提取的特征包括颜色、形态和纹理3大类,见表1,相关定义参见文献。从二值图上提取形态特征,从RGB和HSV彩色图获取颜色特征,依据灰度图像获取纹理特征。
1.3 特征优化
随着统计指标的增加,统计特征的维数相应增加,因此也需要进行必要的降维和特征优化。传统的特征降维与优化是基于二阶统计量进行的主分量分析(PCA)方法。PCA是统计学中分析数据的一种有效的方法,其目的是在数据空间中找一组向量以尽可能地解释数据的方差,将数据从原来的R维空间降维投影到M维空间(R>M)。降维后保存了数据中的主要信息,从而使数据更易于处理。PCA方法是沿数据集方差最大方向寻找一些相互正交的轴,主成分分析方法是一种最小均方误差下的最优维数压缩方法,特征提取和优化后,特征维数将进一步减少。
1.4 品种识别
基于表1中的特征可实时进行品种识别。人工神经网络是模拟人的神经感知结构,寻找非线性情况下的一种最优映射,由于所提取的特征与玉米类别之间存在着非常复杂的非线性映射关系,所以特别适合采用此方法进行品种识别。由于神经网络的初始权值由系统随机给出,所以往往带来结果的不稳定,通常的做法是多次测试取最优实现。基于提取的特征数据即可进行种子检验和品种识别,本研究涉及的神经网络模型包括7种,即BP、rbf、grnn、pnn、compet、sofm,以及一个BP(backpropagation)神经网络的改进型,即极限学习机ELM。其中神经网络BP算法是最典型的神经网络分类方法。支持向量机(SVM)模型是近几年发展起来的优秀的识别模型,在农作物种子识别领域已经被证明比神经网络识别模型具有更为稳健的性能。
2 结果与分析
图2是6种神经网络识别模型的识别结果,图3是BP神经网络的改进型极限学习机(ELM)与支持向量机(SVM)模型识别结果。表2为上述8种识别模型在不同主分量及不同特征下的识别效果。
2.1 不同模型的识别性能
比较6种神经网络识别模型可以发现(图2、表2),首先从识别率上,基于60个原始统计特征,6种神经网络识别模型和1种改进型识别模型的识别性能从高到低为grnn>ELM>pnn>rbf>BP>compet>sofm,决定系数R2从大到小为grnn>rbf>ELM>BP>pnn>compet>sofm,所耗时间上从少到多为ELM 鉴于极限学习机ELM是广泛应用的BP神经网络的改进型,且其识别效果优越,将其作为神经网络模型的代表与支持向量机模型进行比较。图3列出了两种模型的识别效果,部分数据在表2中有所体现,可以看出支持向量机(SVM)模型的识别效果较好,且效果更为稳定。 2.2 特征优化对模型的影响 由于分类性能严重依赖特征的选取,这就表明某种特征的组合可能具有更优秀的分类能力,此时主分量是一个很好的选择,它不仅可以进行数据降维,还可以寻找对所有类都尽量适应的优化特征组合。表3列出了不同数目PCA情况下8种识别模型的识别性能。从表3可以看出,从识别率看,神经网络模型表现极其不稳定,识别率并不是随着PCA数目的增加而增加,但总体上还是呈增加趋势,这种不稳定性与神经网络初始权值的随机赋值有关,同时由于神经网络的隐含层神经元数目到目前为止缺乏理论指导,所以只能通过经验给出,故要得到较为稳定的结果可通过多次训练得到较为稳定的识别模型为止:但比较来看,支持向量机模型表现出更为稳定的识别效果,且随着PCA数目的增加。识别模型的总体识别率呈上升趋势。另外从模型的决定系数和识别模型的时间上来看,支持向量机模型都是较为优秀的模型。其中决定系数R2越接近于1,识别的时间越短,说明模型越优秀。在这些模型中compet表现的效果最差,不仅识别的效果最差。且识别的时间最长。 3 小结与讨论 从本研究的识别结果看。识别结果非常不稳定,这种不稳定的结果与两个因素有关,一是神经网络的不稳定,与确定神经网络初始权值时随机给出有关,二是采用的交叉验证法是随机给出,随机将训练和测试样本进行分组,每次试验选用了不同的训练集和测试集。 PCA是一种优秀的特征优化和数据降维方法,通过PCA降维可以在很大程度上提高运算速度,减少计算量,特别适合在线监测。另外从比较结果可以看出,支持向量机是一种优秀的分类模型,特别适合于对小样本进行分类,其效果要优于神经网络模型,且结果稳定。支持向量机和神经网络虽然都用来进行品种识别,但所依据的理论基础和识别机理均不相同。支持向量机普遍认为其泛化能力要比人工神经网络强:支持向量机模型理论基础是结构风险最小化理论。也涉及模型参数优化问题:另外支持向量机可以得到识别决策函数的解析表达式,而神经网络不能明确地得到一个解析解。 识别准确率与执行效率之间寻找一个平衡点是模型优化的基本原则,执行效率高、识别率高、泛化能力强的识别算法是将来工程应用的基础,未来基于此类算法开发的品种识别App软件可以安装在智能手机上,农民朋友在购买种子时,只需要给种子拍照片,就可以快速鉴别出所购买种子的类别与真伪,这将有效避免假种子害农事件的发生,对推进种业及现代农业发展具有积极意义。 种子的真实性是种子质量检验的重要指标,基于实验室采集的11个品种的玉米子粒图像研究了6种神经网络模型、1种改进模型与SVM共8种模型的识别性能,从识别率、决定系数和系统运行时间3个角度对模型进行了比较,研究发现SVM的识别性能优于ANN,神经网络模型中grnn及ELM表现出的性能优异。另外还研究了基于PCA的特征优化问题,特征的优化在一定程度上能够提高识别器的性能。本文的结论对玉米种子检验模型的选择具有借鉴意义。