基于Kernel-ICA和X-ray成像的品种分类研究

2016-12-26 07:24韩仲志万剑华
中国粮油学报 2016年6期
关键词:籽粒聚类小麦

韩仲志 万剑华

(中国石油大学(华东) 地球科学学院1,青岛 266580)(青岛农业大学理学与信息科学学院2,青岛 266109)

基于Kernel-ICA和X-ray成像的品种分类研究

韩仲志1,2万剑华1

(中国石油大学(华东) 地球科学学院1,青岛 266580)(青岛农业大学理学与信息科学学院2,青岛 266109)

对农作物品种正确分类是作物分类学的重要内容,为考察X-ray成像技术对小麦品种分类研究的有效性,基于软X-ray成像仪采集的3品种(Kama, Rosa and Canadian)每个品种70个籽粒,共210个籽粒样本的X-ray扫描图像,并针对其7个形态几何特征(面积、周长、紧致度、籽粒长度 、宽度、偏斜度、种子腹沟长度),提出了一种使用Kernel-ICA的方法先对特征进行优化,再进行小麦品种的聚类与识别的方法,并与K-means、C-means 2种聚类方法以及基于工神经网络(ANN)和支持向量机(SVM)2种识别方法的分类结果进行比较,结果发现:分类正确率从高到低分别为:Kernel-ICA、SVM、C-means、 K-means、BP-ANN,分类正确率分别为: 91.9%、90.5%、89.5%、87.1%、86.9%。研究提出的Kernel-ICA的方法,聚类优化和识别能力较强,对软X-ray成像的小麦品种进行分类,已基本上满足农艺上对小麦品种分类需要,对农作物种质资源鉴别和作物品种分类研究具有积极意义。

小麦 Kernel-ICA X-ray成像 品种分类

作物的种子是作物重要的生理器官,其外观表现是基因型与环境互作用的结果,具有重要的植物分类学意义。计算机视觉代替人眼,广泛应用于植物种质资源的鉴定。在可见光区,基于图像处理,杨锦忠等[1]研究了玉米仔粒、果穗的品种DUS测试方法、韩仲志等[2-3]研究了花生、玉米种子的品种识别问题,并提取了50多个应用于作物分类学的特征。计算机视觉在水稻等其他作物上有广泛应用[4],小麦方面,Dubey B.P.[5]使用神经网络用来对小麦品种进行识别。然而这些研究仅限于可见光图像。M. Charytanowicz 等[6]研究了X-ray图像的小麦品种分类问题,提出一种基于梯度的聚类算法对小麦X-ray图像进行特征分析,并与K均值聚类方法进行了比较。

基于此数据本研究拟从识别和聚类2个角度研究小麦种子X-ray图像的植物分类学方法,分别使用了SVM识别模型和基于核函数(Kernel)独立分量分析(K-ICA)聚类模型,与BP神经网络和K均值聚类算法相比,识别和聚类效果更好。

1 材料与方法

1.1 试验材料

数据来源为著名的加州大学尔湾分校的UCI机器学习数据库[7],数据为波兰农业物理研究所位于卢布林实验田种植的3个品种(Kama, Rosa and Canadian),每个样本70个籽粒,共210个籽粒样品,通过KODAK X-ray 仪,获得籽粒内部结构的软X-ray成像,成像大小为13 cm×18 cm,然后用平板式照片扫描仪(Epson Perfection V700)扫描,分辨率为600 dpi,8 bit灰度阶,保存为位图文件格式(bitmap)以备后用。图1为其中1幅图像。

图1 小麦籽粒的X-ray图像

1.2 特征提取

首先测量了每个籽粒采集了7个几何特征:面积(area A), 周长(perimeter P), 紧致度(compactness C=4pA/P2),籽粒长度 (length of kernel),宽度(width of kernel), 偏斜度(asymmetry coefficient)and 种子腹沟长度(length of kernel groove)。将3个品种依次编号为1-3,这些特征可以很方便的从二值图像上得出,对种子偏斜度和腹沟长度的定义请参见文献[2]。

表1是特征数据的均值表,图2为特征数据分布的箱形图,均值表和箱型图反应了特征数据的大致分布。UCI提供的数据存在部分空值(NAN),预处理时用同类的邻值代替。

表1 特征数据的均值表

图2 特征数据分布箱型图

1.3 方法

研究涉及到的聚类方法主要有BP神经网络(BP-ANN)[8]、支持向量机(SVM)[9]、K-均值(K-means)、C-均值(C-means)、核独立分量分析(Kernel—ICA,K-ICA)[10-11]。

独立分量分析(ICA,Independent Component Analysis),源于盲信号分离(BSS),最早是解决“鸡尾酒会”的混合语音信号分解问题,它一种基于数据高阶统计量(四阶统计量)的非高斯信号处理方法,用于特征的优化可以从中找到最为独立的特征,这样就从一定程度上减少了数据之间的冗余,提高了数据的可分性。 K-ICA算法是在特征优化过程中利用了核函数的思想,核函数的作用是避免计算高维变换,直接用低维度的参数带入核函数来计算高维度的向量的内积,K-ICA可选择的核函数有:高斯核函数(gaussian)、多项式核函(poly)、埃尔米特核函数(hermite),当然用户也可以根据自己的需要创建核函数。另外在做数据的独立分量分析之前需要先对数据进行白化和中心化,可选择使用主分量分析(PCA)对特征数据进行去相关。独立分量分析虽然能在最大程度上找到独立分量,但是并没有好的方法对独立分量的顺序和幅值方向进行标记,这往往会导致幅值为负的情况出现,需要增加一些后处理手段进行校正。

在进行识别或聚类之前,首先需要对数据进行白化,然后进行PCA,按照主分分量的贡献率进行排序,得到7维的特征映射features,在使用K-ICA之间随机生成初始混合矩阵W,得到混合向量x=features×W;使用K-ICA求得解混合矩阵Wcca,求得sestimate=Wcca×features′,然后使用K均值进行分类。

2 结果与分析

2.1 品种聚类

图3a、图3b是使用K均值(Kmeans)和C均值(Cmeans)聚类的结果,在聚类时初始的聚类中心,是在3个类别中分别随机获取一个作为初始的聚类中心。图3c是使用k-ICA的聚类结果。从图3直观上可明显看出,经过K-ICA变换后聚类效果更好,数据的可分性增强。

图4为2种方法的聚类识别结果,可以看出,只有少量的样本聚类错误,绝大部分样本聚类结果正确。

表2列出了3个类别的聚类样本数和识别结果,样本数上反应了2种聚类效果基本相当,都是判别为第2类的减少,判断为第1类和第3类的增加,其中第3类增加明显。从识别结果上看,Kernel-ICA的识别结果达到91.9%,较Kmeans聚类的87.1%有了明显的提高。由于K-ICA算法进行了数据白化,所以其聚类中心只是相对值。可以使用反白化的手段找到其绝对值,有待进一步研究。

表2 聚类每类的结果

图4 经KICA变换前后K均值的识别结果

2.2 品种识别

首先用神经网络进行品种识别,选用的神经网络模型为BP神经网络,3层神经网络,隐含层采用取5,采用(特征数+类别数)的一半经验数;支持向量机进行识别。选用的核函数是径向基RBF核函数,其中的2个参数C和gamma可由系统默认给出。

训练和测试过程采用7折交叉验证法,即随机选取70组数据中的60组作为训练集,10组作为测试集。

图5中形象地显示了其中1次训练集和预测集的识别结果,图5a为训练集数据识别结果,图5b为测试集数据识别结果。总体上来看预测效果均比较好。

图5 ANN、SVM方法识别结果

图6是2种方法的预测相对误差,可以看出SVM识别模型比BP神经网络识别模型具有较大的优势。

图6 ANN、SVM的误差

为了详细比较SVM和ANN 2种模型的预测性能,主要采用4个参数指标:平均平方误差(Mean squared error,MSE)和平均相关系数(Squared correlation coefficient,R2)、识别率(correct recognition rata,%)和时间(t)评价时间衡量模型对回归问题的性能, MSE越小、R2越接近于1模型的性能越好。模型性能结果见表3。

表3中的模型预测性能指标对模型的性能进行了量化,从表3不难看出SVM的总体性能较ANN的预测性能好,训练集的性能普遍比测试集好,这是可以理解的。测试集预测性能表明了模型的泛化能力,比较研究人工神经网络(ANN)和支持向量机(SVM)的识别模型,其训练集和测试集识别率分别为93.9%、94.4%和80.0%、86.7%,误差比较小。

表3 ANN和SVM模型预测性能指标

3 讨论

数据分布箱形图反应了范围不同,在进行识别时由于其量纲的不同,数据之间没有可比性,因此需要对数据进行归一化。将所有数据都归一化到相同的范围。然而这样操作隐含着一个前提假设是,各个特征对品种识别的贡献是相同的,事实上,各个特征对品种识别的贡献率是不同的,因此可考虑特征加权,单特征ROC曲线下面积可作为权值的一种参考,方法有待进一步研究。

交叉验证法(CV,Cross Validation)是广泛采用的模型验证方法,本研究采用的是7折交叉验证,由于是随机选择的训练样本和测试样本,所以每次试验样本不同,致使每次识别结果也不同,没有特别说明则是基于统计10次的平均值。

X-ray成像广泛应用与医学领域,然而基于此技术对农产品种子进行鉴别研究资料匮乏,本文利用该技术对小麦种子的识别,充分说明该技术农业应用是可行的,对推动农业领域的X-ray应用具有积极意义。

在进行品种识别时使用了210个籽粒样本,所采集的样本数量较少,另外数据是基于UCI数据库已经测得的数据进行的,UCI数据库是国际广泛使用的机器视觉数据库,其运算结果具有广泛的推广意义。如果适当使用国内种植面积较为广泛的品种试验,将更有现实意义。

本研究是基于一种新的方法(Kernel-ICA)应用在先进技术(X-ray成像技术)在新的领域(小麦品种分类)而进行的前瞻性和探讨性的研究,目前来看与实际市场应用还有一段的距离,普及使用也需要较长的时间,不过作为一种前瞻性研究,具有一定的价值,为相关技术新领域应用具有积极的意义。X-ray成像作为一种先进医用电磁波透射技术,虽然不能提供外观、颜色等信息,但能对组织器官的密度和厚度进行直接成像,能超精细反应其形态和全貌,小麦种子作为重要的生物学器官,X-ray技术能够反映出常规CCD不能反应的内部信息,可有效应用与品种分类。另外,X-ray成像可精细反映密度信息,所以该技术同样可广泛应用于对其品质的分析中。

分类识别是基于某些参数进行的,分类结果好坏与参数的选择具有重要关系,Kernel-ICA是一种有效的参数优化方法,并巧妙地解决了高维独立性问题,当然,特征参数的提取与优化,有很多其他的有价值的手段和方法,具有商业价值的分类技术需要对相关方法进行系统性的比较、模型优化与规模化测试,需要进一步做大量的工作。

4 结论

基于210个软X-ray成像仪采集的3品种(Kama, Rosa and Canadian)X-ray扫描图像,从而提取的7个形态几何特征分别,并使用交叉验证法,比较研究人工神经网络(ANN)和支持向量机(SVM)的识别模型,发现在小样本情况下 SVM模型识别结果稳定可靠,比较了K-means、Kernel-ICA 2种聚类方法,发现经过Kernel-ICA特征提取后明显地提高了算法的聚类性能,通过软X-ray实现的分类与聚类模型,识别率达到92%左右,已基本上满足农业上对小麦品种鉴别需要,该方法对农作物种质识别具有积极意义。

[1]杨锦忠,张洪生,赵延明,等.玉米穗粒重与果穗三维几何特征关系的定量研究[J].中国农业科学,2010,43(21):4367-4374

[2]韩仲志,赵友刚.花生荚果图像品种识别与DUS测试研究[J].作物学报,2012.38(3):535-540

[3]韩仲志,赵友刚,杨锦忠. 基于籽粒RGB图像独立分量的玉米胚部特征检测[J].农业工程学报,2010,26(3):222-226

[4]Sakai N, Yonekawa S, Matsuzaki A, et al. Two-dimensional image analysis of the shape of rice and its application to separating varieties[J]. Journal of Food Engineering, 1996, 27(4): 397-407

[5]Dubey B P, Bhagwat S G, Shouche S P, et al. Potential of artificial neural networks in varietal identification using morphometry of wheat grains[J]. Biosystems engineering, 2006, 95(1): 61-67 Dubey B P, Bhagwat S G, Shouche S P, et al. Potential of artificial neural networks in varietal identification using morphometry of wheat grains [J]. Biosyst Eng, 2006, 95(1): 61-67

[6]Charytanowicz M, Niewczas J, Kulczycki P, et al. Complete gradient clustering algorithm for features analysis of x-ray images[M].Information technologies in biomedicine. SpringerBerlin Heidelberg, 2010: 15-24

[7]Frank A, Asuncion A. UCI Machine Learning Repository [http://archive. ics. uci. edu/ml].Irvine, CA: University of California[J]. School of Information and Computer Science, 2010

[8]Gardner M W, Dorling S R. Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences[J]. Atmospheric environment, 1998, 32(14): 2627-2636

[9]Chang C C, Lin C J. LIBSVM: a library for support vector machines [EB/OL]. http://www.csie.ntu.edu.tw/-cjlin/libsvm . 2011

[10]Francis R Bach, Michael I. Jordan. Kernel Independent Component Analysis[R].Technical Report, University of California, Berkeley.2001

[11]Francis R. Bach, Michael I. Jordan. Kernel Independent Component Analysis[J].The Journal of Machine Learning Research archive, 2003,3(3):1-48.

Varity Classification Based on Kernel-ICA and X-ray Image

Han Zhongzhi1,2Wan Jianhua1

(School of Geosciences, China University of Petroleum(East China)1, Qingdao 266580)(Natural and Information Science College, Qingdao Agricultural University2, Qingdao 266109)

The crop variety of correct classification is an important part of crop taxonomy, to investigate effectiveness of the X-ray imaging technology to study the classification of wheat varieties, 3 varieties are collected based on soft X-ray imager (Kama, Rosa and Canadian), and 70 grains are collected for each variety with a total of 210 grain samples of X-ray image, and for geometric features of its 7 forms (area, perimeter, compactness, grain length, width, skewness, seed ventral furrows length), and put forward the method of using Kernel-ICA to optimize the characteristics first and then carrying out clustering and identification of wheat varieties, and compare with classification results of K-means, C-means two kinds of clustering methods and two kinds of identification methods of recognition model based on artificial neural network (ANN) and support vector machine (SVM). Results: the correct classification rate from high to low is: Kernel-ICA, SVM, C-means, K-means, BP-ANN, the correct rate of classification are 91.9%, 90.5%, 89.5%, 87.1% and 86.9%. The method proposed in this paper Kernel-ICA, clustering optimization and recognition ability are the strongest, the classification of soft X-ray imaging of wheat varieties by using this method, has basically met the agricultural requirements for wheat variety classification, this method has a positive significance on crop genetic resources identification and crop variety classification study.

wheat, Kernel ICA, X-ray Image, variety classification

S126

A

1003-0174(2016)06-0123-05

国家自然科学基金项目(31201133),青岛市科技发展计划(14-2-3-52-nsh)

2014-10-16

韩仲志,男,1981年出生,副教授,计算机视觉与信号处理

万剑华,男,1966年出生,教授,计算机技术与资源信息工程

猜你喜欢
籽粒聚类小麦
主产区小麦收购进度过七成
籽粒苋的饲用价值和高产栽培技术
孔令让的“小麦育种梦”
叶面施肥实现小麦亩增产83.8千克
哭娃小麦
基于K-means聚类的车-地无线通信场强研究
玉米机械脱粒籽粒含水量与破碎率的相关研究
机收玉米杂交组合的品种特性研究
玉米籽粒机械直收应注意的问题
基于高斯混合聚类的阵列干涉SAR三维成像