基于太赫兹光谱和支持向量机快速检测棉花种子

2015-03-03 08:12刘建军
关键词:支持向量机遗传算法棉花

杜 勇,刘建军

(1.集美大学信息工程学院,福建 厦门 361021;2.九江学院电子工程学院,江西 南昌 330013)



基于太赫兹光谱和支持向量机快速检测棉花种子

杜勇1,刘建军2

(1.集美大学信息工程学院,福建 厦门 361021;2.九江学院电子工程学院,江西 南昌 330013)

[摘要]鉴于目前对农产品品种的检测大多是基于可见光/近红外光谱的,提出了一种基于太赫兹光谱和支持向量机快速检测棉花种子的方法.为实现棉花种子的分类识别,在频率0.2~1.2 THz范围内采集2种最新转基因及2种非转基因棉花种子,总计40个样本的太赫兹光谱,用遗传算法优化的支持向量机建立识别模型,对不同品种的棉花种子进行识别.实验结果表明,该方法对不同品种的棉花种子综合识别率达到93.75%,由此,太赫兹光谱结合支持向量机的检测方法可为不同品种的生物辨别提供一种精确、快速、简便的检测方法.

[关键词]太赫兹;光谱;支持向量机;棉花;种子;检测;遗传算法

0引言

太赫兹波通常是指频率在0.1~10 THz(波长在3~30 mm)之间的电磁波[1],其波段属于远红外.理论研究表明,大量生物分子(DNA,蛋白质等)的振动和转动能级正好处于THz的频带范围内,用THz 时域光谱系统(THz-TDS)探测生物样品能产生共振吸收峰,从而使利用太赫兹光谱识别生物样品成为可能.目前近红外光谱在转基因植物检测中的应用已经相当广泛[2],文献[3]报道了近红外光谱在转基因玉米检测识别中的应用,文献[4]报道了近红外光谱技术在检测转基因油菜籽中芥酸和硫甙上的应用,谢丽娟等[5]报道了利用可见光/近红外光谱分析技术鉴别转基因番茄叶等.但是,作为可见光/近红外光谱技术有益补充的太赫兹光谱技术在农业和食品领域的研究和探索才刚刚开始[6].

支持向量机是由Vapanik等人[7]提出的一种机器学习方法.其基本思想是在初始阶段选择一个非线性变换方法,将输入向量由低维非线性样本空间映射到高维或无穷维,使样本空间的非线性分类转化为线性分类,并基于结构风险最小化在特征空间中寻找最优超平面,解决线性分类问题[8-10].目前,在支持向量机优化参数问题上采用较多的是网格搜索(Grid Search)与交叉验证相结合的优化算法,但是,该方法有个致命的缺点就是当训练样本较大时搜索过程非常费时,且计算量大,因此该方法具有一定的局限性.而遗传算法(Genetic Algorithm,GA)具有全局搜索能力,能够在很大程度上减少计算量,使之优化支持向量机成为可能.

本文拟使用太赫兹光谱检测系统对2种转基因棉花种子和2种非转基因棉花种子的40个样本进行光谱扫描,并在传统支持向量机的基础上,利用遗传算法优化支持向量机,以这4种棉花种子的太赫兹特征吸收谱为训练集数据,对其进行识别.

1样品的THz特征吸收谱线

1.1 实验装置

图1为本文所用的透射式太赫兹时域光谱系统(THz-TDS),其中:InAs为THz发射极;ZnTe为探测极 ;Chopper为斩波器;BS为分束器 ;HWP为二分之一波片;QWP为四分之一波片; M1~M12为平面反射镜;PM1~PM4为离轴抛物面镜;Sample表示样品放置处;L1~L3为聚焦透镜;P为检偏器; PBS为沃拉斯顿棱镜 ;Si为硅片,可以透射太赫兹波,反射飞秒激光;Detector为差分二极管.Detector的输出信号接入锁相放大器,通过计算机进行数据采集.图2为图1虚线部分的系统照片,实验测量时,该虚线部分置于氮气环境中.为保证实验的准确性,系统内注入氮气直至内部相对湿度达到0.2%以下.实验时室内相对湿度为25%,恒温292 K.

1.2 实验对象及样品制备

以4种不同品种的棉花种子为研究对象,它们是转基因种子银棉8号(Yinmian No.8)、鑫秋107号(Xinqiu No.107),和非转基因棉花种子新陆中6号(Xinluzhong No.6)、中棉所28号(CCRI 28),均购于中国农业科学院生物技术研究所.将棉花种子磨碎、烘干后,用压片机压成圆盘状,直径13 mm.每种棉花种子制成10个样片,将其中的24个样片(每种6个)作为训练集数据用于支持向量机建模校正;剩下的16个样片作为测试集数据用来验证模型的精确度.

1.3 样品的特征吸收谱

将制作好的样品置于THz-TDS中,扫描得到4种棉花种子的THz时域光谱信息,如图3所示.THz时域光谱信息经过快速傅立叶变换(FFT),得到如图4所示的4种棉花种子THz频谱图.可以看出,在 0.2~1.2 THz的光谱有效区域内,4种样品信号与自由空间的参考信号显著不同. 通过测量样品对THz脉冲的相位延迟和吸收可以计算出材料的吸收率.根据测量的自由空间的THz参考信号以及透过物质的THz样品信号,得到4种棉花种子的特征吸收谱线,如图5所示.

由于4种棉花种子其内部分子结构不一样,可以表现出太赫兹时域及频域响应的差异.由图5可知:鑫秋107号的吸收峰位于0.57,0.80 THz.需要指出的是,1.00 THz处不是样品本身的吸收峰.由于实验设备的分辨范围为0.10~0.98 THz,因而1.00 THz以上为不确定因素引起的误差.银棉8号的吸收峰位于0.57,0.78,0.94 THz.新陆中6号的吸收峰位于0.55,0.76 THz.中棉所28号在0.20~1.10 THz内没有明显的吸收峰.由此,本研究可以根据不同品种的棉花种子呈现出的不同吸收峰来区分4种不同品种的棉花种子,但它还不能鉴别转基因与非转基因的棉花种子.

2基于遗传算法的支持向量机

利用得到的样品的太赫兹光谱数据,建立基于遗传算法的支持向量机识别模型.

2.1 遗传算法优化支持向量机

对于采用BRF核函数的支持向量机,其学习和泛化能力在很大程度上受惩罚系数γ和核函数值g的影响,因此利用遗传算法优化支持向量机的问题可以简化为寻找参数γ和g的最佳组合值,得到最优化的支持向量机参数γ和g.其优化算法为:

1)对参数γ和g进行染色体基因编码[11],设置遗传算法交叉率、变异率,随机产生支持向量机参数值.

2)计算种群个体的适应度值,用适应度函数f(γ,g)=1/Dr衡量参数的好坏.

3)根据适应度值,利用交叉变异算子产生新个体.

5)重复步骤2)— 4),不断更新支持向量机参数,直到满足结束条件,得到最优化的支持向量机参数γbest和gbest.

2.2 基于遗传算法的支持向量机识别模型的建立

支持向量机识别模型建立步骤如下:

1)获取得到样品的太赫兹光谱数据,把所有样品的太赫兹光谱数据分成n份,将其中k份用来作为训练集数据.

2)读取训练集样本的太赫兹数据,随机产生一组{γ,g}(即空间坐标值)作为遗传算法种群个体的初始位置,训练支持向量机.

3)根据种群个体的初始化位置,计算种群个体的适应度值,利用交叉变异算子产生新个体.

4)根据种群个体适应值不同,采取调整支持向量机惯性权重,不断更新支持向量机参数,直到满足结束条件(终止条件应根据实际情况来定,本文选择的终止条件为当训练误差率小于1.5%时终止算法),得到最优化的支持向量机参数γ和g.

5)根据输出的最优{γ,g},建立支持向量机识别模型.

3实验结果及分析

为了验证利用遗传算法对支持向量机的参数进行优化的有效性,本文给出了GA和Grid Search两种方法优化支持向量机得到的粒子群迭代次数与适应度值关系曲线对比情况.由图6可知,两种方法在粒子群进化到100代后都可达到其最优解,但是,Grid Search方法的适应率低于85%,而GA方法适应率高于94.8%.

用新陆中6号(Xinluzhong No.6)、银棉8号(Yinmian No.8)、鑫秋107号(Xinqiu No.107)和中棉所28号(CCRI 28)等4种样品中的24个样片(每种6个)作为训练集数据建立遗传算法支持向量机的识别模型,将剩下的16个样片(每种4个)作为待测样品来验证本文模型的准确性.

表1 给出了经过PCA降维后的优化SVM参数值及分类正确率.由表1可以看出,Grid Search和GA两种方法,对训练集都有100%的辨别率,而对预测集,Grid Search方法只有81.25%的辨别率, GA方法辨别率则可以达到93.75%.

表1 Grid Search与GA的各参数对比

图7从3D角度对SVM参数选择进行了比较直观的对比,从中可以看出GA方法能够较全面地寻找到SVM参数的全局最优解.

表2为采用Grid Search-SVM和GA-SVM 两种方法对实验样品进行综合识别的结果.由表2可知:GA-SVM方法对4种不同品种的棉花种子的综合识别率为93.75%,高于Grid Search-SVM方法(81.25%),说明该方法可有效地识别不同品种的棉花种子.

表2 Gird Search和GA方法对4种棉花种子识别率的对比

图8描述了用Grid Search和GA两种方法优化SVM后对4种棉花种子测试样本的分类情况.从分类结果可以看出,本文方法能够更加准确地区分4种棉花种子.同时从图8还可看出用Grid Search和GA两种方法优化SVM都能将4种棉花种子分类成两大类,其中class1代表的是转基因类别的棉花,class2代表的是非转基因类别的棉花,后续研究中将进一步研究引起该现象的原因.

4结论

利用太赫兹光谱特性,结合GA-SVM方法,建立了4种不同品种的棉花种子的识别模型.结果表明,该模型对4种棉花种子的识别率达93.75%,为定性分析模型在实际样品检测中的应用奠定了基础.因为不同品种的棉花在基因表达和蛋白合成上存在差异,在成长过程当中就表现为生物分子的不同,因此可以利用这些不同成分在太赫兹光谱上呈现出不同的特性来对其进行鉴别.同理,由于其他转基因作物,如水稻、大豆等代谢产物或蛋白质水平与其亲本相比会发生变化,应该会在太赫兹光谱上呈现出不同的特性,因此本文方法可能用于其他非同类物质的检测.在实验中还发现,利用本文方法,可以将4种棉花种子分成转基因和非转基因两个不同的大类,但该现象具体是否由转基因引起,本文尚未做进一步研究,但为后续研究提供了方向.鉴于此,今后应进一步研究转基因棉花与其亲本的检测方法,同时研究新的光谱数据采集和处理方法,从而提高建模的稳定性和精度,为便携式转基因产品检测的开发研制提供技术支持.

[参考文献]

[1]LEE J H,CHOUNG M G.Nondestructive determination of herbicide-resistant genetically modified soybean seeds using near-infrared reflectance spectroscopy[J].Food Chemistry,2011,126(1):368-373.

[2]MOREIRA IVANIRA,SCARMINIO IEDA SPACINO.Chemometric discrimination of genetically modifiedCoffeaarabicacultivars using spectroscopic and chromatographic fingerprints[J].Talanta,2013,107(30):245-254.

[3]BORJIGIN M,ESKRIDGE C,NIAMAT R,et al.Electrospun fiber membranes enable proliferation of genetically modified cells[J].International Journal of Nanomedicine,2013,8:855-864.

[4]MILCAMPS A,RABE S,CADE R,et al.Validity assessment of the detection method of maize event Bt10 through investigation of its molecular structure[J].Journal of Agricultural and Food Chemistry,2009,57(8):3156-3163.

[5]FIEHN O,KOPKA J,TRETHEWEY R N,et al.Identification of uncommon plant metabolites based on calculation of elemental compositions using gas chromatography and quadrupole mass spectrometry[J].Analytical Chemistry,2000,72(15):3573-3580.

[6]李斌,WANG Ning,张伟立,等.基于太赫兹光谱技术的山核桃内部虫害检测初步研究[J].光谱学与光谱分析,2014,34(5):1196-1200.

[7]VAPNIK V N.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.

[8]BURGES C J C.A tutorial on support vector machines for pattern recognition[J].Data Min Knowl Disc,1998,2(2):121-167.

[9]SNCHEZ A V D.Advanced support vector machines and kernel methods[J].Neurocomputing,2003,55(3):5-20.

[10]VAPINK V N.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999.DOI:10.1109/72.788640.

[11]张超群,郑建国,钱洁.遗传算法编码方案比较[J].计算机应用研究,2011,28(3):819-822.

(责任编辑朱雪莲英文审校曹敏杰)

Rapid Detection of Cotton Seed Based onTHz Spectroscopy Combined with SVMDU Yong1,LIU Jian-jun2

(1.School of Information Engineering,Jimei University,Xiamen 361021,China;

2.School of Electronic Engineering,Jiujiang University,Jiujiang 330013,China)

Abstract:At present,the detection of agricultural products is mostly based on visible/near infrared spectroscopy.In view of this,a fast and non-destructive detection method of cotton seeds based on terahertz spectroscopy combined with Support Vector Machine(SVM) was proposed.For the classification and recognition of different varieties cotton seeds,the terahertz spectra of two kinds of transgenic and two kinds of non-transgenic cotton seeds containing 40 samples in total were collected in the frequency range of 0.2~1.2 THz,using the Genetic Algorithm(GA)to optimized support vector machine.A recognition model to recognize different varieties of cotton seeds was established.The experimental results showed that the recognition rate of cotton seeds reached 93.75%.Therefore,the terahertz spectroscopy combined with support vector machine may provide an accurate,fast and simple method for the detection of different varieties of organisms.

Key words:THz;spectrum;SVM;cotton;seed;detection;GA

[中图分类号]TN 29;O 657.3

[文献标志码]A

[文章编号]1007-7405(2015)06-0421-07

[作者简介]杜勇(1971—),男, 副教授,硕士,主要从事光电子器件研究,E-mail:duyong2001@jmu.edu.cn.

[基金项目]福建省自然科学基金资助项目(2013J01246)

[收稿日期]2015-04-09[修回日期]2015-11-02

猜你喜欢
支持向量机遗传算法棉花
棉花是花吗?
棉花
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
基于改进的遗传算法的模糊聚类算法