张红涛,阮朋举,母建茹,孙志勇,李德伟
(华北水利水电大学,河南郑州 450045)
基于ABC-SVM的内部含虫麦粒多光谱图像特征选择研究
张红涛,阮朋举,母建茹,孙志勇,李德伟
(华北水利水电大学,河南郑州 450045)
为探讨利用人工蜂群算法(ABC)对内部含虫麦粒进行特征选择的可行性,基于该算法,以交叉验证训练模型的识别率作为特征子集的性能评价准则, 对内部含虫麦粒的特征进行分析。结果表明,该算法从内部含虫麦粒的32维直方图特征和纹理特征中自动选择出6个特征的最优特征子空间,采用参数优化之后的SVM分类器对80个麦粒样本进行分类,识别率达到92%以上,说明应用人工蜂群算法对内部含虫麦粒进行特征选择是可行的。
内部含虫麦粒;人工蜂群算法;支持向量机;特征选择;识别
近年来,麦粒内部害虫的检测在粮虫检测领域备受关注,传统的麦粒内部害虫检测方法有直观检查法、伯利斯漏斗法、染色法等[1]。这些方法都存在或多或少的不足,如主观性强、过程复杂、费时、具有破坏性等。因此,一些新型物理类检测方法被用于粮虫检测领域,如声测法、电导率法、电子鼻、多光谱成像法等。Shuman等研制了依据害虫进食活动所发出的声信号来判别谷物内部侵染的检测系统,利用声传感器阵列可确定发声幼虫的方位[2-3]。随后,国内耿森林、彭 慧等对麦粒内部害虫声信号采集传输、识别分类等方面进行了研究,实现了声信号的实时远程传输,但该法易受环境噪声的影响,不易检测低龄幼虫和“假死”害虫[4-5]。Pearson等提出利用电导率法检测麦粒内部的害虫,但该法需压碎麦粒,无法检测幼虫侵染的麦粒[6]。张红梅等利用电子鼻传感器阵列来判断粮食是否受到害虫的侵染,该法对检测样本容器的密闭性要求较高,样本准备和采样的时间过长[7]。目前,这些新的检测方法多数不能检测侵染程度较低的麦粒。
多光谱成像技术是采集可见光、近红外等波段的光谱图像,并进行分析处理的技术,它不仅结合了光谱分析技术和机器视觉技术,而且也弥补了光谱仪抗干扰能力较弱和RGB图像波段感受范围窄的缺陷,由于其同时获取可见光和近红外图像,且采集图像成本相对较低,因此利用多光谱相机来获取麦粒的多光谱图像,在经过预处理后可为麦粒原始特征空间的构建奠定基础。提取内部含虫麦粒的最优特征子集可缩短粮虫分类的时间和提高识别的精度,因此内部含虫麦粒的特征选择是麦粒图像识别中一个关键的预处理环节。实质上内部含虫麦粒的特征选择是一个组合优化问题,可以采用一些启发式的搜索算法来选择特征子空间。穷举法和启发法是经典的特征选择方法,通过遍历或按照设定的方向重复迭代来选择最优或次优特征组合,但这两类方法的计算量太大,或者优化程度比较低。人工蜂群算法(artificial bee colony algorithm,ABC)是由土耳其埃尔吉斯大学的Karaboga于2005年提出的一种基于蜜蜂群智能搜索行为的随机优化算法,其模拟蜂群采蜜过程,蜜蜂根据分工不同完成采蜜过程的各阶段任务,通过蜜源信息的收集与共享,寻找问题的最优解[8]。本研究提出应用ABC算法对内部含虫麦粒特征进行最优特征子集的自动选择,实验结果验证了ABC算法用于内部含虫麦粒特征选择的可行性和有效性。
本实验采用MS3100多光谱相机采集麦粒的多光谱图像,该相机帧速为10 fps,通过棱镜实现光谱波段的过滤,可同时获取红、绿、蓝、近红外四个波段通道的单色图像以及RGB全色图像,采集卡通过PCI总线将采集到的图像传送保存到计算机。
运用多波段图像融合及彩色空间转换后的图像融合技术提高麦粒图像的质量,针对多种融合方式,采用主成分分析法进行评价,最终选择出红(R)和近红外-红(IR-R)图像的最佳图像组合方式。分别提取R和IR-R图像下10个直方图特征(Ni)和均值(m)、标准偏差(σ)、平滑度(γ)、三阶矩(μ)、一致性(U)、熵(e)等6种纹理特征,共32个特征指标,并进行归一化处理,消除特征之间量纲、量级等不同的影响,形成原始特征空间。32个特征指标分别记为NR1、NR2、…、NR10、mR、σR、γR、μR、UR、eR和NI1、NI2、…、NI10、mI、σI、γI、μI、UI、eI.
蜜蜂是自然界中一种典型的群居生物,在采蜜过程中,蜜蜂能通过不同个体之间的协作在短时间内找到优质的蜜源。人工蜂群算法是模仿蜂群觅食行为提出的一种优化方法,算法包括蜜源和蜜蜂两个基本要素。其中蜜源代表候选解,蜜蜂负责搜索蜜源。算法中的蜂群由引领蜂、跟随蜂和侦察蜂构成。
人工蜂群算法包括蜜源初始化过程、引领蜂搜索过程、跟随蜂选择过程和侦察蜂搜索过程4个重要的步骤[9]。对于D维待优化问题,假设蜜蜂总数为SN,蜜源数目为FN,向量αij表示第i个蜜源(j=1,2,…,D),蜜源位置的初始化如式(1)所示。
αij=αmin,j+rand(0,1)*(αmax,j-αmin,j)
(1)
式中,i=1,2,…,FN;αmax,j和αmin,j分别表示第j维的最大值和最小值。
引领蜂按式(2)搜索新的蜜源。
βij=αij+rand(-1,1)*(αij-αkj)
(2)
式中,βij是一个新蜜源,k∈{1,2,…,FN},且k≠i。
跟随蜂以轮盘赌的方式选择待搜索优良蜜源,第i个蜜源被选择的概率计算如式(3)所示,其中proi表示第i个蜜源的收益度。跟随蜂选择蜜源后,同样通过式(2)搜索新蜜源。
(3)
MSN是算法中的一个重要参数,负责控制蜜源质量未改善的迭代次数,当某个蜜源质量没有改善的次数超过参数MSN时,此蜜源将被放弃,该蜜源对应的引领蜂将变成侦察蜂,并由公式(1)随机搜索产生新蜜源。
内部含虫麦粒的特征选择是一个离散组合优化问题,其基本任务就是从32个特征指标中自动选择出n个特征指标的最优组合,使其性能评价准则达到最大。蜂群采蜜行为与特征优化问题对应关系如表1所示。由表1可知,在ABC算法解决特征优化问题中,蜜源对应问题的若干个特征组合,蜜源的收益度对应解的质量,决定蜜源收益度的因素对应问题的各个特征,寻找并采集蜜源的速度对应问题求解的速度[10-11]。将ABC算法用于粮虫特征选择涉及到蜜源初始化方式、解的表示方法、收益度函数的选取及邻域搜索方法的问题等,在优化算法中,NP、EN、D、MI、MSN、Iter分别为蜂群规模、引领蜂数量、解空间维数、最大循环迭代次数、蜜源质量未改善次数和当前迭代次数。
表1 蜂群觅食行为与特征优化问题的对应关系
3.1 解的表示与蜜源初始化
本研究采用一个二进制位串表示一个可行解。因为计算过程是对32个特征指标进行优化,故可用长度为32的二进制位串,每一位对应一个特征指标。若某位取值为1,则表示选择其对应的特征;若某位取值为0,则表示去除其对应的特征。蜜源初始化时,根据式(4)随机产生EN个可行解:
(4)
其中,i∈{1,2,…,EN},j∈{1,2,…,D}。这里EN=10,D=32。
3.2 收益度函数
定义收益度函数如下:
pro(ξ)=100*PSVM-d/D
(5)
其中,PSVM为v折交叉验证训练模型的识别率,d为所选特征子集的特征个数,v折交叉验证是指将每类麦粒的训练样本分为v份,其中v-1份作为训练数据集,剩下的1份作为验证数据集,以验证采用所选特征子集时分类器的识别率,一般需要循环v次,直到所有v份数据全部被选择一遍为止,v次识别率的平均值即为PSVM,参数v表示交叉验证的折数,取v=5。这里采用SVM分类器,惩罚因子C=20,径向基核函数参数g=10/d。由此可见, pro越大,选择的特征子集性能越好,即利用较少的特征获得了较高的分类正确率。
3.3 邻域搜索
在引领蜂完成解的搜索后,利用跟随蜂在解空间内搜索策略以提高生成解的质量。搜索策略采用遗传算法中的变异操作,对于蜜源αi的邻域搜索,采用单点变异并按公式(6)产生新蜜源βi,然后计算新蜜源收益度值,若新蜜源的收益度值较大,则保存新蜜源。
(6)
其中,k是[1,D]的随机整数。
人工蜂群算法分为引领蜂阶段、跟随蜂阶段和侦察蜂阶段三个搜索阶段,算法主要有蜜源初始化、收益度评价、蜜源的更新和选择等步骤,具体算法流程如表2所示。
在参数设置方面,蜂群规模NP取值越大,蜜源的选择性越广,存在更好蜜源的概率越高,但NP取值也并非没有限制,蜂群数量过大不仅会增加算法复杂度,同时也会大幅度增加算法的计算时间,这里取NP=20;MI是算法的终止条件,控制算法的循环次数,直接影响算法的计算时间,这里取MI=100;MSN是最重要的参数之一,取值太低会产生过多的侦察蜂,整个蜂群对空间的拓展能力会增强,随机性也随之增强,但收敛性就会变慢,取值太高会导致觅食过程中侦察蜂不常出现,这会使蜂群的探索能力变弱,易陷入局部最优,这里取MSN=10。本研究着力于内部含虫麦粒的特征选择,最终目的是选择优化出最优特征子集,使其分类正确率达到最高,因而从两类麦粒中随机选取200个样本进行训练,80个样本进行验证。选用上述参数设置后,ABC-SVM算法优化10次的特征选择和识别试验结果见表3。
表2 基于ABC-SVM特征选择实现的伪代码
由表3可以看出,在10次实验中,效果最差的第10次实验也成功将32维特征压缩至10维,与原始特征相比,极大地压缩了特征空间,并且10次结果都能够保持高于原始特征的正确分类率87.5%(表4),识别率最高提升了3.75%。表明ABC-SVM算法能够成功选择出特征空间中较优的特征子集。
由表3可以得出,运行10次结果显示,实验4收益度达到最大为90.812,实验3和4验证集识别率都达到最高为91.25%。两次实验对比,实验4选择出的特征较少,因此实验4选择出的6个特征即为ABC算法优化出的最优结果。这6个特征指标分别是mR、UR、NI4、NI9、NI10、γi。在实验4中,收敛特性曲线如图1所示。由图1可见,收益度随着迭代次数的增加而增加,表明可行解的质量不断提高,逐渐向最优解靠近,结果显示在循环53次时收益度达到了最优值90.812,也就表明此刻的结果是优化出来的最优解。总之,在特征组合优化问题上,ABC-SVM算法具有寻优能力强、收敛速度快的特点。
表3 ABC-SVM算法优化10次的特征选择结果
图1 实验4收敛特性曲线
由表4可知, 与原始特征法相比,ABC算法特征空间由32维降为6维,识别率提高了3.75%。这是由于ABC算法在寻优的过程中抛弃了对分类识别起干扰作用的不良特征及冗余特征,保留了对分类贡献较大的特征。
表4 2种方法的特征选择和分类实验结果
支持向量机(support vector machine,SVM)是依据统计学理论中的结构风险最小化原则,从线性可分情况下的最优分类面发展而来的,在解决小样本、非线性及高维数等模式识别问题中表现出良好的分类能力。在采用SVM分类器识别的过程中,惩罚因子C和径向基核函数参数g选择对识别率有较大的影响。参数C和g的取值范围分别为C∈(2-5,215)和g∈(2-16,24)。当这两个参数优化之后,识别率可能有所提高。若采用ABC算法选择出的6维特征子集,并按照文献[12]的方法对这两个参数进行优化,当PSVM达到最高值91.0%时,C=4.924 6,g=3.732 1。用训练好的SVM分类器对80个麦粒(含虫和健康各40粒)样本进行检验,仅有6个被错判,得到的正确识别率为92.5%。可见,利用ABC算法所选择的特征子集,利用优化之后的SVM分类器进行识别,取得了较好的分类效果。
本研究提出将ABC-SVM算法应用到内部含虫麦粒的特征选择上,该算法自动从32个特征中选择出6个特征的最优特征子集。与原始特征法相比较,该算法不仅可压缩特征空间,而且识别率提高了3.75%。同时,利用ABC-SVM算法所选择的特征子集,运用优化之后的SVM分类器进行识别分类,识别率达到92.5%,从而证实了基于ABC-SVM算法在内部含虫麦粒特征选择的应用是可行和有效的。
[1]HU Y X,ZHANG H T,LUO K,etal.Feature extraction of stored-grain insects based on ant colony optimization and support vector machine algorithm [J].AgriculturalScience&Technology-Hunan,2012,13(2):457.
[2]SHUMAN D,COFFELT J A,VICK K W,etal.Quantitative acoustical detection of larvae feeding inside kernels of grain [J].JournalofEconomicEntomology,1993,86(3):933.
[3]SHUMAN D,WEAVER D K,MANKIN R W.Quantifying larval infestation with an acoustical sensor array and cluster analysis of cross-correlation outputs [J].AppliedAcoustics,1997,50(4):279.
[4]耿森林,尚志远.仓储粮食中害虫活动声的提取与频谱分析[J].西南师范大学学报(自然科学版),2005,30(6):1057.
GENG S L,SHANG Z Y.The sampling of the insect activity sound in the storage grain and its frequency spectrum analysis [J].JournalofSouthwestChinaNormalUniversity(NaturalScience),2005,30(6):1057.
[5]彭 慧,赵子恺,洪 俊.基于压缩感知的无线粮虫声信号采集方案[J].农机化研究,2014,36(5):83.
PENG H,ZHAO Z K,HONG J.Research on wireless audio sensor networks data compression method based on compressive sensing [J].JournalofAgriculturalMechanizationResearch,2014,36(5):83.
[6]PEARSON T,BRABEC D L.Detection of wheat kernels with hidden insect infestations with an electrically conductive roller mill [J].AppliedEngineeringinAgriculture,2007,23(5):639.
[7]ZHANG H M,WANG J.Detection of age and insect damage incurred by wheat,with an electronic nose [J].JournalofStoredProductsResearch,2007,43(4):489.
[8]KARABOGA D.Artificial bee colony algorithm [J].Scholarpedia,2010,5(3):6915.
[9]SCHIEZARO M,PEDRINI H.Data feature selection based on artificial bee colony algorithm [J].EURASIPJournalonImageandVideoProcessing,2013,2013(1):1.
[10]PALANISAMY S,KANMANI S.Artificial bee colony approach for optimizing feature selection [J].InternationalJournalofComputerScienceIssues,2012,9(3):432.
[11]OZTURK C,HANCER E,KARABOGA D.A novel binary artificial bee colony algorithm based on genetic operators [J].InformationSciences,2015,297:154.
[12]胡玉霞,张红涛.基于模拟退火算法-支持向量机的储粮害虫识别分类[J].农业机械学报,2008,39(9):108.
HU Y X,ZHANG H T.Recognition of the stored-grain pests based on simulated annealing algorithm and support vector machine [J].TransactionsoftheChineseSocietyforAgriculturalMachinery,2008,39(9):108.
Multispectral Image Feature Selection of Insect-infected Wheat Grains Based on ABC and SVM Algorithm
ZHANG Hongtao, RUAN Pengju, MU Jianru, SUN Zhiyong, LI Dewei
(North China University of Water Resources and Electric Power, Zhengzhou,Henan 450045, China)
In order to study the feature selection of insect-infected wheat grains based on artificial bee colony algorithm and support vector machine algorithm, and to explore the feasibility of the feature selection of insect-infected wheat grains, the feature selection was firstly proposed based on the artificial bee colony algorithm, and the recognition accuracy of fold cross validation training model was taken as the evaluation principle of the feature subset. The artificial bee colony algorithm was applied to the feature selection of the insect-infected wheat grains.The results showed that the the optimal feature subspace of six features were extracted from 32 histogram features and textural features, and 80 image samples of the insect-infected wheat grains were automatically recognized by the optimized SVM classifier, with the recognition accuracy over 92%. The experiment showed that the application of artificial bee colony algorithm for the feature selection of grain insects was feasible.
Insect-infected wheat grains; Artificial bee colony algorithm; Support vector machine; Feature selection; Recognition
时间:2016-10-08
2016-03-22
2016-05-18
国家自然科学基金项目(31671580);国家自然科学基金项目(31101085);河南省科技攻关项目(162102110112);华北水利水电大学教学名师培育项目(2104108)
E-mail:zht1977@ncwu.edu.cn
S512.1;S186
A
1009-1041(2016)10-1391-05
网络出版地址:http://www.cnki.net/kcms/detail/61.1359.S.20161008.0932.032.html