张萌,李光辉*
(1.江南大学物联网工程学院,江苏 无锡 214000;2.物联网技术应用教育部工程技术研究中心,江苏 无锡 214000)
苹果是一种常见的水果,也是我国的第一大水果,是我国的优势农产品之一。然而,苹果在采摘、分装和运输过程中难以避免由于磕碰而造成的轻微损伤。在损伤初期,水果的外观与正常水果极为相似[1],凭肉眼或者彩色照相机几乎无法识别;随着时间的推移,轻微损伤逐渐加重,最终演变成内部腐烂,对苹果品质产生很大影响。此外,在水果采集过程中针对病虫害的检测主要以人工分拣为主,一般先通过目测来判断水果的外部缺陷,再通过已有的分级设备进行分级和出售。由于人工分拣对于水果轻微损伤判断的准确性差并且效率较低,所以很难达到分级的一致性[2]。
高光谱成像技术同时含有光谱及图像方面的信息,具有分辨率高、波段数多的特点,近些年越来越多地被应用于农产品品质的无损检测中[3-6]。BARANOWSKI等[7]使用可见光/近红外(400~1 000 nm)和短波近红外(1 000~2 500 nm)范围内的高光谱图像,并结合多种有监督的分类模型,对损伤2周内的苹果进行了检测,结果表明,用于损伤天数检测的高光谱成像技术在两类光谱范围内都具有良好的适用性;SUN等[8]采集了4 00~1 000 nm范围内的高光谱图像,使用连续投影算法(successive projection algorithm,SPA)挑选了6个特征波段(580、599、650、675、710和970 nm),分别使用偏最小二乘回归判别分析(partial least-squaresdiscriminant regression,PLS-DA)、支持向量机(support vector machine,SVM)及人工神经网络(artificial neural network,ANN)模型进行建模分析,结果表明,该系统可以对桃的冻伤等级进行分类;刘思伽等[9]采用二次连续投影算法提取了3个特征波长(681、867和942 nm),然后分别采用线性判别分析、支持向量机和反向传播人工神经网络(back propagation-artificial neural network,BP-ANN)模型进行分类,完成了寒富苹果病害的分类检测。但以往基于高光谱成像技术结合化学计量法对水果缺陷的检测中,常用的特征波段提取算法通常提取的特征波段数多,数据较冗余,处理数据仍较烦琐,而减少提取的特征波段数则可能会降低分类的精度,不利于水果品质的在线检测。另外,大多数研究并未考虑到水果轻微损伤随时间推移而产生的影响,不符合水果质量检测的实际情况。针对上述问题,本文采用高光谱成像技术,使用RELIEF算法结合极限学习机(extreme learning machine,ELM)提出RELIEF-极限学习机(RELIEF-extreme learning machine,Re-ELM)算法,克服了以往损伤检测算法所需的特征波段数过多、检测精度不够高的问题,实现了对不同损伤时间的苹果轻微损伤样本的快速、有效且准确的识别;同时,提出了基于图像处理技术的损伤检测算法,能够直观地对苹果损伤区域进行识别,更有利于在线检测系统的实现。
实验样本为双色红富士苹果,购买于江苏省无锡市当地的水果批发市场。为保证研究的可靠性,人工挑选同一批次的没有明显表面缺陷,且形状、大小相似,颜色分布均匀的苹果共108个。将108个苹果分为2组,每组54个。对第1组的54个样本实施人工模拟损伤,将样本从40 cm的高度垂直落到水平地面,使苹果的赤道位置形成轻微损伤,对瘀伤处进行标记,作为损伤苹果样本;此高度造成的损伤为苹果内部损伤,损伤程度符合中国农业农村部(原农业部)发布的《中华人民共和国农业行业标准(NY/T 1793—2009):苹果等级规格》。第2组的54个苹果样本不做处理,为正常苹果样本。采集不同损伤时间的损伤样本表面和正常样本表面的高光谱图像。所有苹果样本在检测间隔期的保存及高光谱图像的采集均在22℃室温条件下进行。
选择美国SOC710VP高光谱成像仪,它能够采集400~1 000 nm波长(共128个波段)处的光谱图像,光谱分辨率为4.68 nm,成像分辨率为1 392×1 040。该设备采用全息衍射技术,光通过率高,并采用双电荷耦合器件图像传感器(charge coupled device,CCD)可视化对焦,能够直观地预览待测图像,同时配备了美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)可溯源校准,确保了数据的准确性及可靠性。为了减少周围光线的影响,高光谱图像的采集均在暗箱中操作,采用卤素灯作为光源,设置升降台高度为40 cm,积分时间为25 ms,垂直于苹果表面扫描成像。每次扫描的同时获取暗电流及参考板数据。
由于光照强度的不均匀性和CCD探测器中暗电流的存在,采集的高光谱图像通常具有较大噪声,故需对初始图像进行黑白校正,公式如下:
式中:Rn为校正后的高光谱图像;Rr为原始噪声图像;Rd为黑板的校正图像;Rw为美国NIST溯源校准参考板的扫描图像。
实验中的数据提取和光谱预处理主要基于ENVI 4.7软件进行;RELIEF算法和ELM等模型使用Matlab R2009a软件编程实现。
在实验中正常样本的感兴趣区域(region of interest,ROI)选择在与损伤样本的损伤位置相近的区域。在已采集的所有样本的高光谱图像中,分别在54个正常样本表面区域与54个损伤样本在刚损伤和损伤后不同时间的损伤区域(颜色较深)范围内选取矩形ROI,ROI的大小为10×10像素。由于高光谱图像中像素点众多,其中每个点都具有一条完整的反射率曲线,所以计算每一个样品ROI内所有波段的平均光谱反射率曲线,并作为该区域的光谱曲线。
全部样本表皮的平均光谱曲线如图1所示。从中可知,正常样本与不同损伤时间样本的光谱特征曲线变化趋势较为一致,在损伤初始时刻样本的光谱曲线与正常样本较为接近,随着时间推移,损伤样本的平均光谱反射率开始降低,尤其在640~700和730~900 nm范围内曲线差异更为明显。此外,在680 nm处的吸收谷是由苹果表面叶绿素的吸收作用引起的[10],在820 nm处的吸收峰反映了苹果样本的含糖量信息[11],在960 nm附近的波谷是由苹果中水分变化造成的,因为该波段是水中O—H基团的2级倍频特征吸收峰[12]。
图1 正常和损伤苹果样本的平均反射光谱曲线Fig.1 Average reflectance spectra of the sound and bruise regions on apple samples
平均光谱反射率主要反映高光谱图像的光谱信息,而高光谱技术具有包含光谱信息与图像信息的特点。由于苹果损伤区域和正常区域存在物理化学性质的差异,使得不同波段下的平均光谱反射率的强度不同,而图像的信息熵能够很好地度量反射光强的差异性[13],因此,本文提取苹果表面的图像熵数据以选择信息量更为丰富的波段作为特征波段。
设波段λ下像素点(i,j)处的平均光谱反射率值为f(λ,i,j),其中i=1,2,…,M,j=1,2,…,N(M,N分别为CCD相机的横向、纵向像素),则第t个苹果样本所选择的感兴趣区域为R(λ,t)。
首先求出第t个苹果样本在波段λ下各像素点的平均光谱反射率的概率分布
其中
则第t个苹果样本在波段λ下的图像熵H(λ,t)为
图像熵信息可以反映图像分布的聚集特征,正常苹果与不同损伤天数苹果的图像熵曲线如图2所示。可以看出,正常样本与损伤不同时间的样本间的平均熵具有一定的差异,包含了不同的信息量,可通过平均熵筛选出更具有信息量的特征波段。
图2 正常和损伤苹果样本的图像熵曲线Fig.2 Average entropy of the sound and bruise regions on apple samples
高光谱图像包含大量的数据,可以为苹果的损伤分类提供丰富的信息。但由于光谱波段较为连续,邻近波段间的相似性很高,通常会存在大量的数据冗余,使得运算费时较长,不利于苹果损伤的在线检测,所以需要提取能够代替全波段进行分类处理的特征波段,从而减少数据冗余,进而简化数据运算。
RELIEF算法[14]是一种计算特征权重值大小的方法,通常是基于两类问题进行特征的选择,根据各个特征对于分类的重要程度赋予其不同的权重值,其主要思想是基于区分相邻样本的能力来确定特征权重。本实验使用该方法来选择损伤检测的特征波段。为了使用RELIEF算法得到波长的权重系数图,将采集的正常及不同损伤时期苹果样本的平均光谱反射率和图像熵信息及其对应标记输入RELIEF算法中,从而获得各个波段的权重系数,如图3和图4所示。值得注意的是,为了消除数据冗余,选取平均光谱反射率与图像熵的波段权重系数图中局部极大值作为检测损伤的特征波段,这样所选波段不但包含有利于苹果损伤分类的图像特征,而且同时包含了更多的信息量。其中,所选择的8个特征波段为17、30、35、51、61、66、94和120。
图3 苹果样本的平均光谱反射率的权重系数Fig.3 Weighting coefficient of average reflectance spectra of apple samples
图4 苹果样本的图像熵的权重系数Fig.4 Weighting coefficient of average entropy of apple samples
极限学习机(ELM),是一种快速学习算法。根据HUANG等[15]的研究结果,对于一个单隐层神经网络,设g(x)为激活函数,输入权重大小为Wi,输出的权重值为βi,bi为第i个隐藏层单元的偏置值,则在算法中,只要随机确定bi和Wi的值,就能够得到隐藏层的输出矩阵H。通常,对于一个单隐层神经网络,学习的目的是为了实现最小输出误差。虽然传统的梯度下降法算法可以用来解决类似问题,但是此类算法(如BP神经网络)需要不断地调整迭代过程中的参数,从而存在训练时间较长,训练速度慢,且容易陷入局部而非全局最小等问题。与传统的神经网络算法相比,ELM突出的优势是能够保证学习的精度同时减少所耗时间。
在本实验中,利用苹果正常样本与不同损伤天数样本表皮的平均光谱反射率数据,使用ELM对苹果损伤情况进行建模分析。首先是基于光谱全波段的建模,将正常样本(54个)与不同损伤时间的样本(54个)按照2∶1的比例随机划分训练样本集(72个)和测试样本集(36个),选用Sigmod函数作为ELM极限学习机的激活函数,经过多次实验,最佳隐层神经元的个数为20。测试集的判别结果如图5所示,全波段建模的判别结果见表1。由表1可知,正常样本及不同损伤时间样本的训练集和测试集判别结果均较好,除了损伤1 min内的样本由于苹果表皮的损伤变化不明显,使得模型测试结果稍低外,基于训练集和测试集的整体检测率均在94%以上。由此可得,基于全波段进行建模对样本的预测较可靠。
图5 基于全波段的训练集判别结果Fig.5 Discriminant results of training sets based on full wavebands
表1 基于全波段的ELM模型对正常和损伤样本的判别结果Table 1 Discriminant results of sound and bruised samples using ELM model and full wavebands
由于全波段中包含大量冗余数据,建模耗时长,不利于在线检测系统的开发,所以使用RELIEF算法挑选特征波段,有效减少数据冗余,使得建模时间大大减少。基于特征波段进行ELM建模分析的结果如表2所示。从中可知,基于特征波段的建模不仅减少了大量数据冗余,使得建模时间缩短,而且提升了分类的精确度。基于特征波段建模的总测试集精度优于基于全波段的建模,说明所选择的特征波段包含了分类的关键信息,去除了冗余信息,更有利于苹果损伤的分类。
2.4.1 RELIEF-支持向量机(Re-SVM)模型判别分析
SVM是基于统计学习理论的一种机器学习方法,是一种二分类模型。SVM定义为特征空间上间隔最大的分类器,即学习的策略是使间隔达到最大。该模型一般对于线性可分情况进行分析,但其优势是支持非线性分类。在非线性的条件下,它能够采取非线性的映射算法把原本不可分样本转换到更高维度的特征空间,然后在高维的空间实现线性可分[16]。使用SVM模型对特征波段进行建模的结果见表3。从中可知,基于特征波段的Re-SVM模型测试集的判别精度不如RELIEF-极限学习机(Re-ELM)高,和ELM模型相比其建模时间也更长,但是结果仍较好,总识别精度平均值为95%,能够比较有效地进行苹果损伤分类识别。
表3 基于Re-SVM模型对正常样本和损伤样本的判别结果Table 3 Discriminant results of sound and bruised samples based on Re-SVM model
2.4.2 Re-K均值模型判别分析
在数据挖掘中,K-均值(K-means)算法[17]是一种常用的聚类分析算法。该算法需要预先设定一个K值和多个类别的初始质心位置,然后通过K值及初始质心对位置较为相似的数据进行划分,最后对划分后的均值采用迭代优化,从而获得最佳聚类效果。
使用K-均值算法对样本进行分析的结果如表4所示:苹果损伤的分类效果不如ELM及SVM,总识别率为91.67%。
表4 基于Re-K均值模型对正常和损伤样本的判别结果Table 4 Discriminant results of sound and bruised samples based on Re-K mean model
由上述研究可知,由RELIEF算法提取的特征波段适用于苹果轻微损伤分类判别。为了进一步验证特征波段的有效性,提出了基于图像处理技术的损伤检测算法。
2.5.1 独立成分分析
独立成分分析(independent component analysis,ICA)是近年发展起来的一种统计方法,是盲源分离(blind source separation,BSS)的重要分支。盲源分离是指当源信号与信号混合模型未知时,从混合信号中分离出源信号的过程。由于独立成分分析在特征提取中具有明显的优势,所以已经逐渐应用于高光谱图像的处理中。其算法原理[18]如下:
将独立成分表示为随机列向量S=[s1,s2,…,sn]T,独立成分的观测值表示为随机列向量X=[x1,x2,…,xn]T,矩阵A(m×n)表示为S的系数aij。假设s1,s2,…,sn之间相互保持统计独立,则有
那么独立成分分析的模型可用矢量形式表示为
由于S和A均未知,独立成分分析的目的即寻找si的最优估计,使得
式中B=A-1,是ICA模型的分离矩阵,A-1即A的逆矩阵。
2.5.2 特征波段的ICA变换
独立成分分析是降低高光谱图像维度的重要方法。在本文中,首先使用ICA技术对400~1000 nm的全波段图像进行变换,然后针对特征波段进行变换。图6显示了损伤时间为1 d的苹果高光谱图像变换结果。可以看出,基于全波段与特征波段的ICA变换,各成分图像显示的苹果表皮信息基本一致,说明了特征波段的有效性。比较前4个成分图像可知:ICA1图像包含了苹果整体信息;ICA2图像反映了苹果表皮的一些形态学特征,如纹理、斑点等;ICA3图像较为明显地显示了苹果的损伤区域;ICA4图像主要反映了苹果的轮廓信息。因此,选用ICA3图像对苹果进行下一步的损伤检测。基于全波段和特征波段图像对所有样本进行变换的结果均与图6中的结果相似,由此可证明特征波段可以代替全波段进行苹果轻微损伤检测。
图6 基于全波段(A)和特征波段(B)的苹果损伤高光谱图像ICA变换Fig.6 ICA transformation results of the bruise apples’hyperspectral images based on the full(A)and characteristic wavebands(B)
2.5.3 苹果轻微损伤识别算法
由上述研究可知,基于特征波段的ICA变换第3成分图像ICA3更适用于苹果损伤的检测。图7为苹果轻微损伤检测算法流程图:首先使用RELIEF算法选择特征波段;观察图1的平均光谱图可知,在波长为822 nm处的反射率最高,故选用此波段的图像生成掩模;对特征波段进行掩模处理,以减少背景干扰,掩模处理后进行ICA变换,并选择ICA3成分图像进行下一步处理;最后对所选图像采用自适应阈值分割算法,最终得到损伤图像。
图7 苹果轻微损伤高光谱检测算法流程Fig.7 Flow chart of detection algorithm of slight bruise apple samples
2.5.4 正常样本与损伤样本判别结果
使用上述损伤检测算法对所有样本的高光谱图像进行检测的结果如表5所示。所有样本的识别率为94.44%,表明使用该种检测方法同样能够通过特征波段实现苹果的轻微损伤检测。
表5 苹果轻微损伤图像识别检测结果Table 5 Detection results of slight bruise apple samples by image recognition
使用高光谱技术从建模分析及图像识别两方面对苹果损伤进行识别和分析,主要结论如下。
1)使用RELIEF算法基于高光谱图像的平均光谱反射率和图像熵信息选择特征波段。分别使用ELM、SVM与K-均值模型对特征波段进行建模,通过对比可知,Re-ELM模型的分类效果最好,不同损伤时间的样本都具有较好的检测效果,测试集的总识别率为96.67%,表明高光谱成像技术结合ELM能有效实现苹果的损伤检测,且所选的特征波段不仅能去除冗余信息,减少建模时间,并且包含了有利于分类的重要信息。
2)使用ICA算法对RELIEF算法提取的特征波段进行数据降维,然后采用自适应阈值分割法提取水果的损伤区域。结果表明,基于图像判别的苹果轻微损伤检测精度为94.44%,误判的原因主要是损伤初期损伤区域与正常区域差别较小,所以基于图像处理的检测方法对于损伤初期的损伤识别不够精确。
总之,本文通过选择特征波段并基于特征波段建立判别分类模型,实现了苹果的正常样本及不同损伤时间样本的识别,并且通过图像处理技术实现了苹果损伤区域的定位,为未来检测水果损伤的相关仪器或在线检测系统的开发提供了理论依据。在苹果的在线检测中,不仅包含了苹果的轻微损伤,还有苹果真菌感染等损害,扩大苹果样本范围,增加能够检测的苹果损害类别将是下一步研究的重点。
参考文献(References):
[1]张保华,黄文倩,李江波,等.基于高光谱成像技术和MNF检测苹果的轻微损伤.光谱学与光谱分析,2014,34(5):1367-1372.ZHANG B H,HUANG W Q,LI J B,et al.Detection of slight bruises on apples based on hyperspectral imaging and MNF transform.Spectroscopy and Spectral Analysis,2014,34(5):1367-1372.(in Chinese with English abstract)
[2]田有文,程怡,王小奇,等.基于高光谱成像的苹果虫伤缺陷与果梗/花萼识别方法.农业工程学报,2015,31(4):325-331.TIAN Y W,CHENG Y,WANG X Q,et al.Recognition method of insect damage and stem/calyx on apple based on hyperspectral imaging.Transactions of the CSAE,2015,31(4):325-331.(in Chinese with English abstract)
[3]黄文倩,陈立平,李江波,等.基于高光谱成像的苹果轻微损伤检测有效波长选取.农业工程学报,2013,29(1):272-277.HUANG W Q,CHEN L P,LI J B,et al.Effective wavelengths determination for detection of slight bruises on apples based on hyperspectral imaging.Transactions of the CSAE,2013,29(1):272-277.(inChinesewithEnglishabstract)[4]程术希,邵咏妮,吴迪,等.稻叶瘟染病程度的可见-近红外光谱检测方法.浙江大学学报(农业与生命科学版),2011,37(3):307-311.CHENG S X,SHAO Y N,WU D,et al.Determination of rice leaf blast disease level based on visible-near-infrared spectroscopy.Journal of Zhejiang University(Agriculture and Life Sciences),2011,37(3):307-311.(in Chinese with English abstract)
[5]LEE W H,KIM M S,LEE H,et al.Hyperspectral nearinfrared imaging for the detection of physical damages of pear.Journal of Food Engineering,2014,130:1-7.
[6]魏新华,吴姝,范晓冬,等.基于高光谱成像分析的冬枣微观损伤识别.农业机械学报,2015,46(3):242-246.WEI X H,WU S,FAN X D,et al.Identification of slight bruises on winter jujube based on hyperspectral imaging technology.TransactionsoftheChineseSocietyfor Agricultural Machinery,2015,46(3):242-246.(in Chinese with English abstract)
[7]BARANOWSKIP,MAZUREK W,PASTUSZKAWOŹNⅠAK J.Supervised classification of bruised apples with respect to the time after bruising on the basis of hyperspectralimaging data.PostharvestBiologyand Technology,2013,86:249-258.
[8]SUN Y,GU X Z,SUN K,et al.Hyperspectral reflectance imaging combined with chemometricsand successive projections algorithm forchilling injury classification in peaches.LWT—Food Science and Technology,2016,75:557-564.
[9]刘思伽,田有文,张芳,等.采用二次连续投影法和BP人工神经网络的寒富苹果病害高光谱图像无损检测.食品科学,2017,38(8):277-282.LIU S J,TIAN Y W,ZHANG F,et al.Hyperspectral imaging fornondestructive detection ofHanfu apple diseases using successive projections algorithm and BP neural network.Food Science,2017,38(8):277-282.(in Chinese with English abstract)
[10]MIN H,WAN X M,MIN Z,et al.Detection of insectdamaged vegetable soybeans using hyperspectral transmittance image.Journal of Food Engineering,2013,116:45-49.
[11]ABBOTT J A,LU R F,UPCHURCH B L,et al.Technologies for nondestructive quality evaluation of fruits and vegetables//Horticultural Reviews.Hoboken,United States:John Wiley&Sons Inc.,1997:1-120.
[12]RAJKUMAR P,WANG N,EIMASRY G,et al.Studies on banana fruit quality and maturity stages using hyperspectral imaging.Journal of Food Engineering,2012,108(1):194-200.
[13]朱启兵,冯朝丽,黄敏,等.基于图像熵信息的玉米种子纯度高光谱图像识别.农业工程学报,2012,28(23):271-276.ZHU Q B,FENG Z L,HUANG M,et al.Maize seed classification based on image entropy using hyperspectral imaging technology.Transactions of the CSAE,2012,28(23):271-276.(in Chinese with English abstract)
[14]张翔,邓赵红,王士同,等.极大熵Relief特征加权.计算机研究与发展,2011,48(6):1038-1048.ZHANG X,DENG Z H,WANG S T,et al.Maximum entropy relief feature weighting.Journal of Computer ResearchandDevelopment,2011,48(6):1038-1048.(in Chinese with English abstract)
[15]HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications.Neurocomputing,2006,70(1/2/3):489-501.
[16]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述.电子科技大学学报,2011,40(1):2-10.DING S F,QI B J,TAN H Y.An overview on theory and algorithm of support vector machines.Journal of University of Electronic Science and Technology of China,2011,40(1):2-10.(in Chinese with English abstract)
[17]段明秀.层次聚类算法的研究及应用.长沙:中南大学,2009.DUAN M X.Research and application of hierarchical clustering algorithm.Changsha:Central South University,2009.(in Chinese with English abstract)
[18]HYVÄRINEN A,PAJUNEN P.Nonlinear independent componentanalysis:existence and uniquenessresults.Neural Networks,1999,12(3):429-439.