连续投影算法和模拟退火算法在苹果品种分类模型中的分析

2022-06-30 11:49刘九材高杨
安徽农学通报 2022年10期
关键词:机器学习苹果

刘九材 高杨

摘 要:采用连续投影算法(SPA)和模拟退火算法(SAA)特征波长选取方法,对阿克苏冰糖心苹果、天水花牛苹果、甘肃静宁苹果进行波长选择,并结合均值中心化、标准正态变换、多元散射校正和二阶导数进行K最近邻(KNN)建模分析。结果表明,SPA结合预处理建立的模型预测精度达到91%以上,SAA稍次、预测精度在86%,SPA结合二阶导数建模预测精度能达到98%;SAA将全部256个波长减少到10个,SPA普遍减少到31个,均有效简化了建模复杂度。因此,2种特征选择方法筛选苹果特征波长是可行的。

关键词:机器学习;高光谱;苹果;光谱预处理

中图分类号 S66 文献标识码 A 文章编号 1007-7731(2022)10-0052-03

Analysis of Continuous Projection Algorithm and Simulation Annealing Algorithm in Apple Variety Classification Model

LIU Jiucai   GAO Yang

(College of Information Engineering, Tarim University, Alar 843300, China)

Abstract: Continuous projection algorithm (SPA) and simulated annealing algorithm (SAA) were used to select the wavelength of Aksu rock sugar core apple, Tianshui flower Niu apple and Gansu Jingning apple, and K-nearest neighbor (KNN) modeling was carried out by means of mean centralization, standard normal transformation, multivariate scattering correction and second derivative. The results show that in terms of modeling accuracy, the prediction accuracy of SPA combined with pretreatment model is 91%, the slightly prediction accuracy of SAA is 86%, and the prediction accuracy of SPA combined with second derivative modeling can reach 98%. In terms of characteristic wavelength selection, SAA reduces 10 of all 256 wavelengths, and SPA generally reduces 31, which effectively simplifies the modeling complexity. Therefore, two feature selection methods are feasible to screen apple characteristic wavelengths.

Key words: Machine learning; Hyperspectral; Apple; Spectral pretreatment

高光譜技术因“图谱合一”等特点而被广泛应用于农业、食品安全等诸多领域。目前,国内外众多专家学者利用高光谱进行了温室黄瓜病害早期检测[3],大米种类鉴别[4],高粱掺假无损检测[5],互米花草营养成分反演[6],绿萝叶绿素含量检测[7]以及牛肉品质检测[8]等内外品质的检测。使用高光谱成像技术进行苹果品种的分类也是可行的。

然而,在实际模型建立过程中,使用全部波长建模存在运算量过大、建模时间过长等问题,此外光谱数据的噪音问题也影响着模型的准确度。为此,本研究采用连续投影算法和模拟退火算法2种光谱选择算法进行对比,以期选择出可以有效对苹果近红外的特征波长进行优选,减少噪音对模型的干扰,简化模型复杂度,提高苹果分类模型精度的算法。

1 材料与方法

1.1 材料与仪器 试验材料选用阿克苏地区红旗坡冰糖心、甘肃天水花牛、甘肃静宁3个品种的苹果。冰糖苹果采自阿克苏红旗坡,2021年11月采摘,天水花牛与甘肃静宁采购于当地果农,采购时间为2021年11月。采购后在3种苹果中选择出大小均匀、完好无损的苹果共254个(冰糖心144个,花牛86个,静宁24个)。光谱采集采用的高光谱分选系统是北京卓立汉光公司的盖亚高光谱分选仪(采集波段为900~1700nm、共256个波段、分辨率5nm)。使用ENVI5.3进行光谱数据提取,采用Python 3.7.3建模处理。

1.2 光谱采集方法 光谱采集前将苹果放于室内24h,保证苹果温度一致,之后对苹果进行擦拭、标号。采集光谱数据时,苹果赤道面垂直于载物台,为取得苹果赤道面光谱数据,实验对每个苹果均采集2次光谱图像,第1次采集苹果着色面(红颜色较多),第2次采集阴暗面(以黄绿色为主)。经过多次试验,高光谱设备参数为:起点位置为5cm,总行程为30cm,传送带前进速度为1.3cm/s,光谱相机高度为42cm,相机曝光时间为33ms。最后对采集到的光谱图像进行黑白校正:

[R=I-BW-B]

式中:R为校正后图像,B为原始图像。

1.3 特征波长选择方法

1.3.1 连续投影算法 连续投影算法(SPA)是一种前向循环的变量选择方法[11]。算法核心是维护1个特征集合,初始选择1个波长之后每次循环都对集合外的波长进行投影,对其中投影向量最大且与特征集内波长共线性最小的波长选入特征集合。共线性评价选择对待选波长进行偏最小二乘(PLS)建模以RMSE为评价标准,选取其中RMSE最小的波长。

1.3.2 模拟退火算法 模拟退火算法(SAA)是一种模拟固体降温过程中内部变化规律进行优化的方法[12]。SAA算法进行优化的原理是固体随着温度的下降逐步趋于一种低内能的状态[13]。算法模拟温度下降过程,以温度T为控制参数,目标函数值为固体内能,随着温度T的逐渐下降,使固体内能逐渐趋于全局最小。SAA算法可以用来解决最优化问题。

2 结果与分析

2.1 异常值剔除 对于254个苹果样本,采用马氏距离法进行异常样本剔除,硬阈值设置为e=1.7。经过处理后,剔除12组苹果样本,对剩下的242组苹果样本进行分析。

2.2 光谱预处理 由于设备本身以及采集系统所在外部环境的影响,采集到的光谱数据会出现噪音,对光谱数据进行预处理可以消除掉一些不良噪音。本文采用均值中心化、标准正态变换(SNV)、多元散射校正(MSC)和二阶导数分别对原始光谱进行预处理,之后对处理后的光谱进行波段筛选。

2.3 测试集与建模集划分 对于剩下的242组苹果样本进行训练集和测试集的划分,使用SPXY方法按训练集与测试集(3∶1)的比例进行划分,其中训练集181个,测试集61个(见表1)。

2.4 特征波段的选取 对于苹果样本光谱数据,全部光谱范围在900~1700nm,共包含256个波数点。使用SPA与SAA分别对经过预处理后的光谱数据进行特征波段提取。

2.4.1 连续投影算法选择特征波段 使用SPA算法对原始光谱数据和预处理之后的数据进行波段筛选,结果如表2所示。图1是SPA算法对原始光谱进行筛选过程中的RMSE的变化曲线,从图1可以看出,RMSE曲线呈下降趋势,并于35之后逐渐趋于平缓。

2.4.2 模拟退火算法选择特征波段 根据SAA算法原理,冷却进度表的设计直接影响到算法性能。通过多次测试最终参数设置如下:T0=2000℃,Te=1℃,α=0.99,Lk=200。SAA的RMSE随初始温度的变化情况及衰减因子的变化情况如图2、图3所示。从图2、图3可以看出均呈下降趋势。

2.5 建模比对 为了对比SPA算法和SAA算法在阿克苏冰糖心、天水花牛和甘肃静宁苹果分类模型的处理效果,使用KNN来建立模型对比分析。由于SAA算法的随机优化特性,因此选择进行5次优化取平均值作为结果,建模效果如表2所示。结合表1和表2可以看出,SPA和SAA对苹果的特征波长筛选有着明显的效果。從全部的256个波段使用SPA算法结合预处理能够减少到31个,其中结合二阶导数能够减少到20个,预测准确率提高至98%,R2从最低0.341增加至0.815。使用SAA算法结合预处理方法均减少到10个,预测准确率能够提高4个百分点,R2从0.341最低增加至0.702。对比SAA和SPA算法,SAA筛选的特征波长数远低于SPA筛选的个数,但在预测准确率和R2对比各种预处理方法建模后的结果,SPA算法优于SAA算法。

3 结论

利用高光谱技术来进行苹果品种鉴定,分析对比2种不同的特征波长选择算法建模,结果表明,SPA与SAA都可以有效地筛选出特征波段。此外,对比结果可以得出,SPA算法相比SAA算法能够更有效地提高的模型,使用SPA算法进行处理,模型预测准确率均在90%以上,其中SPA+二阶导数+KNN预测准确率达到98.3%,R2=0.963。SAA算法最优模型是结合均值中心化建模,预测准确率达到93.4%,R2=0.852。综合来看,SPA算法更适合筛选苹果特征波长。

参考文献

[1]刘培刚.苹果质量的感官鉴别[J].商品储运与养护,1998(05):3-5.

[2]王海波,陈学森,辛培刚,等.几个早熟苹果品种果实糖酸组分及风味品质的评价[J].果树学报,2007(04):513-516.

[3]秦立峰,张熹,张晓茜.基于高光谱病害特征提取的温室黄瓜霜霉病早期检测[J].农业机械学报,2020,11:212-220.

[4]翁士状,唐佩佩,张雪艳,等.高光谱成像的图谱特征与卷积神经网络的名优大米无损鉴别[J].光谱学与光谱分析,2020,40(09):2826-2833.

[5]Bai Zhizhen,Hu Xinjun,Tian Jianping,et al.Rapid and nondestructive detection of sorghum adulteration using optimization algorithms and hyperspectral imaging.[J].Food chemistry,2020,331:1-9.

[6]朱怡,吴永波,周子尧,等.基于高光谱数据的互花米草营养成分反演[J].北京林业大学学报,2020,42(09):92-99.

[7]闫明壮,王浩云,吴媛媛,等.基于光谱与纹理特征融合的绿萝叶绿素含量检测[J].南京农业大学学报,2021,44(03):568-575.

[8]王彩霞,王松磊,贺晓光,等.基于可见/近红外高光谱成像技术的牛肉品种鉴别[J].食品工业科技,2019,40(12):241-247.

[9]尚静,张艳,孟庆龙.可见/近红外光谱技术无损识别苹果品种的研究[J].保鲜与加工,2019,19(03):8-14.

[10]尚静,张艳,孟庆龙.光谱技术结合化学计量学识别苹果品种[J].北方园艺,2019(16):66-71.

[11]Hongyan Zhu,Bingquan Chu,Yangyang Fan,et al.Hyperspectral Imaging for Predicting the Internal Quality of Kiwifruits Based on Variable Selection Algorithms and Chemometric Models[J]. Scientific Reports,2017,7(1):98-107.

[12]石吉勇,邹小波,王开亮,等.模拟退火算法用于食醋总酸含量近红外光谱模型的波数点优选[J].食品科学,2011,32(10):120-123.

[13]刘金明,初晓冬,王智,等.玉米秸秆纤维素和半纤维素NIRS特征波长优选[J].光谱学与光谱分析,2019,39(03):743-750.

[14]谢欢,陈争光.遗传模拟退火算法在玉米秸秆纤维素含量检测中的应用[J].分析化学,2019,47(12):1987-1994.

[15]邵园园,王永贤,玄冠涛,等.基于高光谱成像的肥城桃品质可视化分析与成熟度检测[J].农业机械学报,2020,51(08):344-350.

(责编:张宏民)

猜你喜欢
机器学习苹果
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
拿苹果
机器学习理论在高中自主学习中的应用
会说话的苹果