马铃薯可溶性固形物的近红外光谱快速定量模型及优化

2021-11-25 21:25陈素彬杨华罗蓉胡振
安徽农业科学 2021年20期

陈素彬 杨华 罗蓉 胡振

摘要 [目的]為了检测马铃薯的饲用品质,用近红外光谱法建立马铃薯可溶性固形物含量(SSC)快速测定模型。[方法]以偏最小二乘法(PLS)建立原始光谱的校正模型为基础,用蒙特卡洛交互验证法剔除异常样本,经比较选择标准正态变量和均值中心化算法进行光谱预处理、光谱-参考值共生距离法划分样本集,然后对所得数据分别以PLS和最小二乘支持向量机(LS-SVM)建立定量校正模型,并用竞争性自适应重加权采样法和风驱动-差分进化混合算法完成相应模型的特征波长和参数优化。[结果]优化的PLS模型和LS-SVM模型波长变量分别减至全光谱的8.67%、67.80%,二者的Rc2、Rp2、RMSEC、RMSEP、RPD分别为0.970 8、0.954 2、0.258 6、0.262 8、5.91和0.987 3、0.983 0、0.170 5、0.173 4、8.96,LS-SVM模型的各项性能指标全面优于PLS模型。[结论]2种定量模型均可用于马铃薯SSC的实际检测工作。

关键词 可溶性固形物;近红外光谱分析;定量模型;偏最小二乘法;最小二乘支持向量机

中图分类号 TS 255.7  文献标识码 A  文章编号 0517-6611(2021)20-0205-05

doi:10.3969/j.issn.0517-6611.2021.20.055

开放科学(资源服务)标识码(OSID):

Rapid Quantitative Model and Optimization of Potato Soluble Solids by Near Infrared Spectroscopy

CHEN Su-bin  YANG Hua  LUO Rong2 et al

(1. Nanchong Vocational and Technical College, Nanchong, Sichuan 637131;2. Geological Resarch Institute of Central Sichuan Oil and Gas District of Southwest Oil and Gasfield Company, Suining, Sichuan 629000)

Abstract [Objective]In order to test the feeding quality of potatoes, the quick measurement model of potato soluble solids content (SSC) had been established by means of the near infrared spectroscopy.[Method]The establishment of the original spectrum correction model was taken as the basis by the partial least squares (PLS), the abnormal samples were eliminated by using the Monte Carlo cross validation method, the sample set was divided by the spectrum pretreatment and spectral-reference value symbiotic distance method through comparing and selecting the standard normal variable and mean centralized algorithm, and then the quantitative calibration model of the obtained data was established with the PLS and the least squares-support vector machine (LS-SVM) respectively, and the characteristic wave length and parameters of the corresponding model were optimized by the competitive adaptive reweighted sampling method and the wind-driven differential evolution hybrid algorithm.[Result]The wavelength variables of the optimized PLS model and LS-SVM model were reduced to the 8.67% and 67.80% of the full spectrum respectively, and the Rc  Rp  RMSEC, RMSEP and RPD of the two models were 0.970 8, 0.954   0.258 6, 0.262 8,5.91 and 0.987 3, 0.983 0, 0.170 5, 0.173 4, 8.96, respectively. The various performance indexes of LS-SVM model were fully superior to those of the PLS model.[Conclusion] The two quantitative models can be used for practical detection of potato SSC.

Key words Soluble solids;Near infrared spectroscopy;Quantitative model;PLS;LS-SVM

基金项目 南充市2019年应用技术研究与开发资金项目(19YFZJ0028)。

作者简介 陈素彬(1967—),女,四川仪陇人,副教授,从事分析检测工作。

收稿日期 2021-02-03

马铃薯是重要的粮食、饲料兼用作物,其可食部分富含有益于动物健康的各种物质成分,为世界公认的全价食品和优良饲料,可用于鲜食和加工原料。可溶性固形物含量(soluble solids content,SSC)是马铃薯的主要品质指标之一,直接反映其质量和加工适宜性[1]。

在实际检测和相关研究中,SSC的测定常用折射仪(折光计)法和手持糖度计法[2-3],相应国家标准和农业行业标准分别为《食品罐头的检验方法》(GB/T 10786—2006)、《水果和蔬菜可溶性固形物含量的测定 折射仪法》(NY/T 2637—2014)。近年来,随着各类新型分析仪器的普及应用和化学计量学方法、软件技术的不断发展,近红外光谱分析(near infrared spectroscopy,NIRS)技术得到了广泛应用,在SSC检测方面也取得了一些成果[4-5]。王世芳等[6]对西瓜不同部位的样品集进行近红外光谱检测,其赤道部位样品光谱经归一化预处理后,建立的偏最小二乘(partial least squares,PLS)模型预测相关系数为0.864、均方根误差为0.33%;王冬等[7]采用PLS结合全交互验证算法,将2种樱桃样品光谱数据与SSC测定值建立定量校正模型,其校正决定系数、校正均方根误差、交互验证决定系数、交互验证均方根误差和相对分析误差分别为0.912 5、0.81、0.894 6、0.89、3.38;于怀智等[8]基于近红外光谱技术设计了“蒙阴黄桃”内部品质在线无损检测分级系统,所建SPA-PLS模型较优,其SSC预测集相关系数和预测均方根误差分别为0.916、0.721%。这些研究为应用NIRS技术检测SSC提供了有效验证,但用于测定马铃薯SSC的报道尚不多见。

该试验参考农业行业标准《苹果中可溶性固形物、可滴定酸无损伤快速测定 近红外光谱法》(NY/T 1841—2010),以NIRS法检测马铃薯SSC为目标,分别以偏最小二乘(PLS)和最小二乘支持向量机(least squares-support vector machine,LS-SVM)建立定量模型,并运用化学计量学方法和软件技术对其进行全面优化,通过性能对比确定较优建模方案,为同类试验和实际检测提供方法和技术思路。

1 材料与方法

1.1 试验材料

从南充市农贸市场、生猪饲养场和饲料企业采集新鲜马铃薯样品213个,其品种、产地和种植条件不尽相同。获得的样品在实验室统一编号,清洁其表面、于阴凉处风干,在温度(6±1)℃、相对湿度80%~85%环境避光保存。

1.2 主要仪器

近红外光谱仪(型号为MPA),德国Bruker公司;阿貝折光仪(型号为WAY-1S),上海精密仪器厂;组织捣碎机(型号为JJ-2),江苏金坛市亿通电子有限公司。

1.3 样品SSC参考值测定

随机取马铃薯样品块茎3~5 个,选择相同部位切碎、混匀,放入组织捣碎机中打浆,用4层纱布挤出滤液,弃去最初几滴,按农业行业标准《水果和蔬菜可溶性固形物含量的测定 折射仪法》(NY/T 2637—2014)之步骤完成SSC测定。

1.4 SSC快速定量模型建立

1.4.1

样品近红外光谱测量。将马铃薯样品切成圆形片块,用近红外光谱仪直接测量其漫反射光谱。光谱扫描范围10 500~7 400 cm- 以8 cm-1分辨率扫描样品64 次;每个试样重复装样、扫描3 次,取其平均值为光谱数据。

1.4.2

NIRS定量模型建立。用KS法(kennard-stone)将样品按3∶1划分为定标集和验证集,以PLS法建立定标集样品光谱与相应SSC参考值的校正模型,用该模型预测验证集样品的SSC,并以校正决定系数(calibration r-square,Rc2)、预测决定系数(prediction r-square,Rp2)、校正均方差(root mean square error of calibration,RMSEC)、预测均方差(root mean square error of prediction,RMSEP)和相对分析误差(residual predictive deviation,RPD)为指标评价模型性能。

1.5 模型性能优化

1.5.1

异常样本判断与剔除。采用蒙特卡洛交互验证法(Monte Carlo cross validation,MCCV)。以蒙特卡洛采样法(Monte Carlo sampling,MCS)取样本总量的80%组成校正集,其余样本为验证集,用PLS法建模、预测,计算各样本的预测残差。重复该过程2 000 次,计算各样本预测残差的均值(MEAN)和标准差(standard deviation,STD),绘制全部样本预测残差的MEAN-STD分布图,图中均值和标准差较大且明显离群的样本为异常样本[9]。

1.5.2

光谱预处理与样本集划分。首先分别尝试均值中心化(mean centralization,MC)、矢量归一化(vector normalization,VN)、萨维茨基-戈莱平滑(savitzky-golay smoothing,SGS)、一阶导数(first derivative,FD)、标准正态变量变换(standard normal variable,SNV)、多元散射校正(multiple scattering correction,MSC)和离散小波变换(discrete wavelet transform,DWT)等数据变换算法,然后依次用其他算法与MC的组合方法进行样本光谱预处理;同时分别以KS法和光谱-参考值共生距离法(sample set partitioning based on joint X-Y distance,SPXY)按3∶1划分样本集,用预处理后的样本光谱与相应SSC参考值建模,比较其性能以确定最优的光谱预处理和样本集划分方案。然后对于以最优方案所得样本数据,分别用PLS和LS-SVM方法建模、预测,并进行性能评价与比较。

1.5.3

建模波长优化。PLS模型以竞争性自适应重加权采样法(competitive adaptive reweighted sampling,CARS)选取特征波长:用MCS法抽取80%样本为校正集,其余为验证集,以PLS法建模预测,计算波长j对目标的贡献|bj|和权重wj,以指数递减函数计算波长变量的保留率ri=ae-ki(a、k为常数,i为采样次数);去掉|bj|较小的波长点,从m×ri个(m为波长数)波长变量中用自适应重加权采样(adaptive reweighted sampling,ARS)法得到样本优选子集,以相应光谱数据建立PLS模型,计算其交互验证均方根误差(root mean square error of cross validation,RMSECV)。重复此过程200 次,取RMSECV最小值对应的变量子集为特征波长[10]。

LS-SVM模型采用智能搜索算法进行波长变量和参数优化:基于风驱动优化(wind driven optimization,WDO)和差分进化(differential evolution,DE)算法构造一种WDO-DE混合优化算法[11],将其离散化,使连续的实数搜索空间映射到离散的二进制空间,以各维搜索位置对应全部待选波长,其值为1则相应波长被选中,反之为未选中,故最终取值为1的各维即构成特征波长。将待选波长与模型参数σ2、γ一起构成优化变量,并进行二进制编码,用样本数据建立LS-SVM模型进行预测,以RMSECV为算法适应度,迭代搜索特征波长和最优建模参数[12]。

1.5.4

优化模型建立及性能评价。综合应用异常样本判断、光谱预处理、样本集划分和特征波长选取的结果,得到优化的定标集和验证集数据,分别建立PLS模型和LS-SVM模型进行预测验证。

以Rc2、Rp2、RMSEC、RMSEP和RPD为评价指标,比较PLS模型优化前后及LS-SVM模型的性能。Rc2越大、RMSEC越小,则建模质量越好;Rp2越大、RMSEP越小,则模型预测能力越强;Rc2和Rp2、RMSEC和RMSEP相差少,则模型精度高、稳健性好。根据国际谷物科技协会标准,模型的RPD≥3才能用于实际检测。

1.6 数据处理与建模工具

数据记录、统计和结果计算用Microsoft Excel 2010完成,光谱预处理和PLS建模以The Unscrambler X 10.4实施,LS-SVM建模和模型优化利用MATLAB R2020a编程实现。

2 结果与分析

2.1 SSC快速定量模型建立

2.1.1 马铃薯样品近红外光谱测量。213个马铃薯样品的原始近红外光谱见图1。由图1可知,在9 000~10 500 cm-1波段光谱趋势平缓,7 400~9 000 cm-1波段相对尖锐、吸收峰较多。样品光谱在7 630和8 965 cm-1处存在明显的波谷,而在7 830、8 216和8 833 cm-1左右有较明显的波峰,这些区域含有较多特征光谱信息。不同品种、产地和种植条件的马铃薯样品近红外光谱相似度很高,但谱线较分散,表明各样品的成分一致、含量差异明显。

2.1.2

NIRS定量模型建立。將全部213个样品用KS法按3∶1划分样本集后,以无预处理的全光谱数据直接建立PLS定量模型,结果发现,用样本集原始NIRS数据所建PLS定量模型的Rc2和Rp2分别为0.723 7、0.660  RMSEC和RMSEP分别为0.784 9、0.800  RPD仅为1.87,其各项性能指标较差,不能直接用于实际检测。

2.2 模型性能优化

2.2.1

异常样本判断与剔除。用MCCV法所得全部样本的预测残差MEAN-STD分布如图2所示。从图2可看出,全部样本预测残差的均值和标准差集中分布于坐标原点区域附近,预测残差均值大于0.8的样品有140 号、81 号、147 号和172 号,但其预测残差标准差均较小;预测残差标准差大于0.15的样品有141 号、148 号、32 号和33 号,其中141 号样品的预测残差均值也较大,故可确定为异常样本。将该样本剔除后,再以PLS法建立SSC定量模型,结果发现,其模型的Rc2和Rp2分别为0.725 3、0.661 0,RMSEC和RMSEP分别为0.781 8、0.789 5,RPD仅为1.90,可见剔除141 号样本后,所建PLS定量模型的各项性能指标皆有所改善。

2.2.2

光谱预处理与样本集划分。分别以KS法和SPXY法划分样本集,结果见表1。

从表1可以看出,用KS法和SPXY法划分样本集的结果没有明显差异,2种方法所得定标集和验证集样本的SSC分布情况极为相似,各项数据均相差很小。样本集中SSC的变化范围较大,最小值和最大值的样本都划分在定标集中;定标集样本的SSC涵盖了验证集样本的SSC范围,验证集样本SSC的标准差大于定标集,适合于建立一个准确、稳健的校正模型。

分别以2种样本集划分方法结合多种光谱预处理方案处理样本集数据,用PLS法建立SSC定量模型,结果见表2。

将表2中的数据对比可知,样本光谱经过预处理后,所建NIR定量模型的性能皆有提高,其中组合方法的预处理效果优于单一算法;对于同一种光谱预处理方法,用SPXY法划分样本集所建模型的性能优于KS法。显然,光谱预处理结合样本集划分的最优方案为“‘SNV+MC+SPXY”,相应PLS校正模型的性能指标Rc2和Rp2分别为0.970 2、0.936 9,RMSEC和RMSEP分别为0.261 9、0.269  RPD为5.77,达到了可用于实际检测的标准。

2.2.3

建模波长优化。对于用“‘SNV+MC+SPXY”方案优化所得样本集数据,以CARS法选取PLS模型的特征波长、WDO-DE混合优化算法搜索LS-SVM模型的最优参数和波长变量,所得特征波长见表 同时得到LS-SVM模型最优参数为σ2=11.309 93、γ= 240.478 8。

由表3可知,PLS校正模型用CARS法筛选后,保留了35 个波长点,仅占全波长的8.67%;所选波长多数集中于8 826~9 188 cm-1波段,共有25 个,正好位于8 833 cm-1处的波峰和8 965 cm-1处的波谷区域,该段光谱表达了马铃薯样品SSC的主要信息;另外10 个特征波长中,7 400、7 406和10 176、10 191、10 222 cm-1分别位于谱线两端的波峰附近,7 607、7 907 cm-1分别在7 630 cm-1处的波谷和7 830 cm-1处的波峰区域,8 154、8 170和8 394 cm-1也位于8 216  cm-1处的波峰附近。

LS-SVM校正模型以WDO-DE混合优化算法选得波长变量274 个,为全波长的67.8%;建模波长主要分布在8 455~9 720 cm-1波段,共146 个,其中包含了8 833 cm-1处的波峰和8 965 cm-1处的波谷区域;其次为7 607~7 938 cm-1波段,共38 个,正好位于7 630 cm-1处的波谷和7 830 cm-1处的波峰区域;然后为9 805~10 014 cm-1波段,共21 个,对应于9 900 cm-1附近的平缓波峰;此外,10 083~10 245 cm-1波段18 个、10 368~10 500 cm-1波段15 个,其余波长36 个。

2.2.4 优化模型建立及性能评价结果。综合应用前述优化方法,分别以PLS和LS-SVM法建立马铃薯SSC定量模型,结果见表4。

由表4可知,剔除异常样本并应用光谱预处理、样本集划分和波长选择等优化方法后,用PLS法所建马铃薯SSC校正模型的优化效果较为显著,其Rc2和Rp2分别为0.970 8、0.954  RMSEC和RMSEP分别0.258 6、0.262 8,RPD为591;与之相比,采用智能搜索算法进行波长和参数优化的LS-SVM模型性能更好,其Rc2和Rp2分别为0.987 3、0.983 0,RMSEC和RMSEP分别0.170 5、0.173  RPD为896。显然,后者的Rc2和Rp2均大于前者且相差更小,RMSEC和RMSEP则小于前者且更为接近,RPD亦明显高于前者。

2种模型所得样品SSC预测值与相应参考值的拟合曲线见图3。从图3可以看出,数据点在拟合线两边分布较均匀,且距拟合线较近,说明校正模型稳定性好,其预测值与参考值相差较小。与PLS模型相比,LS-SVM模型中的数据点分布更集中,其中多数紧靠拟合线,表明LS-SVM校正模型的预测精度高于PLS模型。

3 结论与讨论

利用近红外光谱法建模检测马铃薯SSC,以MCCV法剔除异常样本,选用“SNV+MC”组合算法进行光谱预处理、SPXY法划分样本集,分别采用CARS法、WDO-DE混合优化算法选取PLS模型和LS-SVM模型的特征波长,得到全面优化的NIRS校正模型。结果表明:

(1)剔除异常样本后,以PLS法所建校正模型性能有所改善,其Rc2和Rp2分别由0.723 7、0.660 3升到0.725 3、0661 0,RMSEC和RMSEP分别由0.784 9、0.800 3降为0781 8、0.789 5,RPD由1.87增至1.90;在此基础上,选择、应用优化的光谱预处理和样本集划分方法,相应PLS模型的性能显著提升,此时Rc2、Rp2、RMSEC、RMSEP和RPD分别为0.970 2、0.936 9、0.261 9、0.269 1、5.77。相比之下,光谱预处理对模型性能提升的作用尤为显著。究其原因,SNV变换可消除样品不均匀造成的噪声、散射以及光程变换对NIR漫反射的影响,增强光谱与数据之间的相关性;MC方法可增加样品光谱之间的差异,提高模型的预测能力和稳健性。SPXY算法利用光谱数据和待测成分参考值计算样品间距离,可保证最大程度表征样本分布,有效覆盖多维向量空间,增加样本间的差异性和代表性,从而提高模型稳定性。

(2)同时引入了LS-SVM方法建模,所得模型性能显著优于PLS模型,其Rc2、Rp2、RMSEC、RMSEP和RPD分别为0.987 3、0.983 0、0.170 5、0.173 4、8.96。由此可见,马铃薯样品的NIRS与相应SSC之间并非简单的线性关系,采用非线性的LS-SVM方法建模是更好的选择。

(3)优化的PLS模型和LS-SVM模型大幅度縮减了波长变量,消除了光谱中的大量非待测成分信息,既提高了模型的预测能力,也显著降低了计算量,加快了运行速度。

综上所述,试验所建马铃薯SSC测定的2种NIRS定量校正模型均有较高精度和效率,其性能优于同类试验模型,均已达到国际谷物科技协会的实际检测标准,可用于马铃薯SSC的快速检测。2种校正模型相比,PLS模型波长变量较少、计算量小,故其运行速度占优;LS-SVM模型则预测精度更高、稳健性较好,具有更好的泛化性能。

参考文献

[1] 杨炳南,张小燕,赵凤敏,等.常见马铃薯品种特性分析及加工适宜性分类[J].食品科学技术学报,2016,34(1):28-36.

[2] 吴聪宇,李子贤,李新国,等.3种热带水果可溶性固形物含量的测定[J].热带农业科学,2018,38(9):69-72.

[3] 张巍巍,安进军,赵玉靖,等.大葱干物质和可溶性固形物含量的研究[J].食品研究与开发,2017,38(10):128-130.

[4] KRIVOSHIEV G P,CHALUCOVA R P,MOUKAREV M I.A possibility for elimination of the interference from the peel in nondestructive determination of the internal quality of fruit and vegetables by VIS/NIR spectroscopy[J].LWT-Food science and technology,2000,33(5):344-353.

[5] KANG S,LEE K J,CHOI W,et al.A near-infrared sensing technique for measuring the quality of potatoes[C]//ASAE Annual International Meeting.St.Joseph,Michigan:American Society of Agricultural and Biological Engineers,2003:27-30.

[6] 王世芳,韓平,崔广禄,等.SPXY算法的西瓜可溶性固形物近红外光谱检测[J].光谱学与光谱分析,2019,39(3):738-742.

[7] 王冬,张鹤冬,朱业伟,等.基于LVF-NIR的樱桃可溶性固形物含量无损速测模型的建立与优化[J].食品安全质量检测学报,2020,11(3):854-859.

[8] 于怀智,陈东杰,姜沛宏,等.近红外光谱对蒙阴黄桃硬度和可溶性固形物的在线检测[J].食品与发酵工业,2020,46(14):216-221.

[9] 陈素彬,胡振,张晓琪,等.软件技术在近红外光谱定量分析中的应用[J].化学教育,2018,39(16):62-67.

[10] 陈素彬,胡振,杨华.近红外光谱法检测饲料玉米品质的优化PLS模型[J].饲料研究,2020,43(5):112-116.

[11] 胡振,杨华,周金容,等.风驱动-差分进化混合优化算法设计及其性能分析[J].现代计算机,2020(20):14-19.

[12] 陈素彬,胡振.优化的近红外光谱LS-SVM模型测定小麦蛋白质[J].食品工业,2019,40(12):329-333.