杨雪倩 于慧春 殷 勇 袁云霞 吴 昊 李 欣
(河南科技大学食品与生物工程学院,河南 洛阳 471023)
玉米是重要的粮食作物和生产原料,可以加工成各种食物、饲料和工业产品[1],但在运输和储藏过程中极易发生霉变而产生黄曲霉毒素B1(aflatoxin B1,AFB1)和玉米赤霉烯酮(zearalenone,ZEN)等真菌毒素[2],尤其干燥不彻底时,玉米中残留的水分更为这些毒素的生长提供了有利条件[3]。玉米受到有害真菌毒素的感染会导致其品质劣变,引发食品安全问题,造成经济损失[4]。针对谷物霉变毒素的常规检测技术主要有聚合酶链式反应(polymerase chain reaction,PCR)以及酶联免疫法(enzyme linked immunosorbent assay,ELISA)[5]、气相色谱法(gas chromatography,GC)[6]和高效液相色谱法(high performance liquid chromatography,HPLC)[7]等,这些方法虽然具有高灵敏度、高准确性的优点,但操作复杂,耗时费力,采样过程中样本的可变性较大[8]。因此,探究AFB1和ZEN等真菌毒素的快速、准确的检测方法,对避免受污染玉米进入市场,保证食品安全具有重要的现实意义。
近年来,拉曼光谱分析技术因其快速、简便、分辨率高、需较少样品预处理,且能检测黑体及含水样品等优点[9-10],在农产品及食品安全检测领域的应用引起人们的广泛重视[11-12],但该技术在谷物霉变毒素检测方面的研究报道较少。Lee等[13]以受到浓度范围0~1 206μg·kg-1黄曲霉毒素污染的玉米样品为试验对象,进行拉曼光谱检测,构建了判别分类模型和含量预测模型,判别的正确率达94%,含量预测效果也较好,表明拉曼光谱法适合用于快速筛选玉米中的黄曲霉毒素。Liu等[14]对受不同浓度脱氧雪腐镰刀菌烯醇(deoxynivalenol,DON)污染的大麦和小麦样本进行拉曼光谱测量,通过主成分分析实现了对不同浓度DON污染样本的分类。为了实现对微痕量毒素信息的准确检测,Singh等[15]利用银纳米粒子作为表面增强拉曼光谱(surface-enhanced Raman spectroscopy,SERS)的基底,通过标准加样法,在激光波长为633 nm的拉曼显微镜下成功检测了桔霉素。李琴[16]构建了用于快速检测AFB1的SERS传感器,通过检测基底上DNA短链捕获的SERS探针拉曼信号的变化,确定了AFB1浓度。此外,袁景[17]也利用SERS对玉米中DON含量进行检测,在合成银纳米粒子基底之后,通过对不同浓度DON水溶液的SERS检测得到相应的拉曼光谱,并进行密度泛函理论的计算。
拉曼光谱结合表面增强技术提高了检测精准度,但在进行某种物质的检测时先要确定其匹配的增强剂及增强技术,增加了拉曼检测的复杂性。此外,拉曼光谱中包含丰富的信息,但上述前人研究[13-17]在利用拉曼光谱技术对被测物质进行定量预测时还存在模型精度较低、可靠性较差等问题。
因此,本研究采用普通共焦拉曼光谱技术对不同霉变程度的玉米进行检测。首先对原始拉曼光谱数据进行基线校正和预处理,去除荧光背景及噪声干扰;然后分别针对AFB1和ZEN进行特征波长的筛选;进而构建2种毒素含量的预测模型,对霉变玉米中真菌毒素进行准确定量预测,以实现拉曼光谱技术对霉变玉米中真菌毒素的快速检测。
FSD-100A高速粉碎机,上海昂尼仪器仪表有限公司;XploRA ONE共焦显微拉曼光谱仪,法国HORIBA JOBIN YVON;LHS-100CB恒温恒湿箱,乐清市宇隆仪器有限公司;Waters H-Class/TQ-SMicro超高效液相色谱仪,美国沃特世公司。
玉米样品(中单909)购于洛阳市郑兴农贸市场,颗粒大小基本一致。将采购的新鲜玉米放置于恒温恒湿箱(温度30℃、湿度90%[18]),进行玉米霉变培养,对培养的玉米每隔1 d取样一次,即分别在培养第2、第4、第6、第8、第10天进行取样,共5次,以新鲜玉米作为对照组(取样时间0 d)。每次取出的玉米样品分成2组,分别进行超高效液相色谱和激光拉曼检测。
在进行拉曼光谱检测前,须先将玉米样品进行粉碎,其目的是将分析物转变成更加适合拉曼检测的形态[19]。然后将玉米粉置于2片载玻片间,将其压平、压匀,将载玻片置于共焦显微拉曼光谱仪的检测平台,进行检测。
在激光光源波长785 nm,功率375 mW,光谱采集范围200~3 500 cm-1,光谱分辨率6 cm-1,室温25±1℃的条件下进行检测。不同天数的样品做3次平行试验,为尽可能全面的获取样品信息,每次试验的样品分别均匀采集40个点,即得到40条拉曼光谱,取3次试验的平均光谱用于光谱信息研究。
AFB1、ZEN含量的测定分别参照GB 5009.22-2016《食品中黄曲霉毒素B族和G族的测定》[20]和GB 5009.209-2016《食品中玉米赤霉烯酮的测定》[21]。具体如下:
称取粉碎好的玉米样品20 g,加入4 g氯化钠,加入100mL 70%甲醇溶液(分析纯)后震荡30min,静置10 min。取10 mL上清液加入20 mL双氧水,得到稀释后的上清液,并使用定性滤纸进行过滤,取其中的15 mL滤液注入免疫亲和柱,待全部通过后,用20 mL双氧水清洗免疫亲和柱。吹干柱子后加入1 mL甲醇洗脱,收集的洗脱液用0.22μm微孔滤膜过滤后装入进样瓶中,采用超高效液相色谱仪检测毒素含量。测定参数如下:荧光检测器激发波长360 nm、发射波长440 nm,流动相为75%甲醇、25%双氧水,进样量1 μL,进样时间5 min,流速0.1 mL·min-1。不同毒素、不同天数的玉米样品分别收集洗脱液,试验设置3次平行。
1.5.1 原始光谱数据的预处理 首先,采用仪器自带系统处理软件中的迭代多项式拟合基线校正方法,通过对拉曼曲线的基线进行多项式函数拟合[22],从而实现拉曼光谱的基线校正及荧光背景的去除。
为了减少环境噪声及仪器自身的系统误差对被测样品拉曼光谱信息的影响,分别采用多元散射校正(multiplicative scatter correction,MSC)、标准正态变量变换(standard normal variate,SNV)和高斯-洛伦兹混合函数(GaussLor)3种方法对原始拉曼光谱进行预处理,并根据相关系数(R2)和均方根误差(root mean square error,RMSE)进行结果对比。
1.5.2 特征波长的选择 采集到的光谱数据信息量大,且数据之间存在较强的关联。为减少后续模型的运算量,提高计算精度,对预处理之后的光谱数据采用竞争性自适应重加权采样(competitive adaptive reweighted sampling,CARS)方法进行特征波长的选择。
CARS方法是基于蒙特卡罗采样和偏最小二乘(partial least squares,PLS)模型中回归系数的一种特征波长选择方法,旨在选择最具有竞争力的波数组合[23]。其通过蒙特卡罗采样选择的校正集样本建立对应的PLS模型,计算该次采样中波长回归系数的绝对值权重,去掉权重较小的波长后,采用自适应重加权采样(adaptive reweighted sampling,ARS)的方法选择波长来建立PLS模型,选取交互验证均方根误差(root mean square error of cross validation,RMSECV)最小的PLS模型对应的波长为特征波长[24]。
玉米霉变等级不同,AFB1、ZEN的含量不同,光谱信息也不同,光谱数据与理化数据之间存在关联性,通过CARS将二者相联系,分别提取最能表征AFB1、ZEN的光谱特征,最大程度地除去光谱信息中的冗余信息,以减少后续预测模型的运算量。
1.5.3 模型的建立 分别基于全波长和特征波长拉曼光谱信息,采用BP神经网络(back propagation neural network,BPNN)、PLS和支持向量机(support vectormachine,SVM)3种常用方法构建不同霉变程度玉米中AFB1和ZEN含量的预测模型,并对预测结果进行比较分析,确定适合的建模方法。
BPNN是一种按照误差逆向传播算法训练的多层前馈神经网络,采用经验风险最小和梯度下降法计算目标函数最优值从而逼近函数表达[25],使信号正向传播和误差反向传播交替循环进行,信号正向传播一次计算相应的误差一次,并让误差沿着梯度负方向下降一个很小的变化量,将得到的误差变化量反向传播到BPNN各层,然后对各层参数的值进行调整,再进行下一次循环。当BPNN的误差收敛到一个较为稳定的范围,可认为各层参数的值达到了理想状态,模型达到了最优状态。
PLS是一种多元统计数据分析方法,集中了主成分分析、典型相关分析和线性回归分析的特点[26-27]。该方法用指定的成分数量对数据进行最大程度的提取,不断提取有效信息,对最终结果进行求解。在建模过程中采用信息综合与筛选技术,从自变量系统中逐步提取对自变量系统和因变量系统都具有最佳解释能力的新综合变量,是一种多因变量对多自变量的建模方法,可以较好地解决普通方法无法解决的问题。
SVM是基于统计学习理论的一种机器学习方法,其核心思想是机构风险最小化,通过核函数把输入线性不可分的数据映射到高维空间,构造超平面,使不同样本之间的类间隔最大[28],具有较强泛化能力和广泛适应性[29]。在SVM预测模型训练过程中需对惩罚参数c和核函数参数g进行优化,本研究利用常用的meshgrid函数来选取c和g。会存在不同的c和g均对应较高的准确率的情况,此时把具有最小c的一组参数认为是最佳参数组合,c的设置过高会造成过学习状态,降低最终的准确率。
由表1可知,随着培养时间的延长,玉米样品中2种毒素的含量逐渐增多,从取样第6天之后,样品中2种毒素的含量已超过国家标准(AFB1≤20μg·kg-1,ZEN≤60μg·kg-1)[30],而且取样第4~第6天时,2种毒素的含量变化明显,玉米品质迅速劣变。根据这2种毒素含量的变化情况,可将玉米分为6个等级,分别标注为1、2、3、4、5、6。
表1 不同霉变程度玉米样品中AFB1和ZEN含量Table1 Contents of AFB1 and ZEN in different grade ofmoldy maize
图1为6个不同等级玉米样品的拉曼光谱图。受玉米粉末颗粒的不均匀性及荧光、噪声等影响,图中拉曼谱线较为不规整。为减小这些因素的干扰,首先采用多项式拟合基线校正方法去除荧光背景的干扰,原始光谱数据经过5阶次处理后基线基本被扣除。然后分别采用MSC、SNV和GaussLor方法对光谱进行预处理,并基于预处理后的光谱数据建立PLS模型,每个霉变等级玉米样品的40条拉曼光谱中35条作为训练集,5条作为预测集,结果如表2所示。
表2 3种预处理方法的PLS判别分析结果Table2 PLS discriminant analysis results of three preprocessing methods
基于GaussLor预处理方法所建立的PLS模型,对AFB1含量进行预测,训练集和测试集的R2、RMSE分别0.792 7、0.590 2(训练集)和0.752 1、0.630 9(测试集);对ZEN含量进行预测,训练集和测试集的R2、RMSE分别0.823 1、0.612 7(训练集)和0.760 1、0.642 6(测试集)。预处理结果表明采用GaussLor进行拉曼光谱峰位拟合,对所收集的拉曼光谱拟合效果较好,适合用于拉曼光谱的预处理。采用GaussLor进行预处理时,强度阈值设定为最大强度的20%,间隔阈值选择10个像素。预处理后的拉曼光谱图如图2所示,预处理后在保留光谱图中有用信息的同时剔除了干扰信息,特征峰更明显。
由图2可以明显观察到420~550、790~980以及1 050~1 500 cm-1波段范围内峰值凸显,认为该波段的变化是受到玉米中毒素的影响[13]。根据文献[31],位于859 cm-1的拉曼峰属于芳环骨架变形振动,934 cm-1处的峰属于芳环呼吸振动,1 032 cm-1处的峰属于CH2=CH2伸缩振动,1 120 cm-1处的峰属于cyclopentene环上的C=O伸缩振动,1 254 cm-1处的峰属于醚键伸缩振动,1 343 cm-1处的峰属于甲基弯曲振动,476 cm-1和1 457 cm-1处的峰来源于芳环上C原子上的C-H相关振动。
为提高不同霉变程度玉米的检测效率,对预处理后的光谱数据采用CARS方法,并结合理化试验中测得的AFB1和ZEN含量提取特征波长,筛选过程如图3所示。图3-a-1为针对AFB1的拉曼特征光谱筛选过程,随着采样次数的增加,优化变量数逐步下降,且下降趋势由快变慢。图3-a-2中RMSECV值表明了基于CARS选择的特征波长建立的PLS模型的效果,*号即为RMSECV值最小的位置,*号之后RMSECV值开始变大。对应RMSECV值最小的位置采集次数为31次,所得针对AFB1的较优特征波长个数为22个。同理,针对ZEN的采样次数为27次,得到的较优特征波长个数为36个。针对2种毒素,筛选出的特征波长如表3所示。
2.4.1 基于全波长光谱信息霉变玉米毒素含量预测模型分析结果 基于全波长拉曼光谱信息分别采用BPNN、PLS和SVM 3种方法建立2种毒素的预测模型。每个霉变等级玉米样品的40条拉曼光谱中35条作为训练集,5条作为预测集。
表3 特征波长选择结果Table3 The characteristic wavelength selection results
3种预测模型结果如表4所示。在BPNN模型中,输入层神经元个数变为全波长下的光谱值,迭代次数设置1 000次,学习速率为0.001,训练目标为0.000 1,隐含层神经元函数选择tansig函数,输出层神经元函数选择purelin函数,网络训练函数选择trainlm函数。2种毒素的预测模型中,输入层神经元个数均为969,对应AFB1和ZEN全波长下的光谱值,输出层神经元数为1,对应AFB1和ZEN的含量。隐含层层数越多,精度越高,网络结构就越复杂,训练时间越长[32],本试验最终选择的隐含层层数均为1。隐含层神经元个数的选择参照公式(1),经调试,其神经元个数为34。
式中,N为隐含层神经元个数,n为输入层神经元个数,m为输出层神经元个数,a为常数。
在SVM模型中,惩罚参数c和核函数参数g的寻找范围均为-10~10,步长为0.5。
由表4可知,3种模型的预测结果均不理想。对AFB1来说,BPNN模型相对较优;对ZEN来说,BPNN和SVM模型相对较优。总体而言,测试集的R2均较低,在0.78左右,即毒素含量的预测值大约只有80%
表4 全波长下BPNN,PLS与SVM模型测试集预测结果Table4 Test set predictive results of BPNN,PLS and SVM models based on the full wavelength
由全波长下的拉曼光谱信息来说明或决定,说明在全波长拉曼光谱信息中包含了较多的冗余信息,降低了模型的精度和可靠度,因此,有必要对全波长光谱进行特征波长的选择。
2.4.2 基于特征波长光谱信息霉变玉米毒素含量预测模型分析结果 基于CARS算法提取的特征波长光谱信息,分析建立2种毒素的预测模型,同样每个等级霉变玉米样品的40条拉曼光谱中35条作为训练集,5条作为预测集。
3种预测模型结果如表5所示。BPNN预测模型中,设置迭代次数为100次,学习速率为0.001,训练目标为0.000 1,隐含层神经元函数选择tansig函数,输出层神经元函数选择purelin函数,网络训练函数选择trainlm函数。针对AFB1含量的预测模型中,输入层神经元个数为22,对应22个特征波长下的光谱值,输出层神经元个数为1,表示AFB1的含量;针对ZEN含量的预测模型中,输入层神经元个数为36,对应其36个特征波长下的光谱值,输出层神经元个数为1,表示ZEN的含量。隐含层层数均为1,隐含层神经元个数的选择参照公式(1),经调试,其神经元个数为21时,2种毒素含量预测效果最佳。
SVM预测模型惩罚参数c和核函数参数g的寻找范围均为-5~5,步长为0.5。
表5 特征波长下BPNN,PLS与SVM模型测试集预测结果Table5 Test set predictive resu lts of BPNN,PLS and SVM models based on the characteristic wavelengths
由表5可知,3种模型的预测效果均明显改善,尤其BPNN模型对AFB1和ZEN的预测效果均较好,R2分别达到0.986 9和0.967 3,RMSE分别为0.098 7和0.092 2,与全波长光谱信息的预测模型相比,预测的精度大大提高,且模型的训练时间缩短,速度快。
基于特征光谱信息,采用BPNN模型对不同霉变程度玉米中2种毒素的含量进行预测,结果如图4所示。图中预测值在其期望值上下波动,针对2种毒素含量的预测模型随机划分训练集与测试集,几次测试结果基本保持一致,说明模型的稳定性及准确度较高。
在数据处理过程中,选取合适的处理方法可以简化研究过程的运算量,降低难度。本研究在对拉曼原始光谱数据进行初步处理时,采用MSC、SNV、GaussLor 3种处理方法,对比PLS判别分析结果确定GaussLor方法较为合适。
关于拉曼光谱技术对毒素的研究大多集中在拉曼检测结合表面增强技术,通过对特定峰的分析实现对特定毒素进行准确的定性判断。在谷物毒素含量预测方面,对谷物中AFB1的定量预测报道较多,如Lee等[33]以受到AFB1污染的玉米样品为研究对象,通过对全谱数据分析,建立预测模型,但模型预测精度较低。本研究通过对全波长和特征波长预测结果的比较,认为导致预测精度较低的原因是全波长光谱中含有较多冗余信息,影响模型的精度和可靠性,通过提取有效的特征,使得模型的R2从0.78左右提高到0.96以上,明显提升了模型的预测精度,这与蔡亮红等[34]利用CARS筛选出131个波长变量所建立的预测模型精度高于全波段预测模型的结果相一致。同时,孙静涛等[35]在结合特征波长和SVM来判别哈密瓜成熟度的研究中,将CARS算法、连续投影算法(successive projections algorithm,SPA)与CARS和SPA相结合的方法进行比较,最终选取CARS-SPA方法进行有效特征的提取,获得了较佳的结果,为本研究中特征波长的提取提供了借鉴。袁景[17]利用SERS对玉米等谷物中的DON进行检测时,利用银溶胶作为基底,获得DON水溶液的标准SERS光谱,进一步深入了解DON分子的结构与性质,对谷物中添加的DON进行检测,试验效果较好,但其研究的重点是对谷物中微痕量的DON进行准确的定量检测。而本研究以不同程度霉变玉米为试验对象,利用拉曼技术采集光谱信息,从信号处理的角度出发,通过对一系列的数学算法处理,对玉米中AFB1和ZEN含量构建预测模型,与SERS相比降低了检测难度,应用性和实用性更强。
本研究采用基于特征波长的BPNN预测模型,对AFB1含量进行预测时,第3、第5、第6等级的预测值与期望值相差较小,而第1、第2等级的预测值在期望值上下波动较大;AFB1含量整体预测值的R2和RMSE值分别为0.986 9和0.098 7,预测结果较满意;对ZEN含量进行预测时,预测值的R2和RMSE分别为0.967 3和0.092 2,但是第4等级中2个测试集的预测值与期望值之间差别较大,影响模型预测精度的原因主要有2个方面:一是特征提取方法,二是模型构建方法。因此,如何进行多特征的提取和优化,获取最有效的特征信息,以及如何对模型的结构和参数做进一步的分析和设计,构建最优模型,是值得不断深入分析和研究的问题。
本研究通过对原始拉曼光谱数据的预处理及有效特征波长的提取,建立了玉米AFB1和ZEN含量的定量预测模型。首先采用CARS提取特征波长,针对AFB1提取22个特征波长,针对ZEN提取36个特征波长,表明预测的毒素不同,提取的特征波长也不同,所以特征波长的选择要有针对性;通过对不同建模方法预测结果的比较,BPNN模型相对来说具有更好的稳定性和精度,基于所筛选的特征波长,BPNN对AFB1和ZEN含量预测值的R2分别为0.986 9和0.967 3,对AFB1和ZEN含量预测值的RMSE分别为0.098 7和0.092 2,结果较优,但是2种毒素含量的定量预测模型的RMSE较高,所以仍需要对拉曼光谱数据的特征提取方法及建模方法等方面进一步深入分析,以建立更加稳健的毒素含量定量预测模型。本研究结果为拉曼光谱技术用于霉变玉米真菌毒素的快速、准确检测提供了借鉴,也为其他谷物品质的快速检测提供了一定的参考。