姜洪喆,杨雪松,李兴鹏,蒋雪松,周宏平,施明宏
(南京林业大学机械电子工程学院,江苏 南京 210037)
油茶(Camellia oleiferaAbel.)是我国南方地区及少数东南亚国家特有的优质木本油料作物[1]。油茶果内茶籽加工产品山茶油被誉为“东方橄榄油”,营养成分丰富、具有很好的养生保健功效[2]。油茶果成熟期一般在10月底11月初,此时南方产地多阴雨天,为完成油茶果堆沤后熟过程贮藏不当短时间内极易发生外部自然霉变,霉变油茶对山茶油出油率、酸价、油气滋味等品质有很大影响[3]。
油茶霉变主要由曲霉属、青霉属与镰刀菌属等霉变微生物引起[4],此类霉变微生物产出二级代谢产物,即真菌毒素,具有致癌、致畸和致基因突变的严重影响[5],其中黄曲霉毒素B1等已被世卫组织列为一级致癌物,常出现在霉变粮油制品中[6]。霉变果与正常果混合脱蒲、加工会带来山茶油品质下降、引入生物毒素等后果,因此在油茶籽榨油前对霉变油茶果“原材料”进行检测剔除具有重要意义。
常规的霉变农产品检测方法有酶联免疫吸附法[7]、高效液相色谱法[8]、荧光染色法[9]、薄层色谱法[10]、高通量测序[11]等,此类方法操作繁琐、样品准备复杂且具有破坏性。近红外光谱技术是一种快速、无损、成本低、操作简便的现代光谱分析技术,近年已广泛研究于各类农产品品质安全检测可行性,具有较强的在线检测潜力[12-13]。目前,在油茶产业领域研究中,近红外光谱已经尝试应用于茶油茶籽含油量[14-15]、产地鉴别[16]、脂肪酸含量[17]、掺假[18]等方面的检测,但以上研究均以茶籽或茶油实验室检测为对象,对于直接产地采后的油茶果检测分选并没有实际意义。针对油茶果霉变的检测剔除,确保后续处理步骤中规避生物毒素风险、提升产品品质安全、增加出口创汇,目前此方面相关研究鲜见报道。
针对以上问题,为把好原材料关,本研究分别探索采用试可见/近红外与中短波近红外光谱结合化学计量学方法对不同霉变程度油茶果进行检测判别,提取指示霉变的特征光谱信息,建立准确、鲁棒的判别模型并对比结果,研究近红外光谱检测自然霉变油茶果的可行性,旨在为霉变油茶果剔除的产地处理需求提供一种快速、无损的检测方案。
油茶果样品采集自湖北省随州市随县洪山镇油茶园,采摘于2020年10月23日霜降节气,采后即寄运至实验室。油茶果等分为3 组,每组至少120 个样品,为获得实际贮藏环境真实自然霉变样本,在果农指导下模拟不同贮藏条件,分别在常温常湿((25±2)℃、相对湿度(40±10)%)、常温高湿度((25±2)℃、相对湿度(70±20)%)、通风、常温高湿度((25±2)℃、相对湿度(70±20)%)不通风环境下贮藏2 周致其自然霉变[19-20],最终获得轻度霉变、中度霉变和重度霉变3 组类别的外部霉变油茶果。轻度外部霉变表观上不光滑颜色较鲜果略暗,中度外部霉变颜色较深、可闻到异味,重度外部霉变可以明显观测到生长的菌丝体、能闻到腐败刺鼻气味。
光谱采集均在室温((25±2)℃)下进行,近红外光谱采集使用仪器为Ocean Optics USB2000+(350~1000 nm)与Ocean Optics Flame-NIR(950~1650 nm)两台光谱仪,光谱仪应用前预热30 min并进行黑白校正,应用OceanView软件同时采集两波段光谱,图1为整套油茶果近红外光谱采集系统示意图,采用光纤漫反射模式进行光谱采集。本研究光谱仪配套光源使用海洋光学公司HL-2000卤钨灯光源,该光源适用于360~2000 nm,输出功率为8.8 mW,色温3000 K。光源应用SMA905光纤连接器与光纤进行连接,光纤采用海洋光学6绕1光纤束设计的FOP-UV型号光纤,入射光纤和接收光纤分布于同一探头内,借助光纤探头支架将光纤探头与样品表面充分贴合,经参数优化扫描次数设定为16 次,积分时间设定为100 ms。油茶果霉变不同于水果霉变从某一点展开,油茶果样品表面各点霉变状态基本一致,因此在油茶果赤道处采集3 测点光谱进行平均代表该样品,减少采集光谱误差,每测点间隔大致120°,确保采集到阳面、阴面以及接合面处。最终轻度、中度和重度霉变各采集180 个样品光谱,其中每组随机选取120 个样品光谱进入建模训练集(120×3=360),每组其余60 个放入预测集(60×3=180)。
图1 近红外光谱采集系统示意图Fig.1 Schematic diagram of near-infrared spectral collection system
主成分分析(principal component analysis,PCA)是挖掘光谱内部隐藏信息的有效方法,将存在线性相关的变量转换为新的不相关变量,即PC,并基于累计的方差贡献选取前几个有效PC。PC得分图可以用于反映不同样本间的差异性和相似性,而PC载荷大小则可用来选取有效霉变程度判别波长。
为消除近红外光谱基线漂移、噪声及散射效应等影响,应用标准正态变换(standard normal variate,SNV)、SNV结合去趋势、一阶导数和二阶导数等预处理方法。其中,一阶或二阶导数预处理应用的是2 次5点Savitzky-Golay平滑求导。
偏最小二乘判别分析(partial least squaresdiscriminant analysis,PLS-DA)是基于偏最小二乘回归模型预测值对比阈值进行分类的判别分析方法[21],适用于变量较多且存在多重共线性的情况。为提高建立模型鲁棒性和通用性,本研究中PLS-DA模型采用“留一法”百叶窗式交叉验证确定最优潜在变量(latent variable,LV)数量建立PLS-DA模型。
对于定性模型建立后的评价,应用分类准确率,混淆矩阵的灵敏度、特异度以及Kappa系数进行模型评价。各参数越大说明模型分类效果越好,其中灵敏度和特异度分别代表真阳性率和真阴性率,Kappa系数用于评价分类结果一致性和可信度[22]。
连续投影法(successive projections algorithm,SPA)的大体思路为在光谱矩阵中找寻含有最低限度的冗余信息的变量组,使得变量间的共线性达到最小,比较投影向量的大小,以投影向量最大的波长作为待选波长,然后基于模型选择最终的特征波长[23]。一般SPA选取的波长数量不会太多,循环一次后进行多元线性回归分析,得到预测的均方根误差,最小的误差值对应的波长即为所选。
本研究中光谱数据分析以及绘图主要应用了Matlab 2017b(The MathWorks Inc.,MA,USA)、Unscrambler X10.1(CAMO,Trondheim,Norway)以及OriginPro 2017(OriginLab Inc.,MA,USA)软件。
不同霉变程度油茶果的400~1000 nm 和900~1700 nm两波段漫反射光谱曲线以及各自对应光谱标准差如图2所示。不管是400~1000 nm还是900~1700 nm区间范围,不同霉变程度油茶果展现出类似的光谱轮廓,且光谱均随着霉变程度加深可以发现反射强度逐渐降低。此种相似的轮廓主要是因为油茶果内共性的成分结构,而差异主要是霉变程度导致的内部有机物化学成分变化。最左侧456 nm左右的反射谷与邵氏带有关)[24],676 nm与植被固有的“红边”有关[25],948 nm和967 nm附近的波谷主要与水的O—H拉伸态的二阶泛音有关[26],1215 nm与甲基(—CH3)的C—H键二阶泛音有关[27],1488 nm则与水的O—H键拉伸态的一阶泛音[26]。
图2 不同霉变程度油茶果带标准差近红外平均光谱图Fig.2 Average infrared spectra with standard deviations of C.oleifera fruit with different mildew degrees
通过对比发现不同霉变程度组光谱有一定的差别,这是可以进行判别的信息基础。但还存在较多区域的模糊重叠,仍需后续从光谱数据角度结合化学计量学进行深度解析,作出准确判别。
由于光谱变量的高维度性,不可避免存在冗余信息,本研究分别对可见/近红外和中短波近红外光谱进行全光谱PCA,对数据降维、观测不同组间光谱异同。其中可见/近红外光谱的PC1(96.13%)和PC2(3.38%)累计占有99.51%方差贡献率,而中短波近红外光谱PCA变换前两个PC(PC1与PC2)分别占有98.20%、1.52%的方差贡献率,前两个PC合计占有99.72%方差贡献率,这说明前两个PC具有判别自然霉变程度的潜力。PC得分图和载荷图如图3所示,在PC空间中可以初步看出不同自然霉变程度样品具有一定聚类效果,图3a、b中用椭圆标出3 组样品聚类的大致覆盖区域,PC得分图显示了不同霉变程度油茶果的可分性[28]。
图3 PC得分图和载荷图Fig.3 PC score plots and PC loading plots of PC1 versus PC2
图3c、d详细的展示了前两个PC的载荷曲线,其中背离水平线的峰和谷对判别自然霉变程度有效,针对可见/近红外光谱选取4 个特征波长(461、650、674 nm和945 nm),中短波近红外光谱选取5 个特征波长(973、1066、1146、1482 nm和1599 nm),这些波长也尝试应用在后续简化模型建立中。
针对原始以及4 种不同预处理后的全光谱,建立的最优PLS-DA模型参数及判别结果如表1所示。整体上,两个光谱集全光谱建立的PLS-DA模型性能差异不大。对于可见/近红外光谱,SNV预处理全光谱预测集结果最优,分类准确率达85.0%。原始光谱建模预测集准确率达83.3%,而其他预处理如二阶导数则降低了原始光谱建模性能。但原始全光谱建立的模型训练集、交叉验证集以及预测集3 者之间分类准确率差值最小,因此原始光谱建立模型最为鲁棒。针对中短波近红外光谱,原始光谱建立模型最优LV为10,训练集、交叉验证集与预测集分类准确率分别达90.0%、86.7%和85.0%。结果发现,无论400~1000 nm还是900~1700 nm,各种预处理方法并没有对原始光谱起到明显的模型改善作用,原始光谱具有足够的有效信息,可以不需要对原始光谱数据进行额外的预处理[29],后续选取原始光谱建立的PLS-DA模型进行分析。
表1 不同预处理方式全光谱PLS-DA模型性能比较Table 1 Performance comparison of full-spectral PLS-DA models with different spectral pre-processing methods
全光谱模型的使用会由于信息冗余带来过拟合、噪声等风险,导致模型较为复杂,不适合实际应用。从全光谱中进行有效波长的选取,找到携带重要信息的波长建立简化模型将很有实际意义。图4的SPA中,根据以往文献设定所选变量最小数量设定为5,为了实际应用的需要最大数量设定为15[30]。对于两组光谱集,分别在变量选取8 个和7 个时均方根误差达到最小,最终分别选取了8 个和7 个波长,如图4所示。综合分析,不同方法选取的波长见表2。
图4 应用SPA方法选取波长Fig.4 Wavelength selection using SPA
表2 根据不同方法选取波长汇总Table 2 Summary of wavelengths selected using different methods
表3中列出了不同波长选择方法选取的特征波长建立简化PLS-DA模型性能对比,在400~1000 nm波段,PC-PLS-DA模型表现略差,训练集、交叉验证集以及预测集3 者判别准确率均没有超过80%。SPA-PLS-DA模型获得了最好的分类准确率,预测集达到了84.4%。对于900~1700 nm波段,同样是SPA-PLS-DA模型表现最好,在训练集、交叉验证集和预测集分别获得84.7%、84.2%和84.4%的分类准确率。因此SPA选择的波长可以兼顾降低变量个数以及保持模型性能,波长数分别由1506 个和128 个下降到8 个和7 个,而PC选取的波长有效性不足的原因可能是二者选取波长过程仅针对光谱变量(X变量)没有考虑霉变组别(Y变量),选取的有效波长较少,难以覆盖识别中的所有有效信息[31]。
表3 不同波长选择方法选择变量建模结果对比Table 3 Comparison of modeling results using different wavelength selection methods
为进一步直观解析最优的简化SPA-PLS-DA模型,表4中列出了预测集混淆矩阵以及灵敏度、特异度、Kappa系数计算结果。两组简化模型的Kappa系数均为0.7667,说明在一致性分类精度上两简化模型能力相似。两模型可以较为准确地判别出轻度霉变和重度霉变果,可见/近红外光谱均判别正确60中的57 个(灵敏度≥0.95),中短波近红外光谱此两组灵敏度≥0.88,特异性两模型均超过0.84。但两组简化模型对中度霉变油茶果判别准确率均不足,主要原因是该组样品既有可能误判为轻度霉变和重度霉变,而此方面中短波近红外光谱模型(灵敏度0.72)优于可见/近红外光谱(灵敏度0.63)。
表4 最优简化模型预测集混淆矩阵Table 4 Confusion matrices for prediction set using optimal simplified models
采集540 个不同自然霉变程度油茶果近红外光谱,包括可见/近红外以及中短波近红外两个波段分别进行判别可行性分析。获取的光谱PCA发现前两个PC得分图上具有一定的聚类效果,说明光谱具有判别不同霉变程度油茶果的能力。建模中发现采用SNV、SNV+去趋势、一阶导数、二阶导数等预处理后全光谱建立的PLS-DA模型效果不如原始光谱,说明原始全光谱具有足够的有效信息,不需要再进行额外的预处理。另外两个光谱集建模能力相当,最优全光谱模型的预测集判别准确率均在82%以上。为了进一步适用于实际,应用PC载荷和SPA选取特征波长,建立的简化模型结果显示无论400~1000 nm还是900~1700 nm波段均为SPA-PLS-DA模型性能最佳,预测集判别准确率相比于全光谱没有显著下降(84.4%),说明SPA选取的特征波长因考虑了目标组别信息在判别霉变程度中更为有效。
结合混淆矩阵对最优简化模型进行深入分析,两模型Kappa系数均为0.7667,灵敏度和特异度相差无几,900~1700 nm对中度霉变样品分辨力更强,但是从仪器制造成本上400~1000 nm更便宜更实用。综合分析,本研究表明近红外光谱为油茶果产地处理提供了一种快速、原位、无损的现场检测方法,克服了以往常规化学测定方法费时费力、试剂污染以及仪器昂贵等缺点,也为木本粮油林果霉变的快速无损检测提供了有效借鉴。未来为了提高简化模型的实际应用性和鲁棒性,还需要加大近红外光谱采集样品量不断进行模型的修正。