应用分子光谱信息融合判别不同产地大米

2023-09-11 07:56栾鑫鑫安焕炯钱承敬史晓梅王文秀胡利明

光谱学与光谱分析 2023年9期

关键词：曼光谱产地正确率

栾鑫鑫, 翟晨, 安焕炯, 钱承敬, 史晓梅, 王文秀, 胡利明*

1. 北京工业大学环境与生命学部, 北京 100124

2. 中粮营养健康研究院, 营养健康与食品安全北京市重点实验室, 北京 102209

3. 河北农业大学食品科技学院, 河北保定 071001

引言

我国是大米生产大国, 大米种植区域广, 由于产地的气候、水质、土壤等因素不同使得大米中各种物质的含量和成分存在差异, 如五常大米因其独特的地理环境使其干物质积累多, 直链淀粉含量适中, 支链淀粉及双链糖含量较高, 具有较高的营养价值及优良的口感, 在市场上成为地理标识产品, 占有优势的销售价格[1-4]。但由于缺乏快速鉴别大米产地的确证技术, 致使大米产地假冒现象泛滥, 严重损害了消费者的利益, 因此开发大米产地快速鉴别技术尤为重要。

目前, 电子鼻和电子舌指纹分析技术[5]、矿物质元素分析方法[1, 4]及DNA指纹图谱技术[5]都是大米产地鉴别的常用方法。这些分析技术相对成熟, 精度较高, 但存在时间长、前处理繁琐、环境污染、对检验人员要求高等一系列缺点。

与理化检测方法相比, 分子光谱法具有快速、无污染、多组分同时检测等优点。谱带波峰的位置、数目及强度反映了内部分子结构的特点及含量, 利用分子光谱技术结合化学计量分析方法是一种常用的产地确证检测技术。刘晓欢等[6]采用中红外光谱结合偏最小二乘判别分析(partial least-squares discrimination analysis, PLS-DA)和K近邻算法(K nearesu neighbor, KNN)对吉林、辽宁、江苏及浙江四个产地的大米样品建立产地鉴别模型, 结果显示, PLS-DA最优模型验证集正确率为92.29%, KNN最优模型验证集正确率高达94.27%。沙敏等[7]采用拉曼光谱结合聚类分析、相对标准偏差分析及支持向量机算法, 将大米产地鉴别模型识别正确率提高了12.89%。研究表明, 利用光谱信息建立大米产地鉴别模型是可行的, 但对复杂的样品分类鉴别, 由于采用单一光谱信息建立模型存在片面性, 模型识别准确率往往不能达到100%, 不能满足对大米产地快速准确鉴别的需求。

研究发现, 将不同信息源结合增加信息维度, 可以获得更为全面精准的特征信息, 从而提高整个系统的性能和鉴别的准确度, 因此信息融合技术在产地确证方面有着较大优势。杜梦佳等[8]采用红外光谱和气相色谱-质谱联用的方法对大米产地鉴别分析, 将特征光谱信息和挥发性组分信息融合结合PLS算法建立大米产地鉴别模型。结果表明, 信息融合模型的识别准确率较单一光谱模型和挥发性物质模型分别提高了4.5%和8.5%。信息融合技术在大米产地确证领域应用较少, 目前未检索到关于近红外光谱-中红外光谱-拉曼光谱信息融合的大米产地鉴别研究的报道。近红外光谱、中红外光谱及拉曼光谱由于波长和机理不同反映了分子不同的振动信息, 近红外光谱主要记录含氢集团振动的倍频和合频吸收, 而中红外光谱为分子基频振动光谱, 红外光谱容易测定链上的取代基, 而拉曼光谱谱峰相对较尖锐且能获得600 cm-1以下的谱图信息, 可以检测与对称中心有对称关系的分子, 容易表征碳链振动, 适合研究高分子的骨架结构[9]。三种光谱均为重要的检测手段, 具有差异性和互补性, 3种光谱法相互配合补充可以获得更多的样品特征信息。

利用近红外光谱法、中红外光谱法及拉曼光谱法结合化学计量分析方法对来自五常地区、东北地区和南方地区共计186份大米样品进行产地鉴别研究。首先比较了K近邻算法(K nearest neighbor, KNN)[12-13]、线性判别分析(linear discriminant analysis, LDA)算法[13-14]及最小二乘-支持向量机(least squares-support vector machine, LS-SVM)算法[15]3种化学计量分析方法结合5种预处理方法对3种单一光谱法鉴别模型的识别效果。为进一步提高模型的准确度, 建立了基于近红外光谱-中红外光谱-拉曼光谱的数据层融合、特征层融合及决策层融合的大米产地鉴别模型, 具体流程见图1。

图1 实验流程图

1 实验部分

1.1 材料

实验用大米样品共186份, 其中五常大米36份, 均采集于黑龙江省哈尔滨市五常市, 品种为稻花香2号粳米; 东北大米108份, 采集于黑龙江省(牡丹市、哈尔滨市非五常地区、宁安市, 鸡西市)、吉林省(德惠市、吉林市)、辽宁省(沈阳市、朝阳市), 品种均为粳米; 南方大米42份, 采集于江苏省(南通市、泰州市)、广东省(深圳市、东菀市), 品种均为粳米。

1.2 仪器

傅里叶变换近红外光谱仪(MPAⅡ), 德国布鲁克(北京)有限公司; 傅里叶变换中红外光谱仪(NICOLET IS50), 赛默飞世尔科技(中国)有限公司; 智能DXR拉曼光谱仪, 赛默飞世尔科技(中国)有限公司; 粉碎机, 德国IKA/艾卡(广州)仪器设备有限公司; 粉末压机(BJ-15), 天津博君科技有限公司。

1.3 样品处理

大米样品经粉碎机研磨成粉末通过100目筛, 筛过的样品放入样品瓶, 不要挤压样品, 以保持蓬松和良好的混合度以供近红外光谱仪测试。准确称取100 mg大米粉末样品, 在20 MPa压力下放置5 min压成片, 每个样品压6个片待中红外和拉曼光谱仪检测使用, 如图1所示。采集样品光谱时, 环境温度为室温(25±1) ℃, 均对样品进行三次扫描求平均以减少噪声干扰。

1.4 光谱采集

1.4.1 近红外光谱采集

取不少于样品杯1/3体积的大米粉末样品, 采用积分球漫反射模式, 分辨率为16 cm-1, 样品扫描次数为64次, 样品厚度为2 cm, 扫描谱区波数为3 600～12 500 cm-1。

1.4.2 中红外光谱采集

采用衰减全反射(attenuated total reflection, ATR)模式, 扫描次数为32次, 分辨率为4 cm-1, 扫描谱区波数为500～4 000 cm-1。

1.4.3 拉曼光谱采集

拉曼光谱仪的波长为780 nm, 激光能量为24 mW, 积分时间为16 s, 积分次数为10次, 样品扫描谱区波数为50～3 500 cm-1。

1.5 大米产地鉴别模型的建立

1.5.1 光谱数据预处理

由于样品颗粒大小和均匀性不同, 采集到的原始光谱包含了荧光背景、探测器噪声和激光功率波动等干扰信息。对近红外光谱、中红外光谱及拉曼光谱原始数据均使用5种预处理方法消除干扰信息, 如标准归一化(standard normal variable, SNV)、一阶微分(1st)、二阶微分(2nd)以及叠加预处理方法(SNV+1st, SNV+2nd), 选取大米产地鉴别最优模型。

由于预处理后的光谱数据分类特征不突出, 需对其进行特征波长的筛选使数据降维, 故使用竞争性自适应重加权采样法[10](competitive adapative reweighted sampling, CARS)算法采用5折交叉验证, 重复筛选特征波长2 000次选择最优筛选结果, 最优模型的近红外光谱、中红外光谱及拉曼光谱数据筛选特征波长个数分别为57、 216及134。主要集中在近红外光谱的4 000～5 500和6 000～7 000 cm-1波段, 中红外光谱的3 000～3 600和800～1 500 cm-1波段, 拉曼光谱的1 000～1 500和2 800～3 200 cm-1波段。

1.5.2 样品分组

将186份大米样品按照产地定义为3类, 五常大米36份、南方大米42份、东北大米108份。按照校正集∶验证集=3∶1的比例, 对样品隔三取一分组以保证校正集数据的均匀性, 具体见表1。

表1 大米校正集和验证集样本分组情况

1.5.3 数据融合技术

融合方式的选择是数据融合技术的关键, 本研究采用数据层融合、特征层融合及决策层融合3种融合方法。

数据层融合是将所有样品的近红外、中红外及拉曼光谱原始数据均采用5种方法进行预处理, 将3种光谱相同预处理的数据逐个连接串联成单个矩阵, 经CARS算法提取5个光谱融合矩阵的特征波长, 筛选出来的5个特征矩阵结合KNN算法、 LDA算法和LS-SVM算法三种化学计量分析方法建立15个大米产地鉴别模型。

特征层融合是将所有样品的近红外、中红外及拉曼光谱原始数据均采用5种方法进行预处理, 经CARS算法提取15个预处理数据的特征波长, 将3种光谱相同预处理的特征信息串联在单个矩阵中, 结合化学计量分析方法KNN、 LDA及LS-SVM算法建立15个大米产地鉴别模型。

决策层融合是将所有样品的近红外、中红外及拉曼光谱原始数据均采用5种方法进行预处理得到15个光谱预处理矩阵, 经CARS筛选矩阵的特征信息, 结合KNN、 LDA及LS-SVM算法建立单一光谱大米产地鉴别模型, 共计45个。将近红外光谱、中红外光谱及拉曼光谱模型的相同化学计量分析方法的预测结果集成到最终响应中进行多元线性回归, 得到校正集及预测集的正确率。

2 结果与讨论

2.1 光谱分析

近红外光谱波数范围在4 000～12 500 cm-1, 如图2(a)所示, 在波段7 500～9 000 cm-1的峰为C—H的伸缩振动峰, 在波数8 321 cm-1左右的吸收峰是由脂肪中的C—H伸缩振动引起的; 6 846 cm-1处的吸收峰是由氨基酸的N—H不对称振动引起的; 4 000～5 500 cm-1波段吸收峰是C—H的第一组合频区, 其中4 700 cm-1表征的是大米样品中糖类及蛋白质含量[5], 5 200 cm-1附近的峰为O—H键, 表征水分含量。

图2 三类大米样品的平均原始光谱: 近红外光谱(a)、中红外光谱(b)及拉曼光谱(c); 三类大米样品的平均SNV+2nd预处理光谱图: 近红外光谱(d)、中红外光谱(e)及拉曼光谱(f)

拉曼光谱的波数范围在50～4 000 cm-1, 如图2(c)所示, 波数477 cm-1处的峰是由大米中淀粉的环骨架振矾和扭动振动形成; 波数1 082 cm-1处的峰表征了直链淀粉C—O—H的弯曲振动; 波数为1 124 cm-1处的峰为糖苷的C—O伸缩振动和C—O—H弯曲变形振动; 在波数1 262 cm-1处的峰为蛋白质的C—N伸缩振动; 在波数2 911 cm-1的峰为淀粉H—C—C和H—N—H伸缩振动[9]。

2.2 近红外、中红外及拉曼光谱鉴别模型的建立及验证

将近红外光谱、中红外光谱及拉曼光谱分别结合KNN、 LDA及LS-SVM算法3种化学计量分析方法建立45个大米产地鉴别模型, 较优模型鉴别结果如表2所示。研究结果表明, 3种光谱技术均可对大米产地进行识别和分析, 不同预处理方法对模型识别效果的影响均有差异。

表2 单一光谱模型的最优鉴别结果

近红外光谱大米产地鉴别模型中, LS-SVM算法结合SNV+2nd预处理方法模型最优, 其校正集和验证集识别正确率分别为95.71%和86.96%, 说明近红外光谱法结合化学计量分析方法建立大米产地鉴别模型是可行的。中红外光谱大米产地鉴别模型中, LS-SVM算法结合1st预处理方法模型最优, 其校正集和验证集识别正确率分别为97.14%和91.30%, 其验证集正确率较近红外光谱最优模型提高了4.34%。拉曼光谱大米产地鉴别模型中, LS-SVM算法结合SNV+2nd预处理方法模型最优, 其校正集和验证集识别正确率分别为100%和93.48%, 该模型验证集正确率较近红外光谱和中红外光谱最优模型分别提高了6.52%和2.18%。

近红外光谱最优模型将3个五常大米样品错误识别为东北大米, 将2个东北大米样品错误识别为南方大米。近红外光谱主要记录含氢集团振动的倍频和合频吸收, 而中红外光谱为分子基频振动光谱, 可以获得更多的大米样品信息, 中红外光谱最优模型将1个五常大米样品错误识别为东北大米, 将1个南方大米样品和2个东北大米样品误判为五常大米, 优于近红外光谱模型。由于拉曼与红外的机理不同, 红外容易测定链上的取代基, 而拉曼光谱可以检测与对称中心有对称关系的分子, 容易表征碳链振动, 适合研究高分子的骨架结构。其最优模型将1个五常大米错误识别为南方大米, 将1个南方大米和1个东北大米样品错误识别为五常大米, 优于中红外光谱模型。

结果表明, 3种光谱法均可建立大米产地鉴别模型且取得良好的效果, 3种化学计量分析方法中LS-SVM算法的模型鉴别正确率最高, 3种光谱法中拉曼光谱法最适合大米产地鉴别研究。但是单一光谱模型验证集正确率均未达到100%, 无法达到快速准确鉴别大米产地的需求。

2.3 数据融合鉴别模型的建立及验证

为进一步提升大米产地鉴别模型的识别正确率, 将近红外光谱、中红外光谱和拉曼光谱两两结合进行数据层融合、特征层融合及决策层融合, 建立大米产地鉴别模型。结果表明, 中红外光谱和拉曼光谱特征层融合的LS-SVM算法结合SNV+1st预处理方法模型最优, 较单一光谱最优模型验证集正确率提高了2.17%, 但正确率未达到100%。为进一步实现对大米产地的精准识别, 采用基于近红外光谱-中红外光谱-拉曼光谱的三种融合方法: 数据层融合、特征层融合和决策层融合, 3种融合模型较优结果如表3所示, 3种光谱信息特征层融合结合LS-SVM算法大米产地鉴别模型最优, 其校正集和验证集正确率均达到100%, 可以实现对五常大米、东北大米和南方大米产地快速准确的识别。

表3 数据融合模型验证结果

数据层融合大米产地鉴别模型中, LS-SVM算法结合SNV+2nd预处理方法模型和KNN算法结合SNV+1st预处理方法模型最优, 验证集正确率均达95.65%, 均误判了1个五常大米和1个南方大米样品。 LDA算法模型将3个南方大米样品误判为东北大米。对比表2、表3可知, 数据层融合最优模型验证集正确率较单一光谱最优模型提高了2.17%, 数据层融合直接对原始数据进行融合处理, 最大限度的保留了原始信息, 不同数据源结合可以获得更为全面的特征信息, 从而提高鉴别模型的识别正确率。由于所采集的信息量大, 包含大量的无关信息, 噪声信号多, 其模型识别正确率均未达到100%。

决策层融合大米产地鉴别模型中, 将五常大米、南方大米以及东北大米样品分别定义为数值1、数值2及数值3, 定义预测结果在0.5～1.5范围内为五常大米, 1.5～2.5范围内为南方大米, 2.5～3.5范围内为东北大米。 LS-SVM算法结合SNV+1st预处理方法模型最优, 其验证集正确率为97.83%, 将1个五常大米样品误判为南方大米, 该模型校正集和验证集参考值和预测值关系如图3所示。 KNN算法结合SNV+2nd预处理方法模型验证集正确率为95.65%, 将2个南方大米样品误判为东北大米。决策层融合是建立在单一光谱模型的基础上对最终的预测结果进行综合的决策, 抗干扰性强, 其验证集正确率较单一光谱最优模型提升了2.18%, 但均未达到100%。

图3 决策层融合最优模型校正集(a)和验证集(b)的参考值和预测值关系图

特征层融合大米产地鉴别模型中, LS-SVM算法结合SNV+2nd预处理方法鉴别模型最优, 其校正集和验证集识别正确率均达100%。特征层融合可以得到比决策层融合更为丰富的样品初始信息, 对初始数据压缩可以去除大量的干扰数据, 具有较高的精度, 而决策层融合的精度较低会造成错误判断的概率增加, 特征层融合最优模型较决策层融合最优模型验证集正确率提高了2.17%。 KNN算法结合SNV+2nd预处理方法模型和LDA方法结合1st预处理方法模型验证集识别正确率均为95.65%, 各误判了1个五常大米样品。特征层融合最优模型较单一光谱最优模型验证集正确率提高了6.52%, 可以满足快速准确检测五常大米、南方大米和东北大米产地的需求。

3 结论

建立了基于近红外光谱、中红外光谱以及拉曼光谱的大米产地鉴别模型。比较了KNN算法、 LDA及LS-SVM算法对单一光谱模型的识别效果, 结果表明, 拉曼光谱法结合LS-SVM算法模型最优, 校正集和验证集正确率分别为100%和93.48%。为进一步提升鉴别模型的准确度, 将3种光谱两两结合进行数据层融合、特征层融合及决策层融合, 建立大米产地鉴别模型。结果表明, 特征层融合结果中LS-SVM算法结合SNV+1st预处理方法模型最优, 其校正集和验证集的正确率分别为100%和95.65%。为实现对大米产地的准确识别, 创新性的建立了3种光谱的数据层融合、特征层融合及决策层融合大米产地鉴别模型, 综合比较3种层次的数据融合方法, 特征层融合产地鉴别模型中, LS-SVM算法结合SNV+2nd预处理方法鉴别模型最优, 其校正集和验证集识别正确率均达到100%, 较单一光谱最优模型验证集正确率提高了6.52%。研究结果表明, 3种层次的分子光谱信息融合模型识别正确率较单一光谱模型大大提升, 其中特征层融合方法更适用于本次融合的数据类型, 可以快速准确鉴别五常大米、南方大米和东北大米产地。本研究为大米产地的快速准确鉴别提供了一种新方法。