MIV波长优选改善VIS/NIR光谱TVB-N模型性能研究

2020-05-29 08:21陈亦凡李芸婧彭苗苗杨春勇陈少平
光谱学与光谱分析 2020年5期
关键词:稳健性波长准确性

陈亦凡,李芸婧,彭苗苗,杨春勇,侯 金,陈少平

智能无线通信湖北省重点实验室,中南民族大学电子信息工程学院,湖北 武汉 430074

引 言

根据我国鲜冻畜肉的国家标准(GB/T 5009.44—2003),挥发性盐基氮(TVB-N)是衡量肉品新鲜度的一项重要理化指标。传统标定新鲜度的方法费时、繁琐、破坏性大,难以满足快速检测TVB-N含量的需求。近年来,可见/近红外(VIS/NIR)光谱检测凭借快捷、简便和无损等优势,成为检测领域的热点[1-3],也已应用在TVB-N含量的检测。

在光谱分析检测领域,预测模型属于研究重点[4]。关于预测模型,目前大致分为线性预测模型和非线性预测模型两类。为了发展肉质中TVB-N含量快速检测法,针对这两类模型,国内外学者就光谱预测模型进行了深入研究。意大利的Alamprese等[5]利用偏最小二乘回归(partial least squares regression,PLSR)引入12个主成分, 建立了942~2 667 nm的NIR全谱线性预测模型,模型预测相关系数(RP)为0.95,预测均方根误差(root mean square error of prediction,RMSEP)为6.47 mg/100 g,初步满足了对牛肉TVB-N定量分析的需求。国内的蔡健荣等学者[6]对1 000~2 500 nm的猪肉NIR光谱数据,建立了基于波长筛选的联合偏最小二乘回归(siPLSR)预测模型,RP为0.82,RMSEP为4.17 mg/100 g,进一步提高了线性预测模型PLSR的准确性。此后,Huang等[7]使用主成分分析(principal component analysis,PCA)降维相同波段的猪肉光谱数据作为反向神经网络(back propagation neural network,BPNN)的输入,建立了NIR全谱非线性预测模型,RP为0.94,RMSEP为3.63 mg/100 g。相对于线性预测模型,NIR全谱非线性预测模型准确性更高。对比相关典型文献,大多数全谱线性预测模型可用于肉质TVB-N含量的定量分析,尽管其结合波长筛选一定程度上提升了模型性能,但总体性能与全谱非线性预测模型BPNN相比仍有差距。然而,全谱非线性预测模型BPNN的全谱信息中含有大量无关信息变量,严重影响模型性能,建模过程使用波长筛选仍然必不可少[8-9]。另据可查阅文献,波长筛选改良BPNN预测模型在VIS/NIR光谱检测领域鲜有研究。虽然,Dombi[10]等在1995年提出平均影响值(mean impact value, MIV)方法对剔除无关变量有显著优势,但是这一方法主要用于质谱分析、图像处理和生物医学,鲜见涉及光谱分析领域的应用[11-13]。

为了构建基于波长筛选的猪肉TVB-N含量的BPNN预测模型,首先利用PCA对猪肉光谱数据进行降维,构建TVB-N含量的PCA-BPNN预测模型; 再进一步引入MIV方法对VIS/NIR全谱波长变量进行强相关特征优选,获得改良预测模型MIV-PCA-BPNN。最后,从准确性和稳健性两个方面评估MIV-PCA-BPNN预测模型。

1 实验部分

1.1 猪肉样品的制备

猪肉样本购于周边农贸市场,取自不同猪个体的背最长肌部位。参考文献[5]的做法,将样本切割成30 mm×30 mm×20 mm尺寸块,进行编号排序,共得51个样本。将样本用密封袋封装冷藏于4 ℃环境。测量时,每间隔24 h按编号大小依次取出5~7个样品,静置于25 ℃室温环境约20 min,再分别对其进行光谱数据采集和TVB-N含量测定。

1.2 光谱数据的采集

光谱采集系统包括海洋光学的光谱仪QE65pro,卤钨光源HL-2000,载物台和计算机等部件; 光谱仪采集范围为200~1 000 nm,光学分辨率为0.14~7.7 nm,光源波长范围为360~2 400 nm; 通过计算机和光谱仪配套采集软件SpectraSuit,以反射模式实施检测, 光谱采集系统如图1所示。在检测过程中,保证光源探头垂直向下并距离样品1.5 cm,在视场覆盖样品时应避开其边缘和反光区。

图1 近红外光谱检测系统示意图Fig.1 Diagram of spectral acquisition system

据文献[14],猪肉中TVB-N在波段200~450和900~1 000 nm区间的光谱信噪比较低,严重干扰模型的建立。因此,选取450~900 nm的数据用于后续建模。51个样品的反射光谱如图2所示。

图2 51个猪肉样本的原始反射光谱Fig.2 Raw reflectance spectra of 51 pork samples

1.3 TVB-N含量的测定

国家标准(GB/T 5009.44—2003)规定对肉质TVB-N含量的检测采用半微量定氮法,据此方法测定结果如图3所示。从图中可看出,TVB-N含量总体上随着时间推移而不断增加,从第5日起TVB-N含量加速增加。该结果表明,TVB-N含量是肉品腐败程度的反映,存放第5日后,肉品表面的微生物污染逐步向深层蔓延,蛋白质分解加剧,导致肉品理化性质改变。

图3 TVB-N含量随天数变化情况(4 ℃冷藏环境)

Fig.3 The TVB-N content of pork varies with days (4 ℃ in a refrigerated environment)

为了建立TVB-N含量的预测模型,从51个样本中随机选取10个样本作为验证集,其余的41个样本作为校正集,TVB-N值统计结果如表1所示。

1.4 全谱PCA-BPNN预测模型的构建

构建的PCA-BPNN工作流程如图4所示。图中的X1,X2,X3, …,Xn是经PCA降维的光谱数据,也是BPNN模型的输入节点;ωij和ωjk代表光谱数据在神经元之间传递的权重,体现BPNN的网络权值;Y1表示TVB-N预测值,是BPNN的输出节点。

表1 校正集和验证集TVB-N值(mg/100 g)统计结果Table 1 Statistics of pork TVB-N value (mg/100 g)in calibration and prediction sets

图4 PCA-BPNN流程图Fig.4 Flow chart of PCA-BPNN

每一个样本所携带的光谱信息含有近600个波长变量,如直接作为BPNN的输入节点,必将延长其收敛时间。为此,先用PCA对标准化后的样本光谱数据进行降维处理。选定占原始光谱信息量99.99%的11个主成分作为BPNN的输入节点。通过以校正相关系数(RC)、预测相关系数、校正均方根误差(root mean square error of calibration,RMSEC)和预测均方根误差为评价指标的训练与优化,确定BPNN参数如表2所示。

表2 BPNN参数设定Table 2 BPNN parameters setting

1.5 MIV波长筛选

MIV在神经网络应用中是评价变量对结果影响较为有效的指标之一。根据MIV数值的相对大小,可以精确地定位到与TVB-N含量强相关的波长变量。MIV波长筛选原理与流程如图5所示,操作步骤为:

(1) 训练出RC和RP均大于0.9的PCA-BPNN模型。

(2) 先将训练集T的第i个波长的反射强度数值分别增减10%,得到新数据集Xi和Yi,随后将Xi和Yi经PCA降维后作为仿真样本。

图5 MIV方法波长筛选流程图Fig.5 Flow chart of wavelength selection in MIV

(1)

(2)

1.6 MIV-PCA-BPNN预测模型的构建

利用MIV方法获得优选波长,最终建立MIV-PCA-BPNN预测模型,以此提高预测模型的准确性和稳健性。建模流程如图6所示。

图6 MIV-PCA-BPNN流程图Fig.6 Flow chart of MIV-PCA-BPNN

MIV-PCA-BPNN工作流程包括波长优选与建模两个步骤。波长优选把原始光谱数据中的无关波长变量剔除,将优选的特征波长作为PCA-BPNN模型的输入以构建MIV-PCA-BPNN预测模型。建模完成后,用验证集对模型准确性和稳健性进行验证,得到其评价指标。在上述流程中,利用MIV去除光谱数据中的冗余信息,提高模型准确性和稳健性,而PCA则用于简化网络规模,缩短模型收敛时间。

1.7 模型性能评价

预测模型以RC,RP,RMSEC和RMSEP作为评价性能的指标。

(3)

(4)

式(3)与式(4)中n同式(2)的定义,为样本组数,yi, actual表示第i组样品的TVB-N测定值,yi, predicted表示所建模型的第i组样品TVB-N预测值。

评价预测模型性能时,先考虑其准确性,随后再评估其稳健性。通常,RC数值越接近1,RMSEC的数值越低,预测模型的拟合精度越高;RP数值越接近1,RMSEP的数值越低,预测值与测定值的误差越小,预测模型的预测精度越高。模型的准确性主要取决于拟合精度和预测精度。衡量预测模型稳健性的指标是RMSEP/RMSEC,其数值越低,模型的稳健性越好。通常,一个具有优良稳健性的模型RMSEP/RMSEC≤1.2[15]。

2 结果与讨论

对450~900 nm的光谱数据进行MIV波长筛选,波长分布结果如图7所示。从图中可以看出,在全光谱波段不同波长变量的MIV数值有较大差异,为了减少无关信息的影响,将MIV数值小于平均值0.034且与TVB-N含量相关性较弱的373个波长变量全部剔除,从而得到优选的221个波长变量。

图7 MIV筛选出特征波长的分布Fig.7 Distribution of characteristic wavelength selected by MIV

由图7可见,MIV数值较大的波段集中分布在7个波峰附近。在VIS波段(450~780 nm),第一个波峰出现在471 nm,即以波长471 nm为中心,左右两侧20 nm内有452,455,461,480和491 nm特征波长, 这些波长为肉品中高铁肌红蛋白的吸收峰区。第二个波峰出现在544 nm,即以波长544 nm为中心,左右两侧各20 nm内有527,530,533,540和541~555 nm特征波长,这些波段为肉品中氧合肌红蛋白的吸收峰区。第三和第四个波峰出现在588和613 nm,这两个波峰两侧各有578~600和613~625 nm特征波段,分别为高铁肌红蛋白和硫肌红蛋白的吸收区。第五个波峰出现在740 nm,以波长740 nm为中心,左右20 nm内有745,757和762 nm特征波长,这些波长为肉品O—H键的第三倍频的吸收峰区[16]。在NIR波段(780~950 nm),第六个波峰出现在832 nm,以832 nm为中心波长,左右20 nm内有828和847nm特征波长,这三处特征波长为氨中N—H键第三倍频的吸收峰。最后一个波峰出现在894 nm,其两侧的特征波长863,895和896 nm为肉品C—H键第三倍频吸收峰[17]。

TVB-N是猪肉存储过程中由于蛋白质分解而产生氨以及胺类等碱性含氮物质[14, 19],这些碱性含氮物质中的含氢基团(C—H,O—H,S—H,N—H等化学键)的特征吸收峰与MIV方法所筛选出来的特征波长表现出高度一致性,由此为利用MIV方法筛选光谱的波长变量提供了理论依据。

基于所构建的MIV-PCA-BPNN预测模型获得的样本预测值与测定值之间的散点图如图8(a)所示。与图8(b)中的基于全谱的TVB-N预测模型PCA-BPNN的结果相比较,图8(a)中校正集和验证集的数据点明显汇聚于斜线附近,且误差大的极端数据点较少。可见波长优选获得了更好的模型拟合和预测效果,在准确性和稳健性方面有较大提升。

MIV-PCA-BPNN模型的变量数较少,但主成分数较多。究其原因,MIV波长筛选剔除了大部分非线性和不相关的波长变量,使得变量之间相关性得到了增强,PCA降维光谱数据时,所提取的主成分包含了大量的与TVB-N含量相关的信息,因此主成分数增加,结果与文献[9]结论一致。

为了进一步比较非线性预测模型与线性预测模型的性能,参考文献[18]的做法,组合多种常见的算法对样本光谱信息进行预处理,其中包括: 标准正态变量变换(SNV)、多元散射矫正(MSC)、Savitzky-Golay(S-G)平滑,窗口参数为3~21(间隔为2),拟合次数为1~5,求导阶数为一阶或二阶(1D,2D)、均值中心化、标准化等。通过反复调整上述算法的参数与输入的主成分数,构建了优化的PLSR和PCR模型,结果如图9所示。

图8 MIV-PCA-BPNN (a)和PCA-BPNN模型的 (b)预测值和测定值散点图Fig.8 Scatter plots of predicted and actual values(a): MIV-PCA-BPNN; (b): PCA-BPNN

图9 PCR (a)和PLSR (b)模型的预测值和测定值散点图Fig.9 Scatter plots of predicted and actual values(a): PCR; (b): PLSR

表3 对应不同预测模型的TVB-N含量分析结果Table 3 Analysis results of TVB-N content for different prediction models

如表3所示,PCR预测模型使用了10个主成分,与表中的其他建模方式相比其RMSEP/RMSEC值最低,模型稳健性最强,但由图9(a)可以看出,其样本预测值和测定值数据点分布散乱,没有出现明显汇聚。PCR预测模型的性能指标RC=0.76,RMSEC=3.67 mg/100 g,RMSEP-RMSEC<0,对校正集拟合误差较大,出现严重的欠拟合,模型准确性表现最差,因此不能满足对TVB-N的定量分析。同为线性预测模型的PLSR模型性能相较于PCR有较大提升。虽然PLSR预测模型使用较少主成分降低了模型的拟合误差,拟合精度相较于PCR模型也有了较大提升,但其预测精度低于前者,且RMSEP/RMSEC=1.27,略大于要求的1.20,因此模型稳健性不足。

从表3还可以看出,在构建的PLSR,PCR和BPNN三种基于全谱的预测模型中,PCA-BPNN的RMSEC和RMSEP最小,RC和RP最大,模型准确性最高。因此,在本研究显示,非线性预测模型比线性预测模型具备更好准确性和稳健性。究其原因,光谱信息与待测组分TVB-N含量之间不仅存在线性关系,而且存在非线性关系,本工作所检测的TVB-N正好表现出较强的非线性效应。

另由表3可知,使用MIV波长优选的221个波长变量所建立的MIV-PCA-BPNN预测模型, 使用了13个主成分,与基于全谱的PCA-BPNN预测模型相比,RC从0.96变为0.98,RP从0.93上升到0.96,并且其RMSEC和RMSEP为最小,分别为1.12 mg/100 g和1.21 mg/100 g,在所有构建的预测模型中,准确性和稳健性最佳。

3 结 论

以猪肉背最长肌为研究对象,依据选定的450~900 nm VIS/NIR光谱数据,构建了PLSR,PCR和BPNN三种TVB-N含量预测模型,开展了TVB-N含量的定量分析研究。结果表明,非线性预测模型BPNN优于线性模型PCR和PLSR,其中改进的MIV-PCA-BPNN预测模型性能最佳。MIV-PCA-BPNN性能指标RC和RMSEC分别为0.98和1.21 mg/100 g,RP和RMSEP分别为0.96和1.12 mg/100 g,RMSEP/RMSEC=1.08,相比全谱BPNN预测模型,其准确性和稳健性有较大提升。经MIV数值分析,获得了与TVB-N吸收峰一致的优选特征波长,表明MIV方法可有效筛选光谱波长变量。本工作改进了TVB-N预测模型,为利用神经网络剔除无关波长变量提供了新思路。

猜你喜欢
稳健性波长准确性
浅谈如何提高建筑安装工程预算的准确性
理解语境与名句的关系,提高默写的准确性
会计稳健性的定义和计量
会计稳健性的文献综述
为桥梁领域的示值准确性护航
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
影响紫外在线监测系统准确性因子分析
货币政策、会计稳健性与银行信贷关系探析
Effect of Ammonia on the Performance of Catalysts for Selective Hydrogenation of 1-Methylnaphthalene