盛晓慧,李宗朋,李子文,朱婷婷,王健*,尹建军,宋全厚
1(中国食品发酵工业研究院有限公司,北京,100015)2(北京顺鑫农业股份有限公司牛栏山酒厂,北京,103101)
果味啤是一种混合啤酒饮料,因为兼具啤酒的营养物质,较低的苦味和酒精度以及果汁的甜香,近几年逐渐流行起来,深受广大青少年以及女性消费者的喜爱[1-3]。添加果汁来进行菠萝啤的发酵,既能完整地保留果汁的香味又使得风味物质比例均衡,使菠萝啤具有更加独特的口味[4-6]。近几年,一些黑心生产厂家为了追求高额利润采用人工合成香精代替原果汁,导致营养价值极大降低,因此需要重视对其果汁含量的测定。目前我国对于果味啤中的果汁含量的测定还没有相应的国家标准[7],一般采用推算法测定其果汁含量,虽然这种方法检测结果较准确,但存在检测时间长、方法复杂,同时化学试剂消耗多、对环境污染严重的缺点。因此不适用于快速验证大批量样品中的果汁含量是否符合标识[8-9]。因此研究果味啤中果汁含量的快速检验方法具有深远意义。
近红外光谱(near-infrared spectroscopy, NIR)分析技术作为一种无损检测方法,具有操作简单、分析效率高等优点,由于和化学计量学结合得以广泛使用,目前已经被应用于食品、药品和酿造等行业中[10-17]。张严等[18]研究了近红外结合化学计量学方法在油脂快速检测中的应用,并分析比较了模型的预测效果。樊双喜等[19]采用近红外光谱技术对黄酒进行了无损测定,利用偏最小二乘法分别建立黄酒中的酒精度、总糖等含量的校正模型,模型的准确性较高。然而,目前尚未有采用近红外光谱分析技术对果啤中的果汁含量快速检测的研究。而且大部分的研究采用的均是在全光谱范围内建立偏最小二乘模型,但是由于全光谱中难免包含过多的噪声和无用信息,会对建模的精确度和稳定性造成较大的影响,因此对于有效波长的提取在建模过程中显得尤其重要[14]。
本文以菠萝啤为研究对象,采用NIR分析技术对菠萝啤进行快速检测,并采用特征波长选择方法来提高模型性能,同时探讨向后间隔偏最小二乘(backward interval partial least squares, Bi-PLS)、组合间隔偏最小二乘(synergy interval partial least squares, Si-PLS)、遗传算法(genetic algorithm, GA)优化的偏最小二乘(partial least squares, PLS)回归模型对其果汁含量的预测效果,从而为检测菠萝啤中果汁含量提供一种新方法。
从超市采购的某品牌5个不同批次的菠萝啤(乙醇体积分数0.6%~2.5%、果汁含量0.8%~3.2%)。
NIRMaster傅立叶变换(FT)近红外光谱仪,Buchi(中国)有限公司;光谱光源为卤钨灯,检测器为温控InGaAs。光谱为4 000~10 000 cm-1,分辨率为8 cm-1。
依据GB/T 16771—1997测定果汁含量。
以透射方式采集菠萝啤样品在近红外光谱区域4 000~10 000 cm-1的光谱信息,共计1 501个波长点。
本实验从全部样品中随机选择出35个样品作为独立测试集,用来检测最终建立的模型效果。采用Kennard-Stone (K-S)方法将剩余的110个菠萝啤样品的光谱进行主成分分析(PCA)之后,选用主成分得分为特征变量选择样品[20]按照2∶1的比例对剩下的110个样品进行校正集和验证集的划分,其中校正集包含76个样品,验证集包含34个样品。
对采集的光谱数据进行预处理以后建立PLS模型,以交叉验证的均方根误差(RMSECV)为目标确定最佳的预处理方法,采用的预处理方法包括一阶导数、二阶导数、标准归一化(SNV)、多元散射校正(MSC)。
采用全光谱建模难免会包含一些与待测组分无关的光谱波段,会增加模型计算的复杂度和光谱噪音,波长选择一方面可以简化模型,同时能剔除掉不相关的光谱变量,从而达到增加校正模型预测能力和稳定性的目的,拟采用向后间隔偏最小二乘、组合间隔偏最小二乘、遗传算法3种波长选择算法。
110个菠萝啤的光谱如图1所示,从图中可以看出,NIR在4 000、4 458、5 164、6 895 cm-1附近存在较强的吸收,同时5 600和5 915 cm-1附近存在2个较弱的吸收峰。其中4 000、4 458 cm-1附近的吸收峰主要是由C-H键和O-H键的伸缩振动所产生的;5 164、6 895 cm-1处的吸收峰主要是由水分和乙醇中的O-H键伸缩振动的一级倍频吸收产生的,因此这2个吸收峰与待测组分无关。5 600和5 915 cm-1处的吸收峰主要来源于CH3中的一级倍频和糖类中的C-H键的组合频和O-H键的伸缩振动。不同菠萝啤样品的光谱没有明显差异,趋势一致,整个4 000~10 000 cm-1区域内光谱的吸光度之间差异较小,但是又不完全重合,这说明样本整体保持一致,而不同样本之间又存在差异。
图1 110个菠萝啤的原始近红外光谱Fig.1 Original near-infrared spectrum of 110 pineapple beer
由于没有异常样品,因此无须剔除样品。样本集的划分结果如表1所示,其中校正集和验证集分布均匀,体现K-S方法选取样品的随机性和代表性。校正集样品完全囊括了验证集,且校正集的偏差与验证集的偏差相差较小,所以符合近红外光谱检测的要求。
表1 校正集与验证集统计结果Table 1 Calibration set and validation set statistics
图2是经过一阶导数、二阶导数、标准归一化(SNV)、多元散射校正(MSC)这4种预处理方法处理以后的光谱图。
a-一阶导数光谱图;b-二阶导数光谱图;c-SNV光谱图;d-MSC光谱图图2 各种预处理光谱图Fig.2 Pretreatment spectra.
将原始光谱进行一阶导数、二阶导数、SNV、MSC这4种预处理以后建立PLS模型,模型的效果如表2所示。
表2 不同预处理方法后建立的PLS模型效果Table 2 Effect of PLS model established after differentpretreatment methods
注:PC代表主成分(下同)
2.4.1 Si-PLS的特征波长提取
对原始光谱进行SNV预处理之后所建的PLS模型预测效果要比其他预处理更好,因此最终选择SNV作为预处理方法。Si-PLS是利用不同的频谱区间的组合参与建立PLS回归模型[22-23]。在原始光谱4 000~10 000 cm-1共采集到1 501个光谱波点,因为间隔数量过多过少均会影响到模型效果[24],所以拟将原始光谱分割为20、25、30、35个区间,分别在组合区间上建模,模型和波长筛选效果如表3所示。
表3 Si-PLS的波段筛选结果Table 3 Si-PLS band screening results
由表3可知现,当全光谱被分割为25个间隔时,模型的RMSECV为0.15,筛选出的区间组合为[3,4,17],对应的波段为(4 484~4 960、5 600~6 051、7 844~8 080) cm-1。
2.4.2 Bi-PLS的特征波长提取
和Si-PLS类似[25],将原始光谱分割为20、25、30、35个间隔,采用Bi-PLS对应不同区间数进行PLS回归,效果如表4所示。
选择最小RMSECV对应的30个区间来分割全光谱,获得的Bi-PLS模型效果最好,RMSECV达到0.19%,优选的最佳的波长区间为[3-5,7,11-13,16,21],对应的波段为(4 404~5 000, 5 204~5 400, 6 004~6 100, 7 004~7 200, 8 004~8 200) cm-1。
表4 Bi-PLS的波段筛选结果Table 4 Band screening results for Bi-PLS
2.4.3 GA的特征波长提取
GA的参数设置为初始种群数50,迭代次数为100、交叉率0.6和变异率分别为0.08,传代结束后,频次较多的波点会作为输入变量用来建立PLS模型,以RMSECV值大小确定最优特征波长。由于遗传算法初始群体是随机挑选的,每次筛选的结果都会有差异[26-28, 29-31],因此为了降低这种情况对结果的影响,进行4次计算,选择模型效果最好的变量作为最优变量。4次计算结果如表5所示,选取83个变量时,RMSECV最小为0.19。图3显示的是第2次计算时各个波点被选用的频率次数,频次最多的区域主要在4 328~9 964 cm-1,其中4 600 cm-1被选用的频次最高。这说明此波段的变量与菠萝啤中果汁信息之间存在较高的相关性。
表5 4次GA计算和选择的变量Table 5 Four times GA calculation and selected variables
图3 各个波长被选用频次图Fig.3 Frequency spectrca is selected for each wavelength
图4显示的分别是GA、Si-PLS、Bi-PLS三种方法提取出的特征波长,3种方法筛选得到的特征波段都有重叠的区域,并且6 160、8 080 cm-1左右的波长点均被筛选出来,这说明了这些波长变量都与菠萝啤中果汁含量的特征信息之间存在相关性。
A-GA;B-Si-PLS;C-BiPLS图4 不同方法挑选的波长变量分布Fig.4 Wavelength variable distribution selected by different methods
表6 不同算法特征波长的提取Table 6 Extraction of characteristic wavelengths of different algorithms
GA筛选的波长变量虽然远远少于其他2种算法,但是校正集和预测集的精度低于Si-PLS算法的结果,说明筛选波长能够去除一些无用和多余的信息、极大减少建模的复杂程度,但同时也有可能消除一部分有效的信息使得预测精度降低,所以并不是波长变量越少越好。
图5是Si-PLS提取特征变量在9个因子时的回归系数图,由图5可见,在4 484、4 840、6 044、7 924 cm-1处的回归系数更高,说明这些变量处的光谱信号与菠萝啤果汁含量的线性相关性更好,同时证明Si-PLS筛选出的两个波长区间:4 484~4 960、5 600~6 051、7 844~8 080 cm-1,与Si-PLS筛选的特征波段基本相符。再一次验证了Si-PLS算法提取菠萝啤果汁特征波长的准确性好。
将剩余的35个独立测试集样品导入Si-PLS模型之中,对模型的预测性能进行检验。结果如图6所示,菠萝啤中果汁含量的实测值与预测值线性相关较好,其中R2为0.85,RMSEP为0.19,RPD为3.08,说明Si-PLS模型的预测效果优良。为了进一步验证方法的准确性,通过成对t检验,在置信水平为95%时,P值为0.971 4高于a(0.05),表明预测值与测量值之间没有显着差异。
图5 Si-PLS筛选波数的回归系数图Fig.5 Regression coefficient graph of Si-PLS screening characteristic variables
图6 测试集样品的线性回归Fig.6 Linear regression of test set samples