宗绪岩 ,彭厚博 ,吴键航 ,盛旭峰 ,李 丽
(1.四川轻化工大学 生物工程学院,四川宜宾 644000;2.酿酒生物技术与应用四川省重点实验室,四川宜宾 644000)
中国白酒的历史源远流长,是世界六大蒸馏酒之一[1]。影响白酒的品质和口感的微量成分主要是醇类、酸类、醛类和酯类等[2]。近红外光谱技术(near infrared spectroscopy,NIR)是一种波数在4 000~12 000 cm-1的电磁波技术[3]。快速、无损、多组分同时分析,过程无污染,结果重现性高,检测成本低廉是其突出的优点[4]。广泛用于食品加工、饲料品质检测、制药、石油化工,农业及纺织品等诸多领域[5]。
随着近红外光谱技术的发展,近红外也广泛地运用于白酒分析领域。卢中明等[6]使用偏最小二乘法(PLS)建立近红外定量模型,能够快速测定酒醅中的成分,其模型的决定系数(R2)和预测集标准偏差(RMSEP)分别为0.968 6和0.093 2%vol;常瑞红等[7]使用竞争性自适应重加权算法(CARS-PLS)对原酒中的乙酸乙酯和己酸乙酯进行建模,其R2和RMSEP分别为0.916 4和2.135 1;TIAN等[8]利用近红外光谱技术检测全麦面粉的总酚含量,使用最小二乘支持向量机(LSSVM)得到最佳回归模型的预测集和验证集的R2分别达到0.92和0.90,剩余预测偏差值为3.4;IOANNIS等[9]使用神经网络(NN)结合近红外光谱可以无损评估桃子内部品质和成熟度,可溶性固形物浓度的R2和RMSEP分别为0.96和0.58%,吸光度差异指数的R2和RMSEP分别为0.96和0.08。本文将化学计量学的诸多定量方法(PLS、CARS-PLS、LSSVM、NN)引入白酒分析中,以期为白酒的年份和等级提供一种比PLS更加快速、稳定、准确的定量方法。
采自102瓶宜宾某公司的浓香型白酒基酒酒样,按贮藏年份和等级分类,具体信息见表1。(酒样等级:通过酒厂省级以上专业白酒评酒师进行品评,综合打分,确定其是否具有宜宾酒风味特征,划分等级)
表1 浓香型白酒基酒酒样信息Tab.1 Information of base liquor samples of flavor Baijiu
利用布鲁克公司生产的MATRIX-F型近红外光谱仪对酒样进行数据采集,光谱范围为12 000~4 000 cm-1,分辨率为 2 cm-1,每个样品重复测3次取平均值,得到原始酒样的近红外光谱数据。
利用MATLAB 2019b对数据进行分析处理。使用Origin 2018对得到的数据进行作图。
模型建立过程中,为剔除无效信息,对酒样的原始谱图进行预处理。预处理方法包括:平滑(smooth)、标准矢量归一化(standard normal variate transformation,SNV)、多 元 散 射较 正(multiplcative scatter correct,MSC)、 一 阶导数(1d)、二阶导数(2d)、1d+SNV、1d+MSC、2d+SNV、2d+MSC等,通过上述预处理方法得到最优光谱区间[10]。
校正集和验证集:通过k-s算法将酒样分成校正集和验证集,其中校正集酒样为84个,验证集酒样为16个,参与白酒基酒年份、等级校正模型的建立。
利用 PLS、CARS-PLS、LSSVM、NN 建立白酒基酒年份、等级的校正数学模型,数学模型运用R2,校正集标准偏差(RMSEC)和RMSEP来评价。RMSEC与RMSEP的比值(RPD)对预测结果进行最终评价[11]。
对白酒基酒谱图进行预处理之后的结果如图1所示。酒样在4 000~12 000 cm-1的谱图中出现明显的吸收光谱,但各光谱之间的平行移动也相对明显。其原因是液体导致光谱采集过程中出现了明显的散射现象[12]。其中对谱图进行SNV处理,在一定的程度上消除了光的散射和基线漂移现象;将1d与SNV结合对其进行处理,在一定程度上消除了基线漂移和散射现象,但也引入了噪声[13]。陈霏等[14]表示预处理可以一定程度上消除噪声和背景信息的干扰,但不能完全依赖预处理去消除误差,首先需要对样品进行适当处理,再进行数据分析,其效果将会更好,而且过度的使用预处理也会出现过拟合现象。
图1 白酒基酒样品的近红外图谱Fig.1 Near infrared spectra of Baijiu base liquor samples
白酒基酒样品的年份、等级见表2,酒样的年份根据酒厂提供,从2002~2018年,期间跨度16年;酒样的等级,每个年份都分为5个等级。
表2 白酒基酒年份、等级Tab.2 Year and grade of Baijiu base liquor
如图2所示,白酒中含有大量的水和醇,以及微量的呈香物质酯,在 4 254,4 335,4 405 cm-1左右是CH3、CH2、CH的合频吸收,其中H2O的合频吸收在4 405 cm-1左右;4 833 cm-1左右是-OH的合频吸收区域;5 165 cm-1左右是RCOOH、RCOOR的特征吸收区域;6 846 cm-1左右是ROH、H2O、CH3、CH2、CH 的一倍频吸收区域[15]。试验的目的是区分不同年份、等级、沉香强弱的白酒,所以建模区域选择在4 833~6 846 cm-1,将有利于模型的建立。黄清霞等[16]建立了成品酒总酸和总酯的近红外模型,最佳波段为5 448~6 100 cm-1。高畅等[17]在对白酒基酒总酯定量分析的时候进行了波段筛选,最佳波段为5 804~6 100 cm-1。本文结果与报道的诸多近红外仪器检测白酒的文献一致,其最佳光谱选择范围在5 000~6 400 cm-1。
图2 白酒基酒样品的近红外波长选择图谱Fig.2 Near infrared wavelength selection spectra of Baijiu base liquor samples
2.4.1 白酒年份模型
图3(a)所示是不同预处理方法的R2c的变化情况,可以看出LSSVM的R2c值明显高于另外3种方法(R2c越接近1,表示预测结果越好);图3(b)是不同预处理方法的RMSEC的变化情况,可以看出LSSVM的RMSEC值明显低于另外3种方法(RMSEC越小,表明建模回归得越好);图3(c)是不同预处理方法的R2p的变化情况,在相同预处理条件下LSSVM的R2p值略高于其他3种方法;图3(d)是不同预处理方法的RMSEP的变化情况,LSSVM的RMSEP值明显低于另外3种方法,RMSEP越小,结果越准确;图3(e)是不同预处理方法RPD的变化情况,RPD越大,准确性越高,通常认为,若RPD>5,表明模型的预测结果可以接受;若RPD>8,表明模型预测准确性很高;若RPD<2,表明预测结果不可接受[18]。综上所述,选择LSSVM建模方法,预处理方式为SNV,RPD值明显高于其它预处理方式。彭帮柱等[19]在使用近红外光谱仪结合PLS检测白酒酒精度的研究中,表明SNV和MSC预处理方法与1d相结合,模型的预测值和实际值达到了极显著水平,其建模效果明显优于其他预处理方法。这与本试验的结果一致。刘建学等[20]在近红外模型的建立中,乙酸的最佳预处理方法为1d+SNV,而己酸的最佳预处理方法为1d。这表明针对不同物质的研究,其最佳的预处理方法也存在差异。
图3 基于不同预处理方法对白酒年份样品的每个目标组分进行比较的预测结果Fig.3 Comparison of predicted results for each target component of Baijiu year based on different pretreatment methods
如图4所示,白酒年份校正模型的真实值与预测值基本一致,其中R2c与R2p达到98.63%与56.72%,RMSEC与RMSEP达到0.042 1与0.344,RPD 达到 23.75。熊雅婷等[21]使用 CARS-PLS分析白酒酒醅成分表明,酒醅水份、淀粉、酸度和酒精度的R2分别达到79.21%,81.51%,91.51%,88.26%;RMSEP分别为61.31%,50.92%,22.83%,23.41%。张卫卫等[22]在检测白酒基酒中的乙醛时发现,乙醛的R2c与R2p达到96.34%与52.22%,RMSEC与RMSEP达到0.132 1与0.236 5,RPD达到10.65。上述结果表明:所建模型的决定系数较高、标准偏差较小、误差较小,可靠可行。
图4 白酒年份的真实值与预测值的相关性Fig.4 Correlation between true value and predicted value of Baijiu year
2.4.2 白酒等级模型
从图5(a)可以看出相同预处理条件下LSSVM的R2c值明显高于另外3种方法;从图5(b)可以看出LSSVM的RMSEC值明显低于另外3种方法;图5(c)是不同预处理方法的R2p的变化情况;图5(d)中LSSVM的RMSEP值明显低于另外3种方法;图5(e)中LSSVM的RPD值明显高于另外3种建模方法,在LSSVM下其1d+SNV的RPD值明显高于其它预处理方式。综上所述,选择LSSVM建模方法,预处理方式为1d+SNV。诸多白酒检测文献都表明,1d、2d和SNV、MSC相互结合,建模效果明显优于其他预处理方法,这可能是由于近红外仪器对不同物质的吸收波段和吸收的强弱有差异,所导致的结果[23]。如邹胜琼等[24]使用中红外快速检测白酒基酒中总酯的含量时表示1d对模型的处理效果良好,但是如果将1d与SNV相互结合,其R2c将会更高,模型更加稳定和准确。段学等[25]在使用近红外检测白酒基酒时也得到了相同的结论。
图5 基于不同预处理方法对白酒等级样品的每个目标组分进行比较的预测结果Fig.5 Comparison of predicted results for each target component of Baijiu grade sample based on different pretreatment methods
如图6所示,白酒等级校正模型的真实值与预测值基本一致,其中R2c与R2p达到99.56%与58.17%,RMSEC与RMSEP达到0.022 1与0.213 4,RPD达到44.72。董新罗等[26]检测白酒基酒中的同类物质时发现,其R2c达到91.3%。张斌[27]在检测白酒中的邻苯二甲基二丁酯时,发现其R2c达到90.5%。本文的R2c达到99%以上,明显优于之前的文献报道;RMSEC在0.02以下,说明模型具有稳定性;RMSEP在0.2以上,表明模型具有重复性[28-29]。
图6 白酒等级的真实值与预测值的相关性Fig.6 Correlation between true value and predicted value of Baijiu grade
为验证所建模型的可靠性,选择6个未用于模型建立的白酒样品,进行模型的验证。结果真实值与近红外预测值完全一致,表明所建模型可以用于区分不同年份和等级的白酒样品。
本文采用近红外光谱技术对白酒基酒的年份、等级进行建模分析,通过不同的预处理方法结合 PLS、CARS-PLS、LSSVM、NN 的建模方法建立一个稳定、准确的模型。经试验,白酒基酒中典型醇和脂的特异吸收范围在4 833~6 846 cm-1,并分别建立年份、等级的近红外模型,确定LSSVM模型是最佳的建模方法,年份和等级的近红外模型最佳的预处理方法分别为SNV和1d+SNV。模型的预测结果符合白酒工业的要求,可以为代替传统的分析方法提供理论依据。