唐云容,庞 臻,钟 敏,路 虎,潘成康,文 永,李子文*
(1.贵州习酒股份有限公司,贵州 遵义 564622;2.中国食品发酵工业研究院有限公司,北京 100015)
白酒作为我国特色的酒种,位列世界三大蒸馏酒之一,深受消费者喜爱[1]。而根据地域及酿造工艺的不同,白酒逐渐形成了当前以酱香型、浓香型、清香型为代表的十二种香型,其中酱香型白酒以其酱香突出、优雅细腻、酒体醇厚、回味悠长的特点在近年来备受市场青睐[2]。传统酱香型白酒严格遵守“12987”工艺,在一年的制作周期中经历7次取酒,各轮次酒经过盘勾、分级分类贮存后重新组合,使得酱香型白酒风味成分更加复杂、独特[3-5],因此其酒体品质与各轮次基酒的质量密不可分,对轮次酒进行品质检测一直是各大酱香酒厂对于产品品质把控的重点[6-7]。总酸和总酯作为影响轮次酒品质的重要指标,当前国标GB/T 10345—2022《白酒分析方法》所规定的检测方法为指示剂法,尤其是总酯的检测方法中需要经过加热回流使酯类皂化,整体复杂耗时,对分析人员的操作水平有一定要求,行业中迫切需要一种准确、稳定的方法能够快速得到分析结果,便于对轮次酒的酒体品质进行把控[8-10]。
中红外光谱技术作为能够实现快速检测的分析技术,具有中红外峰型尖锐、检出限比其他光谱低1~3个数量级的特点,将其应用于液体酒类主要指标的定量研究中[11-13]。中红外光谱技术用于测量基础酒,无需使用药品试剂、对照品,无需样品预处理,是一种快速、省时、经济和环保的检测方法[14]。但目前关于液体白酒关键成分快速分析方面的研究仍较少,且基本集中在构建浓香型白酒指标的快速分析模型方面[15-16],同时研究数据量较少,也并未对白酒关键指标分析模型的构建优化进行深入的研究分析[17-18]。
本研究拟采用中红外光谱分析技术结合化学计量学方法对酱香型白酒轮次酒中关键品质指标总酸及总酯含量进行建模分析,采用标准正态变量(standard normal variate,SNV)对光谱进行预处理,同时应用遗传算法(genetic algorithms,GA)分别结合偏最小二乘法(partial least squares,PLS)及最小二乘支持向量机(least squares-support vector machine,LS-SVM)建立定标模型,探究中红外建模波段优化及建模算法对于模型性能的改善情况,为中红外光谱模型优化及酱香型白酒轮次酒品质指标的快速分析提供参考依据。
本实验共收集酱香轮次酒样品(2022年度1~7轮次)995个,由贵州习酒股份有限公司提供。
无水乙醇、氢氧化钠、浓硫酸(均为分析纯):天津市科密欧化学试剂有限公司;酚酞(分析纯):天津市大茂化学试剂厂;邻苯二甲酸氢钾标准品(纯度≥99.99%)、无水碳酸钠标准品(纯度≥99.95%):中国计量科学研究院;调零剂、清洁剂:珀金埃尔默仪器有限公司。
Lacto-Scope FT-B傅里叶变换红外光谱仪(红外光谱仪配套软件Result Plus):美国PerkinElmer公司;XSR205DU电子天平:梅特勒(托利多(上海)有限公司;HH-8数显恒温水浴锅:江苏科析仪器有限公司;SX2-4-10箱式电阻炉:沪南电炉烘箱厂;DHG-9070B电热恒温鼓风干燥箱:上海培因实验仪器有限公司。
1.3.1 总酸及总酯的检测
总酸含量:根据GB 12456—2021《食品安全国家标准食品中总酸的测定》中的第一法酸碱指示剂滴定法进行测定;总酯含量:根据GB/T 10345—2007《白酒分析方法》中的指示剂法进行测定。
1.3.2 中红外光谱的扫描条件
为确保仪器光谱采集的准确及稳定性,在打开红外光谱仪预热40 min后,对设备管路进行自动清洗工作,待清洗工作完成后进行设备调零,通过后开始对轮次酒样品的光谱进行采集工作,仪器检测器类别为DTGS,透射样品池直径为36 μm,光谱扫描范围为4 000~397 cm-1,仪器分辨率为8 cm-1,扫描次数为32次,每个样品无需进行前处理,利用配套软件Result Plus设置自动进样,光谱扫描3次,取3次光谱平均值作为该样品的最终光谱数值。
1.3.3 建模样本集的选择
本实验在对轮次酒样品数据进行筛选后,对4个光谱谱型明显异常的样品光谱进行了剔除,同时随机保留100个样品构成独立预测集,不参与模型构建,用于对最终的模型预测效果进行验证判断。在上述基础上,以2∶1的分配比例对剩余891个轮次酒样品进行校正集及验证集样品划分,为保证校正集样品的代表性,本实验采用Kennard-Stone(K-S)法[19]通过对样品间的马氏距离进行计算,依次选择相对最长距离所对应的样品,最终确定校正集样品594个,剩余297个作为验证集样品参与模型构建。校正集、验证集样品数量及各集合总酸、总酯含量值统计结果见表1。
表1 校正集与验证集统计结果Table 1 Statistical results of calibration set and validation set
1.3.4 特征变量选择及定标模型建立
本实验采用遗传算法(GA)[20]对酱香轮次酒红外光谱中总酸及总酯的特征吸收波长进行选取(GA运行参数设置为:初始种群大小30,变异概率Pm=0.01,交叉概率Pc=0.5,最大因子数10,共进行遗传迭代100次,最终以交叉验证均方差(root mean square error of cross validation,RMSECV)值确定出最优建模波长。遗传算法是一种源于物种自然选择与遗传原理的随机搜索与优化方法,方法在运行过程中会对有利于目标属性的特征子集进行选择,并且在逐代分类中均选择当前最优的特征集合,进行繁殖、交叉、变异等重要步骤并不断循环,直至给出最终优化结果。在特征变量优化后,实验分别采用偏最小二乘法(PLS)及最小二乘支持向量机(LS-SVM)[21]算法建立两项指标的定标模型,并对模型的各项指标性能进行对比评价。
1.3.5 数据处理与分析
GA及LS-SVM算法运算均在MATLAB环境下运行,SNV预处理及PLS模型运行通过UnscramblerX10.3光谱分析软件进行实现,定标模型的准确度与稳定性通过决定系数R2、预测均方根误差(root mean square error of prediction,RMSEP)及相对分析误差(relative percent deviation,RPD)来评价。R2越接近1,RMSEP越接近0,RPD越大,表明模型分辨能力越高、效果越好[22]。
酱香型轮次酒样品的中红外光谱原始数据图见图1。由图1a可知,基酒样品在397~4 000 cm-1的中红外谱区中谱型明显、有明显的吸收,但可能由于散射等方面的影响,光谱在Y轴方向存在基线漂移的现象,同时可发现光谱在400~918 cm-1、1 041~1 095 cm-1、1 616~1 678 cm-1及3 050~3 600 cm-1区域存在较为明显的噪声,可能是由于基酒样品中占据主要含量的水及乙醇的强吸收所造成的,如水分子以700 cm-1左右为主峰的摇摆振动宽吸收带、1 645cm-1处变角振动的吸收谱带、3 400 cm-1附近伸缩振动的宽吸收带以及乙醇分子1 050~1 090 cm-1处饱和醇中C-O键的伸缩振动等[23]。由图1b可知,经标准正态变量(SNV)预处理后的基酒光谱的基线漂移现象得到了解决,同时各样品的光谱差异更为明显,吸收峰强度也得到了增强,有利于对光谱进行进一步的分析处理。
图1 酱香型白酒基酒样品的原始(a)及经标准正态变量预处理(b)的中红外光谱图Fig.1 Mid-infrared spectra of the original (a) and pre-treated with standard normal variables (b) of the base liquor of sauceflavor Baijiu
在剔除上述4段明显的噪声区域后,本实验采用遗传算法对基酒光谱中总酸及总酯两项指标的特征吸收波长分别进行选择。遗传算法在运行过程中各波长变量被选用的频次图见图2。
图2 各变量被选用的总酸(a)、总酯(b)频次图Fig.2 Plots of the frequency of total acid (a) and total ester (b)selected for each variable
由图2可知,总酸及总酯两项指标的运行结果均根据最小RMSECV值选择了被选用频次4次波长点以上的样品数分别共计38、25个,分别占全光谱935个样品数的4.0%和2.7%。
采用偏最小二乘法(PLS)分别结合剔除明显噪声区域的光谱及经GA优选的特征波长建立总酸及总酯的定标模型,PLS模型性能评价结果见表2。
表2 白酒基酒总酸、总酯不同偏最小二乘法模型性能评价结果Table 2 Performance evaluation results of different partial least square model of total acid and total ester in Baijiu base liquor
由表2可知,在采用对明显噪声进行剔除后的光谱区域建立的PLS模型效果较好,总酸及总酯两项指标模型的相关系数R2>0.95,RPD值分别为5.84、6.38,达到了实际生产模型的初步使用要求。而采用经SNV预处理后光谱建立的模型效果更好,RMSEP值分别由0.063及0.103降低至0.056、0.097,R2分别由0.971、0.980提升至0.977、0.982,RPD值分别由5.84、6.38提升至6.57、6.78,代表预处理方法对光谱质量的提升有一定效果。
采用GA筛选特征建模变量后建立的PLS模型效果有进一步的提升,相关系数R2分别提升至0.987、0.983,RMSEP值分别降低至0.041、0.091,为全谱建模效果的65.1%、88.3%。与此同时,经特征筛选后的建模变量数有了极大程度地减少,建模主成分数也有一定程度的降低,代表模型的准确度及稳定性均得到了提升,充分表明了采用遗传算法对建模变量进行特征选取对于中红外定量模型构建的可操作性,同时能够采用挑选的少量波长完成样品的分析目标,也有利于降低光谱仪的制造成本,便于技术在白酒行业中的推广[24]。
GA算法选择的总酸、总酯光谱图见图3。由图3a可知,经过上述遗传算法优选总酸及总酯的特征波长在整个红外谱区的分布位置,图中红色三角所标注的点位即为针对两项指标优选出的特征建模变量,与C=O、C-O等酸酯中主要官能团的基频振动吸收相对应,如2 500~2 700 cm-1羰基COOH的O-H伸缩振动所带来的弥散吸收谱带,1 310 cm-1附近羧酸的C-OH伸缩振动特征谱带以及(1 740±10)cm-1处饱和脂肪酸酯的羰基伸缩振动强吸收、1 240~1 290 cm-1处酯类与C=O相连的C-O伸缩振动吸收、1 040~1 010 cm-1处与烷基相连的C-O伸缩振动吸收等[23],均体现出了白酒基酒样品总酸及总酯的特征吸收[23]。
图3 遗传算法选择的总酸(a)、总酯(b)中红外光谱图Fig.3 Mid-infrared spectra of total acid (a) and total ester (b)selected by genetic algorithm
采用最小二乘支持向量机(LS-SVM)结合遗传算法优化的特征变量建立模型,选用径向基函数(radial basis function,RBF)作为核函数,用于减轻模型建立过程中的复杂性,同时实验采用耦合模拟退火算法和留一交叉验证法对RBF的正则化参数γ以及核参数σ2进行确定,以最优(最小)RMSEP值为判断依据,保证模型的灵敏度及泛化性[25]。白酒基酒总酸、总酯的最小二乘支持向量机(LS-SVM)建模结果见表3。
表3 白酒基酒总酸、总酯的最小二乘支持向量机建模结果Table 3 Modeling results of least-squares support vector machinefor total acids and esters of base liquor
由表3可知,LS-SVM的建模效果较好,总酸及总酯两项指标模型的R2分别为0.994、0.987,预测均方根误差(RMSEP)分别降低至0.031、0.082,相对分析误差(RPD)值分别为11.94、8.05,RPD值均>8,代表模型的准确度较好。为了将LS-SVM及上述表现较好的GA-PLS模型效果更为清晰的进行对比,对相关系数R2、RMSEP及RPD进行比较,结果见图4。
图4 偏最小二乘法模型与最小二乘支持向量机模型相关系数(A)、预测标准偏差(B)、相对分析误差(C)对比Fig.4 Comparison of correlation coefficient (A), prediction standard deviation(B),and relative percent deviation(C)of the model by partial least square and least square support vector machine
如图4所示,可以发现对于总酸及总酯模型的三项评价指标,LS-SVM均比PLS模型体现出了更好的效果,代表LS-SVM模型的准确度更佳。可能是由于LS-SVM作为一种在经典向量机基础上发展的非线性建模方法,能够进行线性及非线性的多元建模,可以更好地利用样品光谱间的非线性信息,在模型构建过程中提升特征变量与总酸及总酯指标含量间的相关性,优化模型的定标效果。
将随机保留、不参与模型构建的100个独立预测集样品光谱分别代入至总酸及总酯指标的LS-SVM定标模型中进行预测,并将得到的样品模型预测值与传统理化值数据绘制模型预测效果图见图5。由图5可知,可发现两项指标独立预测集数据紧密围绕在标准拟合线两侧,并且经过成对t检验(P>0.05),两项指标预测值与理化值数据并无明显差异。总酸及总酯验证数据的R2分别为0.993、0.985,RMSEP分别为0.036、0.089,代表采用中红外分析技术结合化学计量学方法建立的预测模型分析结果准确,可应用于实际生产使用中。
图5 基于最小二乘支持向量机模型总酸(a)、总酯(b)预测效果图Fig.5 Prediction of total acid (a) and total ester (b) based on least square support vector machine model
本研究采用红外光谱分析技术结合化学计量学方法对酱香型白酒轮次酒中的关键品质指标总酸及总酯含量进行快速分析,采用遗传算法(GA)对特征吸收波长进行变量选取,并分别结合偏最小二乘法(PLS)及最小二乘支持向量机(LS-SVM)建立定标模型。结果表明,光谱预处理方法能有效地提升样品光谱质量,同时采用优选出的特征变量建立的PLS模型效果更佳,提高模型精度的同时大幅减少了建模变量,而通过对PLS及LS-SVM模型建立方法进行比较发现,LS-SVM模型效果更佳,总酸及总酯模型的决定系数(R2)分别提升至0.994及0.987,预测均方根误差(RMSEP)分别降低至0.031、0.082,相对分析误差(RPD)值分别为11.94、8.05,表明采用中红外光谱结合化学计量学方法建立的定量分析模型准确度及稳定性较好,可快速检测酱香型白酒中的总酸和总酯含量,可应用于白酒实际生产过程的分析,为酱香型白酒酿造过程的快速监控提供技术方法和新的思路。