刘青茹,孟连君,张晓娟,翟伟绩,柴丽娟,陆震鸣,,许泓瑜,王松涛,张宿义,沈才洪,史劲松,许正宏,*
(1.江南大学生物工程学院,江苏 无锡 214122;2.江南大学 粮食发酵与食品生物制造国家工程研究中心,江苏 无锡 214122;3.江南大学生命科学与健康工程学院,江苏 无锡 214122;4.国家固态酿造工程技术研究中心,四川 泸州 646000)
国外葡萄酒、白兰地、威士忌等酒类产品的等级概念与年份酒密不可分,20世纪末,白酒中开始出现“年份酒”的概念[1]。白酒酿造技术多元化,但一般的流程可以概括为3 个基本步骤:发酵、蒸馏和陈酿[2-3],陈酿是白酒品质提升的重要环节之一。白酒价格与贮存时间的关系逐渐密切,其年份鉴定对于保障消费者和酒企权益、维持市场健康发展、促进白酒科学研究均具有重要价值[4-5]。
张宿义等[6]利用气相色谱-质谱(gas chromatographymass spectrometry,GC-MS)技术统计了1、2、3、5 a泸型酒中挥发性成分的变化规律,发现随着白酒储存时间的延长,酯类物质含量大体呈现下降趋势,3 a之后趋于平衡;酸类物质逐渐增多,而醇类物质几乎保持稳定,醛类物质随着酒龄的增加呈先减少再增加的规律。仝建波等[7]通过GC-MS技术分析了不同酒度浓香型白酒中挥发性化合物随贮存时间变化,在高度酒中,主要风味物质为己酸乙酯、乙酸乙酯和乳酸乙酯,且均随着贮存时间的延长而减少,其对应酸类化合物上升;而在低度白酒中呈现相反规律,酯类物质上升,酸类物质减少。孟望霓等[8]采用液液萃取结合GC-MS技术解析了不同酱香型白酒储存1 a周期内的主要挥发性成分的含量变化,发现酸类物质和醛酮类物质在1 a贮存期内对酒体影响较大。Zhu Lin等[9]研究老五甑酒陈酿1 a内的变化规律发现,乙酯、醛和酸等大多数芳香化合物(香气活力值大于1)在同一时期内含量增加,而壬醛、2-苯乙酸乙酯、苯甲酸乙酯、4-乙基愈创木酚、丙醇和3-甲基-1-丁醇在贮存365 d后含量下降。唐贤华等[10]通过分析贮存6、12、18、24 个月和30 个月的浓香型白酒中挥发性化合物发现,醛类物质含量在储存半年到两年时间内减少,而酸类物质含量则持续下降,酯类物质呈现下降趋势且在1 a时间后趋于平衡。Jia Wei等[11]采用超高效液相色谱单四极杆Orbitrap高分辨质谱对0~19 a的凤酒进行研究发现,除5-氟-2,3,4-三氯苯甲酸含量下降外,10种酯类、6种有机酸、8种氨基酸、11种生物活性成分和9种其他成分随陈酿年限的增加均表现出显著的上调趋势。
学者研究结果各异,白酒年份判别仍为技术难题。白酒贮存容器多用陶坛、玻璃等,较难通过外源物质溶出量进行鉴别;陈酿过程中多种物理、化学反应导致酒体内部物质发生变化[1],酒体物质组成的变化规律是鉴定的重要突破口,但其多菌种固态发酵技术使得约2%的微量成分中已检出超过2 400种化合物[12-14],其中绝大多数为挥发性,近几年随着检测技术的发展,不挥发性组分的研究逐渐进入人们的视野[15-16],复杂的物质组成导致分析难度大;此外,工艺、产地、原料、气候等多种因素形成风格多元的白酒,白酒指纹图谱的噪音清洗和年份特征化合物的筛选难度较大。白酒贮存时间和物质组成之间的关联研究仍处于摸索阶段。
白酒是蒸馏酒,绝大多数物质为挥发性化合物,因此,目前挥发性化合物仍然是白酒物质基础解析的重要对象,主要采用GC-MS联用技术及其相关高配升级设备进行分析,具有信息量大、特异性好、进样量少、定性定量准确、适应范围广等优点。其前处理方法包括直接进样[17]、液液萃取[18]、固相微萃取[19]、搅拌棒吸附萃取[20]、同时蒸馏萃取[21]、静态顶空[22]等,各有优劣。其中顶空固相微萃取(headspace-solid phase microextraction,HSSPME)技术[23],操作简便、处理速度快,有利于白酒鉴定技术的推广,因此本研究以其为数据采集方法。
GC-MS指纹图谱包含较多物质信息,因此需要进行复杂的统计分析、运算,机器学习是很好的选择。机器学习在基于复杂参数的去噪筛选、模型建立和预测方面展示了较高的优越性[24-25],国内外研究者已在疾病预测、气候监测预测等复杂体系的鉴别和预测方面对其有较成熟的应用。基于学习方式对机器学习进行分类,可以大致分为监督学习、非监督学习和强化学习。监督学习的原理是利用有标签的样品构成训练集,运用算法进行学习,再用模型对未知测试集进行预测[26-28],它包含两类主要问题[29],一种是分类问题,用于预测非连续、离散型数值,简单来说就是预测样本属于哪一类;一种是回归问题,用于预测连续具体的数值(图1)。
图1 监督学习过程Fig. 1 Supervised learning process
对白酒贮存时间进行鉴别和预测就是回归问题,因为时间是连续、具体的变量。模型众多,本研究选用的极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法因适用性高,无需构造高精度的回归分析,通过反复调整参数就可以得到较好的组合回归模型而被广泛运用于回归问题中[26]。苏天培[30]利用XGBoost算法建立模型,利用血糖含量实现对白血病的预测。刘宇等[31]基于XGBoost算法以多项指标作为变量建立模型实现对心脏病的成功预测。张永梅等[32]提出一种基于XGBoost算法的特征提取和预测方法,实现对雾霾的短时预测。但是,目前鲜见基于机器学习对白酒贮存时间进行鉴定和预测的相关研究和应用。因此,本研究采用GC-MS联合XGBoost机器学习进行年份鉴定的探索。
XGBoost是基于梯度提升树实现的集成算法,是一种加法模型,通过不断迭代从而使模型的误差不断减少,其中,每一次迭代都会根据上一次迭代的预测结果对样本进行加权处理,从而对当前轮次中的子模型进行优化。假设已经训练了K棵树,则对于第i个样本的最终的预测值为[33]:
式中:xi为样本的特征;fk(xi)为用第k棵树对xi样本进行预测,将结果相加即获得最终的预测值而该样本的真实值为yi,因此该算法下,共n个样本的目标函数为:
该算法的优点主要包括:1)实现了并行化运算,加快了训练模型的速度;2)目标函数中引入了正则项,控制了模型的复杂度,可以有效避免模型的过拟合;3)XGBoost作为一种集成算法,不仅支持二叉树作为基分类器,还支持线形模型。但是,XGBoost算法在每次迭代之前,需要对结点的特征进行预排序、遍历,从而选择最优的分割点,这便导致了该算法在训练时具有耗时的缺点。
白酒挥发性化合物之间存在关联,部分化合物对白酒年份鉴定并无显著影响。因此可以通过筛选特征化合物减少模型输入数据,减少运算量,从而一定程度上弥补XGBoost的缺点,一般的特征筛选过程如图2所示,首先,对包含所有化合物相对含量的全数据集进行特征选择,去除冗余特征,降低复杂度,然后随机将数据分为两部分,分别用于测试和训练,用训练数据结合数学理论构建模型,同时用测试数据对模型性能进行测试和改进。
图2 监督学习模型特征筛选和建模过程Fig. 2 Feature selection and establishment of supervised learning model
本研究采用HS-SPME-GC-MS技术采集白酒挥发性指纹图谱,联合极端随机森林(extremely randomized trees,Extra-Trees)的变量重要性排序、sklearn特征选择模块中的单变量线性回归测试(F_regression)以及连续目标变量的互信息(mutual_info_regression),寻找合适的时间指示化合物,通过XGBoost算法建立回归模型对白酒贮存时间进行预测,旨在为白酒乃至其他乙醇类饮料的贮存时间预测提供新思路。
不同贮存时间白酒基酒样品由四川省泸州老窖有限公司提供,样品均在实验室条件下贮存。在基酒贮存的不同时间节点取样检测,共计检测70 款基酒挥发性成分,70 款基酒包括7 个批次基酒分别在10 个时间点取样检测。具体酒样信息和检测时间见表1。
表1 白酒基酒信息Table 1 Information about base baijiu samples
叔戊醇、正构烷烃(C8~C40)、辛酸乙酯、丁酸乙酯、庚酸乙酯、乙酸乙酯、癸酸乙酯、壬酸乙酯、十二酸乙酯、乙酸己酯、异戊醇、异戊醛、正己醇、3-甲基丁酸乙酯、十四酸乙酯、十六酸乙酯、壬醛、己酸甲酯、己酸、2,4-二叔丁基苯酚、苯甲醛、己醛、异丁醇、油酸乙酯、乙酸-2-苯乙酯、乙酸-3-甲基-1-丁醇、辛酸、乳酸乙酯、乙醇、甲醇(均为色谱纯或大于98%纯度),购自Sigma Aldrich公司、上海阿拉丁生化科技股份公司;氯化钠(优级纯) 中国国药上海化学试剂公司。
1.3.1 挥发性成分的指纹图谱采集
1.3.1.1 酒样预处理方法
所有样品于20 ℃保存。分析之前,用超纯水将酒样乙醇体积分数稀释至8%,取4 mL稀释后样品置于20 mL顶空瓶中,加入1.5 g氯化钠和10 μL叔戊醇内标(8.05 g/L)进行下一步的挥发性成分采集。
1.3.1.2 HS-SPME条件
采用实验室前期优化条件[34],使用三相萃取头80 μm DVB/Carboxen/PDMS在50 ℃平衡5 min,然后在50 ℃,350 r/min转速萃取40 min。最后在250 ℃进样口解吸附5 min完成进样。
1.3.1.3 GC-MS条件
TG-WAXMS毛细管色谱柱(60 m×0.25 mm,0.25 μm);载气:纯度大于99.999%的He;流速:1.0 mL/min,分流比:20∶1;柱温:进样口温度保持在250 ℃,起始气相色谱柱在50 ℃维持2 min,以3 ℃/min升温至145 ℃,再以15 ℃/min升温至230℃,并保持3 min。
离子源温度260 ℃;接口温度200 ℃;电离方式:电子电离正离子模式;电子能量70 eV;扫描质量范围m/z33~350。
1.3.2 化合物定性方法
首先利用仪器自带的MASS HUNTER(B.08.00)软件对采集的数据进行解卷积,通过比对质谱库(NIST)仅保留匹配相似度大于700的定性结果,并手动过滤掉柱流失产生的化合物(主要是含硅和卤素的化合物)。采用与样品采集完全相同的参数进行正构烷烃混标(C8~C40)测定,计算保留指数(retention index,RI)。将本实验条件下对化合物计算出的RI(RI cal)与文献中该物质的RI(RI lit)对比进一步定性,由于实验条件、仪器等因素会造成差异,认为RI cal和RI lit相差30以内时定性结果准确。最后,使用可获得的91种物质标准品用于第3次定性。
1.3.3 特征化合物筛选及XGBoost模型构建方法
特征值筛选及模型构建均使用Anaconda Navigator运行Python代码实现分析和可视化。采用10折交叉验证避免XGBoost的过拟合,当预测结果已经很好时可提前停止建树,这有助于提高训练速度[35]。基于XGBoost算法建立白酒贮存时间回归预测模型,通过Extra-Trees、F_regression以及mutual_info_regression进行特征值筛选,所用Python代码已上传至https://github.com/seaflyru/-/tree/main。具体建模思路如图3所示。
步骤1):采用全指纹图谱作为输入数据集进行特征筛选和建立XGBoost回归模型。根据样本个数按照4∶1的比例随机将数据集划分为训练集和测试集,训练集的数据用于特征值筛选和模型的建立,测试集的数据用于样品贮存时间预测。步骤2)~4)均只使用训练集。
步骤2):基于不同特征值算法进行特征重要性排序。通过Extra-Trees的变量重要性排序、sklearn特征选择模块中的F_regression以及mutual_info_regression筛选对白酒贮存年份影响显著的物质,其主要目的就是缩小数据集,优化模型参数,通过上述分析可得到3 组特征变量的重要性排序。
步骤3):特征值筛选。分别取步骤2)的3种方法特征变量的前i(25~80)个特征的交集作为XGBoost 回归模型的特征变量,采用10折交叉检验进行模型优化,模型预测准确性降低或不再增加时的交集为代表性特征。
步骤4):模型建立及评估。以步骤3)所得的代表性特征为输入数据集,以均方误差(mean squared error,MSE)和R2值评估模型性能获得最优模型参数,建立进行白酒贮存时间临时性鉴别的XGBoost回归模型。
步骤5):年份鉴别测试。将测试集数据的代表性特征值作为数据集输入模型预测样品的贮存时间,以R2和MSE的形式输出预测结果。
随着工艺技术的不断提高,嵌入式SRAM的稳定性在设计和测试领域内也越来越受到广泛关注。对于低电压SRAM中的稳定性故障,由于开路电阻在一定范围内很难通过传统测试方法检测出来,因此,需要增加专门的DFT电路来进行测试。
图3 白酒贮存时间鉴别模型建立过程示意图Fig. 3 Flow chart for the establishment of a predictive model for baijiu age
采用GC-MS法进行白酒样品测定,总离子流图如图4所示。经过定性去噪后贮存2 a的白酒基酒中共分离鉴定得到98种挥发性化合物(图5),其中醇类物质6种、醛类物质9种、酸类物质7种、酯类物质68种、酮类物质3种、其他物质5种,在这些化合物中酯类物质数量最多(约70%),这一结果与前人的研究一致[36]。化合物相对含量变化存在非简单线性增减的规律,且变化不显著的噪音物质较多,因此,特征筛选和机器学习对贮存时间判别十分重要。
图4 代表性样品的总离子流图Fig. 4 Total ion current chromatogram of representative sample
随机将白酒样品按照4∶1的比例划分为训练集和测试集,训练集用于模型的建立,测试集用于模型的预测。通过特征值工程可以计算每个特征变量对模型的贡献度,从而判断哪些特征变量对于白酒贮存时间的鉴定更为重要。本研究运用Extra-Trees的变量重要性排序、sklearn特征选择模块中的F_regression以及mutual_info_regression这3种方法分别筛选重要的特征变量,得到各化合物的3 组重要性排序(图6)。
图5 贮存2 a白酒基酒的挥发性物质相对含量热图Fig. 5 Heatmap of the relative contents of volatile substances in base baijiu stored for two years
图6 3种方法筛选白酒挥发性成分中的特征变量Fig. 6 Filtration of feature variables of volatile components in baijiu by three methods
Extra-Trees是2006年PierreGeurts等提出的算法,由许多决策树集成[37]。每棵决策树都使用全部训练数据集进行完全随机的计算实现决策分叉,在随机的情况下某一特征值对于模型鉴别仍然表现出很强的区分度,即变量重要性(variable importance in projection,VIP)得分高,则该特征值对模型准确性贡献大。F_regression是基于单变量线性回归测试原理,适用于特征筛选过程中对多个回归变量各自的线性拟合效果进行得分转换,分两个步骤完成,首先计算每个回归变量与目标之间的线性相关性,然后将其转换为F得分,F得分越大则该变量对鉴定的贡献越大[38]。mutual_info_regression是基于邻近算法的熵估计出一个互信息(mutual information,MI)。MI用来衡量两个随机变量间的依存关系,当且仅当两个变量是独立的,MI才为零值。一个变量的MI值越大时,该变量与其他随机变量的相关性越强,越具有代表性[39]。
根据Extra-Trees重要性评估结果(图6a)可以看出,油酸乙酯是最重要的特征变量,其次是2,6-二叔丁基-4-甲基苯酚和亚油酸乙酯,这一结果与本实验室前期研究发现的时间指示性化合物吻合[34]。根据F_regression结果(图6b)可以看出,油酸乙酯是筛选到的最关键特征,其次是亚油酸乙酯和2-十五烷酮,进一步证实了油酸乙酯作为时间指示性化合物的有效性。mutual_info_regression结果(图6c)可以看出,己酸-2-苯乙酯被认为是最重要的化合物,这一物质也是前期筛选到的时间指示性化合物之一,其次是乙酸辛酯和己酸异戊酯。
图7 特征子集筛选Fig. 7 Feature subset selection
取每种方法前25~80种特征变量的交集,采用10折交叉验证评估所建模型的拟合程度。从图7a可以看出,最有效的建模特征为3种筛选方法前59 个特征中共有的特征。将3种方法的前59 个特征变量进行Venn分析可得到共性化合物32种(图7b、表2),其被认为是最有效的建模特征,以此特征变量交集建立最终的XGBoost分类预测模型。该32种特征化合物列表和在3种筛选方法的最终得分如表2所示。
表2 32种特征化合物及其在3种筛选方法中的得分Table 2 Scores for 32 compounds determined by three screening methods
对于使用32种特征化合物建立的回归模型,采用MSE和R2值评估模型性能,结果如图8所示,模型R2可达到0.987,MSE为1.044,该结果说明该模型稳定可靠,具有预测白酒贮存时间的能力。
图8 预测结果和模型评估Fig. 8 Good agreement between model predictions and actual values
采用HS-SPME-GC-MS技术分离鉴定白酒基酒的挥发性指纹图谱,70 个不同贮存时间的基酒共鉴定出98种挥发性成分,其中醇类6种、醛类9种、酸类7种、酯类68种、酮类3种、其他类5种。基于XGBoost算法,联合Extra-Trees、F_regression、mutual_info_regression 3种特征值筛选手段,最终采用以油酸乙酯为首的32种特征化合物作为建模变量,建立回归模型对白酒贮存时间进行临时性鉴别,模型的R2评估结果为0.987,表明该模型可靠,为白酒酒龄的判断提供了新思路。