贾柳君,王健,张海红*,李子文,李宗朋,熊雅婷
(1.宁夏大学农学院,宁夏银川750021;2.中国食品发酵工业研究院,北京100015)
基于FT-NIR的葡萄酒发酵过程中挥发酸的定量分析
贾柳君1,2,王健2,张海红1*,李子文1,2,李宗朋2,熊雅婷2
(1.宁夏大学农学院,宁夏银川750021;2.中国食品发酵工业研究院,北京100015)
利用近红外光谱技术对葡萄酒发酵过程中挥发酸含量进行定量分析,通过偏最小二乘法建立葡萄酒发酵过程中挥发酸定量分析模型,同时采用间隔偏最小二乘法(iPLS)、后向间隔偏最小二乘法(BiPLS)、组合间隔偏最小二乘法(SiPLS)、竞争性自适应重加权算法(CARS)对整个谱区进行光谱特征变量筛选。以决定系数(R2)、校正标准偏差(RMSEC)、预测标准偏差(RMSEP)、相对分析误差(RPD)以及最佳主因子数为模型质量的评价指标。结果表明:进行变量筛选可对模型起到优化作用,提高识别精度,降低模型解析难度。其中CARS对模型的优化效果最佳,优化模型的决定系数R2达到0.868,RMSEC为0.033,RMSEP为0.032,RPD为5.31,有效简化了模型复杂程度,提高了模型稳定性和预测能力。
葡萄酒;挥发酸;近红外光谱技术;定量分析;波段筛选
葡萄酒以其丰富的营养成分,独特浓郁的香味闻名于世界,深受消费者的喜爱[1]。如今随着葡萄酒市场的发展,消费者对葡萄酒的质量有了更高的要求,而葡萄酒发酵过程中各项指标的变化对葡萄酒品质有着极为重要的影响,因此,酿酒企业对于葡萄酒发酵过程中各参数的实时监测尤为重视[2]。其中,葡萄酒发酵过程中挥发酸含量的变化,会对葡萄酒的风味及品质产生较大影响,随着挥发酸含量的增加,葡萄酒的酸味会逐渐增强,出现酸味压制其他味觉特征,成为主要味觉的现象,当挥发酸含量过高时,会导致葡萄酒很快丧失其特有的营养和风味特征,品质变差[3-4]。因此,实时检测挥发酸含量极其重要。而目前检测挥发酸含量的传统方法操作步骤繁多,过程复杂,费时费力,很难进行大量样品的在线快速检测,存在监测信息滞后,不具实时性等缺点[5]。因此,为了保证葡萄酒品质,寻找一种快速、准确的在线检测方法对葡萄酒发酵过程中挥发酸含量进行实时监测尤为迫切和重要。
近红外光谱技术具有分析速度快、检测效率高、操作简便、无需前处理且无污染、可完成生产过程的实时监测等优点,已应用到了食品、化工、药品、酿酒等许多行业[6]。目前,在葡萄酒快速检测方面,国内外学者进行了大量的研究。张树明等[7]用近红外光谱法结合化学计量学方法对葡萄酒发酵过程中葡萄糖、果糖、甘油、乙醇四个指标进行了定量分析,比较了主成分回归和偏最小二乘回归模型的预测能力。URBANO C M等[8]用近红外光谱法对葡萄酒发酵过程中的多个指标进行分析检测,采用偏最小二乘法和交互验证等方法建立模型,其中酒精度、总酸、pH值、乳糖等指标的判别系数>0.8。王豪等[9]用近红外光谱法对葡萄酒进行测定,利用偏最小二乘法建立了葡萄酒中酒精度的回归模型,模型的准确度高。以上研究均表明了近红外光谱技术可用于葡萄酒发酵过程中主要参数的检测,但在葡萄酒发酵过程中挥发酸指标的近红外研究较少,且未深入优化模型。
本研究拟对葡萄酒发酵过程中挥发酸含量进行快速无损检测,探讨分析间隔偏最小二乘法(interval partial least square,iPLS)、后向间隔偏最小二乘法(backward interval partial least square,BiPLS)、组合间隔偏最小二乘法(synergy interval partial least square,SiPLS)、竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)对葡萄酒发酵过程中挥发酸定量回归模型效果的影响,期望为葡萄酒发酵过程中挥发酸含量的在线检测提供一定参考依据。
1.1材料与试剂
本试验所用葡萄酒发酵液样品共356个,由某葡萄酒企业提供,采用透反射方式扫描采集葡萄酒发酵液的近红外光谱。葡萄酒发酵液中挥发酸含量根据国标GB/T 15038—2006《葡萄酒、果酒通用分析方法》,采用碱标准溶液滴定,再测定游离二氧化硫和结合二氧化硫,通过计算与修正得出。
1.2仪器与设备
Buchi N-500傅立叶变换近红外光谱仪:瑞士步琦有限公司;光谱仪光源为卤钨灯,检测器为温控InGaAs,配有高性能测量杯及透反射盖。光谱范围为4000~10000cm-1,分辨率为8 cm-1,扫描次数为32次;利用配套软件NIRWare Operator采集葡萄酒发酵液样品的近红外光谱信息。
1.3方法
1.3.1校正集与验证集的划分
在随机保留50个葡萄酒发酵液样本作为独立测试集的基础上,采用Kennard-Stone(K-S)法[10]以2∶1的比例将剩余306个样品进行样本集和验证集的划分。选择校正集样本204个,验证集样本102个。校正集与验证集的挥发酸值统计如表1所示。
表1 校正集与验证集统计结果Table 1 Statistical results of calibration set and validation set
1.3.2光谱预处理
为了消除近红外光谱中的干扰因素对模型的影响,提高模型稳定性与准确度,本实验采用标准正态变量变换(standardized normal variate,SNV)对光谱进行预处理。
1.3.3光谱变量选择
为了剔除无信息变量,降低模型简析难度,提升模型稳定性和准确度,本实验分别采用iPLS、BiPLS和SiPLS、 CARS法对全光谱1 501个变量进行优化选择,并结合偏最小二乘法(partial least square,PLS)法建立模型。选取决定系数(R2)、校正标准偏差(root mean square error of cross,RMSEC)、预测标准偏差(root mean square error of prediction,RMSEP)、相对分析误差(relative percent deviation,RPD)以及最佳主因子数来评价模型稳定性与预测能力[11]。决定系数R2越接近1,RMSEC与RMSEP越接近并且越小,则表明建立的模型效果越好,并且RPD一般>3[12]。
1.3.4数据处理与分析
iPLS、BiPLS、SiPLS、CARS等程序均在MATLAB环境下运行,偏最小二乘计算应用Unscrambler X10.3光谱分析软件(挪威CAMO公司)实现。
2.1光谱波段优选
2.1.1间隔偏最小二乘波段选择法优选特征变量
iPLS是将全光谱划分为k个均匀子区间,在每个子区间建立PLS模型,选择预测精度最高的回归模型所在的子区间为建模区间的方法[13]。本实验k的范围为10~40,间隔为5。经计算得出k为10时,iPLS得到的交叉验证均方差(root mean square error of cross validation,RMSECV)值最小,为0.054 7,波段筛选结果如图1所示,图1中纵坐标表示各波段交叉验证均方差(RMSECV),虚线则表示全光谱区建模时的RMSECV值。因此本实验挑选处于虚线以下的第3、4、5、6、7号波段建模。优化后模型所用到的变量数为750个,仅占全光谱的50%。
图1 各区间模型与全谱模型的RMSECV值比较Fig.1 Comparison of RMSECV between interval model and full spectrum model
2.1.2后向间隔偏最小二乘波段选择法优选特征区间
BiPLS是在全光谱划分成k个均匀子区间的情况下,每次去掉一个RMSECV值最大的子区间,在剩余区间建立模型,得到RMSECV值,重复进行至剩余一个子区间,最终选择RMSECV值最小的区间组合来建立模型[14]。经计算得出k为10时,BiPLS得到的RMSECV值最小,为0.045 2,波段筛选结果如表2所示,选择[2、10、9、8]波段建模。经筛选后所得变量数为600个,仅占全光谱的40%。
表210 个区间数的BiPLS优化结果Table 2 Optimized results of BiPLS in 10 intervals
2.1.3组合间隔偏最小二乘波段选择法优选特征区间
SiPLS是将全光谱划分成k个均匀子区间后,组合不同区间个数并建模,最终选择相关系数最大且RMSECV值最小的组合区间进行建模[15]。本实验k的范围为10~40,间隔为5,组合数范围为1~4。经计算得出k为10时,SiPLS得到的RMSECV值最小,为0.042 8,波段筛选结果如表3所示,选择[5、7、8、9]组合波段建模。筛选所得变量数仅为600个,占全光谱的40%。
2.1.4竞争性自适应重加权算法优选特征区间
表310 个区间数的SiPLS优化结果Table 3 Optimized results of SiPLS in 10 intervals
CARS在进行变量筛选时,保留回归系数绝对值大的变量,剔除回归系数绝对值小的变量,重复运行筛选出最佳变量子集[16]。图2(a)表示随着运行次数增加,变量数的下降趋势由前段快速减少到后段逐渐平缓,反映了CARS的“粗选”和“精选”过程;图2(b)表示交互验证均方差的变化趋势,前68次运行中RMSECV值逐渐减小,为0.040 8,68次之后呈逐渐增大的趋势,这是因为在运行68次时已基本剔除了与挥发酸含量无关的变量,其后开始剔除相关变量,导致出现RMSECV值增大的现象;图2(c)表示回归系数的变化趋势,与“*”相对的点为RMSECV值的最低点[17-19]。经CARS法筛选所得变量数为37个,如图3所示,仅占全光谱的2.5%。
图2CARS法关键变量选择结果Fig.2 Key variable selection results by CARS method
图3CARS筛选的波数变量分布Fig.3 Distribution diagram of variables selected by CARS
2.2模型建立与评价
经过上述四种方法的筛选,分别建立葡萄酒发酵过程中挥发酸的全光谱-PLS,iPLS、BiPLS、SiPLS、CARS-PLS定量模型,并对决定系数(R2)、校正标准偏差(RMSEC)、预测标准偏差(RMSEP)、相对分析误差(RPD)以及最佳主因子数进行比较,来评价模型效果,模型优化结果如表4所示。
表4 挥发酸的不同PLS模型及性能评价结果Table 4 Different PLS models and performance evaluation results of volatile acids
从表4可看出,与全光谱建模相比,采用上述四种方法进行变量筛选后,建模所用变量数均有不同程度的减少,模型识别精度提高,解析难度降低,决定系数R2相对增加,RMSEP相对减小,最佳主因子数相对降低,模型质量均达到不同程度的优化。iPLS虽然减少了建模变量数,简化了建模的复杂程度,但由于只筛选得到单个子区间进行建模,容易遗漏其他区间的有效信息,导致建模所用变量信息不够充分。BiPLS、SiPLS则通过将相关性大的子区间进行优化组合建模,去除信息冗余的区间,使得建模所用光谱更加全面有效,模型的精度更高[20]。其中CARS在剔除无信息变量的同时,淘汰了光谱中共线性变量及受外界因素影响较大的变量,优选出最能表征目标信息的关键性变量,有效地简化了模型复杂程度,提高了模型信噪比。
采用CARS筛选后所得变量建立的葡萄酒发酵过程中挥发酸定量模型的优化效果最为理想,建模所用变量数最少,决定系数R2达到0.868,RMSEC为0.033,RMSEP为0.032,RPD为5.31。同时,CARS筛选得到的变量包含了成分中C—O、C=O、C—H、O—H等官能团的主要吸收区域,其中,6 500 cm-1归属为OH伸缩振动和C—H伸缩振动的组合频,6 920 cm-1处的尖吸收峰是羧酸单体非键合或游离OH伸缩振动的一级倍频吸收,8 070 cm-1是O—H伸缩振动和C=O伸缩振动一级倍频的组合频等,反映出葡萄酒发酵过程中挥发酸的特征波数[21]。
2.3模型验证
将独立样本测试集中50个样品的光谱通过CARS模型进行验证,如图4所示,各参数的实测值与预测值点呈现对角线分布,且经成对t检验,各参数的预测值与实测值无显著差异。经验证,葡萄酒发酵过程中挥发酸决定系数R2为0.871 2,RMSEP为0.033 2,说明模型的预测结果较为准确。
图4 挥发酸CARS模型实测值与预测值分布Fig.4 Measured values and predicted values distribution of volatile acid in CARS model
本文分别采用间隔偏最小二乘法(iPLS)、后向间隔偏最小二乘法(BiPLS)、组合间隔偏最小二乘法(SiPLS)、竞争性自适应重加权算法(CARS)对光谱特征变量进行筛选,得出以下结论:
(1)结合上述四种波段筛选方法,分别建立葡萄酒发酵过程中挥发酸定量分析模型,模型质量均有所优化,不仅降低了模型的复杂程度,同时大幅提升了模型的稳定性和预测能力,证明了近红外光谱技术在葡萄酒发酵过程中挥发酸定量分析方面的可行性和巨大潜力,同时说明了变量筛选对模型优化的重要性。
(2)采用CARS法进行波段筛选后所建模型的效果优于其余三种方法,在保留挥发酸特征波长区间的同时剔除大量冗余信息,达到变量优选并提高模型预测精度的目的,同时筛选得到的变量与挥发酸在近红外区域中的特征吸收峰相对应,反映了该指标所含主要基团。因此,利用CARS法结合PLS法建立模型,可实现对葡萄酒发酵过程中挥发酸进行快速、实时、准确、无损检测的要求,并为该指标的在线检测提供一定参考依据。
[1]高年发.葡萄酒生产技术[M].第2版.北京:化学工业出版社,2012:1.
[2]张红梅,曹晶晶.中国葡萄酒产业的现状和趋势及可持续发展对策[J].农业现代化研究,2014,35(2):183-187.
[3]张琳.傅立叶变换红外光谱法快速测定葡萄酒理化指标[D].广州:暨南大学,2012.
[4]袁伟,王全林,应璐.利用自动定氮仪测定葡萄酒中挥发酸[J].分析仪器,2008,30(2):31-33.
[5]张树明,杨阳,倪元颖.近红外光谱和电子鼻技术用于葡萄酒发酵过程中酒精度的定量分析[J].光谱学与光谱分析,2012,32(11):2997-3001.
[6]邵春甫,李长文,王珊,等.红外光谱技术在中国酿酒行业中的应用研究进展[J].中国酿造,2013,32(4):15-19.
[7]张树明,杨阳,梁学军.葡萄酒发酵过程主要参数近红外光谱分析[J].农业机械学报,2013,57(1):152-156.
[8]URBANO CUADRADO M,CASTRO L D,PEREZ-JUAN P M,et al. Near infrared reflectance spectroscopy and multivariate analysis in enology:Determination or screening of fifteen parameters in different types of wines[J].Anal Chim Acta,2004,527(1):81-88.
[9]王豪,邬蓓蕾,林振兴.傅立叶变换近红外光谱法快速测定葡萄酒中的酒精度[J].中国酿造,2008,27(4):72-74.
[10]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011:4.
[11]严衍禄,陈斌,朱大洲.近红外光谱分析的原理、技术与应用[M].北京:中国轻工业出版社,2013:165-174
[12]李子文,熊雅婷,张海红.近红外光谱技术结合遗传算法用于苹果醋总酸定量分析[J].食品与发酵工业,2016,47(1):195-199.
[13]NRGAARD L,SAUDLAND A,WAGNER J,et al.Interval partial least squares regression(iPLS):a comparative chemometric study with an example from near-infrared spectroscopy[J].Appl Spectrosc,2000,54(3): 413-419.
[14]石吉勇,邹小波,赵杰文.BiPLS结合模拟退火算法的近红外光谱特征波长选择研究[J].红外与毫米波学报,2011,30(5):458-462.
[15]彭海根,彭云发,詹映.近红外光谱技术结合联合区间间隔偏最小二乘法对南疆红枣糖度的测定[J].食品科技,2014,40(6):276-280.
[16]张华秀,李晓宁,范伟.近红外光谱结CARS变量筛选方法用于液态奶中蛋白质与脂肪含量的测定[J].分析测试学报,2010,29(5):430-434.
[17]孙通,许文丽,林金龙.可见/近红外漫透射光谱结合CARS变量优选预测脐橙可溶性固形物[J].光谱学与光谱分析,2012,32(12):3229-3233.
[18]熊雅婷,李宗朋,王健.近红外光谱波段优化在白酒酒醅成分分析中的应用[J].光谱学与光谱分析,2016,36(1):84-90.
[19]刘燕德,施宇,蔡丽君.基于CARS算法的脐橙可溶性固形物近红外在线检测[J].农业机械学报,2013,44(9):138-144.
[20]张德涛,邹小波,石吉勇.近红外光谱结合不同偏最小二乘法快速检测镇江香醋的浑浊度[J].中国酿造,2012,31(1):169-172.
[21]JERRY W,JRLOIS W.近红外光谱解析实用指南[M].北京:化学工业出版社,2009:50-55.
Quantitative analysis of volatile acid in wine fermentation by near infrared spectroscopy technology
JIA Liujun1,2,WANG Jian2,ZHANG Haihong1*,LI Ziwen1,2,LI Zongpeng2,XIONG Yating2
(1.College of Agriculture,Ningxia University,Yinchuan 750021,China; 2.China National Research Institute of Food&Fermentation Industries,Beijing 100015,China)
The volatile acid content during wine fermentation was quantitatively analyzed by near infrared spectroscopy technology,and the quantitative analysis model was established by partial least squares.The characteristic variable was selected from the whole spectrum area using iPLS,BiPLS, SiPLS and CARS.R2,RMSEC,RMSEP,PRD and the optimal main factors were used for model evaluation.The results showed that variable screening can optimize the effect of the model,improve recognition accuracy and reduce the difficulty of model analysis.The optimization effect of CARS model was the optimal.R2of the optimized mode,RMSEC,RMSEP,and RPD were 0.868,0.033,0.032,and 5.31,respectively.The methods simplified the model complexity,and improved model stability and prediction ability.
wine;volatile acid;near infrared spectroscopy;quantitative analysis;band selection
0254-5071(2016)10-0166-05
10.11882/j.issn.0254-5071.2016.10.037
2016-05-16
科技部科研院所技术开发研究专项(2013EG111212)
贾柳君(1992-),女,硕士研究生,研究方向为农产品无损检测。
张海红(1967-),女,教授,硕士,研究方向为农产品无损检测。