熊雅婷,李宗朋,王健,张英,冯斯雯,陈峰,宋全厚
1(中国食品发酵工业研究院,北京,100015)
2(江苏张家港酿酒有限公司,江苏 张家港,215600)
黄酒作为世界三大酿造酒之一,因其历史悠久、品种繁多、营养丰富而被誉为东方酿造界的典型代表和楷模[1]。其中酒精度、非糖固形物、总酸、氨基酸态氮等是黄酒质量控制的关键因素,同时也是决定黄酒风味的主要物质[2]。目前常用的理化分析方法普遍存在操作繁琐、分析周期长、效率低下等不足,无法满足黄酒品质监控中快速检测的需求[3]。
近年来,近红外光谱分析技术作为一种无损、快速检测手段而在国内黄酒检测行业快速发展:于海燕等[4]分析了不同光程近红外透射光谱对黄酒中金属元素的定量测定,并对1~5年酒龄的黄酒进行了快速鉴别;刘飞等[5]采用可见/近红外光谱对黄酒中非糖固形物、pH进行了定量分析;胡小邦等[6]利用近红外透射光谱技术结合连续投影算法(SPA)建立了干型、半干型黄酒中酒精度、酸度的定量检测模型。以上研究均表明了近红外光谱技术在黄酒品控中的巨大潜力,但是却未全面覆盖黄酒的多种指标,并未选择出最佳的模型组合来解决黄酒自身吸收光信号强度较低,吸收带较宽的问题[7]。
本实验全面考虑了黄酒的酒精度、非糖固形物、总酸、氨基酸态氮等主要指标,采用连续投影算法(SPA)来提取各指标特征波段,并利用特征波长分别建立偏最小二乘(PLS)模型以及多元线性回归(MLR)模型,同时,添加无信息变量消除法(UVE)与SPA组合建模,通过对比建模结果,选取最佳波段优化方法以及相应的最佳建模组合,以此来降低模型复杂程度,提高模型精度和运算速度,为黄酒品质监控的快速检测提供一定参考。
本实验所用黄酒样品共135个,由某黄酒厂提供,涵盖了黄酒成品与半成品(黄酒原浆酒)的干型、半干型、甜型、半甜型黄酒类型。为保证实验可靠性及模型准确性,对黄酒样品进行2次平行采样,采用透反射方式扫描采集黄酒的近红外光谱,并对光谱进行平均。黄酒酒精度、非糖固形物、总酸、氨基酸态氮等指标的化学值根据GB/T 13662-2008测得。
实验使用QC-leader傅里叶变换近红外光谱仪(北京中安信达科技有限公司)。光谱仪光源为卤钨灯,检测器为温控InGaAs,配有固体测量池及透反射盖。光谱范围为10 000~4 000 cm-1,分辨率为8 cm-1,扫描次数为32次;利用配套软件 NIRWare Operator采集样品的近红外光谱信息。
1.3.1 校正集与验证集的划分
本实验采用 Kennard-Stone(K-S)法[8]来进行样本集划分,原理是基于变量之间的欧氏距离,在特征空间中均匀选取样本。将光谱进行主成分分析后,选用主成分得分为特征变量选择样本,重复循环,依次将距离最远的样本选入校正样本集。
在剔除掉个别异常点的基础上,利用K-S法以3∶1的比例对保留的131个黄酒样本进行校正集与验证集进行样本集划分,最终得到校正集样本100个,验证集样本31个。校正集样本用于黄酒各指标近红外模型的建立,验证集样本用于验证所建模型的准确度与可靠性。其化学值统计结果如表1所示。
表1 校正集与验证集统计结果Table 1 Statistical results of calibration set and validation set
1.3.2 连续投影算法 (successive projection algorithm,SPA)
连续投影算法是一种前向循环选择方法,从一个波长开始,每次循环都计算其在未选入波长上的投影,将投影向量最大的波长引入到波长组合。使得每一个新选入的波长,都与前一个线性关系最小[9]。SPA能从光谱信息中充分寻找含有最低限度的冗余信息的变量组,消除波长变量间的共线性,有效提高光谱信噪比,从而提高模型预测能力和稳健性[10-11]。
1.3.3 无信息变量消除法(elimination of uninformative variables,UVE)
UVE是一种常用的波段优化方法,基本思想是将偏最小二乘回归系数作为波长重要性的衡量指标,在选取波长时集噪声和浓度信息于一体,比较直观实用[12]。
1.3.4 数据处理与分析
SPA、UVE等程序均在MATLAB环境下运行,多元线性回归模型和偏最小二乘计算应用UnscramblerX10.3光谱分析软件(挪威CAMO公司)实现,模型的精确度与稳定性通过决定系数R2、预测标准偏差RMSEP来评价,R2越接近1,RMSEP越接近0,表明模型效果越好[13]。
2.1.1 连续投影算法(SPA)
图1 SPA波段筛选最佳光谱变量总数Fig.1 Choice of the best number of selected wavelength using SPA
图2 SPA波段筛选结果相应波长点Fig.2 The corresponding wavelength points by SPA band selection of the result
分别对黄酒的非糖固形物、酒精度、总酸、氨基酸态氮4个指标进行SPA波段筛选,由图1可知,经SPA筛选,黄酒的4个指标从1 501个波长点中分别筛选得20、23、19、13个特征波长点,在图2中,其波长点位置分布在 4 500、5 000、7 200、9 800 cm-1附近,分别与N—H、C—H、O—H分子结构的倍频与组合频所在的吸收峰位置相对应[14],说明SPA的波段筛选算法能合理有效提取有用的光谱信息[15]。
2.1.2 无信息变量消除法(UVE)
图3 UVE变量稳定性分析结果Fig.3 UVE variable stability analysis results
在全光谱基础上,对黄酒的非糖固形物、酒精度、总酸、氨基酸态氮4个指标的分别进行UVE筛选,计算结果如图3所示,竖直实线左边是波长变量,右边为引入的系统噪音变量。虚线表示变量稳定性的上下阈值,处于两阈值之间的变量可认为是无关的信息量,超出阈值的部分为有用信息波长变量[16],因此本实验选择超出虚线阈值的光谱波段进行后续建模。
2.2.1 SPA 模型建立
在SPA筛选结果基础上,分别建立黄酒的非糖固形物、酒精度、总酸和氨基酸态氮4个指标的SPAPLS模型以及SPA-MLR模型,与全光谱-PLS模型进行比较[17],并通过决定系数 R2、预测标准偏差 RMSEP来评价模型效果,模型计算结果如表2所示。
表2 黄酒各指标定量模型计算结果Table 2 quantitative model calculation results of millet wine components
从表2可以看出,经SPA波段优选,黄酒的4个指标的SPA-PLS和SPA-MLR模型效果较全光谱-PLS模型均有提高,决定系数R2相增大,预测标准偏差RMSEP相降低。说明SPA方法确实能有效剔除光谱中的无用信息,提取建模所需关键波长,在加快建模速度的同时增强模型的准确度与稳定性。
比较SPA-PLS和SPA-MLR两种建模方法可知,SPA-MLR模型优化更为显著,非糖固形物、酒精度、总酸、氨基酸态氮4个指标的R2分别达到0.881、0.998、0.983 和0.924,且RMSEP 分别减少为2.457、0.183、0.430 和0.041,表现出更强的稳定性与准确度。多元线性回归方法(MLR)作为近红外光谱分析领域最基本的建模方法,更适用于线性关系好的简单体系,要求波长数量简洁[18-19],SPA筛选后的较少的波长点数正好满足了其建模要求,并且可能选择的波长与黄酒指标含量之间主要呈线性关系,所以不仅达到了简化模型的目的,而且提高了模型的准确度。偏最小二乘法是将因子分析和回归分析结合的方法,通过因子分析将光谱压缩为较低维空间数据[20],然而,SPA在精简波段的同时也必然伴随着部分有用信息的丢失,导致偏最小二乘法(PLS)建模准确度受到影响。
2.2.2 UVE 建模
在全光谱基础上,对黄酒的非糖固形物、酒精度、总酸、氨基酸态氮4个指标分别进行UVE筛选,由表3可看出,经UVE筛选后仍保留较多变量数,因此,为进一步提高模型准确度,将UVE与SPA组合用于全光谱的波段优选并建立MLR模型。同时,作为对照,另外单独建立UVE-PLS模型与之对比。
表3 UVE波段筛选建模结果Table 3 The modeling results of selected wavelength by UVE
由表3可看出,UVE可将全光谱波段筛选至1/3,且UVE-PLS模型效果与表2中全光谱-PLS相比,有所改善。虽然经UVE-SPA筛选,非糖固形物、酒精度、总酸以及氨基酸态氮的波长点数分别精简为12、6、17 和 11 个,但 UVE-SPA-MLR 建模结果显示,4个指标的R2和RMSEP均显示模型效果反而较差。说明,进行UVE波段筛选虽然能达到简化建模波长数的效果,但筛选过程可能造成光谱有用信息的丢失以及混入噪声,导致光谱信噪比下降,影响了之后SPA的建模,使得模型准确度反而降低。
综合表2、表3可知,黄酒各成分含量检测的最佳建模方法是SPA-MLR,增加UVE之后反而影响模型效果,说明,UVE与SPA组合进行波段筛选并不适合黄酒成分检测。
将30个未参与建模的样品光谱带入SPA-MLR模型中进行验证,由图4可以看到各个理化指标的实测值与预测值点呈对角线分布,且经成对t检验,得到各项指标预测值与实测值无明显差异(P>0.05)。经验证,黄酒非糖固形物 R2为 0.875,RMSEP为2.704;酒精度 R2为 0.996,RMSEP 为0.286;总酸 R2为0.981,RMSEP 为 0.467;氨基酸态氮 R2为 0.917,RMSEP 为0.042 1。
图3 黄酒各指标SPA-MLR模型理化值与预测值分布Fig.3 Predicted vs.reference values of compositions in millet wine by SPA-MLR model
本文以黄酒成品与半成品(黄酒原浆酒)为研究目标,综合考虑了多种黄酒种类,采用近红外光谱法对其非糖固形物、酒精度、总酸和氨基酸态氮4个指标进行了定量检测,利用连续投影算法(SPA)对波长变量进行优选建模,以提高模型运算速度与准确性。
结果表明,经SPA筛选,极大简化了黄酒的各指标建模变量数,并且筛选所得波长点位置与各指标特征官能团的倍频与合频吸收峰位置相对应,说明SPA能合理有效地优选出黄酒各指标的近红外高信噪比特征波长。
通过建立SPA-PLS和SPA-MLR模型进行对比,发现非糖固形物、酒精度、总酸和氨基酸态氮定量检测的SPA-MLR模型明显优于SPA-PLS建模。在简化模型加快运算速度的同时增强了模型的准确度,说明SPA-MLR建模方法更适用于指导黄酒品质的快速检测。
此外,对比发现,UVE-SPA-MLR建模效果反而不如SPA-MLR模型,可见UVE与SPA结合导致了特征光谱信息的丢失,进而说明只使用一种波段筛选方法效果更好,多种波段筛选方法结合反而可能会影响特征波段的准确筛选。
[1]赖樱花,成坚,李勇波,等.黄酒质量指标及其检测技术的研究进展[J].中国酿造,2011(11):21-25.
[2]朱宏霞,邓德文,郑校先.傅立叶变换近红外透射法测定黄酒酒精度[J].中国酿造,2008(12):80 -82.
[3]陈郁,周小锋,于文博,等.近红外光谱法测定黄酒中氨基酸态氮和酒精度的研究[J].计算机与应用化学,2008,25(3):361 -364.
[4]于海燕,应义斌,谢丽娟,等.光程对黄酒金属元素近红外透射光谱分析精度的影响[J].光谱学与光谱分析,2007,27(6):1 118 -1 120.
[5]刘飞,王莉,何勇,等.应用可见/近红外光谱进行黄酒品种的判别[J].光谱学与光谱分析,2008,28(3):586-589.
[6]胡小邦,吕进,刘辉军,等.基于近红外透射光谱的黄酒酒精度、酸度检测模型研究[J].光电工程2010,37(10):122-127.
[7]褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展,2004,14(4):528-542.
[8]陆婉珍.现代近红外光谱分析技术[M].北京:中国石化出版社,2007:59 -90.
[9]谢广发,徐榕,樊阿萍,等.近红外光谱技术在黄酒理化指标快速检测中的应用[J].中国酿造,2011(11):182-185.
[10]Breitkreitz M,Raimundo I,Rohwedder J,et al.Determination of total sulfur in diesel fuel employing NIR spectroscopy and multivariate calibration[J].The Analyst(S0003 -2654),2003,128(9):1 204 -1 207.
[11]洪涯,洪添胜,代芬,等.连续投影算法在砂糖橘总酸无损检测中的应用[J].农业工程学报,2010,2(26):380-384.
[12]S F Carreiro Soares,A A Gomes,M C Ugulino Araujo,et al.The successive projections algorithm[J].TrAC Trends in Analytical Chemistry,2013(42):84 -98.
[13]褚小立,许育鹏,田高友.近红外光谱解析实用指南[M].北京:化学工业出版社,2009.
[14]高洪智,卢启鹏,丁海泉,等.基于连续投影算法的土壤总氮近红外特征波长的选取[J].光谱学与光谱分析,2009,29(11):2 951 -2 954.
[15]Gomes A A,Galvão R K,Araújo M C,et al.The successive projections algorithm for interval selection in PLS[J].Microchemical Journal,2013,110:202 -208.
[16]周林峰.黄酒主要品质的近红外光谱检测模型建立与转移的研究[D].杭州:中国计量学院,2013:1-82.
[17]陈定星.连续投影算法应用于土壤有机质NIR光谱分析的波长选择[D].广州:暨南大学,2013:20-58.
[18]王爽,黄敏,朱启兵.基于无信息变量和偏最小二乘投影分析的高光谱散射图像最优波段选择[J].光子学报,2011,40(3):428 -432.
[19]CAI W,LI Y,SHAO X.Avariable selection method based on uninformative varable elimination for multivariate calibration of near-infrared spectra[J].Chemometrics and Intelligent Laboratory Systems,2008,90(2):188 -194.
[20]包春芳.近红外光谱技术在液态食品非破坏质量分析中的应用研究[D].吉林:吉林大学,2009:28-35.