高升 王巧华 李庆旭 施行
摘 要 建立了基于近红外光谱技术的红提维生素C(Vc)含量、糖度及总酸含量的快速无损检测方法。采集红提样本的光谱数据,分别应用竞争性自适应重加权算法(CARS)、稳定性竞争自适应重加权采样算法(SCARS)和连续投影算法(SPA)进行一次有效特征波段提取,對比测量上述3项指标,建立相应偏最小二乘回归模型,并在一次有效特征波段的提取的基础上结合SPA进行二次特征波段的提取,建立相应偏最小二乘回归算法(PLSR)模型。结果表明,二次特征波段建立的PLSR模型的校正集与预测集的相关系数与一次特征波段提取建立的PLSR相关系数相比有较大提高,模型的均方根误差均有所减小。根据二次特征波段提取的最优波段点建立的红提Vc含量、糖度、总酸含量的最优PLSR模型的校正集相关系数分别为0.983、0.982和0.976,预测集相关系数分别为0.975、0.980和0.975。本研究利用较少波段建立稳定模型预测Vc、糖度和总酸含量的方法,大大减少了运行时间,可为后续便携式检测仪和在线动态检测研究提供技术支持。
关键词 近红外光谱; 红提; 内部品质; 连续投影算法; 偏最小二乘回归法
1 引 言
红提是较受欢迎的葡萄品种之一,在我国广泛种植,具有果穗大、含水多、肉质坚实较脆、香甜可口等特点。红提内部品质的评价指标主要包括维生素C(Vc)含量、糖度、总酸、糖酸比和芳香物质等[1,2]。糖度和总酸含量影响果实的风味和营养物质,也是红提成熟度的衡量标准和重要指标。Vc是广泛存在于果蔬中的一种水溶性维生素,也是一种抗氧化剂,是人体所必需的营养素[3]。水果内部品质常规检测通常采用破坏性抽样检测[4~6],繁琐费时,且检测后的样品因组织遭到严重破坏,不能进行销售和食用; 并且Vc含量、糖度、总酸含量的测定方法各不相同,同时获取这3项品质指标参数需做不同检测,低效耗时。因此,建立一种高效无损的红提品质检测方法极为必要。
作为无损检测方法,光谱技术已广泛应用于水果和蔬菜内部品质无损检测[7~18]。刘艳德等[19]在350~1800 nm应用可见/近红外漫反射光谱对南丰蜜桔Vc含量进行检测,应用主成分分析和偏最小二乘法对经过预处理的光谱进行数学建模,预测相关系数为0.813,表明该方法具有可行性。Parpinello等[20]对采后鲜食葡萄糖度进行可见-近红外光谱的检测,建立PLS模型的决定系数为0.82,预测标准差0.83% Brix。Arana等[21]采用漫反射光谱法检测白葡萄颗粒的可溶性固形物含量,精度为1.33%~1.88% Brix。Baiano等[22]采用高光谱成像技术测定7个品种鲜食葡萄的内部指标(包括pH值、TA、SSC)和感官属性, 可较好地预测葡萄的内部品质指标。吴桂芳等[23]应用偏最小二乘法(PLS)结合神经网络(ANN)建立的葡萄浆果糖度预测模型的检验参数r2为0.863, 预测均方根误差 (RMSEP)为0.171, Bias为0.024,表明该技术无损检测葡萄浆果糖度等内部品质是可行的。许峰等[1]利用USB2000+光谱仪采集红提400~1000 nm透过率光谱,并建立随机森林预测模型,糖度、酸度的验证集相关系数分别为0.9568、0.9405,表明模型具有较高的准确性。以上研究多选用单一指标进行建模,且精度及准确性还有待提高。目前,对于红提中Vc含量检测的研究较少,3项重要品质指标(Vc含量、糖度、总酸含量)的综合检测研究还未见报道。本研究基于近红外光谱技术结合PLS法,针对红提果粒的上述3项品质指标,建立红提内部多个品质指标与近红外光谱的关系模型,实现一次光谱检测同时快速获取3项品质指标参数的预测结果。本方法在红提及相关水果的品质检测方面有广阔的应用前景。
2 实验方法
2.1 仪器与试剂
Antaris II傅里叶变换近红外光谱仪、赛默飞世尔科技公司(美国Thermo Fisher); 恒温恒湿箱(上海新苗医疗器械制造有限公司); 申光WAY(2WAJ) 阿贝尔折射仪(上海仪电物理光学仪器有限公司); JA2002 电子天平(上海浦春计量仪器有限公司)。
实验所用样本为新疆新鲜红提(晚红),挑选大小相近,颜色差异较大、无病虫害、无机械损伤的红提果粒,在每穗红提的穗外部、穗中部、穗顶部、穗尖分别进行取样,共168粒。将样本编号并放入恒温恒湿箱中保存12 h[18],恒温箱温度设置为(22±1)℃,相对湿度为65%。
偏磷酸、草酸、NaHCO3、 2,6-二氯靛酚、白陶土、NaOH和酚酞等均为国产分析纯试剂。
2.2 实验方法
2.2.1 近红外光谱数据采集 采用Antaris II傅里叶变换近红外光谱仪,将恒温后的样本进行光谱采集。选择积分球固体采样模块采集红提漫反射光谱。采集光谱时,将样本竖立放置,带有果柄的位置朝上,扫描部位设置为最大纵向直径方向。测量波段范围设置为10000~4000 cm1,扫描次数32,分辨率4 cm1 [24]。
2.2.2 红提的Vc含量、糖度及总酸含量的测定 试样制备:光谱采集完的红提样本,按照国家鲜葡萄行业标准GH/T 1022-2000,将红提果粒压成汁,用玻璃棒搅匀[2],并立即进行3项品质指标的测定。Vc含量测定:根据国标GB 5009.86-2016食品中抗坏血酸的测定,采用2,6-二氯靛酚滴定法测定[4]。糖度测定:参照NY/T 2637-2014《水果、蔬菜制品可溶性固形物含量的测定——折射仪法》[5]。总酸含量测定:参照GB/T 12456-2008《食品中总酸的测定》方法[6],总酸含量(A)的计算公式见式(1):
式中:A为总酸含量(%); C为NaOH标准溶液浓度(mol/L); V为样本滴定时消耗NaOH溶液的体积(mL); V0为空白实验消耗的NaOH溶液体积(mL); K为换算系数(红提中主要为酒石酸,K=0.075); m为样品质量(g)。
2.2.3 光谱有效信息提取 采用连续投影算法(Successive projections algorithm,SPA)[25]、竞争性自适应重加权算法(Competitive adaptive reweighed sampling,CARS)[26,27]和基于穩定性竞争自适应重加权采样算法(Stability competitive adaptive reweighted sampling,SCARS)3种一次降维算法,对全波段进行波段提取,分析在不同提取特征波长方法下所建立的对应指标含量预测模型的优劣,并在一次降维的基础上进行二次降维,对比分析模型的优劣。SPA是一种前向循环的变量选择方法,先选定一个初始频点,然后在每一次迭代时加入新的频点,直到达到指定的频点数,该方法本质是解决信息重叠,选择最小冗余信息量的频点组合,解决共线性问题; CARS算法是一种基于蒙特卡罗采样法对模型取样的新型变量选择理论,通过指数衰减函数及自适应重加权采样技术计算,并比较每次产生的新变量子集的交互验证均方根误差,RMSECV最小的变量子集作为最优变量子集; 在SCARS方法中,变量回归系数会随着每次随机选择建模样本的不同而变化,该方法以变量的稳定性作为衡量指标,并延续CARS方法的变量筛选流程, 建立简洁、稳定的模型[28]。
2.2.4 偏最小二乘法(PLSR)回归模型及模型评价 偏最小二乘回归算法(Partial least squares regression,PLSR)将相关分析、多元线性回归和主成分的优点集合在一起,是化学计量学分析过程中最常用的多元线性建模方法。PLSR算法在计算过程中同时考虑自变量(光谱数据)和因变量矩阵(化学参考值)对建模效果的影响,能够较好地处理数据多重共线性、因子结果不确定性和数据非正态分布等问题,是光谱数据建模过超中应用最多的一种建模方法。PLSR算法的计算过程如下:
步骤 1:首先对光谱矩阵X 和化学参考值矩阵Y按特征向量形式分解,如式(2)所示。
其中,T和U分别代表矩阵X和矩阵Y的得分矩阵, P和Q分别代表矩阵X和矩阵Y的载荷矩阵,E和F分别代表矩阵X和矩阵Y的 PLSR 拟合误差矩阵。
步骤 2:对得分矩阵T和U进行线性回归分析,如式(3)所示。
其中, B是回归系数矩阵。
步骤 3:根据未知样品的光谱矩阵 Xp和校正得到的Pv,计算出未知样品Xp 对应的得分矩阵Tp,最后计算出未知样品的浓度矩阵Yp,如式(4)所示。
PLSR回归建模的优点在其挖掘的数据信息与待测样本组分之间具有较好的相关性,能够满足大、小样本的多元分析,同时也适用于复杂组分的建模分析。以校正集和预测集相关系数(Rc和Rp)和均方根误差(RMSEC和RMSEP)作为模型的评价指标。Rc和Rp越接近1,RMSEC和RMSEP越小且越接近,则模型的稳定性越好,精度越高,稳定性越好。计算公式如下(5)~(8):
3 结果与讨论
3.1 样本集的划分
Kennard-Stone(K-S)法[29~31]作为常用的样本划分算法,利用变量空间之间的相对欧式距离找出样品集中差异较大的样品选入校正集,其余相近的样品选入预测集。本研究共采集168份红提样本,参照光谱划分集合的方法,分别通过K-S法选择126份作为校正集,42份作为预测集。
从表1可知,Vc含量分布范围为17.506~41.346 mg/100 g,校正集的标准差值为5.651,表明样本之间的Vc含量的差异较大,数据比较离散。糖度和总酸分布相对较集中,个体的差异性相对较小; 通过K-S算法划分的校正集范围较广,表明数据有代表性。
3.2 光谱数据预处理
通常为了保证模型的准确性,需要对原始光谱(RAW)进行光谱预处理。本研究中采用的光谱预处理的方法包括:标准正态变量变换(Standard normal variate transformation,SNV)、Savitzky-Golay卷积平滑处理法(Savitzky-Golay,S-G)等。由表2可得,对于Vc含量、糖度及总酸含量,原始光谱进行预处理后所建PLSR模型校正集和预测集的相关系数减小,均方根误差增大,表明过多的预处理反而破坏了原始光谱的特征信息,其它预处理方法相对原始光谱数据,都未能提高模型的预测精度。综合比较,直接用原始光谱数据建立的PLSR模型取得了最佳效果。
3.3 一次有效特征波段提取
3.3.1 CARS与SCARS法提取特征波长 K-S划分后的原始光谱采用CARS和SCARS算法分别提取红提的Vc含量、糖度、总酸含量的特征波长,以Vc特征波长的选取为例,因CARS与SCARS算法运行方法相似,下文只阐述CARS算法对特征波长的选取过程,如图1所示。本研究设定蒙特卡罗采样50次,采用5折交叉验证法计算。由图1B可知,RMSECV值随着取样运行次数先减小后增大:当RMSECV值逐渐减小时,表明光谱数据中部分无用的信息被剔除; 当RMSECV值逐渐增大时,表明光谱数据中有用的重要信息被剔除。因此,取采样50次所建立的PLSR模型中所对应的最小RMSECV作为最优结果,由图1可知,当RMSECV值达到最小值时,各变量的回归系数位于图1C中竖直线位置,采样运行23次。
3.3.2 SPA法提取特征波长 K-S划分后的原始光谱通过SPA优选出波长序列,分别建立3项品质指标的PLSR模型。以Vc含量检测为例, 简要介绍SPA选取特征波长的过程。根据SPA的原理,利用均方根误差(Root mean square error,RMSE)决定所建模型的优劣,均方根误差越小,模型的稳定性越好、精度越高。随着波长个数变化,RMSE值会不断波动,如图2A所示,选择RMSE最小值对应的波长个数为34,作为最优的波长点个数,选取的波长点在原始光谱中的索引如图2B所示,所选波段占原始光谱信息的2.18%。
3.3.3 基于一次有效特征波段提取方法建立的PLSR模型效果 由表3可知,采用不同的一次特征提取方法,根据最优的波段组合分别建立PLSR(Partial least squares regression)模型,与原始光谱相比,一次波段的特征提取消除了原始光谱所建立的糖度、总酸的过拟合现象,基于CARS和SCARS建立的3项品质指标的PLSR模型的校正集的相关系数都显著提高,相关系数均大于0.91,此结论与文献[17,31]进行一次波段提取的研究结论一致。基于SPA建立的3项指标的PLSR模型预测值的相关系数较原始光谱也有较大提高,且相关系数均大于0.79。基于CARS和SCARS建立的3项指标的PLSR模型的相关系数大于SPA建立的模型,均方差误差均小于SPA建立的模型,因此,基于CARS和SCARS建立的PLSR模型效果比SPA建立模型的效果好。由此可知,一次特征波段的提取能够有效去除冗余的波段,简化模型,且大大提高了模型的稳定性与准确性。
3.4 二次有效特征波段提取和PLSR提取效果
采用一次有效特征波段提取后,尽管在一定程度上有效剔除了无用信息,但提取的特征波长的个数仍然相对较多,且模型的稳定性不佳,因此,在CARS与SCARS提取特征波段的基础上,利用SPA进行二次波长选取[32],提取较优的波长点组合,以提高模型的稳定性。以Vc含量检测为例,经过CARS选取波段后进行SPA的特征波长提取过程,当RMSEWE达到最小值时,此时对应的波长个数为59,所选波段占原始光谱信息的3.79%,选取的波长点在原始光谱中的位置如图3所示。
由表4可得,基于CARS-SPA的二次波段提取建立的Vc含量和糖度的PLSR模型的校正集和预测集的相关系数均大于0.975,且均高于一次波段提取模型的相关系数。基于SCARS-SPA的二次波段提取建立的总酸PLSR模型的相关系数大于0.975,大于一次波段提取模型相关系数。Vc含量和糖度的最佳波段选取方法为CARS与SPA结合,总酸最佳的波段选取方法为SCARS与SPA结合,建立的PLSR模型最优。
3.5 基于最优特征波长组合建立的Vc含量、糖度及总酸含量的PLSR模型
分别利用最优特征波长组合建立3项指标的PLSR模型,校正集和预测集样本的预测值和参考测量值之间的散点图如图4、图5和图6所示,最优PLSR模型的校正集相关系数Rc分别为0.983、0.982、 0.976,RMSEC为1.075、0.264、0.152; 预测集相关系数Rp分别为0.975、0.980、 0.975,RMSEP为2.003、0.240、 0.167。与其它波段提取方法相比,最佳波段的提取方法的Rc和Rp较高,RMSEC和RMSEP较小,表明在最优波段的组合下,模型的稳定性和准确性有了较大提高。
4 结 论
利用近红外光谱技术,分别建立了红提的Vc含量、糖度和总酸含量的PLSR无损光谱检测模型。原始光谱的曲线较为平滑,过多的预处理反而破坏了原始光谱的特征信息。二次特征波段建立的PLSR模型优于一次特征波段提取建立的PLSR模型,稳定性和精度都有所提高,大大减少了模型运行时间。Vc含量和糖度的最佳波段选取方法为CARS与SPA结合,总酸含量最佳的波段选取方法为SCARS与SPA结合,建立的PLSR模型最优。建立的最优PLSR模型,采集一次光谱即可实现红提内部品质的综合无损检测,检测时间仅为几秒。本模型可为后续便携式检测仪和在线动态检测研究提供技术支持。
References
1 XU Feng, FU Dan-Dan, WANG Qiao-Hua, XIAO Zhuang, WANG Bin. Food Science, 2018, 39(8): 149-154
许 锋, 付丹丹, 王巧华, 肖 壮, 王 彬. 食品科学, 2018, 39(8): 149-154
2 GH/T 1022-2000, Table Grapes. People's Republic of China Supply and Marketing Cooperation Industry Standards
鮮葡萄. 中华人民共和国供销合作行业标准. GH/T 1022-2000
3 LI Hong-Qiang, SUN Hong, LI Min-Zan. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34 (8): 269-275
李鸿强, 孙 红, 李民赞. 农业工程学报, 2018, 34(8): 269-275
4 GB 5009.86-2016, Determination of Ascorbic Acid in Food. National Standards of the People's Republic of China
食品中抗坏血酸的测定. 中华人民共和国国家标准. GB 5009.86-2016
5 NY/T 2637-2014, Refractometric Method for Determination of Total Soluble Solids in Fruits and Vegetables. The People's Republic of China Agricultural Industry Standard
水果和蔬菜可溶性固形物含量的测定 折射仪法. 中华人民共和国农业行业标准. NY/T 2637-2014
6 GB/T 12456-2008, Determination of Total Acid in Foods. National Standards of the People's Republic of China
食品中总酸的测定. 中华人民共和国国家标准. GB/T 12456-2008
7 HE Jia-Lin, QIAO Chun-Yan, LI Dong-Dong, ZHANG Hai-Hong, DENG Hong, SHAN Qi-Mei, GAO Kun, MA Rui. Food Science, 2018, 39(6): 194-199
何嘉琳, 乔春燕, 李冬冬, 张海红, 邓 鸿, 单启梅, 高 坤, 马 瑞. 食品科学, 2018, 39(6): 194-199
8 Kumar S, McGlone A, Whitworth C. Postharvest Biol. Technol., 2015, 100: 16-22
9 Liu C, Yang S X, Deng L. J. Food Engineer., 2015, 161: 16-23
10 WANG Fan, LI Yong-Yu, PENG Yan-Kun, SUN Hong-Wei, LI Long. Chinese J. Anal. Chem., 2018, 46(9): 1424-1431
王 凡, 李永玉, 彭彦昆, 孙宏伟, 李 龙. 分析化学, 2018, 46(9): 1424-1431
11 HUANG Yu-Ping, Renfu Lu, QI Chao, CHEN Kun-Jie. Spectroscopy and Spectral Analysis, 2018, 38(8): 2362-2368
黄玉萍, Renfu Lu, 戚 超, 陈坤杰. 光谱学与光谱分析, 2018, 38(8): 2362-2368
12 GUO Zhi-Ming, HUANG Wen-Qian, PENG Yan-Kun, WANG Xiu, TANG Xiu-Ying. Chinese J. Anal. Chem., 2014, 42(4): 513-518
郭志明, 黄文倩, 彭彦昆, 王 秀, 汤修映. 分析化学, 2014, 42(4): 513-518
13 YANG Jia-Bao, DU Chang-Wen, SHEN Ya-Zhen, ZHOU Jian-Min. Chinese J. Anal. Chem., 2013, 41(8): 1264-1268
杨家宝, 杜昌文, 申亚珍, 周健民. 分析化学, 2013, 41(8): 1264-1268
14 LUAN Lian-Jun, CHEN Na, LIU Xue-Song, WU Yong-Jiang. Chinese J. Anal. Chem., 2012, 40(4): 626-629
栾连军, 陈 娜, 刘雪松, 吴永江. 分析化学, 2012, 40(4): 626-629
15 Sun X, Liu Y, Li Y, Wu M, Zhu D. Postharvest Biol. Technol., 2016, 116: 80-87
16 Ncama K, Opara U L, Tesfay S Z, Fawole O A, Magwaza L S. J. Food Engineer., 2017, 193: 86-94
17 XU Hui-Rong, LI Qing-Qing. Transactions of The Chinese Society of Agricultural Machinery, 2017, 48(9): 312-317
徐惠榮, 李青青. 农业机械学报, 2017, 48(9): 312-317
18 FAN Shu-Xiang, HUANG Wen-Qian, GUO Zhi-Ming, ZHANG Bao-Hua, ZHAO Chun-Jiang, QIAN Man. Chinese J. Anal. Chem., 2015, 43(2): 239-244
樊书祥, 黄文倩, 郭志明, 张保华, 赵春江, 钱 曼. 分析化学, 2015, 43(2): 239-244
19 LIU Yan-De, CHEN Xing-Miao, SUN Xu-Dong. Spectrosc. Spect. Anal., 2008, 28 (10): 2318-2320
刘燕德, 陈兴苗, 孙旭东. 光谱学与光谱分析, 2008, 28(10): 2318-2320
20 Parpinello G P, Nunziatini G, Rombol A D, Gottardi F, Versari A. Postharvest Biol. Technol., 2013, 83(3): 47-53
21 Arana I, Jaren C,Arazuri S. J. Near Infrared Spectrosc., 2005, 13(6): 349-357
22 Baiano A, Terracone C, Peri G. Computers Electron. Agric., 2012, 87(87): 142-151
23 WU Gui-Fang, HUANG Ling-Xia, HE Yong. Spectrosc. Spect. Anal., 2008, 28(9): 2090-2093
吴桂芳, 黄凌霞, 何 勇. 光谱学与光谱分析, 2008, 28(9): 2090-2093
24 WANG Wei, JIANG Hui, LIU Guo-Hai, MEI Cong-Li, JI Yi. Chinese J. Anal. Chem., 2017, 45(8): 1137-1142
王 玮, 江 辉, 刘国海, 梅从立, 吉 奕. 分析化学, 2017, 45(8): 1137-1142
25 Assis C, Oliveira L S, Sena MM. Food Anal. Methods, 2017, 11(2): 578-588
26 Niu C, Yuan Y, Guo H, Wang X, Wang X, Yue T. RSC Adv., 2017, 8(1): 222-229
27 Ye S, Wang D, Min S. Chemometr. Intell. Lab. Sys., 2008, 91(2): 194-199
28 LIU Guo-Hai, XIA Rong-Sheng, JIANG Hui, MEI Cong-Li, HUANG Yong-Hong. Spectrosc. Spect. Anal., 2014, 34(8): 2094-2097
刘国海, 夏荣盛, 江 辉, 梅从立, 黄永红. 光谱学与光谱分析, 2014, 34(8): 2094-2097
29 HUANG Zhuang-Rong, SHA Sha, RONG Zheng-Qin, LIU Hai-Ying, CHEN Jin-Hong, ZHU Shui-Jin. Chinese J. Anal. Chem., 2013, 41(6): 922-926
黃庄荣, 沙 莎, 荣正勤, 刘海英, 陈进红, 祝水金. 分析化学, 2013, 41(6): 922-926
30 WANG Jian, WANG Liu-San, WANG Ru-Jing, LU Cui-Ping, HUANG Wei, WANG Yu-Bing. Chin. J. Lumin., 2018, 39(12): 1785-1791
王 键, 汪六三, 王儒敬, 鲁翠萍, 黄 伟, 汪玉冰. 发光学报, 2018, 39(12): 1785-1791
31 Lin Z D, Wang Y B, Wang R J, Wang L S, Lu C P, Zhang Z Y, Song L T, Liu Y. J. Appl. Spectrosc., 2017, 84(3): 529-534
32 FU Dan-Dan, WANG Qiao-Hua. Food Science, 2016, 37(22): 173-179
付丹丹, 王巧华. 食品科学, 2016, 37(22): 173-179