张云琪,崔超远,陈永,鲁翠萍
(1中国科学院合肥物质科学研究院智能机械研究所,安徽 合肥 230031;2中国科学技术大学,安徽 合肥 230026;3合肥学院先进制造工程学院,安徽 合肥 230061)
酸度是衡量苹果内部品质的重要指标之一,实现对该指标的无损测定十分重要。可见-近红外光谱(Vis-NIRS)检测技术以其快速、无损的优势,在水果糖度、酸度、硬度等内部品质检测领域得到了广泛应用[1−6]。采用Vis-NIRS检测设备获取到的样本漫反射光谱信号,主要由样本分子结构中碳氢键、碳氧键等振动产生在可见-近红外波段的特征谱线,这些特征谱线的强度可以反映样本中化学组成的含量。对于苹果的Vis-NIRS,已有相关研究表明在550∼570 nm、650∼680 nm、720∼740 nm及840∼860 nm的波长范围内存在酸度的特征峰,且酸度含量越高,峰值越大[7−9]。
近年来,研究人员采用化学计量学方法提取光谱有效信息,建立水果内部品质与光谱信息之间的关系,构建基于Vis-NIRS数据的无损检测模型。研究表明通过光谱特征波长或波长区间数据的有效筛选,不仅可以简化模型,还可剔除不相关或非线性变量,建立预测能力强、稳健性好的模型[10,11],从而实现预测模型的优化。在特征波长选择方面,应用较为广泛的方法有连续投影法(SPA)[12]、竞争自适应重加权采样法(CARS)[13]以及无信息变量消除法(UVE)[14]等。因设计理念的不同,每种算法各有优势,如SPA法筛选的特征波长数目少,简化了模型,但降低了模型精度;相反,UVE与CARS法选出的波长变量数目较多,提高了模型精度,但增加了模型的复杂度。
近年来,研究人员尝试融合多种特征波长选取方法,减少建模变量,简化预测模型。Fan等[15]提出了CARS-SPA法,用SPA对CARS选取的特征波长进行二次筛选。将该法应用于苹果可溶性固形物含量偏最小二乘(PLS)预测模型的建立,模型变量数从42项减少至15项。Jiang等[16]在马铃薯还原糖含量的PLS检测模型建立过程中使用CARS-SPA法,模型变量数从33项减少至17项。Feng等[17]使用SPA-SPA法提取波长变量,建立苹果硬度检测模型,建模变量数从9项降至4项。Liu等[18]通过UVE-SPA进行建模变量选择,建立了多种苹果的(MLR)通用模型,建模变量数从155项减少至22项,但模型精度下降了4.6%。Wang等[19]基于UVE-SPA法选取的特征波长建立番茄红素含量PLS检测模型,建模变量数从283项降至35项,但预测模型精度下降了3.4%。上述研究表明这些方法可以有效减少建模变量数目,然而会降低模型精度。
为综合考虑建模变量数目及模型精度,本文提出一种逐次追加、优胜劣汰的竞争性特征波长筛选法,建立了基于PLS的预测模型。在“黄金帅”苹果酸度的无损测定中运用该方法,不仅保证了检测精度,且优化了模型的复杂程度,研究结果对基于Vis-NIRS的水果品质无损检测具有重要意义。
挑选没有表面损伤和缺陷、大小匀称的31个“黄金帅”苹果作为样本。对每个样本沿着赤道均匀地标注四个部位并依次编号,在每个标记点区域进行漫反射光谱采集与酸度含量测定。为扩大样本数量,将每个标记点作为一个独立样本,组成样本集。
实验采用HL-2000-HP型卤素灯作为光源、USB 4000光纤光谱仪获取数据、QR400-7-VIS-NIR型光纤(Ocean optics INC.,USA)进行光的传输。实验中,通过光纤采样附件采集样本赤道上均匀分布的四个标记点区域的可见-近红外漫反射光谱。具体方式为:将光纤探头竖直固定于苹果样本正上方,该光纤将光源出射端和苹果样本的漫反射光收集端设计在一起。光源发出的光通过光纤传输并经过透镜聚焦到苹果表面,光从苹果表面入射到果肉中,从苹果内部漫反射出来的光经光纤探头会聚后传输至光谱仪,光谱仪完成光信号的分光和采集并传输至计算机。USB4000光纤光谱仪的采集波长范围为346∼1046 nm,分辨率为2 nm。在支架上设置升降台以控制光纤探头与样本采集点间的距离,放置海绵垫以固定样本。实验搭建的光谱采集平台如图1所示。
图1 光谱采集平台Fig.1 Platform for spectral acquisition
使用PAL-BX/ACID5型苹果糖酸一体机(Atago Co.,Tokyo,Japan)对苹果样本赤道上均匀标注的四个区域进行酸度测量,步骤如下:
1)挖取直径约2 cm的一块果肉,挤出约2 mL果汁;
2)称取质量为1 g的果汁放进烧杯中,加入50 g的去离子水稀释,用搅拌棒充分搅拌均匀;
3)用滴管从烧杯中取0.3 mL稀释后的样品,滴入仪器的棱镜槽中,按“Start”键开始测量,2 s后仪器显示读数。重复搅拌与测量操作多次,将重复出现三次的读数记为该测量点的酸度。
偏最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。
在光谱数据建模过程中,PLS算法应用最为广泛。该方法在计算过程中同时考虑了光谱数据和浓度数据对建模结果的影响,能较好地处理数据多重共线性、因子结果不确定性和数据非正态分布等问题。PLS回归模型可以写为
此处X代表苹果样本光谱矩阵,Y代表样本酸度矩阵,b为回归系数向量,e为模型残差。
苹果酸度可见-近红外无损测定模型的总体架构如图2所示。所提出的模型构建方法将SPA和CARS两种波长选取方法进行了融合。将SPA和CARS法选取的波长集合分别记为S和C,即S={p1,p2,···,pn},C={q1,q2,···,qm},且m>n。定义建模波长集合A={λi|λi∈S}(1≤i≤n),建模备选波长集合B={µj|µj∈C且µj∉S}(1≤j≤k,k≤m),则对应的建模光谱数据集为,建模备选光谱数据集为,其中l为样本数目,xi,j为光谱矩阵X中的元素,表示第i个样本光谱在对应波长位置j处的数据。
图2 模型总体架构Fig.2 Overview architecture of the model
预测模型构建的步骤如下:1)根据数据集DA建立原始PLS模型,并计算模型的决定系数;2)从集合B中依次提取第i个波长µi加入集合A,得到更新的集合Ai={µi,λ1,λ2,···,λn},对应更新的建模光谱数据集,根据数据集建立PLS模型,并计算模型的决定系数,而后将µi从集合Ai中删除;3)由Step2中建立的各模型决定系数组成集合,取其中的最大值,此时对应加入集合A中的波长为µp(µp∈B);4)比较与的大小。若,则更新,将波长µp加入集合A并将其从集合B中剔除,更新集合A={µp,λ1,λ2,···,λn}、集合B={µ1,µ2,···,µp−1,µp+1,···µk},对应的建模光谱数据集更新为而后返回Step2继续执行,直至集合B为空。若,算法终止。
采用均方根误差(ERMS)、决定系数(R2)和相对分析误差(DRP)对模型性能进行评价,各指标的计算公式可分别表示为
式中:yi和分别表示第i个样本点酸度的测量值和预测值,表示所有样本点酸度的平均值,DS为标准差。一个性能良好且可靠的预测模型,其ERMS应尽可能低、R2尽可能接近于1、DRP尽可能高且需满足DRP>1.4[20]。
使用搭建的光谱采集平台获取各苹果样本标记点区域的可见-近红外漫反射光谱。采集前打开光源预热30 min后使用标准漫反射白板进行校正。光谱采集使用OceanView软件,积分时间设为30 ms,采集平均次数设为5。为减小光程差异的影响,采集过程中通过调节升降台将光纤探头与各采集点间的距离严格控制为2 cm。
由光谱仪采集的光谱波长范围为346∼1046 nm,其两端存在较大噪声,这些噪声的加入会严重影响建模效果,因此将谱线两端的噪声剔除。选取波长范围为475∼925 nm的光谱用于建模,如图3所示,图中横坐标为波长,纵坐标为反射率,该区域内共有波长变量2335个。由图3可见,在550∼570 nm波长范围内有较为明显的漫反射特征峰;同时,在650∼680 nm、720∼740 nm及840∼860 nm范围内也存在特征峰。但由于“黄金帅”苹果样本酸度含量较低,使得这几处的特征峰值较低。
图3 样本原始光谱Fig.3 Original spectra of the samples
在光谱采集与酸度测量阶段,共得124条样本数据,剔除存在明显异常的光谱和超量程的酸度数据后,保留110条样本数据,构建样本集。样本集酸度的分布范围为0.10%∼0.68%。采用SPXY(Sample set partitioning based on joint x-y distance)方法[21]对样本集按经验值进行划分,使校正集与预测集样本的比例为4:1,即校正与预测样本数分别为88条和22条。
SPXY方法基于变量之间的欧式距离,在特征空间中均匀选取样本。在逐步选择过程中,样本之间的距离dxy(i,j)可表示为
式中dx(i,j)和dy(i,j)分别代表以光谱为特征参数和以酸度为特征参数计算的样本之间的距离,i,j∈(1,z),z为样本数。为使样本在光谱数据矩阵和酸度数据矩阵中具有相同的权重,分别除以他们各自的最大值进行标准化处理。
根据
将上述漫反射光谱转换为吸光度光谱,后续实验均以吸光度光谱进行计算。
光谱预处理旨在消除数据非相关信息和噪声。常用方法有归一化(NORM)、卷积平滑(SG)、多元散射校正(MSC)、标准正态变量变换(SNV)、小波变换(WDE)等[22−24]。为得到较优的定量模型,有时需要组合使用多种预处理方法。其中,NORM操作可校正由微小光程差异引起的光谱变化;SG能够消除光谱信号中叠加的随机误差以提高信噪比;MSC与SNV可以消除苹果表面散射及光程变化对光谱数据的影响;WDE利于实现频域函数与时域函数之间的转换,在信号处理中有着较为广泛的应用。此处对比了基于几种预处理及其组合方法对光谱数据进行处理后,通过CARS法选取波长变量建立的PLS预测模型,对比结果如表1所示。
表1 基于不同预处理方法建立的预测模型结果Table 1 Results of prediction model based on different preprocessing methods
由表1可知:基于SG+WDE预处理方法建立的预测模型的精度最高,ERMS、R2与DRP值分别达到了0.0085、0.9873和8.8626,因此确定SG与WDE的组合方式为此处光谱数据的预处理方法。经该方法预处理后的光谱如图4所示,图中横坐标为波长,纵坐标为吸光度。
图4 样本预处理后光谱Fig.4 Preprocessed spectra of the samples
特征波长的选择直接影响着预测模型的精度。本研究将所提出方法同SPA、CARS、CARS-SPA三种方法进行了比较,特征波长选择结果分别如图5(a)∼(d)所示,图中各个小黑框表示选取的特征波长对应的数据在整条光谱曲线上的分布情况。
由图5可知,选取波长变量数目最多的是CARS法,最少的是SPA法,所提出方法介于两者之间。在酸度特征峰的四个区域550∼570 nm、650∼680 nm、720∼740 nm以及840∼860 nm内,所提出方法均有选中特征变量,而SPA和CARS-SPA法在这些区域内均未选中任何变量,这说明了所提出方法的优越性。
图5 特征波长选择结果。(a)SPA;(b)CARS;(c)CARS-SPA;(d)所提出方法Fig.5 Resultsof wavelength selection methods.(a)SPA;(b)CARS;(c)CARS-SPA;(d)Proposed method
为进一步探究本研究提出的特征波长选择方法选取的变量数目与所建预测模型精度的关系,选取R2为主要评价指标,并以变量数目为横坐标,预测模型的决定系数R2为纵坐标,建立两者之间的关系图,如图6所示。图6直观地展示出了两者间的关系:随着选取变量数目的增加,预测模型的精度不断提高;当选取变量数目达到36项时,精度R2达到最大值0.9776;随后预测模型精度随变量数目的增多而逐步下降。因此确定了模型精度达最大值时的特征波长共36项。
图6 预测模型精度与变量数目的关系Fig.6 Relationship between model accuracy and number of variables
根据本方法选取的36项波长变量建立预测模型,并与基于前述SPA、CARS、CARS-SPA三种方法选取的波长变量建立的预测模型相比较,各项指标如表2所示。
表2 基于不同波长变量选择方法建立的预测模型结果Table 2 Results of prediction model based on different wavelength selection methods
综合分析表2中的三项指标可知,基于SPA选取的波长变量数最少,但由此所建预测模型的各评价指标不理想;基于CARS所建预测模型的精度最高,但选取的变量数也最多;基于CARS-SPA所建预测模型综合指标最低。所提出方法综合考虑了建模变量数目及预测模型精度,实验结果证实了其有效性。相比于SPA,本方法的精度与可靠性大幅提升,ERMS下降至0.0113%,R2和DRP分别由−0.6921和0.7688提升至0.9776和6.6812;相比于CARS,本方法的ERMS仅上升了0.0028%,R2仅下降了0.98%。在保证模型精度与可靠性的同时,选取的波长变量数目由129项显著下降到36项,建模变量大幅减少,有效降低了模型的复杂程度,提高了运算速度。
基于所提出方法建立苹果酸度预测模型,模型预测结果如图7所示。由图可知,模型具有较高的精度和可靠性,验证了本方法的有效性。
图7 基于所提出方法的苹果酸度预测结果Fig.7 Prediction result of appleacidity based on the proposed method
Vis-NIRS检测技术以快速无损的优势在水果内部品质检测方面得到了广泛应用。光谱特征波长的选择直接影响预测模型的精度,为综合考虑模型精度与建模变量数目,提出了一种逐次添加的竞争性特征波长筛选法,设计了基于偏最小二乘法的预测模型。首先使用SPXY方法对样本集进行划分,并以SG平滑结合小波变换对光谱数据进行预处理。在此基础上使用所提出方法选择光谱特征波长,建立PLS预测模型,与SPA、CARS、CARS-SPA法筛选特征波长后建立的模型相比较。实验结果表明,当变量数目为36项时,PLS预测模型的决定系数达到最大值0.9776,证明了所提出方法的有效性。所提出方法大幅减少了建模变量数,简化了模型的复杂程度,并保证了检测精度,对基于Vis-NIRS的水果品质无损检测具有指导意义。