吕雪刚,李修华*,张诗敏,张木清,蒋洪涛
1. 广西甘蔗生物学重点实验室,广西 南宁 530004 2. 广西大学电气工程学院,广西 南宁 530004
甘蔗的蔗糖分是衡量甘蔗品质的重要指标,活体甘蔗蔗糖分的速测对甘蔗进行及时的田间管理、甘蔗品质评价等方面都具有一定的现实意义。在实际生产中,常用的甘蔗蔗糖含量检测方法有旋光法、二次旋光法[1]、液相色谱法等,而这些检测方法都需要对样本进行预先处理、耗时耗力、测定步骤繁杂等问题,难以实现快速大批量的检测。
可见-近红外光谱分析技术相比于传统的化学分析方法显著减少了检测的时间成本和化学药品对环境影响[2],是一种快速高效的检测手段,目前已经广泛的运用在食品[3-4]、农产品内部品质检测当中[5-7]。对于诸如哈密瓜、苹果等圆型瓜果,已有学者对比了不同的光谱测量方式和特征提取方法对建模效果的影响,Li等[8]采集了哈密瓜赤道部位和尾部在750~950 nm范围的漫反射光谱来预测哈密瓜的可溶性固形物,得出哈密瓜尾部的光谱建模效果高于赤道部位的结论。Xu等[9]对比了回归系数、遗传算法等四种不同的特征波长筛选方法在沙田柚水分含量预测的效果,结果表明遗传算法是柚子水分检测分析的最佳特征提取方法,其水分预测模型的决定系数为0.712,均方根误差为0.048 8。针对甘蔗这类圆柱体样本的光谱检测方法研究也有相关报道,Taira等[10]使用便携式近红外仪器,获取了180°夹角下的未去蜡甘蔗的600~1 100 nm的透射光谱,建立了全波段的甘蔗糖分预测模型; SteidleNeto等[11]通过Y型光纤采集了450~1 100 nm的甘蔗表面漫反射光谱数据对甘蔗品种进行分类,发现使用偏最小二乘法判别分析的分类精度可达82%。
针对甘蔗这类外皮较硬、表面覆蜡的圆柱体样本,Taira和SteidleNeto等学者进行了相应的光谱学研究,但是其样本光谱采集方式相对单一,没有对不同的光谱测量方式进行差异化研究。因此,本文探究了光谱测量角度的变化、蜡质的覆盖对甘蔗光谱的透射效果以及建模效果的影响。并在最优的光谱测量方式下,探讨了不同特征波长筛选方法的性能,以进一步提升建模精度。
2021年1月5日至7日,于广西大学扶绥农科新城甘蔗试验田,随机选取了6个不同的甘蔗品种,每个品种均挑选茎秆笔直未倒伏,表皮没有裂口和其他明显瑕疵的蔗茎,共70根(其中60根处于成熟期,10根处于伸长期)。蔗茎采集后存放于实验室,在室温下放置24 h之后,使用干毛巾清理样本表面灰尘。对成熟期的甘蔗,由于其糖分的分布呈下端高上端低的特点,特将其分割为上端和下端两部分,每部分作为一个单独的实验样本; 对于伸长期的甘蔗则单独作为一个样本。最后得到甘蔗实验样本130个,剔除数据异常样本7个,最终获得123个有效样本。
采用自行设计搭建的采集平台获取透射光谱数据,平台如图1所示,由光谱仪、光源、光纤、电脑等组成。光源在甘蔗蔗茎的一侧进行照射,另一侧采用光谱仪从不同角度对经过蔗茎的透射光进行检测。透射光谱的获取应保证探头与光源之间的夹角在(90°,180°]范围内,根据等角度间距的原则,确定了采集平台上三根不同角度的光谱探测通路,以此来获取120°,150°和180°情况下的甘蔗样本透射光谱。实验所采用的光谱仪为美国ASD公司生产的FieldSpec光谱仪(FieldSpec®4 Hi-Res, USA),光谱范围350~2 500 nm,采样间隔为1.4 nm(350~1 000 nm)和1.1 nm(1 001~2 500 nm)。光源采用了一个12 V、20 W的卤素灯,采用直流稳压电源供电。为了避免光源侧的杂散光对透射光检测侧的干扰,在入射部位周围通过不透光的黑色海绵进行包裹,使得光源、入射光通路、甘蔗入射部位三者形成一个封闭的空间。测量时,ASD光谱仪预热30 min,并使用10 mm厚度的聚四氟乙烯板作为参考板,将光强数据转换为透光率。光谱数据的分析及建模分别在Excel Professional2019(Microsoft, USA)及MATLAB(R2019a, USA)中进行。
图1 甘蔗透射光谱采集平台1: 探头; 2: 黑色海绵垫片; 3: 卤素灯;4: 样品固定桶; 5: 甘蔗样本; 6: 光纤;7: 光谱仪; 8: 数据线; 9: 计算机Fig.1 Transmission spectrum acquisition platform of sugarcanes1: Probe; 2: Black sponge pad; 3: Halogen lamp;4: Sample fixing cylinder; 5: Sugarcane sample;6: Optical fiber; 7: Spectrometer; 8: Cable; 9. Laptop
每个甘蔗样本分别在原始状态(去蜡前)、去蜡后分别进行了透射光的测量。在去除蜡质前后,每个样本选择两处(大约在1/4与3/4位置处)测量点,每处通过90°旋转共测量得到4组透射光谱,共8组数据。去蜡前后的甘蔗及其光谱采集位点如图2所示。
图2 去蜡前后的甘蔗样本及透射光谱采集位点示意图Fig.2 The sugarcane samples before and after wax removal and the sketch of transmittance measurement positions
将每个样本的8组数据取平均,得到测量方向与入射光方向夹角分别为120°,150°和180°的透射光谱。所得透射光谱波长范围为350~2 500 nm,但从实际数据来看,首尾波段的透射光谱幅值接近0,且存在大量噪声,因此选取了噪声较小,幅值变化显著的670~950 nm波段内的光谱数据为有效建模区域。
甘蔗样本的蔗糖分采用国标GB/T 10499—2014方法进行检测样液的配置与获取,并使用液相色谱仪(Thermo Fisher UltiMate 3000,USA)进行甘蔗内部蔗糖分含量测定,剔除错误样本后,共获得123个样本用于后续分析与建模。将所有样本按2∶1分成校正集(n=82)和预测集(n=41),二者的蔗糖分统计结果如表1所示,可以看出两个集合包含的数据分布趋势一致,有利于模型的建立与评价。
表1 甘蔗样本蔗糖分统计Table 1 Statistical characteristics of sucrose content in sugarcane samples
使用MATLAB R2019a对表皮去蜡前后的甘蔗平均光谱进行预处理以及特征波长分析。对原始光谱进行预处理方法后,通过偏最小二乘法(partial least squares, PLS)回归建模的效果对比选择最优方法。接着采用了常规的间隔偏最小二乘(interval partial least squares, i-PLS)、遗传算法(genetic algorithm, GA)、传统蚁群算法(ant colony optimization, ACO)对特征波长进行了提取; 并提出了基于全波段PLS建模回归系数(variable regression coefficient, VRC)的改进蚁群算法(VRC-ACO)优化筛选效率。最后针对各方法筛选得到的特征波长建立了甘蔗糖分的PLS预测模型。模型的预测能力和稳定性由校正相关系数(Rc)、预测相关系数(Rp)、校正均方根误差(RMSEC)和预测均方根误差(RMSEP)这4个指标来评价。
由于可见-近红外光谱采集的有效信息弱,且带有噪声,为了提升后续建模的可靠性,需对原始光谱进行预处理。本文以120°光谱获取角度下的甘蔗光谱数据集为例,采用了6种方法分别对光谱进行了预处理,并采用PLS建模结果评价各预处理方法的优劣,结果如表2所示。
表2 甘蔗样本的120°透射光谱预处理结果Table 2 Spectral pretreatment results of sugarcane samples at 120°measurement angle
由表2可知,在相同光谱测量角度下,SNV预处理效果在校正集表现优于其他预处理方法,同时在预测集建模效果上,去蜡样本的预测集建模效果表现最好,原始样本的预测集建模效果仅比最高的MSC方法略低,其他角度下的预处理结果当中,SNV整体表现也最优。综合分析可知,SNV对以上数据集的干扰因素校正能力更强,更适用于本实验所对应的数据,故后续采用经过SNV预处理后的光谱数据进行建模处理。
2.2.1 蜡质覆盖的影响
甘蔗在自然生长的情况下表皮会覆盖一层薄薄的植物蜡,和其他天然蜡质一样,是酯、游离酸、醇和碳氢化合物的混合物,同时蜡质覆盖也会改变甘蔗表皮颜色,因此本研究首先探讨了甘蔗表皮蜡质对甘蔗透射光谱预测糖分的影响。
图3(a)所示为某样本在探测夹角为180°时,8个采集位点去蜡前后的光谱曲线; 其余夹角条件下,波形走势与此相似。可以看出,去蜡后的光谱透过率更高,不同位点的透射光谱变化也更小,使得数据稳定性有所提升。分析6类光谱数据与蔗糖分的相关性,结果如图3(b)所示,原始样本对应的3种角度下的透射光谱数据与蔗糖分的整体相关性较低,而去蜡后3种角度下两者的相关性有着明显的提升。同时由图2可见,未去蜡的甘蔗表面颜色分布不均匀,且颜色比去蜡后的深,是造成光谱差异的原因之一; 另外,构成甘蔗表皮蜡的化学混合物质也会由于光照产生分子振动,从而产生光谱的倍频和合频吸收,进而影响透射光谱。
图3 甘蔗去蜡前后的光谱差异CWR: 去蜡样本; OS: 原始样本(a): 某样本不同采集位点的透射光谱;(b): 光谱透过率与蔗糖分的相关性Fig.3 Spectral difference of sugarcane before and after wax removalCWR: Cane wax removed; OS: Original sample(a): Transmission spectra at different sampling positions of a sugarcane sample; (b): Correlation between transmittance spectra and sucrose
2.2.2 不同探测角度的影响
光源与探测器的夹角不同,会影响光程长短,光线在甘蔗内部经过多角度的散射之后,携带着甘蔗内部信息的光强被光纤收集。图4所示为120°,150°和180°三个角度下所有样本的平均透射光谱,从图中的结果来看,去蜡前后均表现出120°夹角下的透过率最高,150°下的透过率略低,而180°下的透过率最低。
图4 不同角度下样本的平均光谱透过率(a): 原始样本; (b): 去蜡样本Fig.4 Average spectral transmittance of samples at different angles(a): Original sample; (b): Cane wax removed
2.2.3 不同光谱测量方式对预测模型精度的影响
针对6类不同测量方式采集得到的光谱数据集分别建立了蔗糖分的PLS全波段预测模型,结果如表3所示。从蜡质覆盖来看,未去蜡数据集的预测模型Rp范围在0.75~0.77,去蜡的Rp范围在0.77~0.79,未去蜡的模型预测效果在整体上都低于去蜡样本,进一步证明蜡质会对建模精度造成影响。从不同的探测角度来看,不论去蜡与否,120°下的建模效果都最佳,未去蜡与去蜡的Rp分别为0.776 8和0.790 6,RMSEP分别为0.948 6和0.933 4,表明了光源与探测器的夹角大小也会影响透射光谱建模效果。
表3 不同测量方式下的PLS建模结果Table 3 PLS modeling results obtained by different spectral measurement methods
选取6类数据集中建模效果最好的120°探测夹角下经SNV预处理后的甘蔗去蜡透射光谱作为后续分析的数据集,进一步对特征波长筛选方法进行研究与对比。
2.3.1 i-PLS筛选特征波长
间隔偏最小二乘法的基本原理是将全波段区域进行区间距划分,得到n个光谱区间,而后对每个子区间内的光谱数据进行PLS建模分析。采用i-PLS对甘蔗透射光谱进行的波长筛选,将671~950 nm的范围划分为15个区间,在波段747~765 nm区间内RMSECV最低。i-PLS挑选出的波长组合如表4所示。
2.3.2 GA筛选特征波长
遗传算法是仿照生物自然选择和进化发展而来的自适应算法。GA相关的参数设置如下: 初始化群体数目200,交叉概率0.8,变异概率0.3,迭代次数50,波长选择阈值为5。算法运用前向选择的方式进行波段组合挑选,为了防止算法的随机性对结果造成的影响,共进行了10次重复运算,挑选出建模效果最优的波长组合。GA挑选出的波长组合如表4所示。
2.3.3 ACO筛选特征波长
蚁群算法模拟了自然界当中蚁群的觅食行为,根据路径上蚂蚁留下的信息素浓度收敛到寻找食物最短的路径。ACO相关的参数设置如下: 初始蚂蚁数量200,信息素挥发引子0.85,显著性因子0.1,迭代次数50次,波长选择阈值为5。与遗传算法保持一致,根据前向选择挑选波长组合,并进行10次重复运算。ACO挑选出的波长组合如表4所示。
2.3.4 VRC-ACO筛选特征波长
传统的蚁群算法中每个波段对应的初始化信息素含量都为1,而统一的初始信息素含量可能导致算法收敛速度缓慢,并且容易陷入局部最优解。因此提出一种改进的蚁群算法,将全波段PLS建模当中的变量回归系数与传统蚁群算法结合,以期改善ACO收敛速度慢等问题。VRC能够在一定程度上体现每个波段在全波段PLS建模当中所占的重要程度,其绝对值越高表明该变量对模型的影响越大。VRC-ACO挑选出的波长如表4所示。
表4 挑选波段结果Table 4 Results of selected wavelengths
从表4的结果来看,i-PLS选取的特征波长数量最多,达到了19个,GA和ACO算法选择的特征波长数量分别为16个和15个,而VRC-ACO挑选的波长数量最少,仅有10个特征波长。从特征波长挑选的数量来看,VRC-ACO的表现最优。同时相比算法改进之前,采用VRC-ACO运行程序的速度与传统的ACO运行速度相比提升了将近10%。图5为算法选择波长的频次图,波长的挑选也有比较明显的高低峰值。
图5 VRC-ACO算法选择的波长频次Fig.5 Frequency of each wavelength selected by VCR-ACO algorithm
蔗糖分子的化学式为C12H22O11,分子结构中含有亚甲基(—CH2—)和羟基(—OH)等化学基团,亚甲基在近红外光谱区域的四倍频吸收带在762 nm附近,三倍频吸收带在934 nm附近[12]; 羟基的三倍频在980 nm附近,四倍频在730 nm附近[13]。从表4的波长挑选结果可以看出,各方法筛选得到的特征波长均包含亚甲基的四倍频吸收带762 nm附近的波长,并规避了羟基倍频所对应的特征波长,一定程度上反映了筛选结果的合理性。
不同算法挑选得到的特征波长的建模结果如表5所示。基于i-PLS筛选波段的模型精度(Rp=0.761 9)低于全波段的精度(Rp=0.790 6),这是由于该方法选取的变量是按照连续区间进行选取,特征波长的选取受到了较大的限制。其余3种筛选方法所得波段的建模精度(Rp>0.84)均明显高于全波段的精度。从建模结果来看,效果最好的为VRC-ACO方法,该方法筛选得到的波段数最少,仅为10个,但由此建立的PLS模型的精度最高:Rp达到了0.861 6,较全波段PLS预测模型提升了8.98%; RMSEP仅为0.746 6,较全波段PLS预测模型下降了20%。基于VRC-ACO筛选得到的特征波段建立的PLS模型,其校正集与预测集的散点图如图6所示。
图6 VRC-ACO挑选的波长所建立的模型散点图(a): 校正集; (b): 验证集Fig.6 Scatter plot of the model established by the wavelength selected by VRC-ACO algorithm(a): Calibration set; (b): Prediction set
表5 不同算法挑选波长的建模结果Table 5 Modeling results of selected wavelengths by different algorithms
通过自行搭建的甘蔗透射光谱采集平台获取了活体甘蔗样本去蜡前后在120°,150°和180°测量夹角下的6类透射光谱,分析了光谱特征差异,对比并改进了特征波长筛选方法,最后建立了蔗糖分的预测模型。主要结论如下:
(1) 比较了S-G平滑处理、FD、MSC、SNV、S-G+MSC和S-G+SNV这6种光谱预处理方法对模型精度优化的能力,发现SNV综合表现最佳。
(2) 甘蔗表皮蜡质会对光谱透射产生干扰,降低建模精度,同时光源与探测器的角度变化也会影响建模效果。不同测量方式下,120°夹角下去蜡后的光谱数据集建立的预测模型精度最好,预测集相关系数为0.790 6,预测均方根误差为0.93。
(3) 比较了i-PLS,GA,ACO和本工作改进得到的VRC-ACO四种特征提取算法的特征波长建模预测效果,提取出的特征波长数量分别为19,16,15和10。基于VRC-ACO算法挑选出的10个特征波段建立的PLS模型预测蔗糖分的效果最优,预测集相关系数为0.861 6,比全波段PLS的结果提升了8.98%; 预测均方根误差为0.746 6,比全波段PLS降低了20%; 模型输入变量减少了96.4%。该研究为甘蔗蔗糖分无损检测及相应传感器的研发提供了理论支持。