汪志强 李大鹏 刘 强 廖舒怀 易宗霈
(中南林业科技大学机电工程学院,湖南 长沙 410004)
油茶是一种营养价值丰富的油料作物[1],近年来其种植面积和规模不断扩大[2]。水分对油茶籽干燥时和干燥后影响较大,是一个重要的评价参数[3]。研究[4]表明,干燥时,水分含量会影响油茶籽干燥品质和能耗。同时,在茶油加工步骤中,干燥是第一步工序,水分含量是干燥时要控制的参数;干燥后,水分含量仍会影响油茶籽的贮藏[5]。目前,常用的茶籽水分含量测定方法主要为烘干法,但该法效率低下、耗时耗力[6]。
近年来,利用光谱技术检测农产品中含油率及含水率、鉴伪等具有快速分析、无损检测,以及无需样品准备等优点。周宏平等[7]利用高光谱技术实现了对油茶籽含油率的无损检测,利用两组采集到的漫反射高光谱图像,结合化学方法成功建立了含油率的回归预测模型。彭彦昆等[8]通过近红外光谱法设计了猪肉水分在线检测分级系统,能够在线准确预测猪肉水分,判断准确率达90%以上。郭文川等[9]利用近红外光谱检测油茶籽油的掺伪,对掺伪质量分数不低于3%的掺伪油茶籽油的识别准确率达100%。Melfsen等[10]用漫反射近红外光谱法估测了牛奶中脂肪酸含量,最终预测准确率达92%以上。Elsohaby等[11]利用红外光谱和偏最小二乘回归预测了奶牛和肉牛初乳免疫球蛋白G浓度,平均相对误差为5%。
然而,近红外光谱检测方法测得的光谱极易受温度、样品种类等因素影响,其中,温度是最常见的影响因素[12]。分子间的内力受温度影响产生变化,主要表现为光谱振动变化。油茶籽水分中含有O—H键,在干燥时,油茶籽表面温度的不同会影响水分子的振动变化,导致O—H基团对可见/近红外光谱的吸收波段以及强度发生变化[13],因此需要修正温度变化对光谱检测的影响。
目前,有关温度影响可见/近红外光谱检测油茶籽含水率的相关研究尚未见报道。研究拟以不同温度下干燥的油茶籽为研究对象,提出一种改进的温度修正模型,解决可见/近红外光谱检测时结果受温度影响的问题,为采用可见/近红外光谱检测干燥过程中油茶籽含水率时消除温度的影响提供依据。
1.1.1 材料
油茶籽:选择新鲜的油茶果360个(平均分为3部分,依次于50,60,70 ℃下进行试验),去壳,随机选取360粒颗粒饱满、大小均匀、无缺陷、单粒均重4 g 的油茶籽样品,收集其光谱数据,湖南雪峰山茶油专业合作社。
1.1.2 主要仪器设备
光源:HL-1000型,功率为5 W的卤素光源,上海闻奕光电科技有限公司;
光谱仪:Maya2000 Pro型,波长范围为199~1 113 nm,使用Y型光纤连接光源和光谱仪,美国Oceanoptics公司;
烘干箱:XGQ-2000型,浙江力辰仪器有限公司;
精密电子天平:JY/YP11003型,浙江力辰科技制造有限公司。
使用自行设计的光谱平台采集光谱数据(图1),该系统包括光源、光谱仪、Y型光纤、电脑、置物台、支架、暗箱。每次采集前为了消除误差,需进行光谱黑白校正,校正方法[14]:
(1)
式中:
R——油茶籽的反射率;
A——校正前样本原始的反射数据;
C——标准白板的参考反射光谱数据;
D——标准黑板的参考反射光谱数据。
先将漫反射标准白板(反射率99%)放置在密闭暗箱中(黑暗环境),光纤探头垂直于白板,在其正上方3 cm 处,收集校正的光谱信息;取出烘干箱中的油茶籽,置于光纤探头正下方2~3 cm 处收集原始反射光谱数据。
对每一部分的120粒油茶籽随机依次编号,分为10组。测量时,先将全部油茶籽放入烘干箱中,依次于50,60,70 ℃下烘干。烘干时,每隔1 h取出一组进行光谱测量,迅速采集光谱数据,以免温度下降,模拟干燥时的温度;为使光谱数据与含水率对应更准确,在采集光谱数据后,用天平称重并记录相应数据,完成一组数据收集。1 h后重复操作直至10 h后全部采集完毕,得到120个包含不同含水率的光谱数据。
光谱数据由其自带的软件读取,用Microsoft Excel 2019记录,采用MATLAB 2019 b、Python 3.9软件处理数据。
1. 光谱仪 2. 电脑 3. 光源 4. Y型光纤 5. 暗箱 6. 置物台 7. 油茶籽 8. 支架 9. 光纤探头
按GB 5009.3—2016中的直接干燥法测量油茶籽含水率。
采用SPXY算法将每一温度下的全部样品划分为校正集与预测集,比例为3∶1,用90份样品建模,其余30份样品以预测的方式来建立合适的模型。
为了减少误差,剔除光谱数据中的无用信息,为了提高模型精度和预测效果,需对原始反射数据(RAW)进行预处理[15]。选取的预处理方法有多元散射校正(MSC)、标准正态变量变换(SNV)和标准化缩放(Au)。其中MSC可以消除散射影响,增强采集的光谱和数据之间的关联;SNV可以消除因为颗粒大小、表面散射对光谱的影响;Au能够消除因数据差异过大产生的误差[16]。
采用竞争性自适应重加权算法(CARS)[17]来消除因为光谱数据量大导致运行速度慢、误差大、建模效果不理想的缺点,从而选取合适的特征波长建模。
建模方法为偏最小二乘回归法(PLSR)[18],该方法具有运行速度快,能够同时考虑光谱信息和相应的理化性质,从而避免信息缺失的优点。
表1 RPD值范围与其对应的含义
分别按式(2)~式(4)计算模型的R2、RMSE和RPD值。
(2)
(3)
(4)
式中:
yai——第i个样本的预测值,g/g湿基;
yi——第i个样本的真实值,g/g湿基;
n——样本数。
采用斜率/偏差法(S/B)对温度进行修正,以Ta温度下建立的模型来预测Tb温度下的含水率为例,说明温度修正的方法。分别建立Ta温度下的光谱矩阵Xa,Tb温度下的光谱矩阵Xb,用Xa和其对应的含水率真实值矩阵Ma建立模型N,将Xb代入模型N中预测Tb温度下的含水率矩阵Mb。假设Ta温度下的含水率真实值矩阵Ma和Tb温度下的含水率矩阵Mb存在如式(5)所示的关系式[20]。
Ma=B+S×Mb,
(5)
式中:
Mb——修正前Tb温度下的含水率预测值,g/g湿基;
Ma——Ta温度下样品含水率的真实值,g/g湿基。
(6)
式中:
选用的光谱仪波长范围为199~1 113 nm,其中199~780 nm属于可见光范围,780~1 113 nm属于近红外范围。以60 ℃下采集的油茶籽原始反射光谱为例分析,全波段光谱如图2所示,为了消除噪音和误差,有效提取光谱信息,需去除光谱首尾两端波段,选择波长范围为400~1 000 nm,总计1 366个波长点。
由图2可知,波长为400~1 000 nm时,曲线逐渐上升,反射率逐渐变大,420 nm处出现一个吸收峰,与索雷特吸收有关[21];960~980 nm附近出现平台区,形成一个弱吸收峰,是由油茶籽中O—H基团的第二泛频所导致的[22]。
图2 60 ℃下采集的油茶籽原始反射光谱图
试验发现,不同含水率下温度对光谱曲线均会产生明显影响。由于获取的油茶籽含水率分布范围较广(1%~60%),为了更清晰地表明温度对光谱曲线的影响,以最高含水率范围(60±1)%内的光谱数据平均值为例来进行说明。
由图3可知,同一含水率不同温度下的光谱曲线虽然走势一样,但其高低不一致。其中70 ℃对应的光谱曲线最高,而60 ℃对应的光谱曲线开始时高于50 ℃的,在650 nm 处变为最低,之后又逐渐升高,并高于50 ℃的。
图3 原始光谱曲线和曲线之差比较
为了更明确说明温度对光谱曲线的影响,以60 ℃下的光谱数据建立基准模型,因此以60 ℃对应的光谱曲线为0基准,将50,70 ℃的光谱曲线与60 ℃的进行差值计算,获得对比曲线。70 ℃对应的光谱曲线与60 ℃的光谱曲线反射率之差为正值,表明在该区域内温度的升高使油茶籽对光谱的反射越来越强,使光谱接收到的信息变多。50 ℃对应的光谱曲线先为负后为正之后又为负,表明其反射强度先小于后大于之后又小于60 ℃对应的光谱曲线。
综上,温度对光谱曲线产生了明显影响,是由于温度变化会影响O—H键的振动频率,进而改变反射率[13]。因此建立油茶籽含水率预测模型时需要考虑温度的影响。
以60 ℃下90个校正集样本作为建模集,其余30个样本进行预测,采用MSC、SNV、Au对其原始光谱(RAW)进行预处理后再进行PLSR建模,结果见表2。
表2 60 ℃下反射率建模结果
将50,70 ℃的校正集样本代入基准模型中建模,预测含水率值,结果如图4所示。由图4可知,当温度低于60 ℃时,预测值偏高;当温度高于60 ℃时,预测值偏低。
将50,70 ℃下的含水率预测值与真实值进行回归分析,得到回归方程:
M60=1.036M50-5.492,
(7)
M60=1.122M70+3.226。
(8)
由回归方程可知,50,70 ℃下修正斜率分别为1.036和1.122;偏差分别为-5.492和3.226。
修正前,将50,70 ℃下的预测集代入基准模型中,结果见表3,其RPD值均<2.5,说明预测结果较差,精度较低。
用预测集的30个样本来评价模型修正结果,用基准模型来预测各温度下的含水率,将预测值矩阵、斜率和偏差代入式(6)中进行修正,得到各温度下含水率的修正值,修正后的结果见表3。由表3可知,50,70 ℃下的RPD值均>2.5,优于修正前的结果,达到了良好的预测精度;而60 ℃下的RPD值虽有所降低,但仍>2.5,可以满足预测需要,下降原因可能是预测时出现过拟合。
图4 50 ℃和70 ℃样本建模结果
表3 各温度下修正前与修正后结果比较
观察式(7)、式(8)和其余回归方程可知,斜率接近于1,其对预测值的偏差近似为线性关系。试验温度以60 ℃ 为基准模型,10 ℃为梯度,每上升或下降一个梯度,计算出其偏差约等于4.359。因此,任意温度下的修正方程拟合为
(9)
式中:
T——样品温度,50~70 ℃。
陆锡昆等[23]利用高光谱技术检测油茶籽含水率,其经过MSC预处理建立的PLSR模型的Rp值达0.939,与试验结果类似,但是其利用太阳进行自然烘干来获取不同的含水率样品,未研究温度对光谱的影响,因此其模型可能不适用于干燥时的油茶籽含水率在线检测。
为了解决干燥时温度对可见/近红外光谱技术检测油茶籽含水率的影响,分别于50,60,70 ℃下进行相关干燥试验。结果表明,以60 ℃下校正集建立基准偏最小二乘回归法模型,对比3种预处理方式,得到其相对最佳的预处理方式为多元散射校正处理;同时为了进一步提高模型精度,经竞争性自适应重加权算法处理,其预测集决定系数、预测集均方根误差以及相对分析误差分别为0.909、3.102%和3.315。用60 ℃下的基准偏最小二乘回归法模型来预测50,70 ℃下的含水率值,由预测值与真实值计算出斜率和偏差,采用斜率/偏差法计算出预测集修正后的预测值,精度明显提高,相对分析误差均>2.5,可用于一般性的预测。同时由单个温度修正模型分析得到50~70 ℃范围内,任意温度下模型预测值的修正公式。综上,斜率/偏差法能够解决干燥时温度对油茶籽含水率在线检测的影响问题。后续可在多个温度下进行试验,以使模型精度更高,应用范围更广。