基于多源信息融合的绿茶杀青叶水分含量智能感知方法

2022-10-31 08:56董春旺刘中原张人天
食品科学 2022年20期
关键词:光谱绿茶变量

董春旺,刘中原,2,杨 明,王 梅,张人天,2,林 智,

(1.中国农业科学院茶叶研究所,浙江 杭州 310008;2.石河子大学机械电气工程学院,新疆 石河子 832003;3.中国科学院发展规划局,北京 100864)

绿茶是我国主要茶类之一,因其有益健康的特性而被广泛消费。绿茶也是我国茶叶产量最大的茶类,居六大初制茶类之首,截至2020年我国绿茶产量达到184.27万 t,占我国茶叶总产量60%以上。杀青是绿茶加工的关键工序,水分含量直接影响杀青叶物理状态和生化反应的进程,对茶叶品质的形成具有重要的作用。

传统的茶叶水分检测方法为烘干称质量法,该方法测量精度较高,但存在耗时和有损的缺点,无法满足茶叶加工过程中在线、快速和无损伤检测的需求。因此,在绿茶生产实际中,多根据杀青叶色泽变化和手握的触感,判断杀青叶水分含量情况和杀青程度,如适度的杀青叶色泽暗绿,手捏叶质柔软,略有黏性。人工经验法属于专家行为,易导致在制品发生红边、焦叶或杀不透现象,造成品质不稳定和鲜叶原料的浪费。目前,已有国内外学者开展茶叶水分含量的快速检测,如Mizukami等提出一种基于电容特性的含水率检测方法,研究了碾茶原料的电学特性和水分含量之间的关系。刘飞等利用电特性参数对绿茶干燥过程中在制品水分含量进行了预测,得到较好的模型效果。电特性信息采集时,其接触力、时间、频率及摊叶厚度、均匀度等均影响检测性能,难以应用于实际生产。

近红外光谱和机器视觉技术是2 种常用的无损检测方法,具有快速、高效、无损的优点,已广泛应用于茶叶成分定量检测、茶叶品质划分、茶叶原产地的定性判别等领域。Wang Yujie等为了快速检测红茶加工过程中多酚和儿茶素含量,融合微型近红外光谱和自建计算机视觉系统采集的数据信息,采用竞争性自适应权重取样(competitive adaptive reweighted sampling,CARS)法和主成分分析(principal component analysis,PCA)法从光谱和颜色变量中选择有效变量,并建立偏最小二乘回归(partial least squares regression,PLSR)预测建模,结果表明,预测的校正集相关系数(correlation coefficient of calibration set,)值分别为0.98±0.00和0.96±0.01,预测集的相关系数(correlation coefficient of the prediction set,)值分别为0.98±0.01和0.97±0.01,相对分析误差(relative percent deviation,RPD)分别为5.41±0.99和4.03±0.38。董春旺等建立了基于图像色泽特征的针芽形绿茶外形品质评价方法。胡永光等采用可见-近红外光谱技术,建立了绿茶杀青叶料含水率检测方法,其预测相关系数为0.819,均方根误差为0.037,预测含水率的平均相对误差为3.30%。Li Luqing等证明了融合近红外光谱和计算机视觉技术在区分绿茶质量等级方面可以实现优于单一传感器技术的性能。然而,融合近红外光谱和机器视觉技术在检测绿茶杀青过程中水分含量的研究鲜有报道,尚未评估融合机器视觉和近红外光谱数据预测绿茶杀青过程中水分含量的可行性。

综上,本研究以针芽形绿茶自动化生产线为载体,同步采集杀青过程中在制品的图像与光谱信息,提取图像纹理、颜色特征及特征光谱变量。探讨有效的数据融合方式以提高模型的预测精度,旨在克服单一传感信息预测精度不够的问题,为今后在标准化、数字化生产线中杀青模块的专家系统研发提供理论依据和数据支撑。

1 材料与方法

1.1 材料

于2020月4月7日在湖南省长沙市湘丰智能装备有限公司实施,茶叶品种为高桥银峰茶,嫩度为一芽一叶和一芽二叶。

1.2 仪器与设备

如图1所示,采用数据融合装置主要由3 部分组成:近红外光谱部分、机器视觉部分、水分采集部分。在近红外光谱部分使用IAS-3100采集光谱数据,测样方式为下照漫反射;波长范围为900~1 700 nm;光谱精度为±1 nm,分辨率为4 cm;机器视觉部分包括图像传感器、专业工业相机、弧形光源、暗箱、计算机和GUI软件处理系统组成,专业工业相机型号为FI-S200C-G,其中镜头为4 nm低畸变镜头,传感器为1/2.8 CMOS图像传感器,分辨率为1 080 像素×1 080 像素,曝光时间设为0.09 ms;光源采用DOME单色纯白弧形光源,底部光照强度均值约为1 000 lx,图片类型为bmp格式;相机镜头被固定在暗箱顶部,以确保拍摄角度和距离恒定。水分采集部分使用三台赛多利斯水分测定仪(MA35M-000230V1,上海右一仪器有限公司)对茶叶样品含水率进行采集,其量程为35 g,称质量系统精度为1 mg,可读性为0.01%。

图1 数据融合流程图Fig.1 Flowchart of the data fusion used in this study

为了实时检测杀青过程中水分的变化,采用每间隔1 min取一次样品,每次取15 个样品,每个样品质量约80 g,均匀平铺在规格为70 mm×10 mm的石英培养皿中,每个样品采集3 次光谱,取3 次采集光谱的平均值作为该样品的光谱信息,共获得105 条不同时序下的杀青叶光谱信息。将每个采集完光谱数据的样品放置于相机的视野中,采集样品图像信息,该研究共获得105 张图像用于数据的分析和模型的建立。将采集完光谱和图像信息的样品进行水分分布情况测定,结果见表1。

表1 绿茶杀青样本水分分布情况Table 1 Moisture contents in samples at different stages of tea fixation

1.3 方法

1.3.1 样品制备

将采集好的鲜叶原料(含水率为76.52%)放置于鲜叶摊青机中,摊叶厚度为5~6 cm,室内环境温度在20 ℃左右,相对湿度60%左右,摊青处理10 h后,根据水分测定仪测定结果(测定3 次取平均值),含水率为65.05%,摊青结束,随即进行杀青。杀青在滚筒式杀青机内进行,滚筒杀青温度为270 ℃+250 ℃+230 ℃(前段筒温+中段筒温+后段筒温),滚筒转速为22 r/min,杀青时间为6 min,含水量为54.24%。

1.3.2 特征提取和数据融合

1.3.2.1 近红外光谱处理

在光谱采集的过程中,由于培养皿中样品不平整,光谱信息容易受到散光、噪声等因素干扰,故使用多元散射校正(multiplicative scatter correction,MSC),中心化、标准差归一化、极差归一化和微分5 种方式对原始光谱预处理,以校正因散射引起的光谱差异,降低干扰信息的影响。为了消除与光谱信息无关的冗余信息,使用竞争性自适应加权算(competitive adaptive reweighted sampling,CARS)法、变量组合集群分析(variables combination population analysis,VCPA)法、变量组合集群分析法结合迭代保留信息变量(variables combination population analysis and iterative retained information variable algorithm,VCPA-IRIV)法和随机蛙跳(random frog,RF)法4 种变量筛选算法从全光谱中提取特征波段。

1.3.2.2 图像特征

软件系统部分以图像中像素点(1 728,1 152)为中心,自动分割出1 000 像素×1 000 像素区域,提取该兴趣区域的色泽和纹理特征。通过RGB和HSV之间的颜色模型转换,最终获得样品图样的9 个颜色特征以及6 个纹理特征。9 个颜色特征分别为红色通道均值()、绿茶通道均值()、蓝色通道均值()、色点均值()、饱和度均值()、亮度均值()、超绿变换(2)、红色通道均值与绿色通道均值的比值(/)和颜色角();6 个纹理特征分别为:平均灰度值()、标准差()、平滑度()、三阶距()、一致性()、熵(),共计得到15 个图像特征。

据蚯蚓测土实验室副总裁刘刚介绍,蚯蚓测土实验室有专业的服务团队、检测设备、检测人员及管理系统四大优势,多元素同时检测,批量化、自动化作业,信息管理系统可以自动分配任务、自动抓取检测结果、自动生成检测报告,报告中包括土壤养分的含量、施肥的时期、养分的配比、施肥量、施肥方法的介绍,从而使农民科学施肥达到节本增收的目的。

1.3.2.3 数据融合

数据融合可以分为3 个不同的层次:数据级、特征级和决策级。在数据级融合过程中,直接将近红外光谱和机器视觉系统所采集的数据融合起来为数据级融合;特征级数据融合是将来自不同传感器之间的特征变量进行数据融合;在决策级融合过程中,从每个数据源中计算出单独的回归模型,并将其结果合并,得到最终的回归模型。然而,决策级数据融合需要准确的数据处理方式,如果没有考虑不同传感器之间的数据相关性,此过程可能会导致大量信息丢失。因此,本研究选择数据级和特征级融合进行数据处理。为了消除数据的大小对建模结果的影响,采用数据归一化对融合的数据进行预处理。

1.3.3 多变量数据分析

1.3.3.1 PCA

变量筛选和特征提取都是对原始光谱进行降维和压缩,剔除与待测对象无关的信息,简化模型的过程。但不同的是,变量筛选是从原始数据中筛选出有代表性的数据,而特征提取是通过映射(或变换)的方法对原始数据进行重组,从中提取新的特征供下一步处理分析。通常先经过变量筛选再进行特征提取,最后利用新提取的特征建立模型。PCA作为特征提取的一种方式,在保证光谱和图像主要特征不丢失的情况下,降低数据集的维数,将多特征转化为少量主要特征的方法。PCA通过将原始变量转换为一组成分(PCs)的线性不相关的新变量汇总数据,累计贡献率表示相应的PC解释原始变量的能力,本研究第10个PCs的交互验证均方根误差(root mean square error cross-validation,RMSECV)值最低,且前10 个PCs的累计贡献率达到了99%以上,因此本研究采用前10 个PCs建立定量预测模型。

1.3.3.2 定量预测建模方法

在建立模型之前,使用Kennard-Stone(K-S)法将数据集分为校正集和预测集,其中校正集样本数为79 个,预测集样本数为26 个,校正集与预测集比例为3∶1。采用PLSR、支持向量回归(support vector regression,SVR)建立绿茶杀青过程中水分含量定量预测模型。

PLSR模型是用于解决回归问题最广泛使用的线性算法之一,集中了PCA和典型相关分析的特点,通过从自变量和因变量数据中提取包含原数据变异信息的PC建立回归模型,广泛应用于食品和农产品内质成分的定量预测;SVR模型是一种基于支持向量机(support vector machine,SVM)理论的非线性数据处理方法,基本思想是在高维空间中进行线性回归,实现函数逼近。SVR的过程是通过引入非线性映射函数,即核函数,将原始空间映射到高维特征空间。因此,低维空间中的非线性问题可以转化为高维空间中的线性问题。在这个空间中,构造了特殊类型的超平面,然后在超平面中建立回归模型。

1.3.3.3 模型评价指标

采用、RMSECV和、预测均方根误差(root mean square error of predication,RMSEP)分别作为训练集与预测集评价指标。为了更好地衡量所建模型的预测性能,引入RPD作为模型性能指标。与在0~1的范围值越大,RMSECV和RMSEP越小,预测性能越好;当RPD值大于1.4时,表明模型可以应用,当RPD在1.8~2之间,表明模型预测效果较好,当RPD>2时,表明模型具有极好的预测效果,计算公式如(1)~(5)所示。所有的数据处理分析均在Origin 2018和Matlab 2019a中完成。

式中:y为预测集中的第个样品的预测值;为校正集中的第个样品的实际测定值;为对应所有个校正集样品或个预测集样品实际测定值平均值;std为预测集的标准差。

2 结果与分析

2.1 光谱特征和预处理优选

图2a为绿茶杀青实验样本的近红外光谱图,记录了900~1 650 nm波长样本的光谱曲线,剔除噪声影响较大的1 651~1 700 nm范围内的光谱数据,不同杀青时间样本的光谱曲线存在细微差距。发现主要吸收峰位于960、1 225 nm和1 440 nm处。其中,960 nm处的吸收峰主要与水分子中O—H基团的二级倍频有关;1 220 nm处的吸收峰受水分子O—H基团的合频吸收带以及C—H键二级倍频的影响,其中C—H的影响来自杀青过程中,在制品发生酶钝反应,引起内质成分变化的影响;1 440 nm处的吸收峰受水分子中OH基团在近红外区的伸缩振动一级倍频的影响。

由于采集的近红外原始光谱中包含了除光谱信息之外的其他噪声信息,为了降低噪声对模型效果的影响,使用5 种不同方法对原始数据预处理,校正后的光谱如图2b~f所示,随后建立PLSR预测模型,并与原始数据建立的PLSR模型相比较,以确定最优的预处理方法,结果如表2所示。由表2可知,基于原始光谱所建立的预测模型效果较差,RPD<1.8,只可以对绿茶杀青过程中水分含量实现粗略的预测;使用预处理后所建立的预测模型性能相比原始光谱所建立的模型效果明显较优,其中中心化为最佳的预处理方法。值为0.938 5,值为0.907 1,RPD为2.180 4,可以对绿茶杀青过程中水分含量精准预测。

表2 基于不同预处理方法水分含量预测模型Table 2 Parameters of moisture content prediction models developed using different pretreatment methods

图2 不同预处理方法对光谱的影响Fig.2 Effect of different pretreatment methods on NIR spectra

2.2 颜色特征变化

为了更好研究杀青过程中叶片颜色变化规律,本研究首先对整体视觉变化进行分析。随机拍摄不同杀青时间的图像,根据杀青时间顺序排列。然后提取图像的平均颜色,结果如图3A、B所示,杀青时间不同,颜色也存在一定的差异。为了更好区分不同加工时间图像之间的差异性,本研究将RGB图像转化为HSV颜色模型然后取平均色,结果如图3C、D所示。在绿茶杀青过程中,叶子变得柔软卷曲,颜色逐渐由青绿色变成深绿色。随后,提取图像的不同颜色特征参数,从微观角度呈现叶子颜色的变化规律,结果如图4所示。其中RGB值随着绿茶杀青过程而显著降低,导致颜色从青绿色变成暗绿色,这是因为在高温钝化了酶的活性,终止了各种酶促变化途径,同时叶绿素总量、叶绿素a与叶绿素b的比例发生了变化,鲜叶中墨绿色的叶绿素a与黄绿色的叶绿素b的比例大约是2∶1,通过杀青,叶绿素a破坏较多,剩下25%左右,叶绿素b破坏较少,在杀青叶中约50%~60%,由此可见,杀青之前墨绿色的叶绿素a比黄绿色的叶绿素b大约多1 倍,杀青之后,则叶绿素b比叶绿素a多1 倍,使叶色由鲜绿色变为暗绿。对于HSV颜色空间,在杀青过程中值和值在杀青过程中逐渐降低,值在杀青过程中逐渐增大,这可以通过图3描绘的颜色得以证明。其中,纹理变化过程中除了三阶矩值和一致性值逐渐增大之外,其他纹理特征均呈现逐渐降低的趋势。

图3 杀青过程中颜色变化图Fig.3 Color changes of tea leaves during the fixation process

图4 杀青过程中色泽和纹理特征值的变化结果Fig.4 Changes in color and texture characteristics during the fixation process

2.3 光谱特征波长筛选

为了进一步提高模型的预测精度,将采集的近红外光谱数据使用最佳预处理后,分别使用CARS、VCPA、VCPA-IRIV和RF四种特征波长筛选方法提取特征波长。其中,运行CARS算法时迭代次数和蒙特卡罗采样运行次数分别设置为1 000和50,共筛选出20 个特征波长,筛选结果如图5a、b所示;运行VCPA算法时,最佳子集占比为0.1,二进制矩阵采样运行次数设为1 000,指数衰减函数运行的次数设为50,剩余变量数目设为14,因此VCPA算法筛选出9 个特征波长,筛选结果如图5c所示;VCPA-IRIV算法首先采用VCPA进行快速缩小变量空间,设置最终剩余变量数为N;然后再通过IRIV评估剩余变量空间中每个变量的重要性,以优选出最佳变量子集,最终优选出33 个特征波长,筛选结果如图5d所示;RF算法是近年提出的新型特征波长选择算法,其根据不同变量被选择的可能性不同,通过多次迭代来确定每个变量被选择的概率,进而选择概率高的变量作为特征波长,此方法筛选出25 个特征波长,筛选结果如图5e所示。如图5f所示,为4 种变量筛选方法提取的特征波长分布图,可以看出特征波长在960、1 220、1 440 nm和1 620 nm附近,这可能与OH基团、NH基团和CH基团的伸缩振动有关。

图5 通过不同的变量筛选方法选择的特征波长Fig.5 Characteristic wavelength variables selected by different variable selection methods

2.4 基于单一传感器的预测模型

为获取较优模型以实现绿茶杀青过程中含水率的定量预测,对原始光谱进行预处理后,基于不同特征波长筛选方法优选出特征波长,然后结合PCA建立SVR非线性预测模型,并与线性的PLSR模型相比较。表3列出了基于近红外光谱数据和颜色特征数据预测绿茶杀青过程中水分含量的模型性能指标。

表3 基于光谱和图像信息的模型性能指标Table 3 Performance of models based on spectral or image information

对比线性的PLSR模型结果可知,全光谱-PLSR模型的为0.938 5,为0.907 1,RPD为2.180 4,表明模型的预测效果较好。通过不同特征波长筛选方法所建立的模型效果均优于基于全光谱所建立的模型性能,因为在筛选特征波长过程中剔除了很多冗余和无关的信息变量,其中基于VCPA-IRIV算法所建立的模型效果最优,为0.955 0,RMSECV为0.010 2,为0.942 2,RMSEP为0.010 3,RPD为2.795 6,并且变量从750 个减少至33 个,变量压缩率为95.6%,既提高了模型的预测精度,也降低了模型的运算时间。基于色泽和纹理所建立的模型效果要低于基于近红外光谱数据所建立的模型效果,其中为0.932 6,为0.901 8,RPD为2.136 5。

对比非线性的SVR模型结果可知,全光谱-SVR校正集为0.942 3,为0.921 2,RPD为2.353 5,模型的预测性能较全光谱-PLSR模型性能有所提高。分析比较CARS-SVR、VCPA-SVR、VCPA-IRIV-SVR、RF-SVR四种模型结果可知,基于VCPA-IRIV算法所建立的模型效果做好,其为0.972 7,RMSECV为0.008 7,为0.954 5,RMSEP为0.009 8,RPD为2.950 6。基于颜特征所建立的SVR模型效果显著优于所建立的PLSR模型效果,但是相比基于光谱数据所建立的模型效果较差。其中SVR算法由Matlab平台下Li-SVMLAB工具箱创建,选用RBF为核函数,以PCA后的PC数据为输入,水分含量为输出。因惩罚因子()和核函数参数()对模型影响较大,故采用交叉验证函数tunelsssvm进行参数优化。

基于近红外光谱数据所建立的模型效果相比图像数据实现了更好的预测精度,具有更高的、和RPD,以及更低的RMSECV和RMSEP。导致这一结果的原因可能是机器视觉可以直接捕获颜色相关成分信息,但是这是一种间接的测定,有些成分并不能完全捕获,相比之下,近红外光谱对OH基团、NH基团和CH基团具有很好的响应,可以很好地捕获绿茶加工过程中的成分变化。

2.5 基于数据融合的预测模型

如表4所示,基于数据级数据融合所建立的PLSR和SVR模型获得了较好的模型效果,其中所建立的SVR模型精度较高,其值为0.955 0,为0.902 6,RPD值为1.857 3。然而这种预测效果是不可采用的,因为使用单个传感器获得的模型取得了更高的预测精度。与基于数据级数据融合所建立的PLSR和SVR模型效果相比,基于光谱数据的所建立的模型具有更好的、以及RPD值。这些结果表明,不合理的数据融合并不能有效提高预测精度。相比之下,基于特征级数据融合所建立的PLSR和SVR模型获得了更好的预测精度,具有更高的、和RPD值以及更低的RMSECV和RMSEP。其中基于CARS算法提取的特征波长融合15 个颜色特征所建立的SVR模型效果最优,为0.974 2,为0.971 9,RMSEP为0.007 9,RPD为4.154 6,不仅减少了建模的输入变量,还提高了模型的预测精度,预测值和实测值的关系如图6所示。其中根据水分测定仪测得杀青叶含水率方差在1%的量级,模型所获得的RMSEP分布在0.7%~1.2%,而RMSEP本身就是指误差值,因此模型预测结果满足水分测定仪测定结果。总体而言,通过近红外光谱和机器视觉的有效结合,实现了对绿茶加工过程中水分含量的准确预测,为低成本、快速、有效的绿茶质量评估提供了手段。

表4 基于数据融合的模型性能指标Table 4 Performance of models based on data fusion

图6 基于SVR的模型优化Fig.6 Model optimization based on SVR

3 结论

本研究证明了融合近红外光谱和机器视觉检测绿茶杀青在制品水分含量的可行性,通过采用数据级和特征级数据融合方式,并建立PLSR和SVR模型进行比较。结果表明,基于单一传感器数据所建立的模型效果优于数据级数据融合所建立的模型效果,表明无效的数据融合并不能提高模型的预测效果。相比之下,基于特征级数据融合所建立的模型效果明显优于单一传感器和低级数据融合所建立的模型效果。其中基于CARS算法提取光谱特征波长融合图像的15 个颜色特征,然后采用归一化和PCA所建立的SVR模型效果最优,其中为0.974 2,值为0.971 9,RPD为4.154 6,且RMSEC和RMSEP差值仅为0.004。因此,本研究证明了融合光谱和成像系统对绿茶加工过程中水分含量的预测能力,克服了单一传感信息预测能力不足的问题。

猜你喜欢
光谱绿茶变量
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
The Price of Beauty
郭守敬望远镜获取光谱数破千万
红樱绿茶两相欢
浅析光谱技术在200 nm以上和以下尺度范围内的不同
养血清脂试试龙眼绿茶
忆江南·绿茶
分离变量法:常见的通性通法
不可忽视变量的离散与连续
轻松把握变量之间的关系