基于近红外光谱和气相离子迁移谱的白茶等级评价研究

2023-11-06 06:42罗玉琴张灵枝戴伟东孙威江
食品工业科技 2023年21期
关键词:白牡丹白茶降维

黄 艳,罗玉琴,张灵枝,戴伟东,林 智,林 刚,孙威江,3,*

(1.福建农林大学安溪茶学院,福建泉州 362400;2.福建农林大学园艺学院,福建福州 350002;3.中国白茶研究院,福建福鼎 355200;4.漳州科技职业学院茶与食品科技学院,福建漳州 363202;5.中国农业科学院茶叶研究所,浙江杭州 310008;6.福建融韵通生态科技有限公司,福建福州 350002)

白茶属微发酵茶,可分为白毫银针、白牡丹、贡眉和寿眉四类。近年来,白毫银针、白牡丹类高端白茶迎来消费热潮,贡眉、寿眉散茶等中低端产品的消费占比不断减小[1-2]。白茶的四个品类按照新梢嫩度区分,不同等级同品类产品间外形差异小,导致同级不同质、同级不同价等市场乱象频现[3]。因此,科学评价白茶等级对规范市场秩序、稳定和提高产品质量具有重要作用。

常规茶叶等级评价主要通过感官审评与内质分析。感官审评通常对干茶、叶底、茶汤的香气、滋味、色泽等因子进行综合评价、定级。内质分析通过使用感官智能分析系统(如电子舌[4-6]、电子鼻[7-8])、光谱技术(近红外光谱(near-infrared spectroscopy,NIR)[9-10]、高光谱[11]、紫外可见分光光度法[12])、色谱技术(气相色谱[13]、液相色谱[14-15])、计算机视觉技术(荧光探针[16]、图像[17])等,结合化学计量学方法,提取茶叶的等级特征并建立等级评价模型。感官智能分析系统属快速检测技术,灵敏性强、成本高,尚未实现产业化应用;光谱、色谱等分析技术,操作复杂、成本高;计算机视觉技术适合色泽和外观差异较大的样本,不适合白茶等级辨别。NIR 技术具有高效、无损、低成本的优势,通过建立光谱数据与已知样品属性值的关联模型,可实现对未知样品属性值的快速预测,在绿茶[18-19]、红茶[20]、白茶[21]的等级评价已有诸多报道。与NIR 技术相似,气相离子迁移谱

(gas chromatography-ion mobility sepctrometry,GCIMS)是一种高效、高分离、高灵敏度的挥发性物质检测技术,适合食品质量的快速鉴定[22]。目前,该技术已应用于绿茶风味[23-24]与等级[25]、黄茶加工香气品质监测[26]、白茶年份与产地鉴别[27-28]等。NIR 和GC-IMS 技术可采集大量样品特征信息,前人一般利用主成分分析(principal component analysis,PCA)结合偏最小二乘法(partial least square,PLS)等经典算法建立基于特征信息的分类模型,进行未知样品的属性值预测。上述算法建立的模型一般缺乏深度算法学习,且模型的预测能力和鲁棒性对数据预处理方法、波长选择、样本背景等因素依赖性强。因此,本文选用自适应增强(adaptive boosting,Adaboost)、决策树(decision tree,DT)、K 近邻(k-nearest neighbor,KNN)、多层感知机(multilayer perceptron,MLP)、随机森林(random forest,RF)、随机梯度下降(stochastic gradient descent,SGD)、支持向量机(support vector machines, SVM)合计7 种有监督学习的数据挖掘分类算法,基于不同等级白牡丹白茶的NIR 和GC-IMS 数据进行深度算法学习,开展白茶等级评价与分类模型研究,探索茶叶等级智能评判的可行性,并为其提供理论依据。

1 材料与方法

1.1 材料与仪器

白牡丹茶样 由福建品品香茶业有限公司提供,品种为福鼎大毫茶,采制于2019 年春季。依据国家标准GB/T 22291-2017《白茶》中白牡丹特级、一级、二级、三级的感官品质要求与GB/T 23776-2018《茶叶感官审评方法》,评价样品外形、香气、滋味和叶底,最终将200 份茶样分为4 个等级,每个等级各50 份。如图1 所示,不同等级间白牡丹样品的外形差异小,难以直观辨别。随后,使用高速粉碎机将茶样研磨成粉,过80 目筛,置于4 ℃冰箱备用。用于后续NIR 的光谱数据采集和GC-IMS 的香气成分检测。

图1 四个等级白牡丹(白茶)的干茶、叶底和茶汤Fig.1 Dry leaves, infused leaves and the brewing of Bai Mudan white tea from four grades

ANTARIS Ⅱ FT-NIR 型Analyzer 傅立叶变换近红外光谱仪 美国Thermo Fisher Scientific 公司;FlavourSpec®风味分析仪 德国G.A.S.公司;DFY-300 高速粉碎机 上海鼎广机械设备有限公司;BSA124S 电子天平 德国Sartorius 公司;CFJ-Ⅱ茶叶筛分机 杭州大吉光电仪器有限公司。

1.2 实验方法

1.2.1 NIR 光谱采集 NIR 光谱采集方法参考沈诗钰等[28]的方法,采集温度为25 ℃,湿度<70%;采集时准确称取10.0±0.5 g 茶粉平铺于样品旋转杯中,选择积分球采样模式。波数范围为4000~10000 cm-1,扫描次数64,分辨率8.0 cm-1。为确保近红外光谱检测数据的可靠性,样品采集前重新扫描1 次背景,扣除空气背景光谱以降低环境因素对光谱数据的影响,每个样品重复采集其原始光谱3 次,取其平均光谱作为最终量测光谱数据。

1.2.2 GC-IMS 谱图采集 准确称取0.2000±0.0005 g茶粉于20 mL 磁盖顶空瓶中,以80 ℃、500 r/min 振动孵化15 min 后进样,进样体积为200 µL。仪器检测条件参考罗玉琴等[29]的方法,初始漂移气体流速EPC1 为150 mL/min,载气流速EPC2 为2 mL/min,运行10 min 后EPC1 维持150 mL/min,EPC2 流量爬升至10 mL/min,运行至30 min 时EPC1 为150 mL/min,EPC2 为130 mL/min,在30 min 20 s 时结束运行程序,每个样品检测2 次。

1.3 数据处理

应用TQ Analyst 8.0 分析软件获取NIR 谱图的原始数据;应用LAV 2.1.1 软件采集和处理GC-IMS挥发性物质的原始谱图和标记挥发性物质数据;自建数据处理平台,使用Python 3.8.5 软件对NIR、GCIMS 原始谱图数据和标记挥发性物质这3 种类型数据,分别进行PCA、LDA 降维,选择最优降维结果。应用Adaboost、DT、KNN、MLP、RF、SGD、SVM共计7 种数据挖掘分类算法建立白牡丹等级判别模型。

2 结果与分析

2.1 基于NIR 技术的等级判别

2.1.1 NIR 数据降维 白牡丹茶的NIR 原始谱图结果如图2 所示。所有样本在4000~10000 cm-1波段的NIR 光谱基本形态基本一致,吸光度值变化趋势相似;随着波数的增加,吸光度值总体呈现下降趋势,变化范围处于0.266~0.807 之间;不同等级白牡丹的平均光谱如图2b 所示,各等级白茶平均光谱间能基本分开,因此后续模型构建基于全谱段进行。

图2 不同等级白牡丹近红外原始光谱图Fig.2 Near infrared spectra of different grades of Bai Mudan white tea

分别采用PCA 和LDA 进行数据降维,结果如图3 所示,使用PCA 降维,PC1、PC2 累计贡献率为99%,各等级样品间的分布存在交叉重叠现象,不同等级间分离效果差;LDA 降维后,不同等级间区分明显,其中三级白牡丹(最低等级)与其他3 个等级的距离较远。LDA 是一种有监督的特征提取方法,其原理是将所有样本点都投影到一个高维直线上,尽可能使同类各样本点的投影尽量地贴近,而不同类各样本点投影之间尽量分散地分布,即降维的同时还能进行分类[30];PCA 是一种无监督的学习方法,其可以通过将数据投影到主成分上来降维,它的目的是使降维后的数据尽可能最大程度的保留原始数据的信息,但是它不能保证在降维后,新的低维空间中保留数据中是最具有判别性的信息。因此,LDA 降维效果更佳,后续采用此法对NIR 数据降维。

图3 不同等级白牡丹近红外光谱数据降维结果Fig.3 Dimension reduction results of NIR data of different grades of Bai Mudan white tea

2.1.2 基于NIR 等级判别模型 按照3:1 比例划分为训练集和测试集后,使用降维后的NIR 数据建立等级判别模型(图4)。图中的虚线表示分类边界,即将样本分类的决策边界,当样本特征被映射到一个低维度空间中时,通过决策边界就可以划分不同的样本等级。所建的Adaboost、DT、KNN、MLP、RF、SGD和SVM 模型中,测试集的识别正确率分别为94%、96%、98%、98%、98%和98%(表1),可见不同模型识别正确率均大于90%。核对误判样本发现,多数误判发生在特级、一级、二级的相邻等级之间,例如特级白牡丹被误判为一级白牡丹,一级白牡丹被误判为特级或二级白牡丹,不存在间级误判。特级、一级、二级的理化性质更相似、空间距离更接近,三级样本与其他等级的差异最为明显,因此模型误判主要发生在相邻等级之间。

表1 基于近红外光谱数据白牡丹等级模型判别结果Table 1 Discrimination results of Bai Mudan white tea grade model based on NIR data

图4 基于NIR 的白牡丹等级判别模型Fig.4 Classification models of Bai Mudan white tea based on NIR

DT 模型的变量数超过样本数(150 个),产生数据过拟合现象(图4b),在一级和二级样本的区域划分超过2 次,说明该模型不适用于当前白茶等级评价,后续可通过增加训练集数量、减少模型变量等方法避免数据过拟合。其余6 种模型判别率在94%~98%之间,ROC 曲线下的面积AUC 均≥0.95,表明等级识别模型性能好,等级识别正确率高。

2.2 基于GC-IMS 技术的等级判别

2.2.1 不同等级的白牡丹GC-IMS 图谱 不同等级的白牡丹GC-IMS 图谱经RIP 归一化处理后如图5所示,大多数挥发性香气物质在保留时间110~830 s、迁移时间1.00~1.77 ms 内得到有效分离。不同等级白牡丹的挥发性物质的组成基本相同,但在含量上存在差异。基于前期已有研究[29],使用LAV 软件共标记了241 种挥发性香气物质,并鉴定出41 种挥发性香气物质。

图5 不同等级白牡丹二维GC-IMS 谱图Fig.5 Two-dimensional spectra of GC-IMS in different grades of Bai Mudan white tea

2.2.2 GC-IMS 数据降维 以241 种挥发性物质对应的特征峰峰高值为变量,对GC-IMS 香气数据进行降维分析,图6a、图6c 为GC-IMS 香气数据的PCA 降维结果,各等级样本分布存在交叉重叠现象;图6b、图6d 中不同等级白牡丹各有聚类群,LDA 等级区分效果优于PCA,基于标记物LDA 等级区分效果优于筛选谱图数据的LDA 等级区分。

2.2.3 基于GC-IMS 等级判别模型 同2.1.1 结论一致,LDA 降维效果最佳,采用LDA 对GC-IMS 数据降维。基于筛选谱图数据和标记物质谱图两种数据,分别等级判别模型。将样本数据按照3:1 比例划分训练集和测试集。将筛选谱图数据建立7 种模型(图7),各模型的等级正判率分别为83%、92%、93%、92%、94%、91%和91%(表2)。如图7b、图7c、图7e 所示,DT、KNN、RF 模型的决策边界过于精确地对样品进行分类,泛化性不足,存在数据过拟合现象;Adaboost 模型未能对样品进行分类,存在欠拟合现象。MLP、SGD 和SVM 模型的等级正判率在91%~94%之间、AUC 为0.94~0.96,模型性能好,可用于等级评价。

表2 基于GC-IMS 数据白牡丹等级模型判别结果Table 2 Discrimination results of Bai Mudan white tea grade model based on GC-IMS data

图7 基于GC-IMS 筛选谱图数据的白牡丹等级判别模型Fig.7 Classification models of Bai Mudan white tea based on GC-IMS

同样,基于241 种标记挥发性物质的峰强度值数据,建立等级判别模型(图8)。241 种标记挥发物的等级判别模型,不同等级之间相互区分,单独聚集。如表2 所示,除RF 模型等级识别率为96%、ROC 曲线下的面积AUC 为0.98,其余6 种模型等级识别率为100%、AUC 均为1.0。GC-IMS 的241 种标记物质数据筛选可用于区分白牡丹等级,7 种分类器算法均表现出优越的模型性能。

图8 基于GC-IMS 标记物质的白牡丹等级判别模型Fig.8 Classification models of Bai Mudan white tea based on GC-IMS marked volatiles

综上,GC-IMS 采集的挥发性化学物特征数据库能够用于建立白茶等级判别模型。无论是基于筛选谱图数据还是标记挥发性物质数据,都能建立等级识别率>90%,AUC>0.9 的等级判别模型。标记挥发物质的等级模型性能优异,判别效果优于筛选谱图的等级模型。

3 结论

本研究建立了16 个高质量白牡丹等级判别模型,证实了NIR、GC-IMS 结合数据挖掘分类器算法用于白茶等级快速、简单识别的可行性,在茶叶等级鉴别和质量控制方法的选择上向前迈进了一步。为了减少实际应用中,模型对数据预处理方法、波长、样本背景等客观因素的依赖,进一步提高模型的性能和鲁棒性[31],后期将继续探索使用以多模型融合深度学习模型,该方法已在白茶产地溯源中应用[32]。将茶叶品质智能评价模型从传统单一的机器学习模型转入多模型融合的深度学习模型[33-35],是未来智能茶产业和智能农业的发展趋势。除此外,后续将尝试利用互联网技术,基于所建的高质量白茶等级判别模型,建设在线判别平台,实现远程白茶等级判别,既能丰富和完善数据库,也能进一步提升模型质量。

猜你喜欢
白牡丹白茶降维
何冰歌
混动成为降维打击的实力 东风风神皓极
“白牡丹”
绘本
降维打击
《戏牡丹》中白牡丹的角色感想及情绪变化分析
这只猫说得好有道理
ANIMATING ‘IP’COMICS AND EMOJIS BECOME ENTERTAINMENT BRANDS
货郎客
抛物化Navier-Stokes方程的降维仿真模型