
2021-06-02 00:07:26罗玉琴韦燕菊林馥茗孙威江
农业工程学报 2021年6期

罗玉琴,韦燕菊,林 琳,3,林馥茗,3,苏 峰,孙威江,3



罗玉琴1,韦燕菊2,林 琳1,3,林馥茗2,3,苏 峰4,孙威江1,3※

(1. 福建农林大学园艺学院,福州 350002;2. 福建农林大学安溪茶学院,泉州 362400;3. 福建省茶产业技术开发基地,福州 350002;4. 福建省种植业技术推广总站,福州 350003)

为了实现福建省白茶产地的快速鉴别,采用气相色谱-离子迁移谱(Gas Chromatography-Ion Mobility Spectrometry,GC-IMS)技术对福建不同产地白茶挥发性物质进行检测,结合化学计量学方法建立白茶产地判别模型。结果表明,福鼎、福安、政和、建阳和松溪各产地间白茶挥发性物质含量存在差异,政和、建阳和松溪3地制成的白茶样品相似度相对较高。GC-IMS谱图数据和241种标记物质数据均可用于白茶产地区分。GC-IMS谱图数据建立的K近邻线性判别分析(K-near Neighbor Linear Discriminant Analysis,LDA-KNN)、多层感知机线性判别分析(Multi-layer Perceptron Linear Discriminant Analysis,LDA-MLP)和支持向量机线性判别分析(Support Vector Machine Linear Discriminant Analysis,LDA-SVM)模型判别率分别为91.84%、93.88%和93.88%;标记物质建立的Adaboost线性判别分析(LDA-Adaboost)、决策树线性判别分析(LDA-Decison Tree)、LDA-KNN、LDA-MLP、随机森林线性判别分析(LDA-Random Forest)和LDA-SVM模型判别率均为100%。结果表明基于标记物质数据建立的6种模型能更有效对白茶产地进行区分。研究结果为福建白茶原产地保护提供技术支持。


0 引 言


目前用于茶叶产地鉴别的检测技术主要有高效/超高效液相色谱[3-7],核磁共振波谱[8],傅里叶变换近红外、红外光谱[3,9-12],矿物质元素[13-14],元素[15-16]与稳定同位素[17-18],质子转移反应-飞行时间质谱[19],电子鼻[20],气相色谱离子迁移谱技术(Gas Chromatography-Ion Mobility Spectrometry,GC-IMS)[21]等。有研究表明矿物质元素可以用于白茶产地判别,利用线性判别分析(Linear Discriminant Analysis,LDA)、支持向量机(Support Vector Machine,SVM)和K-最近邻(K-nearest Neighbors,KNN)方法建立的白茶产地鉴别率分别达到98.44%、95.31%和100%[17]。该方法虽然产地鉴别效果好,但也存在操作复杂,检测速度慢的缺点。气相色谱离子迁移谱是一种快速、灵敏、无损的挥发性有机物检测技术,它兼具气相色谱的高分离能力和离子迁移谱的高分辨、高灵敏度,能够分离化合物的同分异构体,与气相色谱-质谱(Gas Chromatography-Mass Spectrometry,GC-MS)相比,具有不需要样品前处理,操作简单的优势[22-23]。GC-IMS被广泛应用于食品如橄榄油[24-25]、火腿[26]、蜂蜜风味分析[27]和酒[28-29]、水蜜桃[30]、咖啡[31]等产地区分中。在茶叶领域多应用于绿茶挥发性物质定性、绿茶风味、香型分类以及乌龙茶产地鉴别[21,32-34]。林若川等[33]、刘亚芹等[34]采用气相色谱-离子迁移谱技术检测绿茶挥发性物质,结果表明不同种类绿茶挥发性物质种类和含量存在差异,利用GC-IMS技术可以区分绿茶种类。Jin等[21]研究结果表明采用GC-IMS技术建立的闽北3个小产区大红袍模型正判率优于稳定同位素产地判别模型。基于此,本研究采用GC-IMS技术对福建5个不同产地白茶挥发性物质进行检测,结合化学计量学方法建立白茶产地判别模型,以期为白茶产地鉴别和原产地保护提供参考依据。

1 材料与方法

1.1 试验材料


1.2 仪器与设备

FlavourSpec®风味谱仪,德国G.A.S.公司;高速粉碎机,上海鼎广机械设备有限公司;BSA124S 电子天平,德国Sartorius公司。

1.3 试验方法

1.3.1 GC-IMS谱图的采集

采用高速粉碎机将茶样研磨成粉,置4 ℃冰箱备用。称取(0.2000±0.0005) g茶样,装入20 mL磁盖顶空瓶中。在孵化器中以80 ℃温度、500 r/min振动孵化15 min,通过80 ℃注射器将200L样品顶空自动注入GC-IMS设备中。配备气相色谱柱FS-SE-54-CB-1进行色谱分离,以氮气(纯度99.99%)为载气,程序运行流量:初始漂移气体流速EPC1为150 mL/min,载气流速EPC2为2 mL/min,运行10 min后EPC1维持150 mL/min,EPC2流量爬升至10 mL/min,运行至30 min 时EPC1为150 mL/min,EPC2为130 mL/min,在30 min 20 s时结束运行程序,每个样品检测2次。

1.3.2 数据分析

使用德国GAS公司的LAV2.2.1软件对处理数据,GCxIMS Library Search软件鉴定茶样中所含香气挥发物,LAV软件和GraphPad Prism8软件分别生成样品挥发性物质指纹谱图、样品相似匹配度图。利用Python软件对白茶两种GC-IMS数据进行主成分分析(Principal Component Analysis,PCA)、线性判别分析降维(LDA)。第一种数据类型为原始谱图数据:利用LAV软件将原始数据导出转换成*.CSV格式,每个样品数据矩阵大小为4 615×4 500(保留时间0~1 799.46 s,迁移时间0~29.993 ms),截取包含大多数分析信息的数据矩阵2 039×991(保留时间105.00~900.00 s,迁移时间8.000~14.600 ms)。首先将每一行数据剪切转置粘贴生成1×2 020 649大小的数据矩阵。然后,将全部样品谱图数据整合成一个数据集矩阵[24]。第二种数据类型为挥发性物质峰强度值:在GC-IMS图谱上共标记出241个挥发性物质,通过LAV定量插件自动获取样品的挥发性物质峰强度值,每个样品生成1×241大小的数据矩阵,整合全部样品生成600×241数据集矩阵。

结合Adaboost算法、决策树(Decision Tree)、K近邻算法(KNN)、多层感知机(Multi-Layer Perceptron,MLP)、随机森林算法(Random Forest)、随机梯度下降(Stochastic Gradient Descent,SGD)和支持向量机(SVM)分类方法建立白茶产地判别模型。

2 结果与分析

2.1 不同产地白茶GC-IMS谱图分析


通过LAV软件在GC-IMS图谱中共标记了241种挥发性香气物质,根据气相保留时间和离子迁移时间,利用GCxIMS Library Search软件对物质进行NIST数据库匹配,共鉴定出41种挥发性物质的单体和部分物质的二聚体、三聚体。其中碳氢化合物1种,醇、醛类各14种,酮类3种,酯类2种,酸类4种,杂氧化合物1种,吡嗪类2种(表1)。

表1 白茶中部分挥发性物质定性结果

2.2 不同产地白茶挥发性香气物质差异分析



2.3 不同产地白茶样品相似度分析


PCA是一种无标签的数据降维方法,将多个原始指标化为少数几个新指标,并能最大限度保留样本原始信息[35]。而LDA是一种有监督的降维分类方法,能抓住样品判别特征,判别样品所属类别[36]。采用PCA、LDA对196个样品进行数据降维处理,由于松溪建阳产地样品数量过少,将松溪建阳产地样品归为一类(图 5)。图5a、c为不同产地白茶数据PCA降维结果,其中筛选谱图数据PC1、PC2累计贡献率为36%,标记物质PC1、PC2累计贡献率为47%。各产地白茶分布存在交叉,基于标记物PCA产地区分效果优于筛选谱图数据的PCA产地区分。在图5b、d中,不同产地白茶各有其自己的聚类群。福鼎白茶和福安白茶各自区分,政和白茶和建阳松溪白茶样本相似度较高,区分效果较福鼎、福安白茶差。同PCA降维结果相同,基于标记物LDA产地区分效果优于筛选谱图数据的LDA产地区分。

2.4 不同产地白茶判别结果

鉴于LDA降维效果优于PCA主成分分析,本文采用LDA对样本数据进行降维,基于两种类型数据结合不同分类方法建立白茶产地判别模型。随机抽取196份不同产地白茶样品的75%样品作为训练集,剩余25%样本数作为测试集。将筛选的谱图数据输入LDA-Adaboost、LDA-Decision Tree、LDA-KNN、LDA-MLP、LDA-Random Forest、LDA-SGD和LDA-SVM模型,各模型产地识别率分别为85.71%、85.71%、91.84%、93.88%、89.80%、79.59%和93.88% (表2)。LDA-Adaboost、LDA-Decision Tree、LDA-Random Forest和LDA-SGD模型产地判别率低,均低于90%,且LDA-Decision Tree、LDA-Random Forest模型存在数据过拟合问题。LDA-KNN、LDA-MLP和LDA-SVM模型受试者工作特征曲线(ROC)下的面积(AUC)分别为0.93、0.96、0.96,其产地模型性能好,产地判别率均高于90%,产地识别正确率高。结果表明选择香气谱图数据可用于白茶产地的区分。

同谱图数据模型一致,以3∶1的比例将196份白茶样品分为训练样和测试样。将241种标记挥发性物质的峰强度值输入LDA-Adaboost、LDA-Decision Tree、LDA-KNN、LDA-MLP、LDA-Random Forest、LDA-SGD和LDA-SVM模型,7种模型的产地识别率分别为100%、100%、100%、100%、100%、79.59%和100%(表2)。LDA-SGD模型产地判别率低,政和、松溪建阳产地白茶未被完全分隔开。LDA-Adaboost、LDA-Decision Tree、LDA-KNN、LDA-MLP、LDA-Random Forest和LDA-SVM模型ROC曲线下的面积(AUC)均为1.0,产地判别率均为100%。其产地模型性能好,产地识别正确率高。综上,采用标记物质峰强度值对白茶产地进行分类是可行的,且基于标记物质建立的产地模型正判率高于基于筛选谱图数据建立的产地判别模型。

表2 白茶产地模型判别结果


Note: AUC is the area under the receiver operating characteristic curve, the higher the AUC value was, the better the model performed.

3 讨 论


已有研究表明利用GC-IMS技术能准确确定绿茶茶样的产地,基于GC-IMS的KNN模型对武夷山大红袍、安溪铁观音产地判别率分别为95.2%和97.8%[21,32,34]。本研究基于两种数据类型结合7种分类方法建立的白茶产地判别模型均能在一定程度上区分白茶产地,但不同模型具有不同的判别效果。在筛选谱图数据模型中LDA-KNN、LDA-MLP和LDA-SVM判别率分别为91.84%、93.88%和93.88%,产地识别率均>90%。而在标记物质模型中LDA-Adaboost、LDA-Decision Tree、LDA-KNN、LDA-MLP、LDA-Random Forest和LDA-SVM判别率均为100%。基于标记物质的白茶产地判别模型效果优于筛选谱图数据模型,Contreras等[24]基于两种GC-IMS数据类型构建橄榄油分类模型也进一步证明,使用标记物质对橄榄油进行分类准确率更高。


4 结 论

本研究结果表明不同产地白茶挥发性香气物质组成是相同的,但在其物质含量上存在差异。产自福鼎、福安白茶的香气组分含量与政和、建阳、松溪差异较大,而政和、建阳和松溪3地白茶香气组分含量较相似。基于筛选谱图数据和标记物质数据构建的模型进行白茶产地判别是可行的,标记物质数据构建的LDA-Adaboost、LDA-Decision Tree、LDA-KNN、LDA-MLP、LDA-Random Forest和LDA-SVM模型正判率均为100%,而筛选谱图数据构建的LDA-KNN、LDA-MLP和LDA-SVM模型判别率在91%~94%之间,说明使用标记物质数据建立产地判别模型能获得更高的正判率。

Origin discrimination of Fujian white tea using gas chromatography-ion mobility spectrometry

Luo Yuqin1, Wei Yanju2, Lin lin1,3, Lin Fuming2,3, Su Feng4, Sun Weijiang1,3※


White tea is one of the six categories of tea. Fresh leaf picking, withering and drying are the three basic processing technology of white tea, which are relatively simple. White tea originated in Fujian Province, mainly produced in Fuding City, Zhenghe County, Jianyang county and Songxi County. Aroma is one of the important factors that determine the quality of tea. The main aroma components of Yunnan Yueyue white tea and Fujian Baihao Yinzhen tea were reported, but the differences of volatile aroma components of white tea from different main producing areas in Fujian Province were not clear. Gas Chromatography Ion Mobility Spectrometry (GC-IMS) is a new gas phase separation and detection technology in recent years, which has high resolution of gas chromatography and low detection limit of ion mobility spectrometry. In order to reveal the different volatile aroma components of white tea from different areas in Fujian Province, and to realize the rapid identification of white tea producing areas, GC-IMS technology was used to detect the volatile components of white tea from different areas in Fujian Province. Meanwhile, Linear Discriminant Analysis (LDA) was carried out to reduce the dimension of aroma data, and established a discrimination model of white tea producing areas combined with chemometrics method. The results showed that the contents of volatile compounds in white tea among the producing areas of Fuding, Fu’an, Zhenghe, Jianyang and Songxi were different. The white tea samples of Zhenghe, Jianyang and Songxi had higher similarity, and lower content of volatile aroma substances. Both GC-IMS spectrum data and 241 kinds of labeled aroma compounds data could be used to distinguish the origin of white tea, and LDA based on marker material data was better than it based on GC-IMS spectrum data. The discriminant rates of K Near Neighbor Linear Discriminant Analysis (LDA-KNN), Multi-Layer Perceptron Linear Discriminant Analysis (LDA-MLP) and Support Vector Machine Linear Discriminant Analysis (LDA-SVM) model based on the GC-IMS spectrum data were 91.84%,93.88% and 93.88%, respectively. By comparing the three patterns of misjudgment samples, it was found that the origin misjudgment occurred between Zhenghe white tea and Songxi Jianyang white tea, which was related to the small difference of volatile aroma components and high similarity of samples. The results showed that the discriminant rates of Adaboost Linear Discriminant Analysis (LDA-Adaboost), Decision Tree Linear Discriminant Analysis (LDA-Decison Tree), LDA-KNN, LDA-MLP, Random Forest Linear Discriminant Analysis (LDA-Random Forest) and LDA-SVM were 100%. The positive discrimination rate of the origin model based on the marker substance was higher than that based on the GC-IMS spectrum data. All six discriminant models based on the labelled substances data could effectively distinguish the origin of white tea. The results of this study can provide technical support for the origin protection of Fujian white tea.

discriminant analysis; flavors; gas chromatography ion mobility spectroscopy; white tea; volatile matter

罗玉琴,韦燕菊,林琳,等. 基于GC-IMS技术的福建白茶产地判别[J]. 农业工程学报,2021,37(6):264-273.doi:10.11975/j.issn.1002-6819.2021.06.032 http://www.tcsae.org

Luo Yuqin, Wei Yanju, Lin lin, et al. Origin discrimination of Fujian white tea using gas chromatography-ion mobility spectrometry[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(6): 264-273. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.06.032 http://www.tcsae.org










