基于气相色谱-质谱法和随机森林算法的不同产地香菇指纹图谱研究

2019-03-11 03:27:02周融融张水寒
分析科学学报 2019年1期
关键词:香菇产地森林

王 升, 陈 林, 周融融, 张水寒, 余 意, 王 凌*

(1.中国中医科学院中药资源中心,北京 100700; 2.湖南省中医药研究院中药研究所,湖南长沙 410013; 3.长春中医药大学,吉林长春 130117; 4.无限极(中国)有限公司,广东广州 510663)

香菇(Lentinusedodes,Shiitake)在我国是一种久负盛名的食用菌[1 - 3],属担子菌纲(Basidaiomycetes)、伞菌目(Agaricales)、口蘑科(Tricholomatacete)、香菇属(Lentinus),又称香蕈、冬菇、花菇等,其口味鲜美,营养价值高,且又具有显著的药用和滋补作用,是著名的药食两用真菌。近年来,香菇在亚洲、欧洲也越来越受喜爱,应归功于其独特的香味以及富含碳水化合物、蛋白质、矿物质、维生素、必需氨基酸等多种营养成分。相关研究表明,香菇活性成分还具有抗肿瘤、抗氧化、抗菌、保肝多种功效[4 - 6]。

气相色谱-质谱(GC-MS)联用技术日臻完善,其高效的分离能力以及良好的重现性,使得该方法广泛应用于复杂组分的分离与鉴定,已应用于食物、药材、茶叶等产品的成分分析和质量控制研究[7 - 9]。GC-MS法的另一个重要优势在于其强大的数据库(NIST库),其中容括丰富的化学物质标准品质谱信息,而通过数据搜索、匹配技术能够有效地帮助对活性物质的解析和鉴定。因而,本文提出利用GC-MS方法对来自不同产地香菇样品进行分析,构建其特征指纹图谱;进一步采用随机森林算法对指纹图谱进行判别分析,实现对香菇产品产地的判定,有望为香菇的质量控制提供新的评价依据。

1 实验和方法

1.1 仪器与设备

2010 plus气相色谱-质谱联用仪(日本,岛津集团);KQ5200DE数控超声波清洗器(昆山市超声仪器有限公司)。

1.2 试剂和样品

内标:乙酸苯乙酯,二氯甲烷(分析纯,Merck);来自不同产地的49个香菇样品(9个样品来自浙江产地,15个样品来自湖北产地,25个样品来自其他省:青海、吉林、山西、安徽等省)由无限极有限责任公司提供。

1.3 样品前处理

取干香菇样品适量,粉碎,过60目筛,精确称取8.0 g样品,加入二氯甲烷100 mL,超声提取30 min。过滤,滤液浓缩至2 mL,待测。

1.4 GC-MS条件

色谱条件:Rxi-1MS弹性石英毛细管色谱柱(30 m×0.25 mm×0.25 μm;日本岛津集团)。升温程序:初始温度160 ℃,保持2 min;以4 ℃/min 升温至210 ℃,保持2 min;以4 ℃/min 升温至260 ℃,保持10 min;以3 ℃/min 升温至280 ℃;保持10 min;进样口温度230 ℃;载气为高纯He气(纯度99.999%);柱流量1.0 mL/min;进样分流比30∶1;进样量1 μL。

质谱条件:电离方式:EI;电子能量:70 eV;离子源温度230 ℃;接口温度250 ℃;四极杆温度150 ℃;全扫描采集模式;扫描质量范围:m/z10~500。溶剂延迟时间:4.0 min。

1.5 化学计量学方法

1.5.1色谱预处理方法(1)自适应迭代惩罚最小二乘法法(airPLS):airPLS是结合惩罚最小二乘法和自适应迭代重加权两种方法[10]。利用惩罚最小二乘进行背景扣除的核心就是在权重向量w中根据峰位置信号对其加权,进一步通过迭代改变拟合基线与原始信号之间的总体方差权重,而该权重的自适应是使用前拟合基线与原始信号的差异得到。该算法相当于连续多次调用加权惩罚最小二乘算法。在airPLS过程中,迭代和重新加权不断地自动执行。该技术采用了稀疏矩阵技术,能够在短时间内有效地完成高通量的色谱数据背景扣除。(2)多尺度色谱峰校准:多尺度色谱峰校准是一种逐渐从小范围到大范围,不改变色谱峰的峰形的色谱峰方法[11]。首先,采用持续小波转换将色谱图中检测到的色谱峰转化到小波段空间。接着计算每个检测到的色谱峰的Shannon信息量,将每段的色谱峰Shannon信息量最小的迭代分割,或者剔除有更小段的小段。然后,利用傅里叶快速转换交互检验计算可以快速发现每小段的移动,通过结合邻近的片段移动确定每一部分的最佳移动范围使其相关系数最大。最后,利用线性插值方法移除非色谱峰部分。此方法逐步迭代直到所有色谱峰都得到校准。多尺度算法具有参数直观、易于调节、校准结果准确、性能好、不改变峰形状与面积、对噪音和背景不敏感等优点。

1.5.2随机森林判别分析随机森林算法是由Leo Breiman提出的一种基于分类回归树的集成算法,该算法是将Bagging采样和随机变量选择[12]两大方法相融合。Bagging算法是通过bootstrap(鞋带法)有放回的采样,以构建多个训练集,而最终的预测结果由所有构建的训练分类器进行投票。随机森林算法具有以下几个优势:(1)随机森林算法是一个多类分类算法,能够对多个类别的样本同时进行判别分析;(2)随机森林算法是一个集成算法,通过对多个弱分类器进行集成分析得到最终结果,使得模型的建模精确度得到保障;(3)在建模的过程中可以得到每类样本间的相似性矩阵,利用该相似性能够可视化的体现样本间的差异。

2 结果与讨论

2.1 实验条件的优化

2.1.1不同提取溶剂的选择本文利用乙酸乙酯和二氯甲烷对香菇样品进行提取,并比较两种方法得到的物质信息。实验结果表明,乙酸乙酯提取得到的物质极性偏大,出峰时间在40 min以后,而二氯甲烷提取的物质较适合GC-MS分析,测试时间也较好。因此,本文利用二氯甲烷对香菇样品进行提取。

2.1.2GC-MS分析条件优化分别试验了Rxi-SMS(130 m×0.25 mm×0.25 μm)和Rxi-1MS(30 m×0.25 mm×0.25 μm)两种色谱柱,结果发现后者峰形和分离效果较好。考察了分流比、程序升温和进样量等分离参数,发现分流比固定的情况下,进样量越大,拖尾现象越严重;固定进样量,分流比为50∶1时,样品中个别物质含量较低,故最终确定最优分离条件为:进样分流比为30∶1;进样量为1 μL。优化GC-MS条件见1.4节。

2.2 香菇中挥发性成分的测定

在上述最优GC-MS条件下,对来自不同产地的香菇样品进行分析得到其色谱图。利用airPLS法和多尺度色谱峰校准方法对原始谱图进行预处理后,进一步通过NIST标准质谱库搜索和匹配,对香菇中的特征性物质进行定性分析,共鉴定出脂肪酸、有机酸、酯类等40种物质(相似度均大于80%)。以保留时间定性,以所鉴定物质色谱峰与内标色谱峰面积之比定量。不同产地香菇定性定量结果见表1。表中列出了不同产地香菇样品的特征性物质及其相对含量,数据形式为均值±标准偏差。

表1 不同产地香菇样品定性定量分析

(续表1)

2.3 不同产地香菇样品的分辨

图1 不同产地香菇样品区分图Fig.1 Classification results of different original Lentinus edodes samples

本文采用的随机森林算法是一类基于分类回归树的集成算法,已广泛用于食品、工业产品等领域的研究。在算法运行的过程中,可利用多维特征尺度变换(MSD),将这些香菇的特征谱映射到数值空间,以找到样品间的相互关系(相似或相近程度)。香菇样品的聚类分析结果见图1,可见来至不同产地的香菇分别聚集在各自的区域,体现了每个产地的香菇都具有其各自的特征。可见南北方的香菇还是存在差异,体现在浙江省和湖北省的香菇产品明显有别于其他省的产品。

判别分析过程分为以下几步:首先,从所有香菇样品中选出80%的产品作为训练集,20%的产品作为独立测试集。利用随机森林算法对训练集进行训练构建预测模型,其交互验证的预测准确率为94.87%,说明随机森林算法具有较强的分类能力,能够有效区分来自不同产地的香菇样品。基于构建的训练模型,对剩下的20%的独立测试集进行分类预测,其预测准确率为90.00%,具体的分类预测结果见表2。

表2 对来至不同产地的香菇样品分类预测结果

3 结论

本文利用GC-MS联用技术和随机森林等法对来至不同产地的香菇样本进行分析,能有效区分不同产地的样品。该方法的提出是对现有方法的有效补充,随机森林算法更加适合多类数据的分类分析,能够为香菇的质量评估提供新的方法和参考。

猜你喜欢
香菇产地森林
Modeling and Verification of a Sentiment Analysis System Using Aspect-Oriented Petri Nets
香菇接种三招
今日农业(2020年16期)2020-12-14 15:04:59
警惕“洗产地”暗礁
中国外汇(2019年22期)2019-05-21 03:14:56
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
中成药(2018年8期)2018-08-29 01:28:16
哈Q森林
哈Q森林
哈Q森林
加强产地检疫实现以检促防
兽医导刊(2016年6期)2016-05-17 03:50:58
哈Q森林