钟伟萍,罗 阳,陈懿瑶,李小倩,王梦妍,田孟良
1四川农业大学农学院,成都 611130;2四川农业大学新农村发展研究院,雅安 625014
主成分分析方法[1](PCA)是将原来的数据指标(一般是多维数据)通过一系列算法重新组成新的互不相关的几个综合指标代替原来数据指标的一种统计方法,通过找出最能代表原始数据的计算方法,处理掉那些噪声和冗余维度,在降低数据维度的同时还保证了数据原始特征不失真,对相似性越高的数据,采用主成分分析越有效。在进行主成分方差分析的时候存在单个指标方差影响和指标之间相关性影响,因此在前者计算的时候多采取协方差矩阵进行计算,后者多采用相关性矩阵进行计算分析。
我国石斛(Dendrobium)资源丰富,中国药典[2]规定有4种石斛可供入药,并且石斛作为药食同源的植物,在保健品上使用也较多,所以市场上石斛“真假”混乱,加工品表观不易鉴别。中国药典规定的检测方法检测指标有限,且检测手段复杂。因此对已有检测手段进行检测优化,利用高效阴离子交换色谱和高效液相色谱检测石斛中药典规定及已报道明确活性的11种化学成分[3-5]。通过主成分分析对比,寻找质量差异,在建立检测检验方法的同时也探讨数据处理对分类鉴别产生的影响,为石斛种质开发和质量控制提供参考。
石斛材料为课题组收集的种质资源,种类如下表(表1)。
表1 实验材料Table 1 The experimental materials
DIONEX-ICS-5 000+型离子色谱(配备脉冲安培积分检测器),Chromeleon 7 色谱工作站, CarboPacTMPA100 Analytical(4 mm×250 mm)色谱柱(美国Thermo Fisher Scientific公司);Agilent 1200高效液相色谱仪(配备紫外分检测器),XDB-C18色谱柱(美国Agilent公司);LX-03型万能高速粉碎机(永康市红光工贸有限公司);CP224S电子天平(德国Sartorius公司);UPH-III-10T型超纯水机(成都超纯科技有限公司);KQ-400KDE型高功率数控超声波清洗器(东莞市科桥超声波设备有限公司);Allegra X-30R Centrifuge 型离心机(美国贝克曼库尔特);0.45 μm津腾有机滤头及一次性注射器(天津市津腾实验设备有限公司)。
甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、果糖、乳糖、丁香酸、柚皮素、香豆素、香草醛标准品均为色谱级(北京Solarbio公司);50% NaOH溶液(美国sigma公司);无水乙醇为优级纯(成都市科隆化学品有限公司);甲醇、乙腈、磷酸均为色谱级(天津市科密欧化学试剂有限公司);用水为电阻率≥18.19 MΩ·cm的超纯水。
1.3.1 色谱条件
离子色谱:淋洗液为超纯水-5 mol/L NaOH溶液(0 min 90%~10% 0.8 mL/min,3 min 90%~10% 0.8 mL/min,5 min 85%~15% 0.8 mL/min,7 min 85%~15% 0.4 mL/min,9 min 80%~20% 0.3 mL/min,12 min 80%~20% 0.4 mL/min,14 min 80%~20% 0.6 mL/min,18 min 85%~15% 0.6 mL/min,20 min 85%~15% 0.8 mL/min,24 min 90%~10% 0.8 mL/min,30 min Stop),进样量25 μL,柱温30 ℃。
液相色谱:流动相为0.01%磷酸-乙腈-甲醇,洗脱程序(0 min 80%~0%~20%,6 min 70%~10%~20%,12 min 57%~10%~33%,15 min 54%~13%~33%,20 min 50%~20%~30%,22 min 70%~10%~20%,25 min 80%~0%~20%,流速0.6 mL/min),λ=270 nm,进样量6 μL,柱温25 ℃。
1.3.2 标准品配制
分别精密量取各标准品配制成质量浓度为1 000 mg/L储备母液,在精密吸取配制成梯度浓度标曲溶液,过0.45 μm滤膜后上样检测。
1.3.3 样品制备
石斛糖样液采用“水提醇沉”与三氟乙酸水解进行制备,取上述一年生石斛材料,烘干粉碎过40目筛,精密称定粉末0.5 g,加入50 mL超纯水,400 W/50 ℃超声提取1 h,放冷,取上清液5 mL,加入无水乙醇20 mL,冷藏4 h后离心(4 000 rpm)30 min,沉淀加10 mL热水溶解得多糖提取液,在次精密吸取多糖提取溶液1 mL,精密加入TFA 1 mL(6 moL/L),密闭,100 ℃水解12 h,挥干溶剂,加入5 mL热水溶解,放冷过0.45 μm滤膜得测试样液I。
其余成分样液采用“醇提”制备,精密称取样品粉末0.5 g,加入甲醇25 mL,400 W /40 ℃超声提取2 h,放冷,取上清液过0.45 μm滤膜得测试样液II。
1.3.4 数据处理
所有数据采用Excel 2016版和R x64 3.44版软件进行处理分析。
精密吸取配置成各糖浓度均为10 mg/L混合样液,按1.3.1项下离子色谱条件进样测试,混合糖标准品分离色谱图(图1),出峰先后顺序为甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、果糖、乳糖,所有糖标准品能在20 min之内实现快速分离鉴别,分离度、理论塔板数均达能到分析要求。
图1 糖类标准品分离色谱图Fig.1 The chromatogram of sugar standard注:1:甘露糖;2:鼠李糖;3:阿拉伯糖;4:葡萄糖;5:木糖;6:果糖;7:乳糖。Note:1:mannose;2:mannose;3:arabinose;4:glucose;5:xylose;6:fructose;7:lactose.
精密吸取配置其余4种化学成分,浓度为10 mg/L,按1.3.1项下液相色谱条件进样测试,混合标准品分离色谱图(图2),出峰先后顺序为丁香酸、香草醛、香豆素、柚皮素,4个标准品能在25 min之内实现快速分离鉴别,分离度、理论塔板数均达能到分析要求。
图2 4种化学标准品分离色谱图Fig.2 The chromatogram of 4 chemical standard注:1:丁香酸;2:香草醛;3:香豆素;4:柚皮素。Note:1:syringate;2:vanillin;3:coumarin;4:naringenin.
通过标准曲线计算,得到线性回归方程、线性范围、回收率、相对标准偏差(RSD)等数据(表2)。数据表明,利用离子色谱和液相色谱对石斛样品中化学成分的检测分析满足简便、快速、精确的要求。
表2 标准曲线Table 2 Linear equations
分别取样液I和样液II,分别按1.3.1项下离子色谱条件和液相色谱条件进样测试。测定各成分含量如下(表3),11种化学成分在石斛种分布差异显著,所有石斛均含有甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、丁香酸、香豆素和柚皮素成分;麝香石斛中阿拉伯糖含量高于其它种,为0.63‰;紫婉石斛中葡萄糖和木糖含量高于其它种,分别为1.92‰和9.61‰;喇叭唇石斛中甘露糖、果糖、乳糖含量高于其它种,分别为6.74‰、0.39‰和3.08‰;黄喉石斛中鼠李糖含量高于其它种,为1.12‰;叠鞘石斛中香草醛含量高于其它种,为0.479‰;蜻蜓石斛中丁香酸、柚皮素含量高于其它种,分别为0.409‰和0.526‰;玫瑰石斛中香豆素含量高于其它种,为0.87‰。
表3 各成分含量(‰)Table 3 The component content(‰)
通过R计算,得到11种化学成相似性系数(表4),结果表明有45.5%的数据之间相似性系数大于0.3,其中以糖类成分之间相似性较高,因此数据适宜于采用主成分分析方法进行进一步分析。
表4 相似性系数矩阵Table 4 The similarity coefficient matrix
2.5.1 特征向量
利用R软件分别输入相关系数矩阵和协方差矩阵计算命令,得到其特征向量(表5),选取方差累积贡献值大于80%的主成分进行下一步分析。
表5 不同矩阵主成分分析的特征值Table 5 The eigenvalues of principal component analysis of different matrices
2.5.2 载荷矩阵
载荷矩阵(表6)反应对评价结果的影响程度,其绝对值越趋近于1则代表该主成分对变量的代表性越高,对评价结果越重要。
表6 不同矩阵主成分载荷Table 6 The different matrix principal component loads
2.5.3 主成分得分图
计算相关系数矩阵主成分得分,绘制主成分得分三维空间图并结合平方欧式距离聚类树状图(图3),结果表明在这11种化学成分上,不同石斛之间可聚为以下几类,第一类为细茎石斛、喇叭唇石斛和紫婉石斛,这3种石斛在甘露糖、阿拉伯糖、木糖、果糖、乳糖含量上相近;第二类为黄喉石斛和叠鞘石斛,这2种石斛在木糖、果糖、丁香酸含量上相近;第三类为铁皮石斛、金钗石斛、姬竹叶石斛、鼓槌石斛、长苏石斛、长距石斛、景洪石斛和滇金石斛,这8种石斛在果糖、鼠李糖、香豆素、柚皮素含量上相近;其余蜻蜓石斛、麝香石斛、玫瑰石斛各单独为一类。
计算协方差矩阵主成分得分,绘制主成分得分二维空间图并结合平方欧式距离聚类树状图(图4),结果表明在这11种化学成分上,分类主要衡量标准在于PC1向量上,在PC1主成分向量上距离相近,只是在PC2主成分向量上有一定距离,因此可以分为以下几类,第一类为细茎石斛、紫婉石斛和喇叭唇石斛;第二是蜻蜓石斛和麝香石斛;第三类是金钗石斛、姬竹叶石斛、玫瑰石斛、长苏石斛、长距石斛、景洪石斛、滇金石斛、铁皮石斛、鼓槌石斛、黄喉石斛和叠鞘石斛。
图3 相关系数矩阵主成分得分图和聚类树状图Fig.3 The principal component score of correlation coefficient matrix and Cluster tree
图4 协方差矩阵主成分得分图和聚类树状图Fig.4 The principal component score of covariance matrix and Cluster tree
不论是在天然产物[6]或者中药标志物[7]的研究中,我们更多的是集中在研究其自身化学成分的组成、检测方法手段的建立更新,但大量的数据随着多维质谱等新技术检测设备[8-9]的更新而不断的激增,那如何从中筛选有用指标,如何建立数据分析方法进行大数据的挖掘,这将是人为鉴定和分类标准建立的重要末端环节,而不同的数据分析处理方法将会带来不同的标准体系。同时,很多的化学成分是存在相关性的,所以面对海量的“多维”数据选择能有效“降维”的分析手段,主成分分析是一个很好的数据处理分析方法。
通过色谱法测试得到的石斛样品中11种化学成分进行分析表明,16种石斛在化学成分上存在明显差异,并且不同的主成分分析方法得到的结果存在一定差异,这本身与两种算法差异存在关系。在对相关性较大的数据处理时,如果采用协方差矩阵算法则可能导致重要的主成分和主成分次序发生变换;而在对原始数据做相关系数分析时,会存在权大(即在原始数据中的重要程度)权小之分,而权的大小又是随机的,所以在提取主成分时也会存在一定问题。
本次研究基于对石斛质量控制标准,建立高效、精确的检测检验手段得到大量数据的同时,对主成分分析方法进行研究,通过对比相关性矩阵和协方差矩阵两种算法的不同,得到的分析结果还是存在一定差异。两者的优势效应不同是造成分析结果差异的主要原因,相关性矩阵的优势效应主要表现在相关性大、相关性指数多的一类指标,而协方差矩阵主要表现在单个指标方差大、指标之间相关程度高的一类指标。因此,在选择主成分分析时,应注意数据分析方法的全面性,建立标准统一的数据处理和信息挖掘方法,避免采用单一、不全面的人为分类标准。而通过分析本次实验结果,采用协方差矩阵算法进行的主成分分析更适用于此次所测试的结果,这主要是由于此次分析的11种化学成分中,有7种单糖成分,因此其指标之间的相关程度较高,适用于协方差矩阵算法。