陈 逃,郭 慧,袁 满,谭福元,李益洲,李梦龙
1. 四川大学化学学院,四川 成都 610064 2. 四川大学网络空间安全学院,四川 成都 610064 3. 成都图径生物科技有限公司,四川 成都 610093
冬虫夏草是菌丝体毛虫和真菌性基质芽的寄生复合物[1],因为其出色的保护和免疫调节作用,成为备受推崇的传统中药材。冬虫夏草具有多种有效成分,包括多糖、虫草、腺苷、甘露醇、固醇、甘露聚糖和核苷[1]等。各种分析方法已经被应用到冬虫夏草活性成分的研究[2]。Li等[3]采用毛细管电泳测定冬虫夏草三种主要核苷的含量来探究与药理作用相关的成分。Yang等[4]优化毛细管电泳质谱法(CE-MS)同时测定天然虫草和人工虫草中的核苷和核苷碱基。Zhao等[5]结合亲水相互作用色谱(HILIC)和电喷雾电离质谱(ESI-MS)来表征和定量天然虫草。Hu等[6]使用高效液相色谱-串联质谱法(HPLC-MS/MS)在冬虫夏草中检测到有效的化学标记。凭借指纹分析功能,近红外光谱技术(NIR)也以其快速,低成本和无损检测等优势,广泛用于食品和药物的定性和定量分析[7]。Xie等[8]使用傅里叶变换近红外光谱(FT-NIR)定量测定冬虫夏草菌丝体中精氨酸的含量,并通过特征选择算法获得了预测精氨酸含量的最佳波数。而红外光谱在野生冬虫夏草不同部位差异性研究鲜有报道。
红外光谱信号通常会受到干扰,因此需要进行预处理提高光谱数据质量以便后续研究。标准正态变化(standard normal variation,SNV)[9]和多元散射校正(multiplicative scatter correction,MSC)[10]已广泛用于光谱数据的预处理。此外,通过变量选择消除无关冗余信息,降低模型复杂度并提高模型稳定性。
基于野生冬虫夏草不同部位的红外数据探讨了采用不同预处理SNV和MSC、特征挑选竞争自适应再权重取样(competitive adaptive reweighted sampling,CARS)[11]和变量组合种群分析(variable combination population analysis,VCPA)[12]、预测模型偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)[13]和线性判别分析(linear discriminant analysis,LDA)[14]分别构建虫草部位的识别模型,并比较各方法的效果和以及对筛选的特征波长进行分析,有助于在分子层面上加深对野生冬虫夏草形成的认识,可为后期药物开发高效利用野生虫草提供参考。
用于实验的冬虫夏草包括子座头、子座中、头部、虫体中段、虫体尾段总共808个样本,均由成都图径生物科技有限公司提供,样本详细信息如表1所示。所有样本采用美国PerkinElmer公司生产的Spectrum 100型傅里叶变换红外光谱仪,扫描范围为400~4 000 cm-1。训练集和测试集随机按4∶1生成,训练集使用十倍交叉验证,准确率(accuracy,Acc)作为评价指标。
表1 样本信息Table 1 General information of samples
红外光谱在测量时,会受到背景噪声和散射因素影响,因此对光谱进行预处理,可以提高后续光谱数据分析的可靠性。本研究使用标准正态变换(SNV)消除基线变化所引起的潜在影响、使用多元散射校正(MSC)消除散射效应,增强红外吸收光谱信息。
CARS[11]首先采用蒙特卡洛(Monte Carlo)策略将样本数据集用于构建PLS模型,基于模型的系数来估计波长贡献。然后采用指数递减函数(exponentially decreasing function,EDF)除去系数绝对值小的波数。最后保留具有较大绝对值系数的波数作为特征选择结果。
VCPA[12]也常用于光谱数据变量选择。首先,使用二进制矩阵采样(binary matrix sampling,BMS)方法生成具有多样性变量组合子集。其次采用模型总体分析(model population analysis,MPA)和训练集交互验证均方根误差(root-mean squared error of cross-validation,RMSECV)评估子模型。然后根据指数递减函数(EDF)去除PLS模型系数绝对值较小波长。最后,具有最低RMSECV值的子集将作为最终变量选择结果。
LDA基本思想是在一定训练样本上设法将样本特征投影到子空间,使得同类样本投影点互相聚集,不同类样本投影点互相远离,这样相同类别之间距离最小,对于新样本进行分类时,投影到同一子空间,根据投影位置和距离确定新样本类别。
偏最小二乘判别分析(PLS-DA)是一种监督分类方法,根据偏最小二乘回归(PLSR)算法开发而来。PLS-DA算法集主成分分析、多元线性回归和相关性分析等优点于一身,可以将特征变量和目标通过映射变换最终建立类别与光谱矩阵的判别关系。
冬虫夏草不同部位平均红外光谱图如图1(a)所示,可看出部位间存在较大差异,但通过肉眼无法区分。冬虫夏草不同部位间皮尔森相关系数计算如图1(b)所示,可看出不同部位之间有很强的相关性,但不完全相同,因此借助化学计量学方法进行识别。
图1 冬虫夏草不同部位均值红外光谱(a)与相似性(b)Fig.1 The averaged Fourier-transform infrared spectra for different parts of Cordyceps (a);The similarities between each two parts of Cordyceps (b)
表2可以看出,PLS-DA经过CARS和VCPA特征挑选之后,特征维数大幅下降,分别从3 601降到669和420,而且准确率90.1%,91.4%与全部特征预测准确率92.0%相当。而LDA结果相对较差,模型最高预测准确率为85.8%,经特征挑选后准确率分别为80.9%和82.1%。结果表明PLS-DA预测效果优于LDA,特征挑选有利于降低模型复杂程度。
表2 不同部位的分类结果Table 2 The model performance on discriminating different cordyceps parts
针对不同特征挑选、建模方法所得独立测试集预测结果进一步用混淆矩阵分析如图2所示。结果表明,大多数错误预测情况都出现在靠近对角线附近区域,表明该样本被预测为临近部位。
图2 不同方法独立测试集的混淆矩阵(a): CARS-PLS-DA; (b): CARS-LDA; (c): VCPA-PLS-DA; (d): VCPA-LDAFig.2 The confusion matrix of independent data set by different methods(a): CARS-PLS-DA; (b): CARS-LDA; (c): VCPA-PLS-DA; (d): VCPA-LDA
对CARS和VCPA挑选的变量分析发现有85个共享特征,对于特征挑选结果差异性应该来源于算法本身的差异。特征波数选择结果对应光谱图中位置如图3(a,b)所示。
图3 CARS (a)和VCPA (b)特征选择结果Fig.3 The result of feature selection method CARS (a) and VCPA (b)
其中共同波数参照文献[15]报道见表3所示,如波数630与625 cm-1对应冬虫夏草活性成分甘露醇,说明特征挑选方法的特征波数具有一定化学意义,挑选特征具有可行性。
表3 虫草特征挑选与化学解释Table 3 Holistic assignment of infrared spectroscopy spectra of Cordyceps
对CARS和VCPA挑选波数画出box-plot图和Wilcoxon rank-sum检验热图如图4、图5所示。从图4当中可看出,子座中段MS与虫体中段ML的p值最低,该数据说明冬虫夏草这两部位活性成分差异性最显著。如在图4波数1 084 cm-1(b)所示,结果显示在该波数下不同部位之间活性成分有显著性差异。类似情况在图5也可观察得到。结果表明,冬虫夏草不同部位之间活性成分有显著性差异。
图4 CARS选择波数对应箱线图A(1 084, 1 024, 630, 879 cm-1)和Wilcoxon rank-sum检验热图B(1 084, 1 024, 630, 879 cm-1)Fig.4 The box-plot A (1 084, 1 024, 630, 879 cm-1) and heat-map for Wilcoxon rank-sum test of wavenumbers selectedby CARS B(1 084, 1 024, 630, 879 cm-1)
图5 VCPA选择波数对应箱线图A(1 089,1 028,874,625 cm-1)和 Wilcoxon rank-sum检验热图B(1 089,1 028,874,625 cm-1)Fig.5 The box-plot A(1 089,1 028,874,625 cm-1) and heat-map for Wilcoxon rank-sum test of wavenumbers selected by VCPA B(1 089,1 028,874,625 cm-1)
通过化学计量学模型结合红外光谱数据,实现对野生冬虫夏草不同部位有效识别。总体而言,PLS-DA模型优于LDA模型,准确率在90.0%以上,冬虫夏草不同部位在活性成分上确实存在较大的差异。特征挑选方法可以保证准确率的同时降低模型复杂程度,同时挑选的特征具有一定的化学可解释性,说明特征挑选的可行性。本研究可有助于在分子水平上加深对野生冬虫夏草形成的认识,并对后期药物开发高效利用虫草提供参考,为合理有效利用名贵中草药提供依据。