杨文宇,游元元,万德光
(1.西华大学生物工程学院,成都 610039;2.成都中医药大学药学院,成都 610075;3.成都医学院药学院,成都 610083)
《中国药典》所载的桑白皮为桑科植物桑Morus alba L.的已除去外层粗皮的干燥根皮[1],但市场上其同属植物较多,如鲁桑 M.alba var.multicaulis、蒙桑 M.mongolica、华桑M.cathayana等[2,3]。目前桑白皮的鉴别主要依靠性状鉴别和薄层鉴别[1],但由于鉴别特征不甚明显,往往难以准确判断药材样品是否源于 M.alba L.。高效液相色谱(high performance liquid chromatography,HPLC)法能够通过其给出的非线性、高维度的色谱峰指纹信息来综合判断样品的属性,是一种鉴别中药的较好方法;但实验表明,由于桑白皮药材特征因种质、产地等因素而有较大变化,基于计算HPLC相似度的判别方法对某些桑白皮样品的鉴别并不完全适用,有必要采用更好的数学分类方法以提高鉴别能力。支持向量机是一种非常适合非线性、高维度、小样本数据分类的新方法[4-6],其原理是根据各样本的属性,对于给定的样本复杂数据(即多维向量)构造一种决策函数,该函数能够建立不同属性样本之间的分类超平面并使之尽可能大,类似于找到同一平面内多个不同颜色的点之间的最大分类界面。同一基原药材的HPLC色谱峰之间的关系应当存在一定规律,这一规律可能正好是与源于同属其他基原药材的重要区别点。理论上将反映桑白皮HPLC色谱峰之间相互关系的数据作为输入向量,用支持向量机方法寻找分类界面,应当能够准确鉴别桑白皮药材的基原。基于该推论,我们对此进行了探讨。现将结果报道如下。
1.1.1 试剂与仪器 乙腈(色谱纯,美国Fisher公司);甲醇、乙醇、石油醚(60~90℃)、乙醚、磷酸均为分析纯,成都科龙化工厂产品;水为超纯水。
Dionex P680型HPLC仪(美国戴安公司):P680泵、UV D170U紫外检测器、TCC-100柱温箱、ASI-100自动进样器、Chromeleon色谱工作站。BP 1215电子天平(德国赛多利斯公司,d=0.1mg),Rios纯水器(密理博上海贸易有限公司),AS5150BD-I超声波清洗器(天津奥特赛恩斯仪器有限公司)。
1.1.2 药材 共收集11批桑白皮药材(表1),参照文献[7]的方法鉴定种质不清的药材。表中几种杂交桑的基原:嘉陵16号为西庆一号×育二号,西庆一号为引自日本的四倍体桑树,基原不详,育二号为湖桑 39号(M.alba var.multicaulis)×广东荆桑(M.atropurpurea);湘7920为中桑5801号×澧桑24号(M.albavar.multicaulis),中桑5801号为湖桑38号(M.alba var.multicaulis)×广东荆桑(M.atropurpurea)。嘉陵20号为湘7920×西庆四号,西庆四号为桐乡青(M.alba var.multicaulis)经秋水仙碱诱变所得的四倍体植株。广东荆桑M.atropurpurea在《中国植物志》[8]中已被合并于M.alba之中。
表1 桑白皮药材样品的来源Tab.1 Original plants of Cortex Mori Radicis samples
1.1.3 软件 支持向量机软件Libsvm 2.85(台湾大学林智仁博士提供,http://www.csie.ntu.edu.tw/ĉjlin/libsvm/),脚本执行程序Python 2.5(自由软件,http://www.python.org/),数学绘图软件 Gnuplot 4.0(自由软件,http://www.gnuplot.info/)。上述软件均运行在 Microsoft Windows XP Professional操作系统上。
取粉碎后的药材10g,用乙醇回流提取,提取液回收乙醇后,悬浮于水中,用等体积石油醚萃取3次,弃去石油醚,换用等体积乙醚萃取3次,合并乙醚萃取液,回收乙醚,残渣用甲醇超声溶解,转移至100mL量瓶中并稀释至刻度,取1.0mL,置10mL量瓶中,用乙腈稀释至刻度,作为供试品溶液。
色谱柱:Phenomenex Luna C18(2)(250mm×4.6mm,5μm);流动相:乙腈(A)-0.5%磷酸(B);洗脱方式:梯度洗脱,梯度程序见表2。流速:0.8mL/min;检测波长:320nm;柱温:25℃。进样量:10μL。
设定各药材HPLC图谱中色谱峰积分的阈值为5.0(信噪比约为10/1),全部采用手动积分以避免色谱工作站自动积分时默认参数导致的积分误差。采用色谱峰积分值原始数据计算药材相似度。在进行支持向量机分类时,以各样本HPLC图谱中峰面积最大者为参照峰,计算其图中各峰与参照峰的比值,将所得数据用作支持向量机分类器的输入值。
表2 流动相梯度程序Tab.2 The gradient elution scheme
采用向量夹角余弦法[9]计算各药材HPLC图谱的两两相似度:将药材A的各色谱峰面积作为n维向量(x1,x2,…xn),药材B的各色谱峰面积作为n维向量(y1,y2,…yn),则A与B的相似性可用二者在几何空间的向量夹角θ的余弦来度量越接近1,则A与B的相似性越大。
设定源于M.alba的药材HPLC色谱峰面积数据集样本的分类属性为1,非M.alba的样本的分类属性为-1。上述药材样本共11个,将属于M.alba的5个药材样本的HPLC图谱分别两两相加(相加结果相当于两药材供试品溶液混合后再进样分析的结果),得到另10个属于M.alba的样本;将属于非M.alba的6个药材样本的HPLC图谱分别两两相加,得到另15个属于非M.alba的样本。总样本量为36个,随机选择25个样本作为支持向量机训练样本,另11个样本作为测试样本。
用Libsvm软件对训练样本的输入值进行机器学习,通过径向基核函数构造分类决策函数从而建立分类模型;在此过程中,采用网格搜寻和交叉验证方法搜索径向基核函数的重要参数,即最优值即惩罚因子c和径向基系数γ,用Gnuplot软件绘制交叉验证精度等高线[lg(c)-lg(γ)]以使参数寻优过程直观化。用该模型预测各测试样本的分类属性,判断其为1还是-1。具体运算时用Python软件在命令行调用Libsvm和Gnuplot程序。
11批桑白皮药材乙醚部位的HPLC图谱总体上具有一定的相互相似性(图1),这应当与它们均源于Morus L.属有关,但药材之间的差异也很明显。
图1 11批桑白皮药材乙醚部位HPLC图谱Fig.1 HPLC chromatograms of 11ether extract samples of Cortex Mori Radicis
11批桑白皮药材乙醚部位的HPLC图谱的两两相似度见表3。可以看出,源于M.alba L.的5批药材中,除新疆样本与其他药材样本相似度较小外,另4个药材样本的两两相似性均在90%以上。但非M.alba L.的药材样本也有一些与源于M.alba L.的药材的相似性较高,如荷花池样本与A2样本、湖南样本与A1样本、潼南样本与汉中样本等的相似度均高于90%。因此,通过相似度分析并不能完全、准确地判断桑白皮药材是否来源于M.alba L.。
表3 11批桑白皮药材乙醚部位HPLC图谱的两两相似度Tab.3 The pairwise similarities of HPLC profiles of 11ether extract samples of Cortex Mori Radicis
参数寻优过程的交叉验证精度等高线见图2。图中各曲线反映c和γ取不同值时,所建立的支持向量机分类模型的准确程度。本实验数据用于支持向量机分类,其交叉验证精度在97%~100%范围内,这表明,对于根据HPLC数据判断桑白皮是否属于M.alba L.这一目的,用支持向量机方法建立分类模型是非常适宜的。支持向量机运算过程和结果见图3,参数c的最优值为2.0、参数γ(gamma,g)的最优值为0.0078125,据此建立的支持向量机分类模型的交叉验证精度为100%,用此模型对36个总样本中11个测试样本进行预测,结果对样本是否属于M.alba L.的预测准确率为100%。上述36个总样本中,随机重新挑选样本组成训练样本和测试样本,并按上述方法建模和预测,结果基本一致,所建模型对测试样本均能达到100%的预测准确率。
支持向量机方法是一种“黑箱”方法,它只根据给定的样本数据,即多维向量,找出处于分类界面边缘的各个向量,即支持向量,并据此确定最佳的分类界面;但并不给出产生这种分类的机理,因此并不给出能涵盖样本集中每一数据的数学公式。因此,该方法特别适合用于复杂性高而分类特征不明显的事物的分类,而且,这一特点使得其不仅适合大样本量数据的分类,也能对小样本量的数据给出良好的分类结果,这也是我们采用支持向量机方法分析桑白皮的HPLC数据的原因。另外,支持向量机方法的样本集中,增加或删除一些属于非支持向量的数据,对分类模型不会产生影响,因此,该方法具有良好的鲁棒性。本研究结果表明,用支持向量机方法,对桑白皮乙醚部位的HPLC数据进行数学运算,能够建立一种判断桑白皮是否属于M.alba L.的分类模型,所建模型的预测准确率可达100%。该方法的分类效果优于相似度方法。
本研究所选桑白皮11批药材的HPLC图谱中,源于M.alba L.的5个药材图谱,其所检出峰的数目、峰面积,相互之间均有较大差异,非M.alba L.药材图谱的情况也是这样,而相似度计算结果也显示难以按基原区分药材,说明直接比较峰数目和峰面积无法达到分类目的。在进行支持向量机分类时,将各样本色谱峰进行归一化处理,采用峰面积比值进行运算。峰面积比值反映了药材中各化学成分含量的相对关系,据此用支持向量机方法建立的分类模型能达到100%的预测准确度,即使对数据较为离群的新疆样本也能给出准确的预测,表明同一基原样本的一些主要化学成分之间的含量相对关系存在着一定的内在规律。实验中按基原属性分别对样本HPLC图谱两两相加,正是为了使这种内在规律更加明显,从而有助于提高支持向量机模型的准确度。
市售桑白皮药材的基原植物和种质非常复杂[7,10],致使评价不同基原、不同种质和不同产地的桑白皮药材的品质变得十分困难。但根据中药品质“遗传主导论”和“环境饰变论”的理论[11],特定基原植物中药材必定具有其特定的内在品质;而评价特定中药材的内在品质,关键在于找到能充分揭示该中药材内在品质的方法。上述实验结果表明,对于HPLC分析所表征的不同基原、不同种质和不同产地的桑白皮药材整体化学成分的特征属性,按支持向量机原理进行分类,是一种能准确揭示桑白皮(M.alba L.)药材内在品质的评价方法。本文结果为根据中药品质理论解决类似复杂问题提供了成功的范例。
[1]国家药典委员会.中国药典(2010年版一部)[S].北京:中国医药科技出版社,2010:280.
[2]李振国,贾敏如.川、黔产桑白皮的品种调查[J].中药材,1991,14(6):23-24.
[3]杨德泉.湖南桑白皮的原植物调查与鉴定[J].中药材,1992,15(8):23.
[4]Cortes C,Vapnik V.Support-vector networks[J].Mach Learn,1995,20(3):273-297.
[5]Bradshaw D,Pensky M.Decision theory classification of highdimensional vectors based on small samples[J].Test,2008,17(1):83-100.
[6]Gu X,Yang SX,Qian SX,et al.Research on SVMs of small samples on rotary machine multiclass fault recognition[C].Proc SPIE,2006,6357:63575J.
[7]蔡少青.常用中药材品种整理和质量研究(第4册)[M].北京:北京医科大学、中国协和医科大学联合出版社,2003:123-182.
[8]中国科学院中国植物志编辑委员会.中国植物志(第二十三卷第一分册)[M].北京:科学出版社,1998:6-23.
[9]王龙星,肖红斌,梁鑫淼,等.一种评价中药色谱指纹谱相似性的新方法:向量夹角法[J].药学学报,2002,37(9):713-717.
[10]杨文宇,万德光.中药桑枝和桑白皮的品种、品质与药效的研究[D].成都:成都中医药大学博士学位论文,2008:9-25.
[11]万德光.中药品质研究——理论、方法与实践[M].上海:上海科学技术出版社,2008:18-76.