吴惠敏,叶少珍,2
(1.福州大学数学与计算机科学学院,福建福州 350116;2.福建省医疗器械与医药技术重点实验室,福建福州 350002)
中药是中华民族对天然药物以及某些人工替代品的独特使用形式,是一个复杂的物质体系.由于其所含多样的化学成分以及成分之间复杂的相互关系,使得中药整体表现出多途径,多靶点,整合调节机制发挥药效作用以及系统性的特点[1].在中医理论指导下,中药的应用已从单味演变到复方.中医理论认为,中药是依靠其所含的有效成分即活性分子在人体内通过与相关靶点结合而发挥药效作用.由于复方中含有多味药物,每一味药所含的化学物质数量多且复杂,若要对其进行人工分析,工作量巨大、效率低.本研究提出利用模式识别技术建立合适的数学模型,结合计算机的高效运算能力,对中药的有效成分进行分子水平上的辨识[2].
骨性关节炎是一种主要发病在中老年人群的慢性关节病,因其病因与作用机制的复杂性使得目前针对该疾病的治疗进展仍未有较大突破.由于西医治疗采取的方案副作用大,价格昂贵,且治标不治本.相对而言,中医疗法有着整体局部并治,标本兼顾的优势,成为医学界研究的热点[3].因此,如何利用近年来兴起的计算机化学和系统生物学等交叉学科,科学地分析传统中医验方中具有药物活性的分子,是从中药复方中寻找治疗骨性关节炎新药需要解决的关键问题.
SVM算法基于严格的数学理论,在小样本应用中,能有效地处理非线性分类并避免过拟合现象,已在药物设计与分析中广泛应用.本研究利用SVM技术对骨性关节炎药物分子做活性分析,为得到性能更为优良的SVM分类模型,提出对多个核函数组合构建混合核函数,并将其应用到SVM识别模型中,对精制透骨消痛颗粒复方中的分子进行活性分类,得到具有药物活性的分子,同时结合相关文献验证分析识别结果.所提识别方法可为药物分子提供活性初筛选,为中药复方中有效成分的识别提供科学数据,并从分子水平阐明中药作用机理.
图1 药物分子活性的识别模型Fig.1 Activity recognition model of drug molecules
中药宏观上所表现出来的性质,归根结底是其所含的相关药物活性的小分子能够作用于体内相应靶点.目前对药物分子的活性识别主要有两种,一是利用分子对接法,研究分子与受体的结合作用,由于需要一定的对接时间,在对大量药物分子进行活性筛选时效率极低.另一种是QSAR法,其目的是从已知活性的化合物中找出其分子结构与生物活性之间的定量构效关系,以此分析未知生物活性的分子.该方法综合利用统计学、人工智能等技术[4]建立模型进行机器自动识别,时间效率高,成为研究与揭示化合物活性与其分子结构或物理化学特征之定量变化规律的强有力工具.因此本研究采取QSAR法结合模式识别技术中的SVM分类算法分析骨性关节炎药物分子的生物活性.由于化合物的结构以图表示,是非数学量,因此需将其量化成计算机可识别的数据,得到相关的分子描述符,作为识别模型的输入变量.具体的识别模型如图1所示.
SVM是建立在结构风险最小化原则基础上的机器学习分类法,基本原理是通过核函数实现非线性变换,使得在低维空间线性不可分的输入变量映射到高维空间实现线性可分,并得到具有极小VC维数的分类模型[5].SVM分类模型的目标是在新的特征空间中构造最优线性分类面,得到样本分类的决策函数,通过分析待分类样本的决策值得到其归属类别,决策函数形式为:
目前常用的核函数主要有四种:
式中:d、γ、v为核参数,是实常数,需要根据具体的问题进行设定.
使用核函数实现非线性分类,可避免高维空间中向量之间大量的内积运算,解决维数灾难问题.在SVM中,所选的核函数都是满足Mercer条件的,归类起来有两大类:局部核函数和全局核函数.全局核函数泛化性能强,但是学习能力较弱;而局部核函数学习能力强,泛化性能较弱.常用的几种核函数中,多项式核函数和Sigmoid核函数为全局核函数,RBF核函数为局部核函数.
图6统计了贝塞尔高斯涡旋光束的光束抖动在不同各向异性的湍流大气中随传输距离的变化情况,其中各向异性参数设置分别为ξx=1,5,10和20.从图6中可以发现随着湍流各向异性参数的增大,贝塞尔高斯涡旋光束的抖动效应逐渐减弱,在远距离传输时,该现象更加明显.随着湍流各向异性参数的减小,贝塞尔高斯涡旋光束的抖动效应增强,当各向异性参数都为1时抖动效应最强,此时大气湍流谱退化为各向同性湍流谱.这是因为各向同性大气模拟的是近地大气湍流,各向异性大气模拟的是高空大气湍流,其高空大气湍流对涡旋光束相位强度的扰动要弱于近地大气湍流的扰动,因此导致了抖动效应随各向异性参数的增大而减弱.
SVM建模中,选择一种核函数后等于确定一种学习模型,评价学习模型的性能是根据学习能力与泛化性能的,然而基于全局核或局部核的单核SVM因其核特点无法同时满足良好的学习性能与泛化性能.近几年提出了混合核函数方法[6],即将局部核函数与全局核函数进行组合,构造混合核函数,使其既克服两个单核的缺点又兼具两者的优势,展现出更好的学习能力与泛化能力.
根据Mercer定理,两个核函数之和仍然是核函数,本研究将局部核函数和全局核函数进行线性组合,构造的混合核函数表达式为:
其中:参数t(0≤t≤1)为单核函数在新的函数式中的权重值.
复方精制消痛颗粒由4味药物:巴戟天、杭白芍、肿节风、川芎组成,从相关文献收集到药物中514个分子[7].根据骨性关节炎疾病的有关靶点:ADMTS、Thrombin、FactorⅦa、TNF-α,从Drugbank、Puhem-有机小分子生物活性数据库、ChEBI数据库等权威的分子数据库以及植物活性成分辞典中收集到313个相关抑制剂,基于抑制剂与靶酶的关系将313个抑制剂分为4个数据集,某些化合物因多靶点性质会同时出现在不同的数据集中.根据数据库PubChem、ChEBI中对分子的活性描述,将每一种抑制剂数据集划为活性数据类与非活性数据类,作为分类中的正样本与负样本集合,其中聚蛋白多糖酶抑制剂有85个,分为55个活性类与30个非活性类;Thrombin抑制剂有61个,为38个活性类与23个无活性类;FactorⅦa抑制剂有76个,为32个活性类与44个无活性类;TNF-α抑制剂91个,为58个活性类与33个无活性类.基于4类数据集构建相应靶点的SVM活性分类器,并以此对514个复方分子进行相应的活性分析.
分子描述符是化合物的结构和物理化学性质的量化值,是建立统计分析模型的数据基础.利用Cerius2的QSAR模块以及DRAGON软件得到药物分子的结构描述符、拓扑描述符等,选择其中的27个描述符作为分子样本的特征值:分子量、C原子数、O原子数、N原子数、环数目、可旋转键数目、氢键受体数目、氢键给体数目、分子的超离域性、拓扑电性参数、原子极化度总和、分子接触体积、分子表面面积、Hosoya指标、总极性表面面积、总疏水表面面积、脂水分配系数等,以27个描述符作为每个分子样本的属性值.
针对4个靶点活性构建相应的二分类器,利用4个分类器对关节炎复方中的药物分子做相应的药物活性识别,并将得到的分类结果与文献[7-8]对比验证.以下介绍具体构建步骤.
4.3.1 数据预处理
为消除核函数计算中数值级别大的属性值对级别小的属性值的控制,采用最小-最大规范化公式对实验样本数据的27个属性进行规范化,将其归一到[0,-1]范围,以改善算法的精度和计算的稳定性.规范化具体式子为:
式中:xij为第i个样本的第j个属性的值;minj是第j个属性的最小值;maxj为第j个属性的最大值.
4.3.2 模型的搭建
有监督的机器分类法需要将数据集分为训练集与测试集,用于模型的构建与推广性能的测试.本研究以2∶1的比例分别将4类数据集随机划分为训练集与验证集.在构建混合核函数时,需要选择两个合适的单核函数,由于对何种样本采用何种核函数,目前没有绝对的理论标准.为消除经验选择带来的误差,采用逐一测试法选取适合具体应用的单核函数进行混合构造,即先根据每个不同的核函数构建相应的支持向量机分类器,然后根据分类精度值选取两个性能好的核函数进行组合.基于四类靶点活性数据集中的训练样本分别建立相应的单核分类器,为使对比结果更精确,该步骤中核参数均采用默认值,接着对四类验证样本进行分类,得到结果如表1所示.
表1 单核SVM的分类结果Tab.1 The classification results of single-core SVM (%)
表1以验证样本的分类精度(单位%)为分类结果,并以此衡量分类器的预测性能.从表1中可看出:不同单核函数在不同数据集所发挥的性能各有差异,综合考虑基于RBF的支持向量机和基于多项式核函数的支持向量的平均性能明显比其他两种好,选该二者构建混合函数,得到新核函数式子如下:
根据所得到的混合核函数在4个训练集上构建相应的SVM分类器,对4个验证样本集进行验证,为与之前的单核比较,4个模型中的参数仍采用默认值,模型的验证结果如表2所示.
表2 混合核SVM分类器的分类结果Tab.2 The classification results of mixed kernel SVM (%)
表2的结果表明采用混合核函数方法建立的SVM分类器的分类准确率要比单核SVM的高,说明利用混合核构建SVM模型的合理性.
由于模型中参数的设定会影响到其泛化能力与拟合精度[9],在确定了具体的混合核构建SVM建模分类器后,需要考虑惩罚因子C,权重值t以及核函数中参数的值.传统做法是根据经验值进行人工拼凑确定参数,效率低且依赖测试者的主观经验.本研究将十折交叉验证法和网格搜索算法[10]结合起来,同时搜索参数C、t与混合核中的γ,d,相比于人为设定,缩短了搜索时间,并得到了经过十折交叉验证后预测正确率达到最优的参数组合.经过搜索后得到四个活性识别模型中(C,t,γ,d)相应的最优参数组合:(213,0.5,0.014,2)、(159,0.45,0.019,3)、(232,0.61,0.08,2)、(271,0.57,0.011,2).基于最优参数组合下,混合核SVM模型对四类验证集的活性识别率分别为89.2、90.0、92.0、90.0.从结果可看出经过参数寻优后,模型的识别率均有所提高,模型具有良好的推广性能,说明了利用SVM分类法建立靶点活性识别模型是可行的.
4.3.3 对精制透骨消痛颗粒中的514个药物分子进行活性识别
以514个药物分子分别作为4类活性分类模型的输入变量,得到具有相关靶点活性的药物分子,结果如表3所示.
表3 514个分子的活性识别结果Tab.3 The activity recognition results of 514 molecules (%)
4.3.4 结果分析
在基于4个靶点活性识别模型对514个分子分类得到的4个输出文件中,若药物分子的类别标识为1,则认为该分子具有相应靶点活性.由于有些药物分子能够同时作用于多种蛋白酶,所以其在多个输出文件中的类别值同时为1.例如,川芎中Folic acid在ADMTS、THF-a相应的输出文件中值为1,说明其可能同时具有相关药物活性;肿节风中的rosmarinic acid在Thrombin、TNF-a、FactorⅦa在相应的输出文件中值为1,说明其可能同时与Thrombin、TNF-a、FactorⅦa发生作用.与文献[7-8]中有关结论对比,本研究的结果符合.该结果宏观上表现为同一种药物同时对多个靶点起作用,不同种药物对同一靶点起作用,阐明了精制透骨消痛颗粒中药配伍的增效作用,以及其药物通过不同途径的靶点作用于机体.
表3的结果为可能具有治疗骨性关节活性的化合物,为该复方的有效成分的识别提供了数据依据.经与文献[7-8]对比,本研究的分类结果跟其大致符合,说明所提出的方法在对骨性关节炎复方的药物进行活性初筛选具有合理性与可行性.
利用支持向量机分类算法搭建药物活性分类器,对精制透骨消痛颗粒中的分子进行药物活性识别.与传统单核支持向量机不同的是,本研究将全局核函数和局部核函数组合成新的组合核函数,利用该核函数搭建SVM分类器来识别活性药物分子.通过实验证明,相比于单核函数的SVM分类器,该混合函数对分类器的泛化能力和拟合精度都有所改进,最后利用该分类器对精制透骨消痛颗粒复方中的药物分子进行相关的药物活性识别,结合相关文献分析得出本文所得的结果对阐述该复方的作用机制具有一定的意义,也为后期的骨性关节炎的中药分子对接实验的数据集进行了初筛选,为实验提供活性较优的待选分子,后期实验中可基于该初选结果进行进一步的对接验证.本研究也证实利用计算机技术实现从分子水平上阐述中药作用机理的靶点识别研究的可行性,促进中药信息化的发展.
[1]徐筱杰.中药复方的计算机模拟研究[J].化学进展,1999,19(2):1-3.
[2]廖彬,叶少珍,郑春松.基于MLP和SVM技术的骨性关节炎中药复方辨证分类研究[J].福州大学学报:自然科学版,2010,38(2):213-218.
[3]李广德.膝关节骨性关节炎中医治疗述评[J].中医杂志,2000,41(2):116-117.
[4]黄钦,庄艳,乔学斌,等.用支持向量机建立中药有效成分聚集体的预测模型[J].物理化学学报,2007,23(8):1 141-1 144.
[5]陈俊丽,焦李成.支撑矢量机的分类机理研究[J].西安电子科技大学学报,2000,27(S):106-110.
[6]任彧梅,盛鑫.基于混合核函数支持向量机和遗传算法的人脸识别[J].计算机应用与软件,2011,28(4):260-262.
[7]郑春松,徐筱杰,刘献祥,等.精制透骨消痛颗粒防治骨性关节炎的计算机药理学[J].物理化学学报,2010,26(3):775-783.
[8]郑春松,叶蕻芝,李旭东,等.透骨消痛颗粒防治骨性关节炎的计算药效学研究[J].中药药理与临床,2009,25(2):98-101.
[9]Steinwart I.On the optimal parameter choice for support vector machines[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(10):1 274-1 284.
[10]李斌.基于模式识别技术的眼科疾病辅助诊断系统的研究[D].长春:吉林大学,2011.