中药化学成分对大鼠急性毒性的定量构效关系研究

2016-12-19 08:23雷蕾王新洲张黎杨策亢力朱永亮钱向平叶祖光
中国中医药信息杂志 2016年1期
关键词:描述符类化合物准确度

雷蕾,王新洲,张黎,杨策,亢力,朱永亮,钱向平,叶祖光

1.中国中医科学院中医药信息研究所,北京 100700;2.苏州润新生物科技有限公司,江苏 苏州 215123;3.中国中医科学院中药研究所,北京 100700

中药化学成分对大鼠急性毒性的定量构效关系研究

雷蕾1,王新洲2,张黎1,杨策1,亢力1,朱永亮2,钱向平2,叶祖光3

1.中国中医科学院中医药信息研究所,北京 100700;2.苏州润新生物科技有限公司,江苏 苏州 215123;3.中国中医科学院中药研究所,北京 100700

目的 探讨计算机毒性预测技术和方法,为中药安全性评价提供新的途径。方法 采用Mold2软件(version 2.0.0)对7409个中药化学成分进行分子描述符计算,初步筛选后采用随机森林算法进行定量构效关系(QSAR)模型构建,筛选出最优预测模型,并对2010年版《中华人民共和国药典》所载83个有毒中药中有化学成分单体结构报道的60种中药(1692个化学成分)进行急性毒性的预测。结果 经筛选,最终得到数据7409条。当描述符集合为52个时,随机森林算法建模模型准确度和Kappa值较高,分别为0.712和0.436;根据最优分子描述符集(52个)表征的化学空间距离将化合物聚类分为3类,第1类化合物最优模型的准确度和Kappa值分别为0.666和0.476,第2类化合物最优模型的准确度和Kappa值分别为0.804和0.381,第3类化合物最优模型的准确度和Kappa值分别为0.709和0.373。预测60种中药(1692个化学成分)中含剧毒化合物0个、高毒化合物2个、中毒化合物172个和低毒化合物1518个。结论 采用QSAR模型对中药化学成分进行急性毒性预测研究可为联合用药和进一步实验研究提供参考。

定量构效关系;预测模型;急性毒性;中药化学成分;大鼠

Key words: quantitative structure-activity relationship; prediction model; acute toxicity; chemical components of Chinese materia medica; rats

急性毒性是指机体(人或动物)一次(或24 h内多次)接触外来化合物之后所引起的中毒效应。一般而言,进行药物毒理学研究时常首先进行急性毒性实验,从而对药物毒性有初步了解,为下一步深入毒理学研究提供基础数据。但是,急性毒性实验耗资多,动物损耗大,根据毒理学当前的3R(Reduction、Replacement、Refinement)趋势[1-2],本研究旨在建立计算机毒性预测技术和方法,预测中药的急性毒性,以代替常规的动物实验。本文使用定量构效关系(quantitative structure-activity relationship,QSAR)方法建立中药化学成分对大鼠的急性毒性预测模型,并对部分有毒中药可能的急性毒性进行预测,为中药安全性评价提供新的途径和方法。

1 资料与方法

1.1 数据来源

计算机检索化学物质毒性数据库(Registry of Toxic Effects of Chemical Substances,RTECS,http:// www.cdc.gov/niosh/rtecs/default.html)和中药化学数据库(TCMD)2009版(http://www.caigou.com.cn/c53722/ product_683110.shtml)。检索策略:①搜集急毒数据的实验条件限定为check;②实验动物为大鼠(rat)[3];③给药途径为口服(oral或orl);④毒性终点为半数致死量(LD50)[4]。

1.2 研究方法

1.2.1 数据预处理 化合物原始数据筛选:①去冗;②去除不确切数值;③统一毒性终点单位(mg/kg);④根据Lipinsk's 5规则,限定分子量为1000以内;⑤去除非有机物;⑥去除有机金属化合物;⑦去除各类盐。

按照中国的相关急性毒性分级标准[5],并参考文献[6]方法将大鼠经口LD50值分为4个级别:剧毒(<5 mg/kg)、高毒(5~50 mg/kg)、中毒(50~500 mg/kg)和低毒(>500 mg/kg)。

1.2.2 描述符的计算和挑选 采用美国国家毒理研究中心生物信息中心开发的Mold2软件(version 2.0.0),可对每个化合物的2D结构计算777个分子描述符。

在建立QSAR模型时,对描述的挑选是非常重要的。(1)使用R软件对777个2D描述符首先剔除了超过总数90%的计算值为恒定值的描述符;在此基础上除去两两相关系数高于0.9的2个描述符中的1个,确保描述符之间没有严重的依赖关系;然后对余下的描述符间存在的多元相关性的进行剔除。(2)分子描述符筛选步骤:①利用Bootstrap重采样方法将数据分成训练集和测试集2类;②基于训练集数据,利用所有的描述符,构建预测模型,并对测试集数据进行预测评价,同时基于预测结果对参与构建模型的变量进行评价并排序;③选取不同个数的最重要描述符,并基于训练集数据利用随机森林算法构建模型,利用Leave-10%-out交叉验证方法进行比较,选择最优模型对测试集数据进行预测评价;④重复前3个步骤,统计分析不同数目最重要描述符所构建模型的预测情况,并决定最优描述符集。

1.2.3 建立预测模型 建立“分类定量结构毒性关系模型法”,即首先根据最优化学描述符集表征的化学空间对训练集的化合物使用层次聚类方法进行聚类研究,然后针对每一类化合物分别建立QSAR模型。本研究对每一类化合物分别使用随机森林算法、主成分分析方法和逐步线性回归方法构建QSAR模型,对模型的准确度进行比较,选出最优模型。采用准确度[7]和Kappa值[8]2个参数来评价模型的优劣。

1.2.4 对有毒中药包含的化学成分进行预测 使用构建的最优QSAR模型对2010年版《中华人民共和国药典》所载83个有毒中药中有化学成分单体结构报道的60种中药(1692个化学成分)进行急性毒性预测。

2 结果

2.1 数据检出情况

经过检索,从RTECS数据库中获得16 076条数据,从2009版TCMD数据库中获得取得30条数据。经筛选,最终得到数据7409条。

2.2 描述符的筛选结果

使用Mold2软件对7409个化学成分的分子描述符进行计算,然后根据“1.2.2”项中方法进行初步筛选,得到276个分子描述符。随后,使用随机森林算法随机选取不同数量的分子描述符集合进行模型构建,并计算模型的准确度和Kappa值。如图1所示,当描述符集合为52个时,随机森林算法建模模型准确度和Kappa值最高,分别为0.712和0.436,因此这52个分子描述符集合为最优分子描述符。

图1 选取不同描述符集合时预测模型的准确度和Kappa值

2.3 建立分类定量构效关系预测模型

根据最优分子描述符集(52个)表征的化学空间距离,采用层次聚类方法将7409个化合物聚类分为3类。第1类为2803个化合物,第2类为1687个化合物,第3类为2919个化合物。

对于每一类化合物,均采用随机森林算法,并从52个分子描述符中随机选取不同数量分子描述符,分别构建预测模型,通过计算模型的准确度和Kappa值来确定分类后最优模型。可以看出,第1类化合物最优模型准确度和Kappa值分别为0.666和0.476(见图2),第2类化合物最优模型准确度和Kappa值分别为0.804和0.381(见图3),第3类化合物最优模型准确度和Kappa值分别为0.709和0.373(见图4)。

2.4 对中药化学成分急性毒性的预测

对60种中药(1692个化学成分)进行急性毒性预测,其中第1类化合物1311个、第2类化合物102个、第3类化合物279个。预测结果为剧毒化合物0个、高毒化合物2个(0.1%)、中毒化合物172个(10.2%)和低毒化合物1518个(89.7%)。包含高毒或中等毒成分较多的中药有白果、艾叶、川乌、半夏、马钱子、吴茱萸等,包含低毒成分较多的中药有巴豆、白果、川乌、九里香、京大戟等。

2.5 文献验证

通过文献进一步验证QSAR模型的准确度,即从预测结果中找出目前有文献报道的结果进行比较。结果表明,在预测的1692个化合物中,有文献报道的15个,其中与预测结果一致的10个,一致比例为66.7%。

图3 第2类化合物QSAR模型的准确度和Kappa值

图4 第3类化合物QSAR模型的准确度和Kappa值

3 讨论

目前,以计算机为辅助手段的计算毒理学已经被广泛应用于新药毒性评价,来预测药物在人体内可能的代谢产物及毒性。计算机毒性预测能够在药物研究早期阶段剔除先导化合物中存在毒性的化合物,是缩短药物开发时间和降低经费开支的有效途径之一[9-10]。我国计算毒理学的研究发展较快,张氏等[11]建立了取代芳烃类化合物环境绿藻的毒性(48 h半抑制浓度)与其分子结构之间的结构-毒性定量关系模型。高氏等[12]应用人工神经网络技术构建的QSAR模型对松花江水中的有机化学品的毒性进行了预测。

随着中医药现代化和国际化进程,中药严重不良反应事件屡见不鲜。如20世纪90年代含马兜铃酸成分中药肾毒性事件[13]、21世纪初的鱼腥草注射剂过敏致死事件[14]、千里光不良反应事件[15]等,中药的安全性研究受到重视,成为热门领域。急性毒性的测定是中药安全性评价的重要方面,中药及其化学成分的急性毒性报道也越来越多[16-18]。

本研究采用的RTECS数据库收集化合物23 033种,其中8000种成分有药理数据。涉及中药药用植物6735种,参考文献5507篇(截至2005年),200种细胞水平抗癌模型,包括细胞因子网络调节机制抗炎模型、各种抗氧化模型、酶抑制剂模型、NO抑制剂模型等。本研究基于该数据构建了QSAR模型,采用先分类后构建预测模型的方法,首先使用层次聚类方法,根据最优分子描述符集(52个)表征的化学空间距离将7409个化合物聚类分为3类,然后使用随机森林算法针对3类分别建立预测模型,模型的准确度分别为0.666、0.804和0.709。在对60种有毒中药包含的1692个化学成分进行预测时,先对化学成分进行归类,然后使用相应的预测模型进行预测。结果表明,预测的中药化学成分的急性毒性低毒化合物占89.7%,中毒化合物占10.2%,高毒化合物占0.1%,无剧毒化合物。从中药整体的化合物急性毒性分布图可直观看出,多数中药含有的都是急性毒性低毒性化合物,但也不乏中毒和高毒化合物所占比例较高的中药,如川乌、半夏等,表明在用药过程中引起急性毒性的可能性较大。从文献报道的情况看,关于中药及其化学成分的急性毒性研究还比较少,研究结果可以为其提供参考。由于QSAR模型的准确度和训练集化学成分直接相关,随着中药化学成分急性毒性研究的增加,训练集的不断丰富,预测模型的准确度会有所提高。

[1] FLECKNELL P. Replacement, reduction and refinement[J]. ALTEX, 2002,19(2):73-78.

[2] GRUBER FP, Hartung T. Alternatives to animal experimentation in basic research[J]. ALTEX,2004,21(Suppl1):3-31.

[3] 郝光荣.实验动物学[M].上海:第二军医大学出版社,2004:101-110.

[4] 赵军宁,叶祖光.中药毒性理论与安全性评价[M].北京:人民卫生出版社,2012:274.

[5] 尹松年.工业化学品毒性鉴定规范及实验方法[M].北京:人民卫生出版社,1998:124.

[6] 农业部.农药登记毒理学试验方法:GB 15670-1995[S].北京:中国标准出版社,1996:207-217.

[7] 孙燕,臧传新,任廷革,等.支持向量机方法在《伤寒论》方分类建模中的应用[J].中国中医药信息杂志,2007,14(1):101-102.

[8] 孙西庆.脑血辨证之脑病证候与头风病证候对比分析[J].中国中医药信息杂志,2008,15(6):21-24.

[9] VALERIO L G Jr. In silico toxicology for the pharmaceutical sciences[J]. Toxicology and Applied Pharmacology,2009,241(3):356-370.

[10] 朱永亮,叶祖光.计算毒理学与中药毒性预测的研究进展[J].中国新药杂志,2011,20(24):2424-2429.

[11] 张亚辉,刘征涛,刘树深,等.MEDV描述子预测取代芳烃类化合物的藻毒性[J].环境科学研究,2009,22(7):823-827.

[12] 高大文,王鹏.松花江水中有机化学品的生物毒性预测[J].哈尔滨商业大学学报(自然科学版),2004,20(5):549-551.

[13] LORD G M. Nepyhropathy caused by Chinese herbs in the UK[J]. Lancet,1999,354:481.

[14] 郭莹.鱼腥草等7种注射剂暂停使用[N].人民日报,2006-06-02(2).

[15] 梁爱华,叶祖光.千里光属植物的毒性研究进展[J].中国中药杂志, 2006,31(2):93.

[16] 艾霞,徐恩亚.中药川贝对小鼠急性毒性和致突变性的研究[J].安徽农业科学,2014,42(9):2615-2616.

[17] 艾丽萍,高顺.中药罗汉果对小鼠急性毒性和致突变性研究[J].安徽农业科学,2014,42(3):774-775.

[18] 陈敏,易文燕,俸婷婷,等.川楝子正丁醇部位对小白鼠的急性毒性[J].贵州农业科学,2015,43(1):108-110.

QSAR Study on Toxicity of Chemical Components of Chinese Materia Medica and Acute Toxicity of Rats

LEI Lei1, WANG Xin-zhou2, ZHANG Li1, YANG Ce1, KANG Li1, ZHU Yong-liang2,

QIAN Xiang-ping2, YE Zu-guang3(1. Institute of Information on TCM, China Academy of Chinese Medical Sciences, Beijing 100700, China; 2. Suzhou Neupharma Co. Ltd., Suzhou 215123, China; 3. Institute of Chinese Materia Medica, China Academy of Chinese Medical Sciences, Beijing 100700, China)

Objective To study computer toxicity prediction technology and predict the acute toxicity of Chinese materia medica; To provide a new way and method for safety evaluation of traditional Chinese medicine. Methods First, Mold2 software (version 2.0.0) was used to calculate molecular descriptors of 7409 chemical components. After preliminary screening of molecular descriptors, quantitative structure-activity relationship (QSAR) models were built up with Random Forest (RF) for screening the optimum prediction model. From the 83 kinds of toxic Chinese materia medica in Chinese Pharmacopoeia (2010 edition), acute toxicity of 60 kinds of Chinese materia medica reported from monomer structure (1692 chemical components) were under prediction. Results Totally 7409 pieces of data were obtained. When the descriptors were 52, RF modeling accuracy and Kappa were the highest, 0.712 and 0.436 respectively. Compound clusters were divided into 3 types according to optimum molecule descriptors (52). The accuracy and Kappa of the optimum model for the first type of compounds were 0.666 and 0.476 respectively; the accuracy and Kappa of the optimum model for the second type of compounds were 0.804 and 0.381 respectively; the accuracy and Kappa of the optimum model for the third type of compounds were 0.709 and 0.373 respectively. It was predicted that 60 kinds of Chinese materia medica containing 0 violent toxic compound, 2 high toxic compounds, 172 medium toxic compounds and 1518 low toxic compound. Conclusion QSAR model for prediction study on acute toxicity of chemical components of Chinese mareria medica can provide references combination medication and experimental studies.

10.3969/j.issn.1005-5304.2016.01.010

R2-05;R285.5

A

1005-5304(2016)01-0043-04

2015-04-27)

2015-06-12;编辑:向宇雁)

国家自然科学基金(81173652)

叶祖光,E-mail:yezuguang@sina.com

猜你喜欢
描述符类化合物准确度
基于结构信息的异源遥感图像局部特征描述符研究
基于AKAZE的BOLD掩码描述符的匹配算法的研究
保健酒中非法添加一种西地那非类化合物的确证
幕墙用挂件安装准确度控制技术
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习
一锅法合成苯并噁唑类化合物
动态汽车衡准确度等级的现实意义
新型环磷腈类化合物的合成
石岩枫中两个新的木脂素类化合物