雷蕾,张广平,杨乐,李晗,李小阳,叶祖光*,王晰
1.中国中医科学院 中医药信息研究所,北京 100700;
2.中国中医科学院 中药研究所,北京 100700
中药保健食品是指以中医药理论为指导的,在天然食物中加入中华人民共和国国家卫生健康委员会(以下简称卫健委)颁布的既是食品又是药品的可食药材,经过适当加工而成的具有某些调节人体生理功能、有益于健康的保健食品[1]。保健食品是一类适宜于特定人群食用,不以治疗疾病为目的,并且一般认为对人体不会产生急性、亚急性或者慢性危害,是具有调节机体功能的食品[2]。然而,中药作为保健食品的原料比作为药物的食用时间更长、受用人群更广。若中药保健食品中的原料有不安全因素,则对人类健康影响更大。近年来,有诸多中药保健食品原料典型风险物质及其潜在毒性作用的报道,如三七含有三七总皂苷,具有肝毒性,三七总皂苷450 mg·kg-1组动物体质量显著下降,肝功能指标天门冬氨酸氨基转移酶(AST)和丙氨酸氨基转移酶(ALT)显著升高[3];何首乌、决明子、番泻叶和大黄等所含的蒽醌类成分具有肝肾毒性,大黄提取物的毒性剂量范围10~12 g·kg-1,大黄总蒽醌的毒性剂量范围在135~4500 mg·kg-1[4];吴茱萸中的吴茱萸碱和吴茱萸次碱等都具有肝毒性,吴茱萸次碱使肝细胞上清液中的AST、碱性磷酸酶(ALP)和乳酸脱氢酶(LDH)水平均升高[5]。如何做到对中药肝毒性的早期预测是亟待解决的问题。
使用计算机辅助新药筛选方法(CADD)构建定量构效关系(QSAR)已经应用在中药保健食品评价中[6]。QSAR 通过使用数学模型来描述分子结构和分子的某种生物活性特别是毒性效应之间的联系,用来预测其他已知结构化合物的潜在毒性,有效节省时间、资金和人力。然而,目前中药肝毒性预测模型的准确率普遍不高,叶立等[7]构建了3 种树形算法模型,内部交叉验证准确率为78%~85%。He 等[8]建立了由1254个化合物组成的大规模多样的DⅠLⅠ数据集,通过集成方法获得最佳模型,准确度(ACC)为78.3%。Zhao 等[9]基于已发表的数据和美国食品药品监督管理局(FDA)的肝毒性知识库(LTKB)构建了QSAR模型,准确率为80.2%。
本研究充分考虑中药分子的化学空间,将训练集先进行聚类分析,然后针对不同的聚类构建中药化学成分的肝毒性QSAR 预测模型,并对卫健委公布的113 个中药保健食品原料成分可能的肝毒性进行了预测,为中药保健食品安全性评价提供参考,技术路线见图1。
图1 中药保健食品原料肝毒性预测技术路线
本研究使用的肝毒性数据以He 等[8]发表的建立肝毒性预测模型的1254 个化合物数据集(该数据集收集了DⅠLⅠrank、LiverTox、LTKB 等14个肝毒模型训练集数据并使用机器学习的方法进行优化)为基础,增加了Zhao 等[9]用来建立和验证肝毒性预测模型的31 个中药成分。同时在中国知网、万方和维普数据库中以“中药”“肝毒”为检索词检索2010 年以来的文献,收集了43 个中药成分肝毒性数据。合并以上数据,删除重复项以后,共得到1271 个化合物作为训练集,其中具有肝毒性的化合物653 个、无肝毒性的化合物618 个。从PubChem(https://pubchem.ncbi.nlm.nih.gov/)下载分子2D 结构,保存为.sdf格式文件。
中药保健食品原料目录来自《卫生部关于进一步规范保健食品原料管理的通知》(卫法监发〔2002〕51 号),共113 个中药[10]。中药化学成分库来自中药系统药理学数据库与分析平台(TCMSP,https://tcmsp-e.com/tcmsp.php)[11]、中医药百科全书数据库(ETCM,http://www.tcmip.cn/ETCM/index.php/Home/)[12]、中药化学数据库TCMD(https://www.neotrident.com/)[13]3个数据库。采集113个中药包含的化学成分,合并查重后得到3540个化合物。同样从PubChem下载分子2D结构,保存为.sdf格式文件。
使用Discovery Studio 4.5 中的Small Molecules-Property Calculation-Calculate Molecular Properties 计算了分子的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors、Num_Rotatable Bonds、Num_ Rings、Num_Aromatic Rings、Molecular_Fractional Polar Surface Area 8 个性质,使用Small Molecules-Cluster-Cluster Ligands 对1271 个化合物进行了聚类;使用Small Molecules-Analyze-Calculate Principal Component 进行了主成分分析,并使用Origin 2018进行了分类结果的可视化。如果没有特殊说明,均采用系统默认值。
本研究使用FDA 公布的Mold2 软件[14]对每个化合物的2D 结构计算777 个分子描述符。在建立QSAR 模型时,对描述符的挑选是非常重要的。使用Python按以下步骤进行筛选:1)去掉全零和零占比超过80%的数列;2)筛选出皮尔逊相关系数>0.8 的数列,保留1 个数列;3)计算欧氏距离,取距离最大的前60 个;4)计算余弦相似度,取夹角最小的前60 个;5)将第3 步和第4 步筛选的数列取并集。
在预测模型构建阶段,对于2.1项下聚类得到的每一类,均使用9 种算法,包括朴素贝叶斯(NB)、逻辑回归(LR)、邻近算法(KNN)、随机森林(RF)、支持向量机(SVM)、交叉验证的支持向量机(SVMCV)、梯度提升迭代决策树(GBDT)、自适应增强(AdaBoost)、布袋法(Bagging)分别构建模型,并利用交叉验证方法对模型构建方法进行内部评估,使用准确率、精度和召回率评价模型。
计算113 个中药保健食品原料包含3540 个化学成分的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors 等8 个分子性质,然后根据这些性质按公式(1)计算每个成分到聚类中心化合物的欧式距离(d)。根据距离远近,判断待预测的化合物属于哪类,进而使用这个类对应的QSAR 模型进行中药成分的肝毒性预测。
式中x和y为每个化学成分性质投映到到多维空间后的坐标值。
3.1.1模型训练集的主成分分析和聚类分析 对QSAR模型训练集的1271个化合物进行聚类分析,得到3个聚类,每一类的有毒成分数量、无毒成分数量、成分总数、聚类的中心化合物及结构详细信息见表1。对1271 个化合物进行主成分分析,结果得到4个主成分表达式(表2)。以PC1、PC2 和PC3 分别为坐标轴来构建化学空间,进一步可视化聚类结果(图2)。第1 类和第3 类的化合物数量分别为1080、181 个,在化学空间中显示聚类效果较好,可以用于下一步构建QSAR 模型。第2 类化合物数量较少,在化学空间上也比较分散,不利于构建模型。
图2 肝毒性预测模型训练集化合物的聚类结果
表1 肝毒性预测模型训练集聚类分析详细信息
表2 肝毒性预测模型训练集化学成分主成分分析
3.1.2第1 类训练集和第3 类训练集QSAR 模型的构建和评价 使用Mold2 软件分别对第1 类训练集(1080 个成分)和第3 类训练集(181 个成分)进行了分子描述符计算,然后根据2.2项下方法对描述符进行了初步筛选,分别得到170、106 个分子描述符。使用2.3项下方法分别构建了2 个QSAR 模型,得到的模型准确率、精确度和召回率见表3。从均值可以看出第3 类的QSAR 模型准确率和精确度均高于第1类的QSAR模型。
表3 肝毒性预测模型第1类训练集和第3类训练集构建的QSAR模型
根据2.4项下方法,通过比较每个成分到类中心的欧式距离,将这些成分归到了QSAR 模型第1类(2767 个化学成分)和第3 类(783 个化学成分)中。第3 类的QSAR 模型优于第1 类的QSAR 模型,因此,对使用第3类QSAR 模型预测的783个成分的结果进行统计分析。
为了更加合理地表达预测结果,本研究使用多模型加权预测方法,按公式(2)计算加权平均概率。
在783 个成分中,肝毒性加权平均概率排列前5位的化合物见表4,中药保健食品原料成分肝毒性预测加权平均概率分布见图3。
图3 中药保健食品原料成分肝毒性预测加权平均概率分布
表4 中药保健食品原料中的肝毒性加权平均概率排列前5位的化合物
预测结果中有肝毒性成分比例较大的10 个中药和预测无肝毒性成分比例较大的10 个中药见图4。可以看到茜草包含了14 个预测有肝毒性的成分和7个预测无肝毒性的成分。
图4 部分中药成分的肝毒性预测统计结果
为了进一步验证QSAR 模型的准确率,采用文献验证的方法,即从预测的结果中找出目前有文献报道的结果进行比较,得出一致结果的比例。研究结果发现,在预测的783 个化合物中,有文献报道毒理性质的很少。经过逐一检索,具有肝保护作用的成分有10个,包括白芍苷[15]、人参皂苷人参皂苷Rb2[17]、野漆树苷[18]、连翘酯苷[19]、山茱萸新苷[20]、绞股蓝皂苷[21]、木犀草素[22]、芍药苷[23]、芒柄花苷[24],表明这些成分均无肝毒性,与预测结果一致。本研究预测阿魏酸的肝毒性概率0.566 9,为有肝毒,与实验结果相反[25]。
在113 种中药中,肝毒性所占比例较高的中药有茜草、番泻叶、当归、大黄、丹参、厚朴、川芎、桑枝、桑白皮、五味子等,其中实验已经证实具有肝毒性的有5 味药,包括番泻叶可引起胃肠、肝胆、神经、泌尿等多系统损害,其中肝胆系统损害以黄疸为主,临床表现为头昏不适、发热、尿黄等症状[26],大黄中的大黄蒽醌具有潜在的肝肾毒性和致癌性[4]。茜草的70%乙醇提取物长期给药剂量≥5 g·kg-1时具有轻微的肝、肾毒性[27]。当归提取物对正常小鼠无明显急性肝毒性,但不同浓度剂量的提取液可能引起肝功能异常,在一定范围内呈剂量正相关[28]。厚朴叶、厚朴皮和厚朴花对大鼠的食物利用率、肾功能都有所影响,也影响肝、卵巢、睾丸的脏体系数[29]。
肝毒性是指药物在肝脏代谢时,药物本身或其代谢产物对肝脏造成的损害。在药物开发和使用过程中,药物肝毒性往往是导致新药研发失败或者撤市的主要原因之一。中药在我国临床上已经使用了几千年,随着中药现代化的发展,中药不良反应逐渐被人们重视。对中药肝毒性的预测将会成为辅助以中药为原料的保健食品毒性评价的一个重要途径。QSAR 是化药新药研发阶段的毒性预测的常用方法之一,其可以在没有实验信息的情况下,利用已知毒性的化合物,对未知化合物进行初步预测。然而,目前构建QSAR 模型来预测中药肝毒性的例子不多[4,9],同时由于中药化合物与化药分子结构的差异,基于化药结构为基础的预测模型预测中药准确率也不高。
本研究考虑到QSAR 主要基于分子结构和分子特性与毒性效应之间的联系来建立机器学习模型,因此首先在训练集的化学空间上做了聚类分析,使得每一类的内部化合物化学空间性质比较相似,类之间的化合物化学空间性质差异较大,然后对每一个类分别建模,可以提高模型准确率。通过研究发现,本研究将训练集在化学空间上分为3类,第3类模型的准确率为85%~91%,相比之前的报道有大幅度的提高。
在模型构建上为了使预测的结果更加合理,本研究还提出了多模型加权预测方法,充分考虑到机器学习模型预测的概率性,综合考虑多个模型的准确率和预测概率,加权平均后得到总体值。最后,本研究对113种中药保健食品原料的成分计算到第1类中心和第3类中心的欧式距离,选择与第3类中心较近的783 个化学成分进行预测,根据加权平均概率最终预测得到肝毒性化合物48 个,不具有肝毒性的化合物735 个,肝毒性预测概率为0.15~0.30。为进一步验证预测结果,笔者进行了相关文献调查。文献数据设计中药成分共有10 个,其肝毒性均与预测结果一致。
综上所述,本研究在传统的QSAR 建模方法上进行了2 点改进,其一是对训练集化合物进行了聚类分析,然后对每一类分别使用NB、LR、KNN 等9种机器学习的方法构建QSAR模型,并利用交叉验证方法对模型构建方法进行评估,得到了准确率为85%~91%的最优模型。其二是建立多模型加权预测方法,并预测了113 种中药保健食品原料包含的783个化学成分的肝毒性,丹参、川芎、桑枝、桑白皮、五味子等预测肝毒性成分比重较高,有待进一步验证。