李旺珍,赵紫一,陈 悦,杨晓艳,贺福元,丁长松*
基于归纳矩阵填充预测中药潜在活性成分
李旺珍1,赵紫一1,陈 悦1,杨晓艳1,贺福元2,丁长松1*
1. 湖南中医药大学信息科学与工程学院,湖南 长沙 410208 2. 湖南中医药大学药学院,湖南 长沙 410208
为解决中药有效成分信息缺失、药效物质基础不清楚导致其现代作用机制不明的问题,借助中药药性信息和成分的化学结构信息,利用归纳矩阵填充方法预测中药潜在活性成分。首先,基于中药药性和化学成分信息构建中药-成分关联矩阵;其次,利用中药-成分关联矩阵中潜在的结构信息、中药药性信息和成分的化学结构信息,构建中药相似度矩阵和成分相似度矩阵;最后,基于中药相似度矩阵和成分相似度矩阵填充中药-成分关联矩阵。归纳矩阵填充在中药数据集中使用留一法交叉验证得到的曲线下面积(area under curve,AUC)值为0.768 8。对丹参进行分析,丹参的活性化学成分隐丹参酮、丹参酮IIA、丹参酚醌和丹参醇等分别获得了较高的评分,该预测结果与实际相一致。借助归纳矩阵填充结合中药药性信息和成分的化学结构信息,可有效预测中药的潜在活性成分,为研究中药的现代作用机制提供了新的途径。
矩阵填充;化学结构;关联矩阵;相似矩阵;活性成分预测
中药通过多种活性成分协同作用发挥临床疗效,其药效物质基础研究是中药现代化研究的基础和关键。然而,目前大部分的中药活性成分信息缺失,物质基础不清,导致其药理机制不明,给中药药效评价及精准用药带来挑战。更好的了解中药的化学成分可以提高中药整体质量控制的水平,特别是随着人们对中药高度复杂性的认识逐渐加深,探索中药化学成分已成为中药科学家的共识。归纳矩阵填充作为机器学习的重要组成方法,具有可解释的优势,且其有效性已在生物学[1]、生物技术[2]等领域的实践中得到验证。中药具有多成分、多靶点的性质,矩阵能很好地表示中药化学成分与其对应靶点的关系。通过深度挖掘矩阵的结构信息,不仅可以获得中药与成分之间的隐含信息,而且能获得较高的准确度和很强的解释性。
筛选中药复方药效物质,探索中药药效作用机制,一直是业界研究的重点。从实验室获取中药有效成分传统的方法过于昂贵且耗时,导致发现中药潜在有效活性成分进展缓慢[3]。近年来,随着信息技术的发展,尤其是机器学习、大数据为中药药效物质研究提供了新的技术。利用数据挖掘方法预测中药的潜在活性成分可缩小药物发现实验中候选药物的搜索范围,减少生物实验时间和成本[4]。翁小健等[5]采用网络药理学与生物信息预测分析,并结合分子实验验证百合抗抑郁的作用机制,预测了百合抗焦虑抗抑郁的活性成分、潜在靶标和信号通路。李雨等[6]选取了《中华本草》中收录的药性明确、属性特征详尽且具有代表性的中药,通过构建多层反向传播(back propagation,BP)前馈型神经网络模型对中药进行属性判别分析,发现BP神经网络具有快速识别、自适应、容错及非线性等特点,能够有效解决中药属性特征与药性的非线性相互关系问题。张文清等[7]提出了基于人工神经网络和支持向量机算法的预测模型,该模型用于中药成分致肾毒性预测研究具有良好的预测能力。上述方法加速了中药有效成分的发现进展,然而在模型的稳定性和可解释性方面仍然具有挑战性。
矩阵填充[8-10]作为机器学习的重要组成部分,已应用于药物-靶标相互作用[11]、药物重定位[12]、长非编码RNA(long non-coding RNA,lncRNA)-疾病关联[13]和干扰mRNA的互补RNA(mRNA-interfering complementary RNA,micRNA)-疾病关联[14]、环状RNA(circular RNA,circRNA)-疾病关联预测[15]等领域。利用物质信息数据库对中药进行全息描绘是加深中药化学性质理解的基本思路,尤其是近年来越来越多经实验验证的数据库的建立为查找中药成分信息提供了便利,如中药系统药理学数据库与分析平台(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP)[16]、中医药综合数据库(Traditional Chinese Medicine Integrated Database,TCMID)[17]等数据库包含了大量中药的属性信息和化学信息,而矩阵填充可以充分利用已知关联信息预测潜在未知关系。基于此,本研究将中药活性成分预测问题视为一个推荐问题,将中药潜在成分预测问题建模为推荐任务,利用归纳矩阵填充方法[18-20]构建基于中药成分关联关系的归纳矩阵填充模型(inductive matrix completion for herb-ingredients association,IMC-HIA),联合使用TCMSP、PubChem[21]等数据库,筛选出中药和成分数据构建特征矩阵,结合已知中药性味归经等属性和成分化学结构信息预测中药潜在活性成分。中药的药效主要来源于其中的化学成分,通过对化学成分的研究可以建立中药质量标准,保证其质量。
IMC-HIA模型如图1所示,主要包含构建成分相似性矩阵(step1-step2)、构建中药相似性矩阵(step3)及归纳矩阵填充(step4-step5)3个部分。
1.2.1 成分的化学结构相似性 利用TCMSP中收集的中药活性成分的化学成分信息,在PubChem数据库中提取其简化分子线性输入规范(simplified molecular input line entry specification,SMILES)序列,使用开源的化学信息学工具包(The Redox Toolkit,RDKit[22])将SMILES序列进行加载,计算出分子准入规则(molecular access system,MACCS)分子指纹,采用戴斯相似性系数(Dice similarity coefficient,DSC)度量方法对MACCS指纹进行相似性计算。
1.2.2 成分的高斯互作谱核相似性 使用高斯互作谱核相似性(Gaussian interaction profile kernel,Gkl)计算成分之间的相似性[23]。计算公式如下。
(m)表示与成分m相关的中药关联关系
图1 IMC-HIA模型
1.3.1 中药药性量化 使用本团队前期提出的基于多层前馈神经网络的药向量训练模型(quantitative model of traditional Chinese medicine’s properties based on BP neural network,QM-BP)[24]实现中药的药性向量表示,功效或药性相似的中药其BP药性向量在高维空间中距离更近,该特性能反映中药间的相似性。
1.3.2 中药相似性 利用QM-BP模型得到了每味中药包含寒、热、温、凉等23种属性的药性向量[25-27],使用余弦相似度计算中药之间的相似性,计算公式如下。
将预测中药潜在活性成分转化为归纳矩阵填充的问题,问题定义如下。
为求解的目标矩阵,ǁ ǁ*为奇异值阈值之和的核范数,和分别为中药和成分相似性矩阵的主要特征向量,Ω表示已知关联数据,为填充前的矩阵
为基于中药和成分相似性的特征交互矩阵,使用加速近端奇异值算法迭代求解,具体流程如图2所示。
数据集包括TCMSP数据库的中药和成分的信息、PubChem数据库的成分SMILES序列,数据下载于2023年2月1日前。原始数据集中包含502味中药、13 728个成分、33 931个中药-成分关联关系,以口服生物利用度(oral bioavailability,OB)≥30%,药物类似性(drug-likeliss,DL)≥0.18为筛选条件初步筛选成分,随后删除性味归经等属性不明的中药和化学结构不确定的成分,最后得到包含1 751个成分、325味中药以及3 534个关联信息的基本数据集。为分析关联矩阵规模大小对实验结果的影响,从数据集中随机抽取数据构建了3个子集,各数据集的信息如表1所示。
检索发现大部分中药已知的活性化学成分数量较少且个数都在20以内,导致中药成分关联关系矩阵为稀疏矩阵。成分最多的前10味中药如表2所示。
图2 中药和化学成分的归纳矩阵填充流程
表1 中药-成分关联关系数据集
表2 成分数量排名前10的中药
为了评估IMC-HIA模型的有效性,使用留一法交叉(leave-one-out cross validation,LOOCV)验证,依次将每个已知的中药成分关联信息作为测试样本,而其他已知的关联信息作为训练样本,未知的关联关系作为候选样本。在候选样本和测试样本中,测试样本作为正样本,而候选样本作为负样本。模型训练前训练样本关联关系值为1,测试样本被标注为0,模型训练后得到每个测试样本的评分,候选样本取最高值作为最终评分。用精度指标真正例(true positive,TP)、假正例(false positive,FP)和真反例(true negative,TN)结合敏感性(sensitivity)和特异性(specificity)评价模型。
特异性=TN/(TN+FP) (6)
根据LOOCV结果绘制受试者工作特征曲线(receiver operating characteristic curve,ROC)。ROC图的轴是特异性,轴是敏感度。根据ROC曲线,计算ROC曲线下面积(area under curve,AUC)作为模型的评估指标,在4个不同数据集下的结果如图3所示。
图3 不同数据集的ROC曲线
基于此,获得了中药相似性矩阵的主要特征向量()和成分相似性矩阵的特征向量()。
由于成分相似性矩阵的构成分别来自成分的化学结构相似性和已知中药成分关联信息,为分析不同的成分相似性矩阵对预测结果的影响,通过改变成分相似度矩阵的融合比率()进行分析。成分相似性矩阵Mol=mol×+mol×(1-),其中mol为成分化学结构相似性,mol为基于中药成分关联信息提取的成分相似性矩阵。对3个参数(、、)取0.1到1之间的值,步长为0.1进行调整。对数据集1采用LOOCV验证,结果如图4所示。结果显示AUC较高值出现位置较为集中,随着值的增加,AUC从最初稳定逐渐开始下降。当值超过0.8时,AUC的值低于0.5。随着值的增加,AUC逐渐增加,但增长速度缓慢。数据集1的最佳参数为=0.6、=0.9、=0.4。当和的值都取较小值时,此时矩阵稀疏,AUC值也相对较小,说明相似度矩阵的稀疏程度对预测的结果有一定影响。而值决定成分相似性矩阵的融合比率,发现只有值处于特定区间[0.3,0.7] 才有较高的AUC值,说明来自2个不同方向的成分相似度信息对预测结果都起到了影响。
图4 参数对模型的影响
本研究通过结合中药的性味归经等属性和中药成分的化学结构信息,利用归纳矩阵填充得到中药-成分关联矩阵。填充后原关联矩阵内容发生了改变,填充前后部分中药-成分评分如表3、4所示。部分中药-成分获得较高评分,如艾叶-谷甾醇(1.145 992)、甘草-异鼠李素(1.137 673)、苦参-山柰酚(0.909 534)和苦参-香叶木素(0.906 408)。艾叶中包含的谷甾醇在抑制血小板聚集有显著作用[28];甘草在治疗特定疾病时异鼠李素是其核心活性成分[29];而苦参含有山柰酚和香叶木素,山柰酚具有良好的抗菌活性[30],香叶木素具有抗氧化、抗感染等功效。
而山柰酚、谷甾醇和异鼠李素等虽然有一定的药用价值,但这些成分都是中药中普遍存在的成分。为进一步探究药效物质基础,本研究对丹参的有效成分预测结果进行分析。例如,丹参是一味临床常用的具有活血化瘀功效的中药,有着广泛的药理作用,临床主要用于月经不调、心悸失眠及各种心血管疾病。丹参有效成分预测结果见表5,部分化学成分及其对应药效[31]如表6所示。
研究发现在丹参的评分结果中丹参-木犀草素的评分相对较高为0.683 761,青蒿中青蒿-木犀草素评分也相对较高为0.801 635。但是木犀草素并不是丹参的主要代表性活性成分,丹参的代表性活性成分应该是具有以丹参酮型二萜为主的二萜类脂溶性成分,如实验已经证明隐丹参酮具有抗肿瘤作用,丹参酮IIA具有心肌保护作用。造成这一现象的主要原因是模型采用LOOCV验证,中药的数据集过于稀疏,模型为了提高预测结果,不可避免会对一些出现频率较高的成分赋予相对较高评分。为了验证模型是否具有预测中药活性成分的能力,对丹参中独有的一些成分的预测分数分析发现,丹参的活性成分隐丹参酮获得较高评分0.593 024,丹参酮IIA预测评分为0.513 206,丹参酚醌II预测评分为0.562 346,而丹参包含的成分预测评分的均值为0.491 1,最大值不超过0.75,上述成分预测评分均高于均值。这说明模型能够预测出中药的活性成分,后期模型的改进应该选择降低出现频率较高成分的预测权重,甚至舍弃这些在中药中普遍存在的成分进行模型训练。
表3 部分中药和成分的关联关系(填充前)
表4 中药和成分的关联关系(填充后)
表5 丹参的部分有效成分预测结果
表6 丹参的部分活性成分及其药效作用
中药药效物质基础在中医药原理发展中起着重要作用,明确中药的潜在活性成分是紧迫问题。迄今为止,经实验验证的中药关联活性成分信息少,且预测中药与关联成分的计算方法也不多。为此,本研究提出归纳矩阵填充的方法,整合中药相似性和成分相似性的信息,使用归纳矩阵填充预测中药潜在活性成分,获得了较好的实验效果。然而,本研究尽管引入了中药药性相似性和成分化学结构相似性信息,但高斯互作谱核相似性的计算严重依赖于已知的中药-成分关联,且它们的关联关系很少,模型不能准确预测潜在成分,未来将对本方法进一步优化,解决对已知中药-成分关联信息过度依赖的问题,且对预测出的成分进行中药-成分提取验证。
利益冲突 所有作者均声明不存在利益冲突
[1] 张建楠, 王晓杰, 沙雏淋, 等. 生物医药研发数字基础设施体系建设研究 [J]. 中国工程科学, 2023, 25(5): 92-102.
[2] 夏文俊, 于斐, 胡鹏远, 等. 基于机器学习算法和生物信息学技术构建的肺癌与肺结核鉴别诊断模型及其初步评价 [J]. 山东医药, 2023, 63(5): 11-14.
[3] 刘杰, 房文亮, 谷海媛, 等. 中药鉴定方法及其发展概况 [J]. 中国药事, 2023, 37(11): 1332-1340.
[4] 孙资金, 张风君, 吉静, 等. 基于生物信息学与分子动力学的仙方活命饮治疗猴痘作用机制与分子靶点预测 [J]. 中草药, 2023, 54(7): 2197-2207.
[5] 翁小建, 谈毅, 陈明苍, 等. 百合抗焦虑抗抑郁有效成分与作用机制研究 [J]. 浙江中医药大学学报, 2023, 47(11): 1243-1254.
[6] 李雨, 李骁, 薛付忠, 等. 基于人工神经网络的中药药性判别研究 [J]. 山东大学学报: 医学版, 2011, 49(1): 57-61.
[7] 张文青, 赵珊, 钱文秀, 等. 基于人工神经网络和支持向量机算法的药源性急性间质性肾炎计算模型的建立及在中药域的应用 [J]. 中草药, 2023, 54(2): 416-424.
[8] 唐晓妮, 闫喜红. 一种求解低秩矩阵填充的加速交替方向算法 [J]. 太原师范学院学报: 自然科学版, 2022, 21(1): 6-10.
[9] Athey S, Bayati M, Doudchenko N,. Matrix completion methods for causal panel data models [J]., 2021, 116(536): 1716-1730.
[10] Bordenave C, Coste S, Nadakuditi R R. Detection thresholds in very sparse matrix completion [J]., 2023, 23(5): 1619-1743.
[11] 徐纹. 基于矩阵填充的药物-靶标相互作用预测 [D]. 长沙: 湖南大学, 2020.
[12] 周赤. 基于矩阵填充和深度学习的药物相关预测研究 [D]. 徐州: 中国矿业大学, 2022.
[13] Lu C Q, Yang M Y, Luo F,. Prediction of lncRNA-disease associations based on inductive matrix completion [J]., 2018, 34(19): 3357-3364.
[14] Chen X, Wang L, Qu J,. Predicting miRNA-disease association based on inductive matrix completion [J]., 2018, 34(24): 4256-4265.
[15] Li M L, Liu M Y, Bin Y N,. Prediction of circRNA-disease associations based on inductive matrix completion [J]., 2020, 13(Suppl 5): 42.
[16] Ru J L, Li P, Wang J N,. TCMSP: A database of systems pharmacology for drug discovery from herbal medicines [J]., 2014, 6: 13.
[17] Xue R C, Fang Z, Zhang M X,. TCMID: Traditional Chinese medicine integrative database for herb molecular mechanism analysis [J]., 2013, 41: D1089-D1095.
[18] Li J, Zhang S, Liu T,. Neural inductive matrix completion with graph convolutional networks for miRNA-disease association prediction [J]., 2020, 36(8): 2538-2546.
[19] 朱树钊. 非线性归纳矩阵填充模型预测致病基因 [D]. 湘潭: 湘潭大学, 2021.
[20] 吴琼. 矩阵填充的主动归纳算法研究 [D]. 西安: 西安石油大学, 2019.
[21] 刘海波, 彭勇, 黄璐琦, 等. 基于PubChem数据库的天然产物快速寻靶方法 [J]. 中草药, 2012, 43(11): 2099-2106.
[22] 霍东辉. 计算机辅助表皮生长因子受体抑制剂的活性预测研究 [D]. 北京: 北京化工大学, 2023.
[23] van Laarhoven T, Nabuurs S B, Marchiori E. Gaussian interaction profile kernels for predicting drug-target interaction [J]., 2011, 27(21): 3036-3043.
[24] 邓乐, 丁长松, 黄辛迪, 等. 基于多层前馈神经网络的中药药性量化研究 [J]. 中草药, 2020, 51(16): 4277-4283.
[25] 张好霞, 侯钰, 杨建明, 等. 中药性味归经及药用功能的数据挖掘研究 [J]. 中国药业, 2021, 30(10): 1-4.
[26] 李梦缘, 刘汶. 从《金匮要略》下利方特点探析四气五味组方思路 [J]. 环球中医药, 2021, 14(6): 1081-1082.
[27] 张砚, 郭彩强, 岳冬梅, 等. 中药药性量化研究进展 [J]. 天津中医药大学学报, 2015, 34(4): 252-256.
[28] 李真真. 艾叶乙酸乙酯部位的化学成分及其抗凝血活性研究 [D]. 新乡: 新乡医学院, 2017.
[29] 雷玉西, 赵凤林. 基于网络药理学探讨桂枝-甘草药对治疗室性期前收缩作用机制 [J]. 山西中医, 2023, 39(11): 62-65.
[30] 吴雅琳, 曹志刚, 孙盼盼, 等. 基于网络药理学研究苦参抑菌活性成分及其作用机制 [J]. 动物营养学报, 2023, 35(9): 6055-6071.
[31] 万新焕, 王瑜亮, 周长征, 等. 丹参化学成分及其药理作用研究进展 [J]. 中草药, 2020, 51(3): 788-798.
Prediction of potential active ingredients in traditional Chinese medicine based on inductive matrix completion
LI Wangzhen1, ZHAO Ziyi1, CHEN Yue1, YANG Xiaoyan1, HE Fuyuan2, DING Changsong1
1. School of Informatics, Hunan University of Chinese Medicine, Changsha 410208, China 2. School of Pharmacy, Hunan University of Chinese Medicine, Changsha 410208, China
In order to solve the problem of lack of information on the effective ingredients in traditional Chinese medicines (TCMs) and unclear pharmacodynamic material basis, which lead to the unknown modern mechanism of action of TCMs, the inductive matrix filling method was applied to predict the potential active ingredients of TCMs by utilizing the properties information of TCMs and chemical structure information of the ingredients in TCMs.Firstly, the TCM-component association matrix was constructed based on the properties of TCMs and chemical components information. Secondly, the TCM and ingredient similarity matrix were constructed by the potential structural information, TCMs’ properties information, and ingredients’ chemical structure information in the TCM-component association matrix. Finally, the TCM-component association matrix was filled with the TCM similarity matrix and ingredient similarity matrix.The inductive matrix was filled in the herbal dataset, and the area under curve (AUC) value was 0.768 8 through least-one-out cross-validation. Analysis of Danshen (et) showed that the active chemical components ofet, such as cryptotanshinone, tanshinone IIA, miltionone, and danshenol,received high scores, and the predicted results were consistent with reality.By using induction matrix filling and combining TCM’s properties information and chemical structure information of the ingredients in TCM, potential active components of TCMs can be effectively predicted, providing a new approach for studying the modern mechanism of action of TCMs.
matrix completion; chemical structure; association matrix; similarity matrix; active component prediction
R284;G30
A
0253 - 2670(2024)09 - 3057 - 07
10.7501/j.issn.0253-2670.2024.09.019
2024-01-19
国家自然科学基金面上项目(82274215);湖南省自然科学基金项目(2023JJ60124);湖南省教育厅重点项目(22A0255,22A0281);湖南省中医药科研重点课题(2023-24);长沙市自然科学基金项目(kq2202265)
李旺珍,男,硕士研究生,研究方向为数据分析。E-mail: 2824436166@qq.com
通信作者:丁长松,男,博士生导师,研究方向为中医药大数据研究。E-mail: dingcs1975@hnucm.edu.cn
[责任编辑 潘明佳]