江启煜 何晓华 刘秀峰
摘要:随着中医药药理实验和生命科学研究的不断发展,中药从宏观到微观层次已经积累了大量的实验数据以及文献信息,通过整合这些大数据,研发中药生物分子信息文献系统,具有重要意义。中药生物分子信息文献系统可以实现“中药-化学成份-靶蛋白-生物通路-文献信息”的多层次信息检索功能,并且具有蛋白基因关联知识推理发现功能,能够方便研究人员获取中药的所有相关化学成份、靶点、以及生物通路等数据信息,从而有助于分析中药对疾病的分子作用机制,而且系统的推理功能能够分析出两个或多个靶点之间的相互作用关联路径,使研究人员进一步探索多靶点之间的机制作用途径。
关键词:中药;生物信息;文献系统;大数据
中图分类号:R285 文献标识码:A DOI:10.3969/j.issn.1006-1959.2019.15.004
文章编号:1006-1959(2019)15-0010-04
Abstract:With the continuous development of traditional Chinese medicine pharmacology experiments and life science research, Chinese medicine has accumulated a large amount of experimental data and literature information from the macro to the micro level. It is of great significance to integrate the big data and develop the biomolecular information literature system of traditional Chinese medicine. The traditional Chinese medicine biomolecular information literature system can realize the multi-level information retrieval function of "Chinese medicine-chemical composition-target protein-biological pathway-document information", and has the function of protein gene-related knowledge reasoning and discovery, which can facilitate researchers to obtain all relevant chemistry of traditional Chinese medicine. Data information such as components, targets, and biological pathways, which help to analyze the molecular mechanism of Chinese medicine on disease, and the system's reasoning function can analyze the interaction path between two or more targets, making research The personnel further explored the mechanism of action between multiple targets.
Key words:Traditional Chinese medicine;Biological information;Literature system;Big data
一直以来,中药生物分子领域的专业数据和科技文献资源缺乏,基础数据和文献资源离散分布于大量论文和文献检索系统中,不利于科研人员的研究探索。因此,如何研发具有专业结构性知识检索功能以及知识发现推理功能的中药生物分子信息数据文献系统,将具有重要的科研意义。本研究基于多个著名的国际生物学数据库(如TCMID[1]、Pubchem[2]、HIT[3]、Reactome[4]、TCMSP[5]等),及文献数据库,将大量的中药、化学成份、蛋白、基因、生物通路等生物信息大数据进行多层次的结构化关联整合,形成从宏观到微观的中药-化学成份-蛋白(基因)-生物通路-文献信息的多层次中药生物分子关联信息数据库。本系统的研发将能够为中医药研究提供方便可靠的中药生物分子信息基础数据分析支持及文献资源支撑,有力促进中医药与生命科学领域的研究发展,从中发现更多的科学突破,具有显著现实应用价值与推广前景。
1系统提供的检索模式
本系统支持三种检索模式:单库检索、跨库检索、集群跨库检索。①单库检索:用户选中某个数据子库,输入检索词或组合检索式,返回其在本数据库的相关信息。例如选择中药子库检索中药名返回该中药的标准药名、功效、属性、分类等信息,选择选择文献信息子库检索中药名返回该中药的相关文献信息。②跨库检索模式:该模式是本平台的检索特色,用户选择同时检索的几个数据库并输入检索词,返回其在其它子库的所有关联信息,节省了用户层层检索查询的时间。例如用户需要查找一个化学成份对应的靶点(靶蛋白)信息和相关文献,按照现有的检索方法,用户必须先检索出该化学成份相应的每一个靶点,再检索出每一个靶蛋白相应的文献。而在本跨库检索模式下,用户只需选中化学成份-蛋白子库以及文献信息子库,输入检索词或组合检索式,即可直接返回该化学相应的所有靶蛋白信息以及相应的文献信息。③集群跨库检索模式:与跨库检索模式类似,但该模式可支持同时输入多个中药,多个化学成份(化学成份集),或多个蛋白基因(蛋白基因集)进行检索,该功能更有利于药物机制的探索分析和新药开发研究,因为很多中药发挥作用都是通过多成份多靶点的综合作用。例如已知某疾病的主要靶点集中在若干靶蛋白上,将这些靶蛋白通过该平台进行集群跨库检索,即能获得这些靶點相应的中药有效化学成份。
2系统应用领域
2.1中药基本信息检索 每一种中药,能够检索的信息字段包括ID、标准药名、同义药名、拼音名、英文名、功效、性能、分类等。应用该检索功能,能够获取中药相关的一般信息,及其化学成份与靶点列表。在系统检索界面中选中“中药”选项卡,并在检索框输入检索词,点击检索后,将在后台数据库对相应字段进行模糊检索并返回相应结果。系统除了检索中药名字段外,也同时检索同义药名字段。例如检索“大黄”或者“川军”,系统将返回大黄的标准药名、同义药名、拼音名、英文名、功效、性能、分类等信息,并且以列表链接的形式,枚举该中药相关的所有化学成份以及靶点。当点击上述列表中的具体某个化学成份或靶点时,分别跳转到相应的化学成分以及靶点的具体信息页面。用户通过利用系统的该项检索功能,不但能够方便收集中药的一般信息,而且能够系统性地研究某一类功效性能的中药的共性靶点或参与的生物通路。系统界面如图1所示。
2.2中药-化学成份-靶蛋白检索 每个中药包含许多有效化学成份(小分子化合物),每个化学成份可能对应数千个靶蛋白(靶点),靶蛋白间的相互作用关系有数十万条以上,大量的靶蛋白又参与了人体许多不同的生物通路,所以从宏观到微观层次的数据量非常复杂与巨大。系统能够检索的某个中药具体的化学信息(图2)及靶点信息(图3)包括:化学成份名、化学成份对应的CAS号、inchkey、化学成份作用的靶蛋白全名、靶蛋白Symbol 号及其Uniport ID。在系统检索主界面选中“化学成份”选项卡,并在检索框输入检索词,点击检索后,系统将在后台数据库对相应字段进行模糊检索,例如检索“alpha-Curcumene”,系统将返回alpha-Curcumene的标准化学名、同义名、CAS号、inchkey等信息,并且以列表链接的形式,枚举该化学成份相关的所有中药及靶点。当点击上述列表中的具体某个中药或靶点时,分别跳转到相应的中药以及靶点的具体信息页面。如果在主界面选中“靶点”选项卡,并在检索框输入检索词,点击检索后,系统将在后台数据库对相应字段进行检索,并返回靶点的靶蛋白全名、靶蛋白Symbol 号、Uniport ID,及其参与的生物通路,并以列表链接的形式,枚举该靶点相关的所有中药及化学成份。可见本系统的中药-化学成份-靶蛋白的多层次生物信息是环环相扣的,用户只需要在如何一个信息层次入口检索,其相关的所有其它层次信息,都将会被检索显示,这样的功能设计将有利于用户进行中药、化学成份、靶蛋白任何一个信息点的信息收集与应用。因此,在实际研究中,用户可以通过该系统直接检索某个中药的所有相关化学成份,靶点,以及生物通路,从而进一步分析药物靶点与已知疾病靶点的相互作用,明确中药对疾病的分子作用机制。
2.3中药-化学成份-靶蛋白相关文献检索 本系统提供中药,化学成份,以及靶蛋白的相关文献信息检索功能。在系统检索主界面中选中“文献”选项卡,并在检索字段中选择检索字段,并输入检索词,最后选择检索的逻辑运算条件,点击检索后,系统将进行相应字段的模糊检索并返回相应检索结果。可以选择的检索字段包括:题名,作者,刊物,出版年份,摘要。检索的逻辑运算条件包括AND和OR。进行检索后,系统将返回满足条件的文献链接列表,每个文献链接点击后返回该文献的FAU(作者)、TI(文题)、JT(刊名)、DP(出版时间)、PG(页码)、AB(摘要)、SO(出版信息)等字段信息。系统界面见图4。例如检索式为TI=“Glutamate receptor 3” And AB=“Interleukin-2”,则返回文题包含“Glutamate receptor 3”并且摘要包含“Interleukin-2”的所有中药相关文献。 通过系统的该项文献检索功能,用户能够方便快速获取许多中药相关的研究文献信息,获取中药的相关研究动态,而不需要使用第三方的文献数据库进行进一步的检索。
2.4蛋白基因关联知识发现推理 由于中药-化学成份-靶蛋白之间具有相互关联作用,从而可以生成关联矩阵,通过特定的算法构建复杂关联网络,系统可以针对特定的检索词串,从复杂关联网络的某个节点开始,以最短路径为依据,搜索相关的关联节点,并生成输出关联拓扑子网络,是解析中药作用机制的关键。在系统主界面中点击“推理预测”,并输入两个或多个检索词,系统将返回这些检索词的关联网络。例如用户可以通过系统的推理功能,将某个药物靶点与某个疾病靶点作为检索词输入,此时系统将能计算该药物靶点与疾病靶点的关联作用路径,从而能够解析作用机制。或者用户将两个或多个药物靶点作为检索词输入,即能够分析出这两个或多个药靶之间的相互作用关联路径,因此该功能有重要创新意义,见图5。
3总结
传统中医药的不断传承与当前中医药的现代化发展是相辅相成的,通过生物信息大数据的整合以及文本挖掘技术,研发中药生物分子信息文獻系统,能够有助于更深入从宏观到微观多层次揭示中药的药理分子机制,阐析中医药的科学内涵,促进中医药的科学化与信息化。随着中药化学成份与靶点实验数据的巨量增长,本系统将更加突出中医药大数据的特色,知识发现推理能力亦趋强大,更能满足用户的需求。
参考文献:
[1]Xue R,Fang Z,Zhang M,et al.TCMID:Traditional Chinese Medicine integrative database for herb molecular mechanism analysis[J].Nucleic Acids Res,2013,41(1):1089-1095.
[2]Wang Y,Suzek T,Zhang J,et al.PubChem BioAssay:2014 update[J].Nucleic Acids Res,2014,42(1):1075-1082.
[3]Ye H,Ye L,Kang H,et al.HIT:linking herbal active ingredients to targets[J].Nucleic Acids Res,2011,39(2):1055-1059.
[4]Croft D,Mundo AF,Haw R,etc.The Reactome pathway knowledgebase[J].Nucleic Acids Res,2014,42(3):472-477.
[5]Ru J,Li P,Wang J,et al.TCMSP:a database of systems pharmacology for drug discovery from herbal medicines[J].J Cheminform,2014,6(1):13.
[6]陈陵,徐燎宇.大数据时代对中医药发展的思考[J].中医文献杂志,2019,37(1):66-69.
[7]陶永鹏,刘朝霞,顼聪.大数据背景下有关中医药现代化思路的探讨[J].中华中医药杂志,2019,34(2):470-473.
[8]刘艳飞,孙明月,姚贺之,等.大数据技术在中医药领域中的应用现状及思考[J].中国循证医学杂志,2018,18(11):1180-1185.
[9]刘菊红,曾召,张晓艳,等.中医药文献大数据分析平台的构建[J].中国中医药信息杂志,2018,25(8):4-8.
[10]杨进,罗漫,张启蕊.文本挖掘在中医药文献分析中的应用[J].广东药学院学报,2010,26(2):216-220.
[11]濮正平,夏江明,谢巍,等.基于文献的舒肝解郁胶囊临床应用文本挖掘研究[J].中国中药杂志,2017,42(17):3430-3433.
[12]沈姗姗,姜淼,郑光,等.基于文本挖掘探讨中医外治法和食疗在糖尿病中应用规律[J].中国实验方剂学杂志,2015,21(1):209-212.
[13]吕婷,姜友好.文本挖掘在生物医学领域中的应用及其系统工具[J].中华医学图书情报杂志,2010,19(4):56-64.
[14]胡雙,陆涛,胡建华.文本挖掘技术在药物研究中的应用[J].医学信息学杂志,2013,34(8):49-53.
[15]展俊平,郑光,姜淼等,文本挖掘探索慢性肾小球肾炎“证-症-方-药”相应规律[J].中国实验方剂学杂志,2013,19(3):315-320.
收稿日期:2019-1-25;修回日期:2019-2-5
编辑/肖婷婷