胡黔楠吴 玲涂伟忠丁邵珍张红雨( 中国科学院天津工业生物技术研究所,天津 0008; 武汉大学药学院,武汉 4007; 华中农业大学信息学院,武汉 40070)
微生物药物生物合成知识库研究进展
胡黔楠1吴 玲1涂伟忠2丁邵珍2张红雨3
(1 中国科学院天津工业生物技术研究所,天津 300308;2 武汉大学药学院,武汉 430071;3 华中农业大学信息学院,武汉 430070)
胡黔楠,中国科学院天津工业生物技术研究所研究员,一直致力于构建微生物细胞工厂设计系统,初步建立了“生物合成反应数据-信息化工具-生物合成知识规律发现-生物合成途径设计”的技术体系。
E-mail:hu_qn@tib.cas.cn
微生物药物是由微生物在生命活动过程中产生的、具有生物活性的代谢产物及其衍生物,如青霉素类、头孢类、碳青霉烯类、大环内酯类、氨基糖苷类、他汀类、四环类、林可霉素类、多肽类等。微生物药物目前已广泛应用于临床和农牧渔业,在治疗细菌和真菌引起的感染性疾病、病毒感染性疾病、肿瘤、免疫相关性疾病、高血脂和高血糖等疾病中发挥着重要作用。微生物药物因其所具有的近乎无穷的分子结构多样性和良好的成药性特点,一直是新药研发的热点~。
微生物药物生物合成是以微生物作为“细胞工厂”,通过对天然产物代谢途径的控制来合成目标化合物,并采用微生物发酵的方式达到大量生产的目的 。纵观整个流程,微生物药物的合成首先是从简单小分子前体开始,经过顺序协作的系列酶催化反应最终形成。该过程包括很多复杂的生物合成反应、合成途径和代谢网络,而这些反应、途径和网络又涉及一系列的化学结构的生物转化~。在合成生物学的生物功能元件设计研究中,化合物的生物合成是根据目标代谢产物的结构特征,设计生物合成途径,确定相应的生化反应类型,寻找相关的元件和功能模块 。这其中,合成途径是由一系列改变化学结构的生化反应构成,不同的生化反应类型涉及不同的结构转化类型。因此,要进行微生物药物的生物合成途径设计,就需要收集大量不同类型的生物合成反应类型。
目前,针对上述问题,已有多个研究小组开发了不同的生物合成转化数据库。如日本京都大学Kanehisa教授小组的KEGG数据库 ,使用可视化的代谢网络和代谢途径来收集基因组、酶促途径以及生化反应等数据信息,多个酶促反应组成一个代谢途径,众多代谢途径又交织成错综复杂的代谢网络,整个数据库囊括了8000多个生化反应。与前者相比,Reactome数据库 则更侧重于收集人类的有关反应数据,该数据库共收集了1000多个代谢途径,涵盖了3000多个生物转化反应,同时还整合有大量功能基因组的信息。还有MetaCyc数据库 ,该数据收集有数千种物种的1800多种代谢途径,涉及大量的反应信息,但是其中4000多种反应和KEGG是重叠的。基于BRENDA数据库 ,德国Schomburg小组也开发了类似的反应数据库BKM-react,据统计该数据库包含的生化反应多达18 000个。而MetRxn数据库 则是融合BRENDA、KEGG、MetaCyc、Reactome,以及44个代谢网络模型,共提取出了76 000多个反应。除此之外,UM-BBD数据库 也收集有1000多个与生物催化和生物降解相关
Newman D J, Cragg G M. Natural products as sources of new drugs over the 30 years from 1981 to 2010. J Nat Prod, 2012, in press.
Carter G T. Natural products and pharma 2011: strategic changes spur new opportunities. Nat Prod Rep, 2011, 28(11):1783-1789.
Li J W, Vederas J C. Drug discovery and natural products: end of an era or an endless frontier? Science, 2009, 325(5937):161-165.
Dossey A T. Insects and their chemical weaponry: new potential for drug discovery. Nat Prod Rep, 2010, 27(12):1737-1757.
Peric-Concha N, Long P F. Mining the microbial metabolome: a new frontier for natural product lead discovery. Drug Discov Today, 2003, 8(23):1078-1084.
Park J W, Park S R, Nepal K K, et al. Discovery of parallel pathways of kanamycin biosynthesis allows antibiotic manipulation. Nat Chem Biol, 2011,7(11):843-852.
Weber W, Fussenegger M. Emerging biomedical applications of synthetic biology. Nat Rev Genet, 2011,13(1):21-35.
Kanehisa M, Goto S, Sato Y, et al. KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res, 2012, 40:109-114.的生化反应数据。
遗憾的是,在生物合成领域目前还没有发表与Richard Larock的“Comprehensive Organic Transformations”类似的文献 ,尽管前面列举的一些数据库可以被用于逆向生物合成分析,但绝大多数这一类型的数据库只着重于初级代谢或者降解途径,那些潜在有用的次级代谢生物合成转化反应仍然分散在众多的生化文献中。因此,大多数由微生物次级代谢物衍生而来的微生物药物的生物合成转化数据库依旧很匮乏。
目前,微生物药物生物合成相关的元件种类的匮乏和缺乏标准化是生物合成途径设计体系构建的瓶颈问题 。针对这一问题,笔者课题组在已开发的生化反应数据挖掘系统的基础上 ,针对重要微生物药物次级代谢生物合成过程的关键模块进行相关的数据收集、挖掘、分类,收集了微生物药物、合成前体小分子、生物合成反应、途径、网络、催化酶、基因簇等数据;同时,也嵌入了已成功开发的一些目标分子、关键分子片段、合成反应相似性等生物合成要素的搜索技术,集成了生物转化反应的原子-原子映射、反应中心获取、生物合成转化模式自动化挖掘和标准化分类的软件,建立了有特色的微生物药物生物合成的生物转化反应数据库、生物合成转化模式数据库和逆向微生物药物合成途径设计应用平台。
细胞工厂设计系统是一个模块化的体系,从功能上可以分为以下6个模块 :①目标化合物选择;②数据库搜索生物合成信息;③生物合成途径预测;④新酶发现;⑤实验验证;⑥菌株优化等。
首先,在目标化合物选择方面,研究人员可以根据自己的需求而定。生物合成的一个重要应用是合成特定的天然药物分子及其衍生化合物库,由于这些化合物作用于不同的生物靶标,因此构建药物与药物作用的靶标之间的相互关系至关重要。在前期构建和开发的网络药理模型 、小分子描述软件 ,以及药物-靶标相互作用模型 基础上,笔者课题组进一步开发了基于靶标结合位点以及小分子片段之间的Fragment Interaction Model(FIM)模型 ,FIM模型可以通过帮助研究人员了解靶标-药物之间的作用机制,来指导目标化合物的选择。
在选定了某个或者某一类的目标化合物后,接下来就需要搜集与目标化合物相关的生物合成信息。当目标化合物参与了某些初级代谢或者复杂化合物的降解途径时,前面列举的多个研究小组开发的各种类型的生物合成相关数据库均可以给予一定的参考。在前期的生物合成关键要素的精确搜索技术体系RxnFinder基础上,笔者建立的RxnFinder数据库收集、整理了10多万篇生物合成文献。截至目前,该数据库包含有60 000多条生物合成反应、7000多个生物合成途径。同时,根据酶催化反应的标准分类方法EC Number也对收集的海量生物合成转化反应进行了分类,如氧化还原反应、转移反应、水解反应、裂合反应、异构酶反应、连接反应等,以及更多细致的分类(参见KEGG小组反应分类工作)。
在生物合成途径预测方面,如BNICE、RetroPath、FMM、DESHARKY等软件均可以用于辅助研究人员基于不同的数据库进行途径预测。研究人员可以通过高得率、高转化率、高反应速度、低底物毒性等作为途径设计的目标函数来预测可行的生物合成途经。在微生物细胞工厂设计系统中同样也提供了相应的途经预测模块BioSynther,该工具可用以辅助生物学家开展生物合成途径设计工作。
对于新酶发现,一方面,BioSynther在途径预测的同时,也可以挖掘能催化特定底物的酶的前三位酶号信息。另一方面,也可以通过在线预测服务器ECAssigner基于生物合成反应结构催化该反应的类型预测可能的生物合成酶号。
Croft D, O'Kelly G, Wu G, et al. Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res, 2011,39:691-697.
Caspi R, Altman T, Dreher K, et al. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res, 2012,40:742-753.
Scheer M, Grote A, Chang A, et al. BRENDA, the enzyme information system in 2011. Nucleic Acids Res, 2011, 39:670-676.
熊燕, 陈大明, 杨琛, 等. 合成生物学发展现状与前景. 生命科学, 2011, 23(9):826-837.
Lang M, Stelzer M, Schomburg D. BKM-react, an integrated biochemical reaction database. BMC Biochem, 2011, 12:42.
Kumar A, Suthers P F, Maranas C D. MetRxn: a knowledgebase of metabolites and reactions spanning metabolic models and databases. BMC Bioinformatics, 2012, 13(1):6.
Gao J, Ellis L B, Wackett L P. The university of minnesota biocatalysis/biodegradation database: improving public access. Nucleic Acids Res, 2010, 38:488-491.
Bachmann B O. Biosynthesis: is it time to go retro? Nat Chem Biol, 2010, 6(6):390-393.
Kwok R. Five hard truths for synthetic biology. Nature, 2010, 463(7279):288-290.
后期的生物学实验验证部分,细胞工厂设计系统还包含一项大肠杆菌大规模全细胞代谢网络的重构技术,笔者课题组将在后续研究中基于这些数据,构建虚拟的大肠杆菌细胞,并设计全细胞模型的菌株优化算法,对科研人员菌株优化予以计算辅助。
微生物药物合成相关的生物转化反应数据以及基于生物转化反应建立的标准化生物合成转化模式的匮乏一直是微生物药物生物合成途径设计的瓶颈。在生物合成过程中,无论是单一的生物合成反应,还是某一条具体的代谢途径,乃至整个代谢网络,都涉及一系列化学结构的生物转化,包含多种结构转化的反应类型。因此,要进行合成途径的设计,势必要参考已经存在的生化转化反应类型,这也就需要将分散在海量文献中的生化反应收集建库。目前已经开发并投入使用的这一类型数据库有很多,如KEGG、Reactom、Metacyc、BRENDA等数据库均各有其优势应用。但总体上看,对微生物次级代谢中的生化反应挖掘还远远不能满足研究人员的需求。
笔者课题组针对以上问题,致力于发展生物合成的数据集成,在微生物药物特有生物合成转化反应数据库的基础上,集成生化反应搜索、注释、模式化、应用于一体的生化反应信息化系统,自动挖掘反应转化模式,构建标准化、系统化的微生物药物特有生物合成转化模式库,借鉴逆向有机合成途径设计方法,综合应用化学信息学、生物信息学、图论、计算机和信息科学等多种学科的方法和技术,建立微生物药物生物合成途径设计平台。目前也已初步建立了“生物合成数据-信息化软件-生物合成知识规律发现-生物合成途径设计”的技术体系,搭建了较为完整的微生物细胞工厂设计系统(http://www.lifemodules. org/)。
微生物药物生物合成转化反应数据库的构建是微生物药物生物合成途径设计的基础步骤。目前发达国家在该研究方向已经占领先机,投入大量人员资金构建了多种类型的高质量数据库,并获得了相应的认可。由于构建生物合成数据库,不仅需要投入大量的科学研究者从文献中挖掘反应数据,也需要大量的人员进行手工数据输入与审核,希望有关科研管理部门对于这些有较大科研需求和市场价值的数据库进行持续投入以谋求长远可持续的发展。
目前,分散在专利中的生物合成途径数据,很少有人收集整理;缺乏集成广泛化学结构转化以及催化元件的数据库系统;基于这些大量的生物合成数据,缺乏系统性进行生物合成数据挖掘的软件工具;如何利用已有的生物合成知识规律来进行生物合成途径设计急需进行有关的研究;同时,如何在理性设计指导下高效开展生物合成的实验验证也是亟待解决的难点。
Hu Q N, Deng Z, Hu H, et al. RxnFinder: biochemical reaction search engines using molecular structures, molecular fragments and reaction similarity. Bioinformatics, 2011, 27(17): 2465-2467.
Shin J H, Kim H U, Kim D I, et al. Production of bulk chemicals via novel metabolic pathways in microorganisms. Biotechnology Advances, 2013, 31:925-935.
Hu Q N, Deng Z, Tu W, et al. VNP: interactive visual network pharmacology of diseases, targets, and drugs. CPT Pharmacometrics Syst Pharmacol, 2014, 3:e105.
Cao D S, Xu Q S, Hu Q N, et al. ChemoPy: freely available python package for computational biology and chemoinformatics. Bioinformatics, 2013, 29(8):1092-1094.
Cao D S, Liang Y Z, Deng Z, et al. Genomescale screening of drug-target associations relevant to Ki using a chemogenomics approach. PLoS One, 2013, 8(4):e57680.
Wang C, Liu J, Luo F, et al. Predicting targetligand interactions using protein ligand-binding site and ligand substructures. BMC Syst Biol, 2015, 9(1):1417.
Tu W, Zhang H, Liu J, et al.Biosynther. a customized biosynthesis.
Hu Q N, Zhu H, Li X, et al. Assignment of EC numbers to enzymatic reactions with reaction difference fingerprints. PLoS One, 2012, 7(12):e52901.
■ 反馈服务编码 W3619
10.3969/j.issn.1674-0319.2015.06.008
微生物次级代谢途径是微生物药物生物合成的内在基础,微生物药物生物合成涉及一系列的生物转化反应、途径和网络。目前,大多数潜在有用的次级代谢生物转化反应还分散在海量的文献中,因此,生物转化反应的数据集成以及基于生物转化反应建立的生物合成转化模式的数据库匮乏已成为生物合成途径体系构建的瓶颈。文章阐述了微生物利用次级代谢反应进行生物合成过程的一些关键模块在相关研究领域取得的进展。