郑明月,蒋华良,2
(1. 中国科学院上海药物研究所,上海 201210;2. 上海科技大学免疫化学研究所,上海 201210)
新药研发是一项投资大、周期长、风险高的高技术产业。一个药物从最初的发现到上市,再到进入临床为患者带来生存获益,都要经历大量、严格的数据验证,通常需要花费10 ~ 20年时间,投入金额高达5亿 ~ 26亿美元。新药研发一般包括5个阶段:制定研究计划和制备新化合物阶段、药物临床前研究阶段、药物临床研究阶段、药品的申报与审批阶段和新药监测阶段。
近年来,随着基因组学、蛋白质组学和生物信息学等现代分子生物学科的迅速发展,高通量与高内涵筛选、大数据、人工智能(artificial intelligence,AI)等高新技术的涌现,以及产业政策、资本市场的强力支持,新药研发呈现出前所未有的繁荣局面,医药创新迎来“黄金时代”。然而,与快速发展并行而来的,是日趋残酷而激烈的竞争局面。当今社会,肿瘤、糖尿病、脂肪肝等慢性复杂性疾病流行,针对这些疾病的新药研发难度越来越高,制药企业需要投入更多的资金、人力、物力才能产出和以前相当的“first-in-class”药物,新药研发面临着成本高和收益率下降的“双重困境”。很显然,如何提高药物研发效率和降低研发成本是目前制药企业新药研发面临的主要挑战。
新药研发的漫漫长路历来都是“九死一生”,任何环节的失败都可能导致前期投入付诸东流。从18世纪至今,新药研发大致经历了从自然界发现(18—19世纪)、实验室合成(20世纪前20年)、随机筛选(20世纪30—50年代)、基于结构的理性分子设计(20世纪60—80年代),到基于靶点的新药发现(20世纪80年代至今)这几个时代。可以看到,新药研发的发展史也是新药研发技术的变革史,新技术的出现给新药研发注入了新活力,不断冲破新药研发效率的“天花板”。当前,国际新药研发竞争主要集中在药物靶点的研究上,以至于有了“一个靶点成就一个产业”的说法。
随着大数据时代的来临,AI技术在新药研发中应用越来越广泛,其中靶点发现和化合物筛选便是AI提效的两大重要应用场景。制药巨头药明康德、先声药业,科技巨头谷歌、腾讯、百度、华为等纷纷布局AI+新药研发赛道,加速了国内新药研发。新药研发涉及从前期的药物发现、临床前研究到临床研究各个阶段的数据,这些数据的总量是庞大的,形式也是多种多样的,例如图片、电子刊物、纸质刊物等等。医药大数据的研究从来不是一件容易的事情,如何在海量研发原始数据中快速获取真正有参考价值的“有效数据”,是新药研发过程中的一大挑战。
得益于化合物特性数据规模的不断扩大和各类化合物筛选项目的顺利推进,深度学习在机器学习算法的基础上快速崛起,并在新药研发领域得到了广泛应用。例如,2019年Nature Biotechnology报道了利用变分自编码器与强化学习组合的深度学习神经网络对受体酪氨酸激酶DDR1新型抑制剂的快速开发。从数据收集、化合物合成到模型验证,整个新药研发过程仅仅用了46天,深刻展现了深度生成模型在药物结构设计过程中带来的“加速度”。然而不可忽略的是,DDR1激酶本身是一个已经得到详尽研究的药物靶点,在开发新的抑制剂方面有丰富的前体信息。对于缺乏充分研究的分子靶点,深度学习模型能否达到同样显著的效果有待进一步考察。分子图像翻译技术也是大数据与AI应用于药物研发领域的一个重要板块。“分子翻译”的本质是化学结构式图像识别(OCSR),关键步骤是图片矢量化后将线条和节点解释为键和原子,其中涉及图像分割、图像细化等技术。由于真实世界中的化学结构图像不仅大小、格式各异,还可能存在各种噪声,例如扫描文档普遍存在的失真问题。如何处理诸如模糊、部分缺失、扭曲变形等问题是OCSR技术的难点。笔者所在的中科院上海药物所研究团队开发的分子翻译算法能够从带有噪声的图像中精准地提取化合物结构信息,用于新药研发工作者对化学、药学文献以及专利数据的自动挖掘和分析。这对于当代生物医药和化学大数据的构建以及后续AI算法的开发具有积极意义。
大数据与AI在新药研发的各个环节都有非常大的应用潜力,从新药研发的不同环节来看有以下几点。1)在靶点的筛选与发现方面,AI通过深度学习技术快速发现隐藏的药物与疾病、疾病与基因之间的连接关系,可以缩短靶点发现周期。2)在化合物合成方面,AI通过模拟小分子化合物的药物特性,在更短的时间内挑选出最佳模拟化合物进行合成试验,大幅提高化学合成路线设计速度,以降低操作成本。3)临床试验阶段是目前AI应用的“卡脖子”环节,其背后原因主要是生物学复杂性带来的数据和AI建模两方面的挑战:数据方面,临床数据目前难以实现标准化、数字化,涉及患者隐私问题也限制了临床数据的灵活运用;AI建模方面,化合物与人体靶点反应过程非常复杂,数据稳定性和可重复性差,从而影响了AI建模。当前虽然有一些更具临床相关性的模型,但可用AI进行挖掘的数据依然相对较少。4)在真实世界研究方面,我国尚未形成真正意义上的大数据中心,依然面临患者在用药各阶段数据收集不全、样本收集困难等问题,而AI技术是新药研发发展的一大突破口,将为整合、挖掘有价值的研究数据提供便利。
总体来看,大数据与AI技术在新药研发领域的前景是光明的,不过受限于生物学的复杂性和临床数据库的缺乏,这些技术的应用主要集中在药物发现阶段。谷歌和斯坦福大学学者共同发表的一项研究提到,深度学习技术在新药研发领域大有可为,而且与生物反应有关的数据量越大,发现新药的可能性就越大。未来,只有对有价值的临床数据进行不断挖掘、积累、完善,进一步开发AI模型,大数据和AI技术才能更多地在临床研究和真实世界研究中发挥价值,对新药研发提速起到更有力的推动作用。
本期“大数据与人工智能赋能新药研发”专题,邀请产业界与学术界多位专家,从不同层面和角度,系统阐述了大数据与AI在新药研发中的应用现状与未来发展趋势。
由深圳晶泰科技有限公司马健博士与生物岛实验室陈红明博士携团队撰写的《人工智能算法在全新药物结构设计中的应用进展》,系统介绍了AI算法中的分子深层算法在新药研发领域中的研究进展,重点总结了不同的分子表征形式及神经网络架构的技术细节及优缺点等。文章还指出,分子深层算法拥有从大量数据中学习的能力,以及超越化学直觉的从头药物设计的潜力,然而要想使其发挥充分作用,还有很多工作要做:首先,从头生成算法的综合可及性是此类工作的基本挑战之一;其次,辅助分子生成的逆合成分析、活性预测、药物的吸收、分布、代谢、排泄和毒性(ADMET)性质预测等的AI方法也需要来自实验数据的精确反馈。
吉林大学基础医学院朱迅教授与火石创造创始人兼CEO杨红飞先生携团队撰写了2篇综述,其中《人工智能在新药发现中的应用进展》聚焦新药发现,详细阐述了AI在药物发现(包括药物靶点识别、化合物高通量筛选、预测药物分子动力学指标、蛋白结构及蛋白配体相互作用预测这4个环节)中的应用及优势。此外特别指出未来需要更多的高质量化合物数据进行AI研究,包括化合物的体外活性/毒性指数,正确剂量/药代动力学数据等,以最大化其应用价值。《人工智能在新药研发中的应用现状与挑战》重点总结了AI在新药研发领域的应用场景和企业实践,并探究我国AI赋能新药研发面临的主要挑战,包括数据获取的挑战、高质量数据制约以及政策法规制定的滞后等,这也是未来AI技术更有效应用于新药研发需要突破的地方。
由中国药科大学理学院廖俊教授携团队撰写的《真实世界研究在医药领域的应用及研究方法》一文,指出真实世界研究与随机对照试验并行发展、互为补充,大大提高了患者的生命质量和健康水平。然而,真实世界数据量级大,格式类型复杂,偏倚和混杂控制难,这需要强大的技术支持协助完成数据清洗和分析过程。
总体来看,以上4篇综述全面阐述了大数据与AI在新药研发领域的应用现状与未来展望。虽然角度与关注点各异,但殊途同归,在肯定大数据与AI用于新药研发是大势所趋、临床所需的同时,也为这些新兴技术在新药研发中更好地发挥其价值提供了具体而有前瞻性的建议,对于从事大数据、AI在医药领域落地工作的相关科研技术人员的工作开展具有重要参考和借鉴意义。
生物医药产业正进入创新跨越新阶段,大数据和AI技术已逐渐渗透到新药研发的各个环节,在提升新药研发效率、改善患者获益方面贡献了不可忽视的力量,成为我国医药加速创新转型的重要驱动力,推动我国临床医学及其研究步入“大数据时代”。其中,数据、算法和算力是AI技术发展的基础要素,而AI又高度依赖于高质量有标识的大数据。近年来,AI在算法和算力方面突飞猛进,发展前景良好,但也面临着一些挑战,其中数据是限制AI技术进一步发展的“卡脖子”环节。
未来,如何有效提取和整合可用于AI建模的高质量数据是亟待解决的问题。当前药物研发数据依然依赖于拥有庞大数据库的各大医药公司,如果能够加大企业间数据库的分享力度,有助于实现合作共赢,然而药物研发数据的高壁垒、高成本、高机密性影响了制药企业对数据贡献的积极性。此外,基于AI学科的天然优势,进行多学科交叉与融合,也有助于新药研发取得更大的创新和突破。
总体来看,技术迭代升级、数据资源共享、学科交叉融合是未来新药研发领域发展的重要方向。道阻且长,行则将至,AI+新药研发未来可期。