人工智能预测蛋白质结构

2021-09-30 05:44编译刘迪一
世界科学 2021年9期
关键词:形状蛋白质数据库

编译 刘迪一

过去几年,英国朴次茅斯大学酶创新中心主任、生物学家约翰•麦吉汉(John McGeehan)一直在寻找一种能够分解散落于全球各地的总计1.5亿吨汽水瓶以及其他塑料垃圾的分子。通过与大西洋两岸的研究人员合作,麦吉汉找到了一些不错的对象,但他需要搞定难度极大的任务:确定那些能扭曲折叠自身形状、完美进入塑料分子间,然后将它们分开的化合物。

目前,精准分析某种酶的化学成分是相当简单的,但判断其三维形状可能需要长达数年的实验分析。因此,当麦吉汉博士于2020年秋天了解到伦敦一家名为DeepMind的AI实验室已经创建了一个可以自动预测酶及其他蛋白质形状的系统后,他询问该实验室能否给他的项目提供帮助。

麦吉汉在临近周末时向DeepMind发送了一份包含7种酶的清单。短短几天后,实验室就返回了全部蛋白质的结构。用麦吉汉博士的话说:“这让我们的工作进度提前了一两年。”(麦吉汉后来得知AlphaFold实际上只用了几个小时便完成了任务。)

眼下,许多生物化学家都在以和麦吉汉差不多的方式加快自己工作。科罗拉多大学生物化学系教授马塞洛•苏萨(Marcelo C. Sousa)此前曾在自己的工作中使用过AlphaFold的数据,在他看来,新数据库绝对会让使用者体会到立竿见影的科研助力。“我们自己有一套关于某种蛋白质的数据集,而且这个蛋白质已经被我们研究了10年,但已有的内容达不到开发合适模型的程度。DeepMind同意为我们预测这个蛋白质的结构,然后用15分钟的时间解决了我们花费10年还没搞定的问题。”

2021年7月,DeepMind发布了超过35万种蛋白质的预测结构——它们是驱动细菌、病毒以及包括人类在内所有生物行为的微观机制。DeepMind新推出的这个超大数据库包括了人类基因组表达的全部蛋白质的三维结构,以及出现在20种其他生物体(包括小鼠、果蝇和大肠杆菌)内的蛋白质的三维结构。

这张庞大而细致的生物图谱提供了大约25万个以往我们不知道的蛋白质结构,有望帮助我们更好地解析疾病、开发新药以及重新利用现有药物;它还可能催生新型生物工具,例如某种能有效分解塑料瓶并将其转化为易于回收和重复使用材料的酶。

纽约大学细胞生物学系助理教授吉拉•巴巴(Gira Bhabha)表示:“这让你的工作更超前,影响你思考问题的方式,助你更快解决问题。无论你研究神经科学还是免疫学,无论你身处生物学中的哪个领域,它都会很有用。”

科学家如果能判断蛋白质的形状,也就可以确定其他分子如何与其结合。例如,细菌抵御抗生素的机制或许会就此得以揭示,因为细菌是通过表达特定蛋白质来抵抗抗生素的。倘若科学家能搞清楚这些蛋白质的形状,他们就可以开发出新的抗生素或抵抗细菌耐药性的药物。

过去,确定蛋白质的形状需要数月、数年甚至数十年的反复试验,对X射线、显微镜和实验室工作台上的多种工具的大量调用,但眼下DeepMind借助其AlphaFold显著缩短了时间周期。

当麦吉汉博士向DeepMind发送他的酶清单时,他告诉实验室自己已经确定了其中两种酶的形状,但并未告知是哪两种,其目的就在于测试该系统的预测准确性,而最终的结果表明AlphaFold的确实力过硬,预测无误。

AlphaFold使用所谓的神经网络来预测蛋白质结构。神经网络是一个数学系统,能通过分析大量数据(例如数千种已知蛋白质的物理形状)来开展预测,进而完成特定任务。这和AI语音识别、人脸识别、谷歌翻译之类在技术本质上并无不同。不过许多专家相信AlphaFold无疑是技术的集大成者和最强应用之一。

DeepMind的科学家里奇•埃文斯(Rich Evans)在其公司位于伦敦的办事处工作

现阶段AlphaFold预测蛋白质形状的精确度在63%左右,可与实验的准确性相媲美。大多数专家认为,此技术还需要数年时间发展方可臻于化境。剑桥大学教授兰迪•里德(Randy Read)说道:“我认为还需要10年,它会有一个彻底的改变。”

不过系统的准确性并非一个固定值,相比实打实的实验分析,来自DeepMind数据库的预测往往存在准确度的差异,因此数据库的每个预测都自带一个“置信度分数”,用数字表明它的可信赖程度。DeepMind 研究人员估计,AlphaFold在约95%的情况下可提供一个“好”预测。

鉴于此,AlphaFold不能完全替代物理实验,而是应该与实验工作相互支撑,帮助科学家确定他们应该运行哪些实验,并在实验不成功时填补空白。

一些科学家将DeepMind的新数据库与人类基因组计划进行了比较。人类基因组计划于2003年完成了全部测序工作,为我们提供了关于人类基因的完整图谱。而现在,DeepMind贡献了人类基因组表达的大约2万种蛋白质的结构,这将帮助我们更好地理解人体运作的机制以及应对它所出现的种种复杂问题。

除了应用,技术本身也将继续发展。华盛顿大学的研究团队不久前发表论文,介绍了他们创建的一个名为RoseTTAFold的系统。这一新系统各方面都不逊色于AlphaFold2,甚至速度更快,对计算机处理能力的需求也更低;此外,它也公开共享驱动系统的计算机代码——任何人都能使用此技术,或通过代码改进它。

英国雷丁大学教授利亚姆•麦高芬(Liam McGuffin)也曾开发过一些蛋白质折叠软件,他对AlphaFold的“能力”高度赞赏,但也指出其成功依赖数十年来的研究成果和公开数据:“DeepMind拥有大量资源,能让数据库始终保持最新状态。他们比任何一个学术团体都更有能力做到这一点。我认为学术界的研究人员最终也会赶上DeepMind,但这个过程急不得,因为我们缺少足够资源。”

实际上,在DeepMind这次公开分享其技术和数据之前,AlphaFold 就已广泛为各种项目提供了支持。科罗拉多大学的研究人员正使用该技术了解大肠杆菌和沙门氏菌等细菌对抗生素产生耐药性的机制,并寻找解决耐药性问题的方法。加州大学旧金山分校的研究人员借AlphaFold之力深入探索新冠病毒的奥秘。在AlphaFold的帮助下,科学家已经对其中一种关键蛋白质有了全面理解。

为什么蛋白质折叠问题这么难?

蛋白质是又长又复杂的分子,在人体内负责从构建组织到对抗疾病的诸多任务。蛋白质像折纸一般折叠成复杂且不规则的形状,而不同的结构决定了它们多样的功能,因此了解蛋白质如何折叠有助于揭示其功能,这反过来又可助力科学家完成一系列任务:从针对人体运转机制的基础研究到设计新型药物和治疗方法。

蛋白质尺寸太小,无法用显微镜观察,因此科学家不得不使用复杂且成本高昂的方法(例如核磁共振和X射线晶体学)间接确定其结构。从理论上说,通过分析氨基酸组成情况来推测蛋白质的空间构型是可能的。

氨基酸脱水缩合形成多肽,肽链经过盘曲折叠形成具有空间结构的蛋白质。人体中有20 种不同的氨基酸。由于任一蛋白质都可以由数百个单独的氨基酸组成,每个氨基酸又能向不同方向折叠扭曲,因此分子可能呈现的空间构型的数目极为庞大,达到10300。这使得通过分析氨基酸组成情况来推测蛋白质的空间构型停留于理论。那么,借助计算方法——尤其是结合人工智能——分析预测蛋白质结构逐渐成为更好的选择。人工智能系统能以已知蛋白质结构的数据集作为材料进行训练,然后基于这些信息来创建自己的预测。

蛋白质折叠难题得到了解决

目前公共领域有大约18万种蛋白质结构可供使用,每一种都由实验分析获得。DeepMind发布的蛋白质结构预测共计约35万种。需要指出的是,DeepMind的新数据与已有的蛋白质结构之间存在一定重叠,但由于模型的特殊性质,具体重叠了多少难以量化。需要强调的是,AlphaFold贡献的35万个结构囊括了98%的人类蛋白质。该蛋白质结构数据库并非第一个公开的人类蛋白质数据集,但却是最全面和准确的。

多年来,不少团队都在蛋白质结构预测的赛道上持续发力,而DeepMind雄厚丰富的AI人才库和计算资源助其在激烈竞争中拔得头筹。

AlphaFold软件显著提高了计算蛋白质折叠的准确性,正如它在CASP(对蛋白质结构预测进行评估,被誉为蛋白质结构预测的奥林匹克竞赛,每两年举办一次)每届竞赛中的表现所证明的那样

2020年,AlphaFold参加了CASP14比赛,并以超神的预测准确度让全场惊艳。CASP的联合创始人之一、计算生物学家约翰•莫尔特(John Moult)表示:“从某种意义上说,‘蛋白质折叠’问题得到了解决。”

CASP14比赛之后,DeepMind又对AlphaFold的程序进行了更新迭代,让它的运作速度提升15倍之多。DeepMind的首席执行官兼联合创始人德米斯•哈萨比斯(Demis Hassabis)说道:“我们平均几分钟就能折叠出一个蛋白质,而在更多情况下,甚至几秒钟的时间也就够了。”

在发布了第一批数据后,DeepMind计划继续扩充蛋白质库,EMBL则负责维护此数据库的工作。EMBL总干事伊迪丝•赫德(Edith Heard)表示,DeepMind希望到2021年年底发布1亿个蛋白质结构预测,“改变我们对生命运作方式的理解”,而且这些数据也将是对所有人免费。

资料来源 The New York Times

猜你喜欢
形状蛋白质数据库
蛋白质自由
人工智能与蛋白质结构
你的形状
数据库
火眼金睛
数据库
数据库
数据库
心的形状