AI预测蛋白质结构，哈萨比斯认为这一切只是开始

2021-02-23 13:28

世界科学 2021年2期

借助人工智能，或许能揭开有关生命运作方式的部分奥秘。” 戴密斯·哈萨比斯（Demis Hassabis）是人工智能公司DeepMind的联合创始人。他领衔的团队近期解决了生物学的一大艰深问题。

比赛前的媒体造势阶段，李世石很是自信。他即将和一位特殊的选手对弈——人工智能围棋程序AlphaGo。不过，身为人类顶尖棋手之一的李世石认为自己会轻松获胜。“我觉得，AlphaGo的基本机制是概率计算，只不过是一台机器而已。”李世石当时这么说。即便是在输掉第一场比赛之后，他也认为这只是因为AlphaGo不会犯错。接着，在第二场对局之中，这个人工智能程序下出了如今已是声名在外的第37手。AlphaGo就像改写了围棋规则一样，下出了根本不会有人类想到的一手棋。最终以1：4的总比分输掉比赛的李世石惊呆了：“这手棋实在是太有想象力、太巧妙了。”

李世石和AlphaGo的这个五番棋比赛是人工智能发展历程中的重要时刻，而德米斯·哈萨比斯正是推动人工智能发展的主要人物之一。2010年，他与合作者共同创建了DeepMind公司，并且开始研发比人类围棋水平更高的人工智能。那个时候，人们普遍认为，人工智能很难精通围棋，毕竟这项棋类运动中可能出现的变化要比宇宙中的原子总数还多。然而，AlphaGo在2016年战胜了李世石，这也让DeepMind——以及哈萨比斯——迅速成为全世界的焦点。1997年，IBM公司的“深蓝”击败了国际象棋世界冠军加里·卡斯帕罗夫（Garry Kasparov）。AlphaGo在2016年的这场胜利是继深蓝之后，人工智能的又一大重要时刻。

2016年之后，DeepMind——现在，哈萨比斯的这家公司已经隶属于谷歌的母公司Alphabet了——一直在完善算法，并且把目光投向了棋类项目以外。2020年11月，DeepMind开发的新人工智能程序AlphaFold破解了预测蛋白质结构这一极为艰深的生物学问题。哈萨比斯认为，这还只是人工智能在科学领域发挥作用的开端。就此，《新科学家》（New Scientist）杂志编辑蒂莫西·雷维尔（Timothy Revell）采访了哈萨比斯。

目前的目标是什么？

我们的愿景是解决人工智能问题。具体来说，就是从根本上认识智能，并且通过人工手段再现智能，然后再利用人工智能帮助我们认识世界，从而产生积极影响。加快科学发现的脚步就是我们希望看到的积极影响之一。

具体哪些类型的智能应该编码在人工智能程序中，你们是怎么确定的？

神经科学给了我们很多启示。我本人既有神经科学背景，又有计算科学背景：我本科阶段学习计算机科学，博士阶段则从事神经科学研究。人类大脑的能力及运作方式给了我们灵感，也让我们确定了将神经科学同计算机科学联系在一起的目标。

你们现在所做的项目中，最令人激动的是哪些？

DeepMind目前研究的项目有很多。首先，我们要认证那些令我们感兴趣同时具有学科交叉属性的科学问题。要想有所建树，明确的目标和一定量的训练数据都是必需的。另一个我们重点考虑的因素是影响力：如果我们解决了这个问题，是否就能开启某个全新的科学分支？蛋白质折叠问题就符合我刚才所说的全部要求。除此之外，我们还关注量子化学、数学、物理学和材料科学等领域的前沿问题。

在蛋白质方面已经取得了重大成就。当初，为什么你们会选择这个项目？

在我看来，蛋白质是一种非常精致的结构。它们就像一台台微型生化机器，在我们身体的各个部位转运养分。它们是开关、是马达、是一座座小工厂。从数学角度和计算机科学的角度来看，那种层面上的生物学开始变得有点数字化，并且几乎就像计算机编码一样，确实很有意思。

目前，我们只知道大约10万种蛋白质的结构，可是，自然界中总共有大约2亿种蛋白质，这个比例实在是很小了。

如果能解决蛋白质折叠的问题，就很可能能够加速药物的研发过程。借助人工智能，我们或许能以比传统实验（这种方法速度慢、难度大，还牵扯很多人力、物力）快得多的速度揭开部分有关生命运作方式的奥秘，从而更深入地认识疾病。我认为，未来10～20年中，科学领域的一项重大转变会是：通过这种计算机科学的方式认识越来越多的生物学内容。

蛋白质结构非常复杂，通常需要数年的实验才能确定

人工智能可以帮助我们取得哪些传统方法无法企及的生物学成就？

20世纪初，人类已经取得了许多相对容易的科学成就——虽说是相对容易一些，但也需要像爱因斯坦这样的天才才能完成。如今，我们面对的是更为复杂的系统，它们本身并不是某几条简单的定律就能描述的。就目前的情况来说，人们普遍认为，生物学实在太过复杂，太缺少规律性，因而无法应用传统物理学方法加以研究。不过，计算机科学和人工智能或许可以帮助我们跨过这道鸿沟。在我看来，这正是人工智能的最佳应用领域。

你可以把它看作一位随时能为你服务的世界最佳科研助手。人工智能能够找到合适的模式，它们可以从各种各样的论文中找出看似不相干的信息，并发现其中的联系。至于目标以及目标重要性的确定，则仍是人类科学家的责任。博士生现在做的很多工作都比较枯燥且缺乏创造性，如果能引入人工智能这样的自动化系统，省掉一些这样的苦差事，就能解放学生，让他们有精力思考更有创新性的解决方案。

有一种批评观点认为，像AlphaFold这样的系统，它们可以很擅长某项任务，但做不了其他任何事情。我们是否需要从根本上重新审视人工智能，让它们从设计上就变得更通用一些？

不，我认为不需要。不过，这个批评还是有道理的。我们之前开发过一款叫作AlphaZero的程序，它会所有一对一的棋类项目，并且可以在不做任何修改的前提下与对手对弈，但它有个缺点，就是每从事一项新项目都得从头学习，没有触类旁通的能力。AlphaZero学到的东西没法迁移。有些人会说，这也没什么，你们有通用的算法就行了。还有些人则不会满足于这点。

我个人认为，如果某个人工智能程序主要学习的是国际象棋，那么它对围棋的认识至少也不能是零，肯定要有一些能够迁移的东西。人类在这方面就做得特别好，毕竟我们显然负担不起每执行一个新任务就从头学起的代价。这就叫迁移学习，并且也是人工智能目前没有攻破的难关。迁移学习是一个非常活跃的研究领域，我个人目前也在做这方面的研究。当然，我们或许还需要更多的模块，比如情境记忆和注意力机制。

这些新增模块会在哪些方面起作用呢？

人类大脑似乎至少拥有两个计算模块。其一是大脑皮层，这个模块学习速度比较慢，而且需要大量案例学习，但胜在稳定。另一个模块就是海马体，这也是我博士生阶段研究的课题。海马体是人类大脑的关键部件，并且拥有极快的学习能力。你是怎么记住昨天午餐吃了什么的？全靠海马体。

于是，你或许会有这种疑问，为什么人类大脑没有进化出一个超大的海马体？学习速度肯定是越快越好嘛。实际上，老鼠的大脑基本上就是一个巨大的海马体，并且，从体型大小来评判，这种动物算得上很聪明了。然而，问题在于——当然，这只是我个人的猜测——如果你只是学习速度快，那么学到新东西之后，未必能稳定把这些知识保留下来。你在学骑自行车的时候，可能要把弹钢琴的专长给忘掉。因为你学得实在是太快了，没法控制具体哪些知识会被覆盖。

如果你现在正努力在已有知识结构的顶层构筑新知识体系，那么肯定不希望大脑那么不稳定。不过，另一方面，你肯定不想黄昏时分在水坑里遇到狮子两次以上才发现这种情况真的很危险。因此，大脑皮层和海马体这两种系统你都需要，而且很可能还需要这两个系统之间的某种迁移学习功能。这正是我们睡觉时大脑做的无数工作之一。

这是不是说，人工智能也需要某种形式的睡眠？

可能是这样。我们也确实在做这方面的研究。在公司成立初期，我们曾训练人工智能玩雅达利生产的那种电子游戏，记忆回放是人工智能能做到这点的一大关键原因。它不仅仅是在玩游戏，更是在把刚才完成的关键动作回放给自己看。不过，很明显，你不能把这个叫作睡眠，实际上，它也不是真正的睡眠。对人工智能来说，这是一种离线模式。

假设有一个人工智能发展进度条，进度条的一端是扫地机器人，另一端是拥有人类智能的人工智能。那么，我们目前处在进度条的哪里？

大概是中间点附近的某个地方吧。不过，对于这个问题，有很多种见解。有些人认为，我们这些研究深度学习和强化学习的人走错了路，所以未来肯定会碰壁；还有一些支持我们的人就会说，瞧，我们现在什么都有了，接下去不过是一些继续升级换代、扩大技术规模的问题：运用更多的计算机，处理更多的数据，然后，终于有一天，我们就得到了拥有人类这个级别智能的通用人工智能。

我觉得，这两派意见都有失偏颇。在我看来，我们目前已经开发出的人工智能，肯定是没走错路，并且还超级有用。不过，我不觉得我们已经拥有了一切。要想达到那个终极目标，还需要依赖其他的技术飞跃。

DeepMind公司有做过新冠病毒方面的研究吗？

现在就指望人工智能可以为这样的突发疫情带来许多实质性的帮助，未免有些太早了。我希望未来再也不会出现新冠病毒这样的疫情了，但如果不幸出现了，我希望人工智能到时能够在应对疫情方面发挥更大的作用。

中国的研究人员很早就测绘了新冠病毒中蛋白质的基因序列。就当时的情况来说，我们也已经通过实验知晓了其中某些蛋白质的结构，但仍然还有大概十几种相关蛋白质的结构没有掌握。当时，我们已经认为AlphaFold系统足够精确，但由于它没有经过实践检验，我们也就没有大肆宣扬AlphaFold找到的那些蛋白质结构。不过，我们同时也认为，这个人工智能程序绝对可以为科学界带来帮助，所以立刻发表了AlphaFold研究的那些蛋白质的最佳模型。

说起人类生存威胁这个话题，我想问问，人工智能可以为气候变化做点什么吗？

我们为谷歌所做的最出名工作之一，就是控制数据中心的冷却系统。每个人都会用到这些数据中心，比如你看YouTube视频的时候。我们通过更高效地开关风扇、水泵以及数据中心内其他一切神奇设备，使得数据中心的能耗下降了30%。这对节约成本来说，显然是一项巨大的进步，同时也实现了环境保护。

我们应该可以把同类型的优化升级措施应用到其他机构，甚至是电网上，那肯定会节约大量能源。未来，人工智能还会在材料设计、蛋白质设计这样的领域大显身手，帮助我们得到可以分解废物塑料或是生产可再生生物燃料的蛋白质。

未来10年，人工智能能产生最大影响的领域是哪个？

我希望能在重大科学问题上看到数十项突破，以及由此产生的各种产品、服务与进步。如果我们没能在10年内完成这个目标，那我应该会非常惊讶。我们希望在各种科学分支中扮演重要角色，比如可再生能源（尤其是核聚变技术）、量子化学、材料设计以及疾病疗法。

DeepMind有这么多项目同时进行，你每天都是怎么安排的？

我的工作安排比较奇怪，因为我的工作和生活其实是相互交织在一起的。我每天有两个工作时段。白天，我处理公司管理方面的事务，当然也少不了开会。到了晚上，我又开始工作。我是个夜猫子，晚上特别清醒，大概22点左右又会坐下来干活，一直干到天亮前的几小时。这段时间，我主要用来撰写自己的研究论文，阅读并考察各个领域的最新思想、方法，并深入研究。晚上工作很安静，没人打扰，因此，我很喜欢在这段时间工作，一周七天，每晚如此。

听起来，你睡觉时间并不多啊。要知道，无论对人，还是对人工智能来说，睡眠都很重要。

没错，我也知道，睡得少确实不是一件好事。我不知道自己还能维持这种工作方式几年，所以，我尽量保证每天睡至少6小时，但有时就是做不到。周末的时候，我会睡睡懒觉，补一点睡眠。当然，规律作息肯定更好。

资料来源 New Scientist