编译 凌寒
马蒂·海德(Marti Head)博士有一种不好的预感。那是2020年2月中旬。她刚刚结束工作旅行回到田纳西州的家中。她自以为在某个地方被传染了感冒,可能是在机场。
她身体上确实感觉很糟糕。但这种被她形容为“心里一麻”的不好感觉来自外界传来的消息。传染病方面的工作经历给海德提供了她所需要的关于新型冠状病毒能做什么的全部信息。
所以,当她开始流鼻涕、喉咙发痒时,海德把自己和丈夫隔离。她并没有躺在床上看垃圾电视节目来等待康复,而是蜷缩在家庭办公室一角的隔离区域里——手里拿着纸巾和茶——开始追踪。
海德是一名药物神探。作为一名训练有素的计算机化学家,海德使用复杂的计算机模拟来寻找一些分子,这些分子能够破坏想要感染人类细胞的病毒的齿轮。海德在一家大型制药公司工作了几十年,寻找能够对抗病毒感染引发的疾病(比如艾滋病)的药物。但2020年2月,她已在田纳西州的橡树岭国家实验室任职。转到公共部门就意味着海德有义务在危机时刻找到一些可能对公众有益的东西,这也就意味着她有权限使用世界上最强大的超级计算机之一。
马蒂·海德在Summit上的研究可能会发现治疗感染者的药物
当抗击COVID-19的战争正在全国各地的重症监护室和急诊室进行时,另一道防线正在田纳西州集结。美国最聪明的计算机科学家正在将运算速度为每秒200千兆次的超级计算机Summit打造成抗击新冠病毒的机器。唯一的问题是:即便疫情席卷全球,他们也必须保持机器运转,这就需要现场技术人员的持续监控。
2020年1月,当布朗森·梅瑟尔(Bronson Messer)博士决定回到橡树岭国家实验室重操旧业时,他对自己说,总得有人来做这件事。梅瑟尔是计算机天体物理学家,他喜欢把时间花在思考诸如“宇宙中的铀都是从何而来?”之类的问题上。从2010年到2011年,梅瑟尔曾在橡树岭领先计算中心担任科学总监一职,在这期间,他把自己的研究放在一边。这项工作在很大程度上需要以牺牲自己的工作为代价,来帮助其他研究人员在Summit上实现他们的数据目标。梅瑟尔说,他想念科研生活,所以选择离开。但在2019年底,该职位再次开放。梅瑟尔知道怎么操作,并说服自己重返该岗位。然而,他不知道的是,这个角色在两个月后将会变得多么混乱和高风险。
2020年3月22日,特朗普总统宣布成立COVID-19高性能计算联盟,旨在将研究新冠肺炎相关解决方案的研究人员与包括Summit在内的16台国家级超级计算机进行匹配。几天之内,梅瑟尔的办公桌上就堆起了一堆项目,比如弄清COVID如何攻击机体,以及寻找可能拯救生命的药物。这些研究人员都需要占用Summit的时间。梅瑟尔则需要负责确保最聪明的头脑和最有价值的项目能登上文件堆的顶端。到4月份时,他每周都要花三到四天的工作时间来给申请使用机器的研究人员分配使用时间。
布朗森·梅瑟尔和他的团队为通过Summit运行的每一个查询编写代码
当提案涌入梅瑟尔的收件箱时,保罗·阿布斯顿(Paul Abston)正在试图解决这一问题,那就是,如果疫情发展到像预期的那样严重,他将如何保持Summit继续运行。阿布斯顿是橡树岭领先计算中心的基础设施和运营小组负责人。他的职责就是保证灯火通明和电脑正常工作。随着高性能计算联盟的成立,Summit被指定为关键性基础设施——其重要程度等同于美国的电网和输水管道——实际上它被要求保持在线。现在,每一位从事Summit相关工作的员工都是必不可少的。如果中心出现停电、漏水或新冠疫情暴发,阿布斯顿必须想办法保证它继续嗡嗡作响。
说它嗡嗡作响并不是夸张的说法。超级计算机更像高倍望远镜而不是笔记本电脑。Summit是由9 468个CPU和27 756个GPU组成的集合。他们被储存在冰箱大小的机柜里,就像新兵训练营的新兵一样排成一排,随时准备接受命令。每个机柜内有18个节点,每个节点包含2个CPU和6个GPU。约300千米长的高速电缆将所有的CPU和GPU连接起来。管道在天花板上穿进穿出,输送水来冷却机柜,这一过程每小时消耗高达13兆瓦的电力——足够为1万多户家庭供电。步入放置Summit的建筑是一种听觉体验,就像站在海边一样。
计算可以通过Summit被远程推送。但Summit毕竟是台机器,是机器就会出故障。至少每周都会出现通讯问题或存储故障,导致某人的工作无法保存,阿布斯顿说道。这些还只是软件问题。如果管道发生泄漏,那么流经整个房间来冷却机器的15 000升左右的水将会成为一场噩梦。网络攻击或对电网的攻击也是如此。阿布斯顿的任务是保护很多东西——他需要一群工作人员的配合。最起码要有一些人在岗,这就意味着阿布斯顿需要尽其所能阻止新冠疫情的暴发。
首先,他准确审查了在同一时间里,他能允许最少多少人留在这栋大楼里。紧接着他检查了员工的工作站。如果有些人的任务必须在狭小的空间里完成,那么他就会试着把他们转移到可以单独工作的地方。然后他考虑到了测试的问题。值得庆幸的是,橡树岭国家实验室在疫情开始时就建立并开始运行自己的测试设施。
这是组成Summit的260排机架之一
这是很有必要的。4月份的时候,田纳西州每天都有数百例新病例。到了秋天,每日新增病例已达数千。在整个冬季,情况异常严峻,每日新增病例最多时超过1万,每日新增死亡病例也逾百例。尽管如此,阿布斯顿还是保持着一切运转正常。当他的同事在被配偶或孩子感染需要隔离时,他会尽力做好日程安排。有时他就亲自上阵填补空缺。但是,无论发生什么,阿布斯顿都不能让暴发的新冠疫情阻止Summit的稳步前进。
雷·史密斯(Ray Smith)很喜欢讲述这样一个关于阿巴拉契亚山脉的24 000多公顷农田如何成为美国科学的秘密中心的故事。1939年,爱因斯坦写信给罗斯福总统,警告他使用铀进行裂变链式反应可能会产生大量能量,他相信德国正在进行这项研究。“他们担心自己会制造出炸弹。”橡树岭市的历史学家史密斯说道。
罗斯福知道美国需要采取行动。史密斯说,罗斯福向时任参议院拨款委员会主席的肯尼斯·麦凯勒(Kenneth McKellar)参议员求助。他说:“参议员,我需要投入一大笔钱来抵御战争。并且我不能让媒体或任何人知道这笔钱的数额和用途。你能帮我吗?”
这位来自田纳西州的参议员回答说,他能帮上这个忙——那么要在田纳西州的什么地方开展工作呢?
1943年,克林顿工程师工程即后来的橡树岭国家实验室,在曼哈顿计划的指导下建成并开始运作,生产武器级钚。来自全国各地的科学家很快就来到一个地图上没有的新城镇报到。
战后,橡树岭仍然是科学中心。近年来,它以拥有全美最强大的超级计算机而闻名。传统上讲,我们谈起超级计算机时主要是说它们的计算速度能有多快。专业术语就是“FLOP”,也就是“浮点运算”,橡树岭计算机与计算科学实验室副主任杰夫·尼科尔斯(Jeff Nichols)说道。浮点运算就是加法或乘法运算,我们会以超级计算机每秒能做的运算次数总和来给超级计算机打分。每秒可进行一百万次运算,就称作百万次浮点运算。每秒可进行十亿次运算,就称作十亿次浮点运算,万亿次就称作万亿次浮点运算。
Summit是一台200千兆次浮点运算的机器,这意味着它每秒可以进行200千兆次运算。但回溯到2009年左右,超级计算机的搭建者遇到的一大阻碍就是,如何继续扩大FLOP的容量而不让这些机器变成消耗能源的怪物。尼科尔斯说,当时在橡树岭的超级计算机Jaguar每小时耗电量高达8.2兆瓦。“我们知道,如果我们要把计算能力提高一倍,那么耗能也会增加一倍,但我们不能再这样做。”他说道。
控制室监控着Summit的37 224个处理器
为了寻找解决方案,超级计算机的设计者想知道他们是否可以使用游戏处理器来提高机器的能源效率。尼科尔斯说,GPU的功能可能是CPU的10倍。然而,问题在于它们没有那么准确。如果超人在跳跃的时候,他的脚并没有完全触碰到建筑物的边缘,那么我们的想象力可以填补这个空白。如果一台超级计算机在进行关键的药物研究时错过了一次运算,那台超级计算机就没用了。
尼克尔斯说,Summit的搭建团队找到了总部位于加州圣克拉拉的GPU制造商NVIDIA,询问他们是否可以制造出具有CPU精确度的GPU。通过改变芯片中使用硅的类型,NVIDIA成功实现了这一目标:他们创造出了能源效率高又能进行精确计算的GPU。橡树岭第一台使用GPU搭建的超级计算机被命名为Titan。它的能力强于Jaguar 10倍。2017年,Titan被Summit取代,同样的,Summit的威力再次超过Titan 10倍。
当然,威力大是好事,但这并不是唯一重要的事情。像海德和丹·雅各布森(Dan Jacobson)博士这样的研究人员真正需要的是一台智能型超级计算机。人工智能是Summit相对于Titan的最大优势,它允许超级计算机用户建立模型,然后告诉机器寻找可能与模型相似的模式。如果没有这种机器学习,你就只能让一台电脑去寻找精确匹配。这无助于寻找可能与病毒相结合的分子。如果没有精确匹配,你的搜索就会一无所获;而实际上,那些可能已经足够接近成功的东西却被忽略了。机器学习让研究人员可以非常具体地明确哪些结果是他们需要的和不需要的。如果电脑没能给你想要的,你可以教它做得更好。
多亏了一种被称为张量核的特殊类型的处理器核心,Summit在机器学习方面变得极为迅捷,且学习速度很快。张量核允许计算机对相关数据进行分组和比较,以识别其中的关联并查看它们是如何相互作用。普通核心会在运算出现时将其敲出,但张量核心却可以把这个运算同有关联的运算进行比较。
来自全国各地的科学家纷纷在Summit上申请新冠肺炎相关项目,并获批了使用时间。但是,也许在该计算机上进行的两个最重要的查询恰好从科学范围的两端攻击病毒。一个想知道新冠病毒如何攻击机体,这样我们就能更好了解这种疾病;另一个则想找到阻止病毒传播的方法。
该实验室的雅各布森负责编写代码,以确切了解冠状病毒的感染模式为何会是医生之前从未见过的。雅各布森是计算生物学家,他的主要工作方向是系统生物学,包括在细胞水平上破译生物有机体相互关联的复杂性,解开各种神经精神疾病的病因,如阿尔茨海默病和自闭症。
丹·雅各布森和他的团队在橡树岭的超级计算机上建模和分析生物系统
雅各布森早在我们其他人之前就一直关注着这场疫情。当首例病例的报告出现时,他通过另一个项目联系了大使馆的工作人员。他立刻明白了人类可能面临的麻烦。雅各布森说:“有几次危急关头,当时我们都说,是的,这次可能真的会非常糟糕。”
雅各布森在数据中寻找某种能够揭示细胞内部和细胞之间的分子关系究竟发生了什么的模式。一开始,没有太多数据可以使用。但之后,随着全球许多科学家暂停了其他研究,转而从事与新冠病毒相关的科研项目,就像打开了消防水管,雅各布森想要所有的这些数据。他喜欢从整体上研究生物学,利用来自所有类型询问的大量数据来寻找系统之间的模式和有趣的交互作用。当涉及冠状病毒时,他积累了一切信息:基因表达信息、免疫系统信息、生理学数据、遗传学数据、蛋白质结构数据、电子健康记录、环境数据、微生物组数据和尸检数据。目标就是找到人们感染、发病、康复时变化的模式。看完所有东西“可以让我们发现原本经常被忽略的东西。如果你一次只关注一个方面,你就是在采用非常传统的方法”。他说道。你可能会找到你想要的一个东西,但“你会忽略掉其他重要的东西,因为你的关注点太狭窄”。
马蒂·海德也想快点轮到她。在加入橡树岭国家实验室之前,海德在制药业巨头葛兰素史克工作了20年,其中有一部分时间是在寻找能够攻击细菌的药物。而抗击新冠病毒的难度明显要大得多。“细菌是活的,所以你可以杀死它们。他们会反击,但你可以杀死它们。”她说道,“病毒并不是真正意义上的生命体,要杀死并非真正意义上活着的东西要困难得多。”
海德的药物搜寻寄希望于找到能够从本质上阻碍病毒运作的分子,而不是直接杀死病毒。在一个案例中,她和她的同事开始主要研究蛋白酶,这种酶本质上是将感染了冠状病毒的细胞中的蛋白质链切割成微小的蛋白质片段,然后这些微小的蛋白质片段就会执行病毒的命令。海德需要大小和形状都恰到好处的分子来与他们在蛋白酶上找到的小沟槽接合。第一步是编写一种算法,该算法能从本质上搜索大小和形状都可能适合与病毒接合的分子。
但仅仅让这两个部分互相契合是不够的,海德如是说道:“蛋白质并不会待在那里,以静态的方式等待我们做点什么。它们一直在运动,这是它们的特性,所以我们需要了解这些运动。”
只有当人们为它编写代码时,超级计算机才能称得上超级。梅瑟尔说,有一种错误的概念,就是登录Summit后,你只需要点击能够帮助你运行查询的程序就行了。Summit上绝大多数的运算都需要有人来编写所有的算法。研究人员编写一些代码,但从事代码开发的研究生才是Summit的命脉,梅瑟尔补充道。
让为这些项目编写代码变得困难的是,你想要寻找的答案极少是单一答案。因为你并不想只得到一个答案,所以if-then的算法是行不通的。“当我运行天体物理学代码时,最终是得不到答案的。”梅瑟尔说道。相反,他会看着一串可能为他指明答案的数据流产生出来。梅塞尔说:“然后我必须深入到所有生成的数据中去,以便能够推断出一些科学见解。”
要弄清楚为什么冠状病毒会让这么多人生病,雅各布森也必须深入到一大堆乱糟糟的数据中。
雅各布森从一开始就在关注病毒是如何附着在细胞上。这一点他已经知道了:新冠病毒的目标是ACE2蛋白质,这不是病毒通常会结合的典型受体。当他开始研究其他冠状病毒——比如引起普通感冒的冠状病毒——的数据时,他意识到,许多冠状病毒是以肾素-血管紧张素系统(RAS)中的目标蛋白质作为进入细胞的切入点。RAS部分负责调节血压以及液体和电解质平衡。雅各布森认为他应该从那里开始。
此前,新冠病毒似乎只是一种呼吸系统疾病的病毒,所以靶向RAS有点出乎意料。他的下一步是使用Summit来评估来自感染和未感染患者的肺组织样本中的基因表达。Summit进行了搜索,完成了25亿次运算。这项分析产出了一批数据,这些数据揭示了正常情况下基因是如何被调控的,以及这些调控模式是如何因SARS-CoV-2感染而急剧改变的。
“然后,我灵光乍现。在我的职业生涯中,因为灵光乍现的瞬间而有所发现的情况并不多见。”雅各布森说道。但数据明确显示:新冠病毒导致了RAS的大规模失调。
雅各布森继续在Summit上工作。由于计算机的强大计算能力,雅各布森能够看到许多细胞功能的变化——从炎症和渗透反应到透明质酸的合成和降解,再到电解质平衡和凝聚,都以某种方式与RAS相关。从结果数据集可以清楚看到:RAS和胰舒血管素-激肽(缓激肽)系统之间发生了一些奇怪的事情,这两种系统都在炎症反应中发挥作用。“然后我们深入研读了临床文献,以了解当这些系统失调时会发生什么。”他说道,“你看看身体不同部位的这些预测症状,它们与COVID-19的情况十分吻合。”
这项研究帮助我们重新定义了对新冠的讨论,它既是一种呼吸系统疾病,也是一种血管疾病。缓激肽系统的失调会导致血管原发性渗漏——这就能够解释为什么医生会在患者的肺部看到那么多液体。多亏了Summit和雅各布森以及相似科研团队的研究,临床医生开始考虑维生素D——一种已知的RAS调节因子——是否可能帮助到一些患者。虽然只是走到户外、晒晒太阳肯定无法预防新冠,但有证据表明,它可以降低感染的严重性。
同样,缓激肽假说将作为缓激肽B2受体拮抗剂的药物艾替班特带入了临床试验。尽管这些药物不是治疗新冠的灵丹妙药,但缓激肽假说正在帮助医生了解他们所看到的情况。
当雅各布森还在研究严重疾病的病因时,海德却在忙活另一件事,她在寻找一种能够战胜这种严重疾病的药物。
寻找药物需要很大耐心。虽然海德拥有许多专利,并在药物测试过程中对一些分子进行了相当深入的研究,但她还没有找到一种能够作为有效药物进入市场的分子。在开发过程中可能会出现的问题太多了:也许这个分子只在实验室条件下能与蛋白质接合;或者,它被注射到小鼠体内时可能有效,但以胶囊的形式吞下后,在胃酸的作用下就无法存活。
“我们需要的它就是万里挑一。”她说道。这一说法为我们描述了找到一种符合全部条件的分子的概率。
多亏Summit,海德找到了这个万里挑一的线索。它叫作MCULE-5948770040,它能够结合并抑制主要蛋白酶。2021年3月下旬,她发表了一篇预印本论文,目前正在接受同行评审。与此同时,新的变种使她的工作更加重要。到目前为止,疫苗似乎对新变种是有效的,但是如果情况发生变化,那么治疗方法将再次成为抗击新冠的最宝贵工具。拜登政府2021年6月宣布:为与海德等人的药物开发项目提供30亿美元资金,以强调开发有效新冠药物的重要性。
但海德的想法超出了变种的范围。她真正希望构建的是代码,这是抗击下一次疫病大流行的出发点,因为总会有下一波疫情。“我们希望这些平台做好准备,这样我们就可以迅速应对下一次寨卡、埃博拉、流感和冠状病毒。”她说道,“上天保佑,只要我们愿意持续投入并保持警惕,当SARS-CoV-3来临时,我们就会有数据、平台和全球各地的人来应对。”
资料来源 Popular Mechanics