杨冬
蛋白质结构与药物的研发密切相关,在谈蛋白质结构之前,让我们先聊聊药物。常言道,一把钥匙开一把锁,对于人体来说,药物相当于一把“钥匙”,它必须要找到人体内与之对应的那把“锁”才能发挥作用。人体内的“锁”往往是一些生物大分子(如蛋白质、DNA或者RNA),被称为药物的靶点。
研发新型药物的工作有点儿类似配钥匙,如果我们能知道靶点的精确结构,就相当于知道了“锁”的结构,对于新药研发会有很大帮助。那么,药物研发专家如何确定蛋白质(或者其他生物大分子)的结构呢?
蛋白质是由氨基酸组成的生物大分子。在生物体内,有20种不同的氨基酸(如丙氨酸、丝氨酸、酪氨酸)。我们可以把氨基酸想象成一块块五颜六色的乐高积木,比如,丙氨酸是红色的,丝氨酸是绿色的,酪氨酸是蓝色的,这种“乐高积木”首尾相连就形成了一条彩色的长链。我们可以将这条长链看作蛋白质的“一级结构”。不过,蛋白质并不是停留在这种长链的状态下。这条长链还会反复扭曲,最后形成一个复杂的三维结构,这个过程被称为蛋白质折叠。如果再形象化一点儿,也可以把蛋白折叠想象为将一根毛线扭成一个毛线团。
研究表明,每一个特定的蛋白质都包含特定的氨基酸序列,用乐高积木类比,就相当于颜色各异的乐高积木根据一定顺序连接在一起,从而形成不同的长链。每一个特定的蛋白质还有其固有的三维结构,蛋白质的三维结构是由它的氨基酸序列决定的。因此,从理论上看,如果知道一个蛋白质的氨基酸序列,就有可能通过计算机结构预测软件推算出它的三维结构。
不过,根据氨基酸序列预测蛋白质结构并非易事。长期以来,人们更常用的方法是使用实验手段测定蛋白质结构,常用的方法包括X射线晶体衍射、核磁共振(NMR)和冷冻电镜。X射线晶体衍射是测定蛋白质结构的黄金标准,并且直到今天通过X射线晶体衍射得到的蛋白质结构信息的分辨率也是最高的。不过,对于特别大的生物大分子复合物(如核糖体),冷冻电镜有很大的优势,因为这些分子往往很难形成高质量的可供衍射的晶体。核磁共振则对测定一些特别小的生物分子(如肽段)有重要价值。
随着通过实验手段测定的蛋白质结构越来越多,从事蛋白质结构预测的科学家也拥有了更多的可供参考的数据,这样就可以改善蛋白质结构预测软件的质量。但是,这里出现了一个问题,现在有形形色色的预测方法,每一种方法的开发者都认为自己开发的预测方法是有效的,那么,是否有客观的标准来评估哪一种结构预测方法更靠谱呢?
为了解决这个问题,国际蛋白质结构预测竞赛(CASP)于1994年拉开帷幕。CASP被称为“竞赛”,实际上,每一支CASP參赛队伍都是一个开发蛋白质结构预测方法的团队,每次竞赛都是一次蛋白质结构研究者的交流大会。每年竞赛的组委会向参赛队伍提供若干蛋白质的氨基酸序列供预测。这些氨基酸序列对应的是一些近期刚刚用实验方法完成解析但还暂时处于保密状态的蛋白质三维结构。等到参赛团队完成预测并递交“答卷”后,组委会会将他们的答案与实际测得的结构进行比较。如果你的预测更加接近实际结构,你就可以得到高分。得分越高,说明你开发的软件越靠谱。
那么, CASP参赛团队一般能得多少分呢?现实是残酷的,满分100分,大部分团队常常只能得到40分左右。但是,DeepMind公司的人工智能系统AlphaFold在2018年横空出世后,马上就夺得了近60分的“高分”。2020年,在第14届CASP上,DeepMind又推出了新的版本—AlphaFold2,结果拿到了前所未有的高分,达到90分以上。也就是说,AlphaFold2所预测的蛋白质结构中,大部分已经和实验测定的结构相差无几了。那么,AlphaFold2到底有什么神奇之处呢?
AlphaFold以及它的升级版本AlphaFold2使用了与当初击败人类围棋大师的AlphaGo类似的深度学习技术。DeepMind公司的开发人员利用已经通过实验测定的蛋白质结构数据来训练AlphaFold2。为了让AlphaFold2预测的结果更加精准,开发人员一共使用了17万个不同的蛋白质结构对其进行训练。不过,AlphaFold2虽然得到了很好的成绩,但它离彻底“破解”蛋白质结构还有一定距离。目前,这个系统对于比较简单的蛋白质的预测效果比较好,但是对于含有很多氨基酸的复杂蛋白质,或者是几个蛋白质形成的复合物暂时还不能有效预测。“几个蛋白质形成的复合物” 可以理解为,几条乐高积木组成的长链分别先扭曲成几个特定的形状,然后再堆积成一个更加复杂的结构。当然,我们可以推测,随着技术不断进步,AlphaFold的某个未来版本有可能彻底“破解”蛋白质结构,甚至包括DNA和RNA在内的所有生物大分子的结构。
如果蛋白质结构真的被人工智能“破解”了,那么对我们的世界又有什么影响呢?
首先,研究者可以更方便地获得药物靶点的三维结构。获取药物靶点的三维结构后,制药公司就能开发出更多新型药物,用来治疗癌症、艾滋病、阿尔茨海默病等严重危害人类健康的疾病。
此外,蛋白质是生物体发挥正常功能的最重要的因素之一。要理解生命中的很多本质问题,我们需要获得蛋白质的结构。以前,获取蛋白质结构的唯一解决方案就是开展实验去进行结构解析。未来,如果人工智能可以预测大部分的蛋白质三维结构,显然可以大大加快生物领域各种研究工作的步伐。
另一个从中受益的可能是蛋白质设计。如果科学家需要得到具有某种特定结构的蛋白质,可以先通过计算机设计出一个氨基酸序列,然后根据设计的序列把这个蛋白质合成出来,而且合成出来的蛋白质具有预期的特定结构。
科学家为什么要费这么大力气进行蛋白质设计呢?这是因为蛋白质设计在医疗方面有很重要的应用价值,其中一个非常重要的应用是可以利用蛋白质设计开发新型疫苗。
通常情况下,将疫苗注射到人体后,体内的免疫细胞就会产生针对疫苗中所含的某种抗原的抗体,从而帮助疫苗接种者抵抗未来病原体的入侵。例如,为了预防乙型肝炎,我们会注射乙肝疫苗,疫苗中的抗原就是乙肝表面抗原,它是一种分布在乙肝病毒表面的蛋白质。人体免疫细胞遇到这个抗原后就会产生针对它的抗体,这些抗体可以结合在抗原表面的某个位点上。如果某一天真有乙肝病毒入侵,血液中的抗体通过与乙肝病毒表面抗原结合,就会破坏病毒的功能,导致乙肝病毒失去侵入人体的能力,即被“中和”了,所以这种抗体也被称为“中和抗体”。
然而,很多病毒是非常“狡猾”的,它们常常会发生突变,因此每一代病毒表面蛋白质的氨基酸序列都会有所变化。这样它们就可以逃脱人体内抗体的中和作用,因为能够识别“旧抗原”的抗体不见得能够识别“新抗原”。人们要每年注射流感疫苗,就是因为流感病毒是特别善于突变的病毒,所以我们要每年注射“最合适版本”的疫苗。
在病毒表面的蛋白质中,并不是每一个位点(蛋白质的某些區域)都可以发生突变。蛋白质的某些位点对于该蛋白质的功能特别重要,无论在什么情况下,这些位点都不会发生改变,因此也被称为保守位点。如果改变了保守位点的氨基酸,病毒就失去了这个蛋白质的功能,因此也就失去了感染人体的能力。
那么,能否让人体专门合成针对保守位点的抗体呢?如果这种方法可行,岂不是一劳永逸?不幸的是,在很多情况下,传统的疫苗很难诱导人体产生针对这些保守位点的抗体。
为了解决这个问题,蛋白质设计就上场了!如果科学家可以设计一个人造蛋白质作为“载体”,然后把抗原中组成保守位点的几个氨基酸都移植到“载体”的暴露位置上,之后将这种人造蛋白质作为疫苗注入人体,那么人体内的免疫细胞就可能合成专门针对这个保守位点的抗体。这种针对保守位点的抗体,有可能抵御病原体的各种突变。
不过,要进行此类蛋白质设计,精确的蛋白结构预测就是绝对的先决条件。因为被移植到“载体”中的保守位点的形状(在生物化学中被称为构象)必须和它在原先抗原蛋白质中的形状完全一样。只有在这样的条件下,利用人造蛋白质作为疫苗产生的抗体,才能识别病原体中的相应抗原,从而产生中和效果。如果两者形状不同,那么能够识别人造蛋白质中这个位点的抗体并不能够识别真正病原体(如病毒)中抗原里面的相应位点,那么这种抗体就无法起到任何保护作用。
很多病毒有特别高的突变率,因此开发针对这些病毒的有效疫苗非常困难。这些病毒中,危害最大的就是导致艾滋病的人体免疫缺陷病毒(HIV)。试图利用蛋白质设计开发有效的艾滋病疫苗的研究工作已经开展了很多年,然而由于蛋白质结构预测能力的局限性,目前并没有实现突破性的进展。可以想象,如果人工智能能完全“破解”蛋白质结构,那么科学家很有可能制造出有效的艾滋病疫苗。
2020年,对人类而言是特殊的一年,新冠肺炎疫情在全球蔓延不仅导致了大量人员感染、死亡,同时严重影响了全球贸易,对世界政治、经济、文化产生了深远影响。这个事实再次提醒我们,以前未曾出现的新型病毒可能是未来人类需要面对的巨大威胁,同时这次疫情让我们更深刻地意识到,有效的疫苗开发方法将对人类社会的正常运转意义重大。所以,蛋白质设计作为一个极富潜力的疫苗研发手段,很有可能在未来大放异彩,蛋白质结构预测作为蛋白质设计的基础也将为人类健康做出重要贡献。