摘要:研究大分子的三维结构是理解其功能的关键。传统上,蛋白质及其复合物的结构是使用实验技术单独或以综合方式应用的。然而,随着AlphaFold2的突破性进展,蛋白质结构预测的通常与实验结构一样准确。这一突破预示着计算方法的新时代,可以为大多数单体蛋白质建立准确的模型,这样更加有利于我们对结构与功能的理解。本文介绍了AlphaFold2的安装与使用,为有需求的读者提供帮助。
关键词:蛋白质结构;AlphaFold2;深度学习;安装与使用
前言:
蛋白质对生命活动至关重要,了解它们的结构可以促进对其功能的机械理解。通过大量的实验工作[1],已经确定了大于十万种独特蛋白质的结构,但这仅代表了数十亿已知蛋白质序列中的一小部分[2]。确定单个蛋白质结构所需的数月乃至数年的艰苦努力严重阻碍了结构生物学发展。仅根据其氨基酸序列预测蛋白质将采用的三维结构,一直是多年来的一个重要的研究问题[3]。然而,AlphaFold2的出现解决了这一难题。
2018年,AlphaFold横空出世,可以高精度预测蛋白质结构,到了AlphaFold2注意力机制取代卷积网络,预测准确性提升超30%[4]。蛋白质结构测定方法耗费大量人力物力,实验条件要求苛刻,大规模应用困难。AlphaFold2解决距离限制问题,打破了现在许多蛋白质无法测算结构的僵局,让我们看到结构生物学有更好的发展前景,下面将介绍AlphaFold2安装与使用。
一、安装前电脑配件准备
下述为最低要求:
硬盘:3T、CPU:12个虚拟CPU 、内存:85 GB、GPU:1个Nvidia A100 GPU
(一)下载
Deepmind公司已经把AlphaFold2的代码公开,并将安装包上传到GitHub,想要下载AlphaFold2,请到Github下载。
(二)安装
1.pip
(1)介绍
pip是Python包管理工具,该工具提供了对Python包的查找、下载、安装、卸载的功能。目前如果你在python.org下载最新版本的安装包,则是已经自带了该工具。
(2)安装
1.Win + R打开运行窗口,输入cmd回车,打开命令行窗口2.
2.找到pip安装路径。Python3(或者更高版本)安装路径是相同的,都在x(此为盘符,例如C盘):\Python xx\Scripts路径下
3.拖动pip主应用程序到命令行窗口,直至命令行窗口增加了如下代码:”Pythonxx\Scripts\pip.exe”
4.输入“install +alphafold2-pytorch”,注意中间要有空格。然后回车。窗口中会显示下载信息。
5.耐心等待安装完成。安装完成后,我们在Python交互窗口导入包,如果不报错,那么说明安装成功,否则安装失败。
(三)使用
详情请参考(https://github.com/lucidrains/alphafold2/blob/main/REA DME.md)。
二、另辟蹊径,探索蛋白质结构
目前,云计算成为社会主流,因为云计算解决了大多数人对电脑配置不足而无法进行相应操作的痛苦,我为大家提供两个可以在线使用AlphaFold2的云服务器平台Colab和北鲲云超算平台,解决电脑配置限制。
1.Colab
这是一块开源的国外服务器,但是我国有网络安全协议,所以这个网站并不在国内ip可以打开的范畴,使用此服务器需要会科学上网,这里对科学上网不做赘述,需要自己了解,下面就是此服务器AlphaFold2使用教程。
1.在query_sequence输入氨基氨酸序列
2.在num_models选择预测数量
3.点击代码执行程序—全部运行,等待一段时间后会自动解析完毕并自动打包下载。
2.北鲲云超算平台
这个是国内云计算平台,国内ip可以随意登录而且不限流,登录网页界面就有AlphaFold(实为AlphaFold2),可以直接点进去操作,但是收费,完成一次预测大概15元左右,下面为北鲲云超算平台教程。
1.登录网站并点击AlphaFold
2.2.点击选择AlphaFold GPU3
3.上传氨基酸序列文件(注:需将txt改成fasta格式)
4.选择虎鲸B-1GPU
5.点击提交即可
6.执行结果会在日志文件中结果查看
输出的pdb文件建议使用官方推荐的PyMOL或者Chimera查看。
三、展望
就目前而言,推荐读者使用云服务器,使用云服务对科研人员比较友好,没有风险,成本也低,而且上手简单,IT商家已经把操作步骤优化,即使不懂人工智能和python,也可以轻松使用,为大多数人省去了学习python语言与Pytorch语法的时间,可以把更多的精力放在科研上。虽然,目前还存在着诸多难题,但AlphaFold2的出现,揭示未来人工智能对科研领域有极大的帮助。未来,AlphaFold2定能为结构生物学做出巨大贡献,让我们拭目以待吧!
参考文献:
[1]Wüthrich,Kurt.The way to NMR structures of proteins.[J].Nature Structural Biology,2001.
[2]Martin Steinegger.Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold[J].Nature Methods:Techniques for life scientists and chemists,2019,16(7):
[3]Anfinsen C B.Principles that govern the folding of protein chains.[J].Science (New York,N.Y.),1973,181(4096):
[4]Jumper.Highly accurate protein structure prediction with AlphaFold.[J].Nature,2021:
作者簡介:李飞(2000.7.14-),汉,河北省沧州市,绍兴文理学院生物科学专业,本科生,研究方向:生物科学。