计算机辅助新药设计相关筛选数据库的研究进展

2022-02-22 14:24:14许彤郭庚妮蒋南

东南大学学报（医学版） 2022年6期

许彤，郭庚妮，蒋南

(南京医科大学药学院，江苏南京 211166)

近年来，伴随蛋白组学的迅猛发展和人类基因组学研究的突破性进展，蛋白质- 基因组- 疾病网络关系图日渐清晰，许多导致疾病的基因被一一揭示，新的治疗靶点及其三维结构也不断被发现或确认，这为计算机辅助药物设计[1](computer- aided drug design，CADD)提供了坚实的基础。在计算机技术的推动下，计算和模拟方法持续进步，CADD已成为创新药物研究的一项基本工作。传统药物设计需要大量的尝试、试错，成本昂贵、耗时费力。与此比较，CADD具有多种优势，如有效地模拟出各类环境下的反应、虚拟计算配体- 受体结合能、反应中的能垒变化等，从而快速有效地指导化合物合成方向、筛选先导化合物，大大减少了时间、金钱的消耗。

CADD是采用计算化学方法分析蛋白靶标结合位点的结构性质，如静电场、疏水场、氢键供/受体位点分布等信息，然后再运用数据库搜寻，得到分子形状和理化性质与受体结合位点相匹配的分子，进而合成并测试分子的生物活性，经过几轮测试与改性以发现先导化合物。由此，CADD的本质是模拟和计算药物与靶标的相互作用[2]关系。因此，蛋白质结构对药物和靶标之间的相互作用研究以及基于生物大分子结构的药物设计是非常重要的。

此外，虚拟筛选作为高通量筛选[3]识别潜在生物活性化合物的重要工具，也已在药物发现中得到了广泛应用。它是在已知大分子结构的基础上，应用分子对接方法，从大型化合物库中迅速筛选出具有潜在活性的药物分子。例如，华中科技大学同济学院的李华教授课题组[4]从蛋白质数据库中获得SARS- CoV- 2同源性蛋白，并与ZINC药物小分子数据库联用进行高通量虚拟筛选，挑选出了有潜在活性的小分子，为新冠肺炎的药物治疗提供了理论依据。除此之外，构建药效团模型[5]也是进行虚拟筛选的一种常用方法，它是基于一系列具有不同活性的配体以及蛋白质- 配体复合物结构，总结出对活性至关重要的原子或基团及它们之间的空间关系，在此基础上进行新药设计、靶点垂钓[6]、药物不良反应的检测[7]以及老药新用的开发等。

由此可见，蛋白靶标的三维结构是开展CADD的物质基础或必要条件。在过去几十年里，各种蛋白质、核酸等大分子数据库被构建并迅速扩充，药效团模型的构建算法快速发展，为药物研发提供了重要资源。为了充分利用好这些宝贵资源，作者对常用蛋白质、核酸及药效团数据库进行总结，简要介绍其发展历史，详细综述其构建思想与使用方法，如数据来源、信息内容、数据检索的关键字段及其说明等。在此基础上，我们对数据库开发面临的问题进行分析，并对未来的发展方向提出展望。我们希望该工作能为从事计算机辅助新药开发的研究工作者提供有益帮助。

1 蛋白质数据库

确认蛋白质或蛋白质- 配体复合物结构，是研究蛋白- 药物相互作用进而开展CADD与筛选等的必要条件。将已知结构的蛋白质及其相关信息(如与配体形成的复合物结构、活性数据、序列信息、参考文献等)集合成一个数据库，方便用户的查阅及下载使用。世界范围内现已有多个数据库被建立并使用，覆盖大约1亿个分子。目前，发展迅速并广为使用的蛋白质数据库有UniProt(The Universal Protein Resource)、PDB(Protein Data Bank)、AlphaFold(Alpha Fold Protein Structure Database)、BindingDB(Binding Database)、InterPro、STITCH和STRING等。作者对UniProt、PDB及AlphaFold数据库详细介绍如下，其他数据库的网址和简要介绍见表1。

表1 其他常见的蛋白质数据库及其简介

1.1 UniProt数据库

UniProt(https:∥www.uniprot.org)[8- 9]是收录最广泛和注释信息最全面的蛋白质数据库，提供详细的蛋白质序列、功能信息(如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等)，同时提供与其它数据库(包括序列数据库、三维结构数据库、二维凝聚电泳数据库、蛋白质家族数据库)的链接。

1.1.1 发展历史 UniProt数据库的创建可以追溯到20世纪中期。20世纪60年代，美国国家生物医学研究基金会开始着手蛋白质序列收集和分类。1984年，美国蛋白质信息资源部成立，并开发了蛋白质资源鉴定系统，内容涵盖蛋白质、核酸序列和分析软件。在此基础上，美国国家生物医学研究基金会、德国慕尼黑蛋白质序列信息中心和日本国际蛋白质信息数据库联手，于1988年建立了国际上最早的蛋白质序列数据库,即：PIR- PSD(Protein Identification Resource- International Protein Sequence Database)[10]。该数据库不仅收集和注释蛋白质序列，还根据序列注释信息的详尽程度将蛋白质序列进行了级别划分。

同时期成立的大分子数据库还有Swiss- Prot[11]和TrEMBL[12]。其中Swiss- Prot是由瑞士日内瓦大学医学院于1986年创建的蛋白质序列数据库，数据资源包括PIR- PSD数据库、欧洲分子生物学实验室核苷序列数据库EMBL，和从文献中收集得到的其它蛋白质序列。该数据库的特色是对序列条目如物种分类学来源、功能、定位、表达等，进行人工审阅和注释，并建立与其它数据的链接。1994年，该数据库被移交至欧洲生物信息学研究所管理。与此同时，伴随着核酸序列的激增，通过其翻译得到的蛋白质序列也急剧增加。为了存放核酸序列数据库EMBL中蛋白质编码序列翻译所得的氨基酸序列，欧洲生物信息学研究所和瑞士日内瓦大学共同创建了TrEMBL数据库，作为Swiss- Prot数据库的补充。

2002年，上述3个蛋白质序列数据库合并为UniProt数据库，实现了收集、管理、注释和发布蛋白质序列数据及注释信息的统一化。该数据库由美国蛋白质信息资源部、欧洲生物信息学研究所和瑞士生物信息研究所共同管理和维护，为世界各国公众提供无偿服务，实现了基因组、蛋白组等生物信息数据的全球共享，目前已成为生命科学领域不可或缺的蛋白质序列信息资源。

1.1.2 重要子库 UniProt含有4个重要子库：UniProtKB(UniProt Knowledgebase，蛋白质知识库，蛋白质知识库)[13]、UniParc(UniProt Sequence Archive，蛋白质序列归档库)、UniRef(UniProt Reference Clusters，蛋白质序列参考集)[14]以及Proteome(蛋白组)。

UniProtKB子库和核心内容是蛋白质序列和注释信息[15]，如功能、物种及分类、蛋白加工修饰及表达等，并提供与基因组、核酸序列、蛋白质结构与功能位点等数据的交叉引用与链接。UniProtKB包含两个部分：一部分是Swiss- Prot[16]，其序列条目经过了人工审阅和手工注释；另一部分是TrEMBL，其序列条目是利用计算机程序进行的自动注释。Swiss- Prot为用户提供了高质量的蛋白质序列和丰富的注释信息；相比之下，由于TrEMBL中的记录未经人工审阅，因而可靠性较低。值得一提的是，上述两个部分采用相同的登录号和数据格式，TrEMBL中的记录一经人工审阅和手工注释，便移到Swiss- Prot而不再保留在TrEMBL。因此，这两个部分的序列条目数量差别很大，根据2022年5月25日发布的数据，Swiss- Prot中含约56.7万条序列记录，而TrEMBL的数据量高达约2.3亿。

UniParc子库存储了公开发表的蛋白质序列。其数据来源于UniProtKB子库、国际核酸序列数据库、美国国家生物信息中心的参考序列数据库、蛋白质三维结构数据库，以及欧洲、美国、日本专利局等。为避免冗余问题，它使用特定标识符(Unique Identifier，UI)将相同序列归并在同一记录中，即无论序列来源、测定方法、递交时间、审阅方式等是否相同，具有统一标识符的所有条目具有完全相同的序列。每条记录包含UI、序列、循环冗余校验码(Cyclic Redundancy Check Number，CRCN)、源数据库及其登记的接收号、版本信息等。UniParc的最大用途是记录蛋白质序列的历史信息和当前状态，“Active”表示该记录仍存在于原来的数据库中，“Obsolete”表示该记录已经不存在。值得注意的是，UniParc记录中不含注释信息，此类注释信息可在UniProtKB中查询。

为避免数据冗余，UniRef将UniProtKB和UniParc子库中的序列信息进行聚类。具有相同序列或片段的记录信息被合并在一起，构成UniRef100子集；而同源性>90%和50%～90%的序列记录分别合并至UniRef 90 和UniRef 50子集，以便于快速进行同源搜索。

Proteome是于2011年9月新增加的蛋白组子库，记录了已经完成全基因组测序物种的核酸序列翻译所得的蛋白质序列。截至2022年7月，该子库已经收录了近46万条记录。

1.1.3 主要功能的使用方法通过蛋白质名称或UniProt ID进行检索，可快速查找蛋白质相关信息，包括功能、毒性、结构、序列等。高级检索功能是UniProt数据库的特色之一。基于数据库条目中的不同字段，该数据库对大量注释信息作了索引，实现了快速、准确地对特定信息进行查找。不同数据集使用统一的检索界面，检索框的下拉菜单提供所有可检索的数据集，包括UniProtKB、UniRef、UniParc、Proteomes、Taxonomy、Keywords、Literature citations、Human diseases、Cross- referenced databases、Subcellular locations、UniRule等。为了便于用户依据注释信息精确查找，UniProt数据库还支持基于逻辑运算的高级检索。对于蛋白质的三维结构，UniProt实现了与PDB、PDBe、PDBj、AlphaFold等数据库的链接。

另外，UniProt还提供了同源建模(BLAST)、序列比对(Align)等功能。在BLAST模块，只需要提供未知结构的蛋白质序列就可以在如UniProtKB、Human源等数据库中查找结构模板，通过Align模块可将多个蛋白质序列进行比对，进而实现同源建模。

1.2 PDB数据库

PDB数据库(https:∥www.rcsb.org/)[17]于1971年由美国布鲁克海文国家实验室创建，并于1988年由结构生物信息学研究联合实验室(Research Collaboratory for Structural Bioinformatics，RCSB)接管。它是世界范围内唯一的生物大分子结构数据档案库，主要收集蛋白质、核酸和糖的三维结构数据，包括原子坐标、参考文献、一级和二级结构，以及晶体结构因数和实验测定数据等。结构数据来源于世界各国的生物学家和生物化学家，并通过X射线单晶衍射、核磁共振波谱法、三维电子衍射或微电子衍射等实验确定，向全球用户免费开放。

数据库提供多种使用功能，如数据上传(deposit)、搜索(search)、可视化(visualize)、结构分析(analyze)、下载(download)、相关知识介绍(learn)、其他(more)、文件(documentation)、疾病相关资讯(careers)等。用户可在浏览器上通过下拉菜单或侧边菜单免费使用这些功能，而不需要额外其它软件。下面对常用功能及其使用进行简要介绍。

1.2.1 Deposit工具 Deposit工具栏提供了上传蛋白质结构数据、验证报告、存储数据的功能。为了更好地应对日益复杂和庞大的数据，该数据库接受、处理和发布基于大分子晶体学信息文件(Protein Data Bank Macromolecular Crystallographic Information file，PDBx/mmCIF)[18]的数据文件。数据以文本文件的方式存放，每个分子各用一个独立的文件，对应唯一的识别号(Protein Data Bank Identification Document，PDB ID)。PDB ID由4个包含字母和数字的字符组成，早期的文件以“ID.pdb”命名，而1997年后每个ID对应1组文件，分别是“ID.full”(相当于原来的ID.pdb)、数目文件“ID.biblio”和图形文件“ID.gif”。

PDB的每一条数据结构记录两种序列信息，分别是显式序列信息和隐式序列信息。在PDB文件中，关键字SEQRES是显式序列标记，以它为标志的行是关于序列的信息。PDB的隐式序列为立体化学数据，包括每个原子的名称及其三维坐标。除了序列信息，其它字段及其说明列于表2。

表2 PDB文件的关键字段及其说明

续表

1.2.2 Search工具 Search工具栏提供了多种搜索方式，常见的有：(1) Basic Search(基础检索)。用户可通过输入PDB ID、名称的全称或者关键词来进行搜索。其中使用ID是最便捷、快速的搜索方式，但前提是已知目标生物大分子的ID。当使用ID检索时，结果只有该ID对应的唯一结构；若使用蛋白质名称进行检索，含有该蛋白质单体及复合物所有结构均被列出。(2) Advanced Search(高级检索)。用户可以通过数据库中各种条目的不同字段进行检索，如结构属性、化学属性、序列信息等。由于高级检索是基于逻辑运算进行的，因而更加精确并具有个性化特点。(3) Sequence Search(序列检索)是使用蛋白质和核酸序列来查询或搜索。(4) Chemical Sketch Tool(化学骨架工具)则是基于分子二维结构图来搜索生物大分子中特定或类似的配体。(5) Search by Drug & Drug Targets是通过药物及药物靶点来进行搜索，该搜索方式可与药物库(Drug Bank)联用。

PDB数据库允许用户使用上述方式以及逻辑组合(AND、OR和NOT)进行检索，可检索字段包括除了上述的功能类别、PDB代码外，还包括名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等关键词。在检索出的生物大分子页面中，该结构的三维结构模型、生物信息、序列信息、确认结构的实验方法以及文献记录等均被列出。对于检索出的蛋白- 配体复合物，还提供了配体信息以及蛋白- 配体之间的相互作用信息。

1.2.3 Visualize、Analyze、Download及其它工具栏 Visualize栏提供了快速的可视化服务，用户可以查看生物大分子的三维结构、蛋白特征以及基因组信息。Analyze栏则提供分析相关特征的服务，如将多个生物大分子的序列进行比对。在Download栏，用户可下载目标生物大分子的结构，可供下载的文件格式有“.pdb”和“.cif”的。Learn栏目提供了PDB- 101的服务，它是面向教师、学生和公众的在线门户，旨在促进蛋白质和核酸领域的探索。More、Documentation栏则提供了该网站建立、如何引用、资金来源等信息。

1.2.4 UniProt数据库与PDB数据库的功能对比上述PDB和UniProt均为生物学领域使用广泛、非常重要的数据库，但是二者的侧重点不同。UniProt是世界上最权威的蛋白质信息数据库，侧重于蛋白质的序列及其注释信息。而PDB是生物学和医学领域第一个开放访问的数字数据资源库，它存储的是蛋白质结构信息，提供了生物大分子(如蛋白质、DNA 和 RNA)的三维结构数据，及相关领域的最新进展，为结构生物学、细胞和分子生物学、计算生物学、信息技术等领域的研究提供信息。

1.3 AlphaFold数据库

AlphaFold(https:∥alphafold.ebi.ac.uk/)[19- 20]是由人工智能技术公司DeepMind与欧洲分子生物学实验室于2020年合作建立的一个记载虚拟预测蛋白质结构的程序及数据库，可以通过蛋白质名称、基因名称、Uniprot标识符或物种来检索需要的信息。AlphaFold近期的最大进展是，基于计算方法根据蛋白质的序列信息预测其三维结构，并使用pLDDT值进行评价。pLDDT>90的残基用深蓝色标注，表示很可靠；pLDDT处于70～90之间的残基用天蓝色标注，表示可信任；pLDDT处于50～70间的残基用黄色标注，表示可靠性较低；而pLDDT<50的残基使用红色显示，表示孤立无参考结构。Downloads栏提供48个物种的预测结构压缩包和Swiss- Prot中的预测结构数据。

目前AlphaFold已更新至2.0版本,包含2亿个科学界已知的近乎所有蛋白质的三维结构，涵盖100万个物种和UniRef 90序列数据库中的大部分代表性序列。这些预测结构中，约有35%被认为高度准确，45%可被应用于虚拟计算。

2 ePharmaLib药效团数据库

药效团是指对配体- 蛋白靶标相互作用中具有重要作用的“药效特征元素”及其空间排列形式。复合物中的药效团特征一般分为氢键受体(acceptor，A)、氢键供体(donor，D)、疏水(hydrophobic，H)、负离子(negative，N)、正离子(positive，P)和芳香环(aromatic，A)6种。根据一组已知活性的配体与蛋白靶标在结合位点处的结构信息，提取重复的药效团特征建立药效团模型，进而搜索化合物数据库，对具有相同作用机制的化合物进行筛选并找到蛋白靶标潜在的新配体，就是基于药效团模型的虚拟筛选。目前，许多药效团网站服务如ZINCPharmer[21]、PharmMapper[22]、Pharmit等，提供了药效团搜索服务。此外，Pharmer[23]、Discovery Studio[24- 25]、LigandScout[26]、Phase、MOE[27]等主流计算软件，也开发了建立药效团模型或进行药效团搜索的计算模块。常见药效团数据库网址及简介如表3。

表3 常见药效团数据库

ePharmaLib[28]是目前仅有的开源免费的药效团数据库(http:∥www.pharmbioinf.uni- freiburg.de/epharmalib)，旨在使用广泛多样又可靠的药效团来破译生物活性化合物的靶蛋白。它包含了15 148个药效团模型，涵盖了4 616个靶点蛋白。药效团的初始结构来源于sc- PDB(screening- PDB)[29]数据库中与治疗相关的蛋白- 配体复合物。ePharmaLib可以在主流软件薛定谔Schrödinger/Phase(反向对接)和Pharao/Align- it(开源的药效团建模软件)中使用，并能够用来进行靶点垂钓、副作用预测、药物再利用和表型预测。

2.1 ePharmaLib的构建

该数据库构建药效团模拟所需复合物结构来源于sc- PDB数据库，它是由17 594个结构分辨率≤2.5 Å且与临床治疗相关的蛋白质- 配体复合物结构组成的。用户可使用Schrödinger中“Small- Molecule Drug Discovery Suite”模块准备复合物结构，并应用“Glide XP”对蛋白- 配体结合能进行计算，进而对结合贡献较大的特征基团进行排序。一般情况下，当特征基团数小于3时，药效团搜索会有很高的假阳性。因此，该数据库去除了少于3个特征基团的药效团模型。该数据库包含了15 148个药效团模型，每个药效团模型包含3～8个特征，6种常见特征占比分别为12.6%、17.9%、20.9%、17.1%、10.6%、20.9%。构建的药效团以“PDB ID- het ID- Uniprot Entry Name”来命名，其中PDB ID是该构建药效团模型所用的复合物在RCSB PDB中的编号，het ID是复合物中配体在RCSB中的名称，Uniprot Entry Name是复合物在Uniprot中的简要蛋白质名称。

2.2 ePharmaLib的使用

ePharmaLib网站主页提供了ePharmaLib帮助文件夹，其中包含3个文件：(1) README.md，详细介绍了ePharmaLib数据库在Pharao/Align- it[30]和Schrödinger/Phase两个软件模块中的使用方法。(2) ePharmaLib_PHARAO.zip文件，包含了适用于Pharao软件中Align- it模块的药效团结构。(3) ePharmaLib_PHASE.zip文件，包含了Schödinger软件中Phase模块的药效团结构。当用户使用整个数据库进行药物筛选时，无需对该文件进行解压；倘若用户只需使用一部分数据或可视化药效团模型，则要解压文件进而对数据进行选择。

对于目标小分子的二维结构，应用LigPrep功能模块可实现pH 7.4环境下的三维结构转换，并生成“.maegz”格式的输出文件。由于配体小分子往往具有构象多样性，且构象对其发挥活性具有重要影响，因此，我们需要探索其构象性质并使用三维构象来构建药效团模型。在Schrödinger图形界面Maestro中，Create Phase Database功能模块可以进一步将三维结构生成三维构象数据库，文件格式为“.phdb”，表示Phase Database。若小分子的可旋转键少于10个，通常生成50个构象；若可旋转键超过10个，则生成100个构象。

在进行药效团搜索时，若使用由LigPrep输出的小分子三维结构文件，三维构象则需要在Phase的命令框中输入“$ SCHRODINGER/phase_screen- flex- max 50- WAIT”来即时生成。命令语句中的“source”为小分子的三维结构文件，可直接使用LigPrep模块输出的“.maegz”文件；“hypo”为药效团数据库的文件，可以直接使用ePharmaLib_PHASE.zip或进行筛选过后的药效团集合；jobname为自定义任务的名称；“- flex- max 50”为即时生成的构象数目。当使用由Maestro构建的三维构象数据库文件时，无需使用命令语句中的 “- flex- max 50”字段，此时，“source”为Maestro构建的三维构象数据库文件的完整路径。输入命令后会得到一个Job ID，便于查看任务的执行进度。

任务结束后，可将结果文件加载至Maestro中进行查看。结果包含多个药效团模型- 目标分子构象结构的组合。Window栏中的Project Table可以查看Phase的打分情况，即Phase Screen Score。其中“Matched Ligand Sites”显示该构象结构包含的药效团特征。

3 对现有数据库发展方向的思考

尽管目前数据库开发已取得了很大进展，但仍然存在一些缺陷，主要表现为：

(1) 数据冗余。当某些蛋白序列之间具有很高的相似度时，它们可被认定为互为冗余的序列。其原因可能是很多相似序列属于同一个基因或蛋白质家族，或者在不同生物体发现的同源基因或蛋白；也可能是某个研究团队向数据库提交了相同的序列数据，从而导致数据库存储了多个相同序列。这些冗余问题不仅导致分析处理数据时占用大量计算机资源，进而降低了数据库搜索速度；而且由于冗余问题不能提供更多信息，从而导致不准确的预测结果。

(2) 数据结构不统一。就蛋白质大分子而言，由于其结构解析方式的不同，其数据结构存在较大差异。例如，有的结构文件中含有H原子信息，有的则没有；有的结构文件中对二硫键的链接方式进行了标注，而有的则没有标注。这些问题会在应用结构进行新药设计或者结构模拟时，给用户带来不便。

为了改善上述问题，未来的数据库开发可以从以下3个方面进行改进：

(1) 开发实用的去冗余软件。就蛋白质序列库而言，一般可认为相似的生物序列具有相似的结构和生物功能，因此，可采用序列对比和片段过滤等方式来比较和分析序列之间的相似度。进一步，从某个蛋白质家族中找出一个序列来代表整个家族，或者从一个结构和功能相近的蛋白质集合中找到一个序列来代表该集合。根据拟解决的科学问题不同，确定代表序列的规则可能有所差别，但其基本目标均是在最小化冗余度的基础上，达到最大的覆盖面。

(2) 成立国际学会等学术组织并制定相应规则，对数据结构、单位等进行规范化统一。在结构、单位等格式统一的前提下，更便于对开放性数据实现不同数据库之间的链接。

(3) 在蛋白质- 基因组- 疾病网络关系图日渐清晰的现状下，以疾病(如抗脑卒中、抗抑郁等)为索引，构建其信号通路上的蛋白质数据库以及药效团数据库，可便于围绕疾病开展的药物设计与筛选。

4 结语

基因组学和蛋白组学等学科的飞速进步，使得许多疾病的治疗靶标及其三维结构得以发现或确定，各种蛋白质、核酸等生物大分子数据库得到迅速扩充，这为基于结构的CADD和筛选提供了新的机遇。熟练应用这些数据库将会给基于结构的CADD和高通量虚拟筛选带来更大的进步。