丁德武, 夏启寿, 殷小玲
(池州学院 数学与计算机学院, 池州 247000)
蛋白质螺线管域检测的序列和结构方法综述
丁德武, 夏启寿, 殷小玲
(池州学院 数学与计算机学院, 池州 247000)
螺线管蛋白质在人类健康和蛋白工程领域的研究日益增多。螺线管域的识别有助于推断蛋白的功能和机制,研究蛋白的起源和进化,了解蛋白与蛋白的相互作用。当前,研究人员已经发展了从序列特征和结构特征两个角度识别蛋白质螺线管域的方法,对这些方法进行了概括总结。
螺旋管蛋白;螺旋管域;序列特征;结构特征
蛋白质的螺线管域(Solenoid domain)是一种由重复的蛋白质序列构成的特殊结构(又称螺线管结构),包含这种结构的蛋白质一般称为螺线管蛋白质(Solenoid protein)[1]。早在20世纪90年代,Marcotte等[2]就发现蛋白序列中存在大量的重复序列。随后,Andrade等[3]报道了这类序列会形成特定的重复性结构,进而促进蛋白的绑定,拉开了研究这类蛋白的序幕。 一般认为,螺线管蛋白质进化的更快一些,这为复制并进化出新的蛋白功能提供了重要的基础。此外,相连的重复序列也是形成蛋白-蛋白相互作用的重要结构基础[4]。据估计,大约三分之一的人类细胞蛋白质含有螺线管结构[5],因而螺线管蛋白质在人类健康[6]和蛋白工程[7]领域的研究日益增多。例如:人们发现细胞稳态平衡调控的mTOR可以通过N-端的螺旋管域相互作用形成二聚体,进而构成一个TOR调控单元[8]。在生物材料的应用方面,Peralta等[9]人论证了可以通过对β-螺旋管蛋白的修饰控制淀粉样蛋白的自组装。图1给出了几种常见的螺线管蛋白质。
图 1 几种常见的螺线管蛋白质[10]Fig 1 Examples of solenoid proteins[10]
一般地,螺线管域往往对应于蛋白质的结构单元或功能单元。因而,从序列层次上识别重复的序列片段有助于预测结构域(例如,通过重复的序列来确定域的边界)。对于没有任何同源信息的蛋白,螺线管域的识别可能给出它们折叠或者家族信息的线索,这有助于推断蛋白的功能和机制。此外,由于复制是产生新折叠结构的重要基础,确定重复的蛋白序列可能有助于了解蛋白折叠的起源,这有助于研究蛋白质的进化[11]。
识别螺线管域是理解它们的生理功能和进化机制的关键一环。研究人员已经发现了一些识别螺线管域的方法,这些方法主要包括序列特征和结构特征两个方面。表1给出了识别螺线管域的算法和在线工具。本文将对各方法进行简单的概括介绍。
表1 螺旋管域检测算法Table 1 Solenoid domain detection algorithms
短的重复序列一般具有保守的序列模式,因而可以依据常规的数据库搜索(如:PSI-BLAST)识别。然而,较长的螺线管域非常复杂。人们先后改进了基于序列比对、基于信号处理(如傅里叶变换)等方法来从序列层次上识别蛋白质的螺线管域。
1.1 基于序列比对的算法
人们先后发展了几种基于序列-序列比较来挖掘次优自比对的方法,如:REPRO[12], RADAR[13], TRUST[14],等等。这些方法从序列比对的角度出发,简单有效,可以检测基本的重复单元,并从序列中定位这些单元。近年来,人们也采用了基于蛋白序列HMM模型比较的方法,开发了HHrep[15]和HHrepID[16]。一般认为,HHrepID方法是所有基于序列比对的算法中性能最佳的,该方法从多序列同源比对的角度,使用HMM模型-HMM模型比较来探索进化信息(图2)。HHrepID方法可以产生重复序列的多重比对,也可以识别不同类型的重复序列,具有较高的准确性和灵敏度。例如:为了理解叶绿体蛋白的转运机制,Tsai等[17]最近使用HHrepID方法分析了豌豆的Tic110和红藻的CmTic110蛋白,分别得到了8个和12个重复的螺线管序列;这些重复的螺旋管域构成了蛋白相互作用的骨架结构。
最近,Fournier等[18]发现了一种通过神经网络识别alpha-螺线管域的方法,通过对一组包含alpha-螺线管域的典型序列进行训练,该方法(ARD2)可以高效地识别质询序列中的alpha-螺线管域。对PI3KC催化亚基的核心区域,RNA绑定蛋白,脂类绑定蛋白,TPR重复蛋白等分析证实了方法的高效性。此外,他们还发现检测到的alpha-螺线管域显著地富集在蛋白质相互作用位点附近,进一步确认了这种螺线管域结构的功能;并借助ARD2对不同物种间alpha-螺线管域的趋同进化进行了分析讨论。
但是,蛋白质螺线管域的序列差异性可能很大,所有基于序列比对的算法(包括HHrepID和ARD2等方法)都很难检测相似性较低的重复序列。
图 2 螺线管域检测方法HHrepID的主要步骤Fig 2 The main steps of the HHrepID solenoid domain detection algorithm
1.2 基于信号处理的算法
基于信号处理的蛋白螺线管域识别方法主要可分为利用傅里叶变换和小波变换两大类,其主要分析流程图3所示。
Biegert等最初尝试使用序列的傅里叶变换来搜索用户定义的特定周期性重复序列,开发了REPPER方法[19]。但是,REPPER方法的主要任务是分析纤维状蛋白质,且不容许在重复单元间有插入的氨基酸。随后发展的REPETITA方法利用5种重要的氨基酸特征(极性、二级结构、分子量、密码子多样性、电荷),采用离散傅里叶变换来检测重复序列,也具有很高的灵敏性[20]。Vlassi等[21]利用REPETITA方法识别了盐皮质激素受体中的蛋白质螺线管结构。盐皮质激素受体是人类的肾素-血管紧张素-醛固酮系统的一种主要组成部分,它具有3个不同的功能域。结合对蛋白质螺线管域的结构预测和分子动力学模拟表明这些功能域中的串联重复序列构成了β-螺线管域,进而形成了分子内和分子间相互作用的一个支架。但是与HHrepID等基于序列比对的算法一样,上述方法依赖螺线管域的序列相似性,也难以检测相似性较低的重复序列。
小波变换可以检测具有弱相似性的蛋白螺线管域中的重复序列。相对于傅里叶变换,小波变换的一个优势是可以同时获取光谱和时间信息。Murray等[22]最初使用连续的小波变换分析了多种蛋白重复序列模体,如:卷曲螺旋、亮氨酸重复序列,等等,并用以识别蛋白螺线管域。Vo等[10]认为小波分析可以自然地表示蛋白质结构和性质的5个主要因素,从而可以提取新颖的小波特征,从重复序列的相似性及它们与整个蛋白序列的差异来捕获隐藏的成分,最终获取重复序列的统计特征。
图 3 螺线管域检测信号处理方法的主要步骤Fig 3 The main steps of the signal processing solenoid domain detection algorithm
信号处理方法可以用于识别蛋白的螺线管域,而且小波变换克服了难以检测相似性较低重复序列的缺点,但是这一类方法难以处理含有连续插入的序列。
螺线管蛋白质进化较快,插入、删除或者突变造成的影响使得它们的重复周期在序列层次上迅速退化,造成序列的差异性可能很大,因而很难从序列层次上识别螺线管蛋白质中的所有螺线管域。例如,HMM模型比较只能识别出TLR蛋白质中不到一半的螺线管域。此外,由于蛋白质的结构比序列更保守。因此,从结构的层次上检测、分析这些重复序列更可靠。
当前,从蛋白结构的层次检测蛋白重复序列的方法主要有:DAVROS[23]和ProSTRIP[24],它们是最早提出从蛋白结构的层次检查重复的蛋白序列的检测方法,然而这些方法均是为检测所有类型的蛋白质结构重复序列而开发的,对蛋白质螺线管域的检测效果不佳,均不及特异性的螺线管域检测方法RAPHAEL和ConSole。
Walsh等[25]发展了RAPHAEL方法,首次从蛋白质结构的层次开展识别螺线管蛋白重复序列的研究。该方法结合傅里叶变换和机器学习分类,首先从蛋白结构中提取距离和重复周期特征,通过识别螺线管域、确定重复的周期、确定序列中的插入等步骤完成对螺线管蛋白重复序列的识别,识别螺线管蛋白的准确率可达到89.5%。该方法的一个突出特点就是可以识别含有连续插入的序列。RAPHAEL方法从PDB数据库中识别了1931个之前未发现的螺线管结构。随后,在RAPHAEL方法的基础上,Di Domenico等[26]收集、整理了PDB数据库中预测的重复单元,做了系统的注释,并对重复性的结构进行了分类。Hirsh等[27]进一步开发了重复蛋白单元预测(ReUPred)方法,他们利用RepeatsDB数据库构建了一个结构重复单元库,在此基础上发展了一个对重复单元快速识别和分类的工具。
ConSole则利用蛋白交互网络的模块化结构,首先提取螺线管域结构的范式,随后通过模板匹配确定单个的残基是否属于某个螺线管域,进而精确地识别螺线管蛋白的重复序列。此外,通过对精确预测得到的螺线管域的结构比对,ConSole有助于挖掘螺旋管域的序列模体[28]。Chakrabarty等[29]通过分析蛋白质结构图的特征谱和蛋白的二级结构信息,发展了一个与ConSole类似的蛋白重复结构识别方法AnkPred,借助这个工具,他们分析了蛋白结构数据库PDB中的所有蛋白,识别了641个之前未知的重复结构蛋白。
识别重复序列是理解它们的生理功能和进化机制的关键一环。在进化的过程中,重复序列的模式演变的异常复杂。因而,某种特定的算法很难识别所有的重复序列,针对不同的模式,可能需要选择合适的算法。此外,对重复序列的理解不仅要求高效地识别它们,还需要对识别出的重复序列进行整合以及比较分析等等。
[1]DERYUSHEVA E I, SELIVANOVA O M, SERDYUK I N. Loops and repeats in proteins as footprints of molecular evolution[J]. Biochemistry(Mosc), 2012, 77(13): 1487-1499.
[2]MARCOTTE E M, PELLEGRINI M, YEATES T O, et al. A census of protein repeats[J]. Journal of Molecular Biology, 1998, 293(1): 151-160.
[3]ANDRADE M A, PEREZ-IRATXETA C, PONTING C P. Protein repeats: structures, functions, and evolution[J]. Journal of Structural Biology, 2001, 134(2-3): 117-131.
[4]LI J, MAHAJAN A, TSAI M D. Ankyrin repeat: a unique motif mediating protein-protein interactions[J]. Biochemistry, 2006, 45(51): 15168-15178.
[5]KAJAVA A V. Tandem repeats in proteins: from sequence to structure[J]. Journal of Structural Biology, 2011, 179(3): 279-288.
[6]DE WIT J, HONG W, LUO L, et al. Role of leucine-rich repeat proteins in the development and function of neural circuits[J]. Annual Review of Cell and Developmental Biology, 2011, 27: 697-729.
[7]STEFAN N, MARTIN-KILLIAS P, WYSS-STOECKLE S, et al. DARPins recognizing the tumor-associated antigen EpCAM selected by phage and ribosome display and engineered for multivalency[J]. Journal of Molecular Biology, 2011, 413(4): 826-843.
[8]BARETIC D, BERNDT A, OHASHI Y, et al. Tor forms a dimer through an N-terminal helical solenoid with a complex topology[J]. Nature Communications, 2016, 7(1):11016.
[9]PERALTA M D, KARSAI A, NGO A, et al. Engineering amyloid fibrils from β-solenoid proteins for biomaterials applications[J]. ACS Nano, 2015, 9(1): 449-463.
[10]VO A, NGUYEN N, HUANG H. Solenoid and non-solenoid protein recognition using stationary wavelet packet transform[J]. Bioinformatics, 2010, 26(18): i467-i473.
[11]SÖDING J, LUPAS A N. More than the sum of their parts: on the evolution of proteins from peptides[J]. Bioessays, 2003, 25(9): 837-846.
[12]GEORGE R A, HERINGA J. The REPRO server: finding protein internal sequence repeats through the Web[J]. Trends in Biochemical Sciences, 2000, 25(10): 515-517.
[13]HEGER A, HOLM L. Rapid automatic detection and alignment of repeats in protein sequences[J]. Proteins, 2000, 41(2): 224-237.
[14]SZKLARCZYK R, HERINGA J. Tracking repeats using significance and transitivity[J]. Bioinformatics, 2004, 20(S1): i311-i317.
[15]SÖDING J, REMMERT M, BIEGERT A. HHrep: de novo protein repeat detection and the origin of TIM barrels[J]. Nucleic Acids Research, 2006, 34(Web Server issue): W137-W142.
[16]BIEGERT A, SÖDING J. De novo identification of highly diverged protein repeats by probabilistic consistency[J]. Bioinformatics, 2008, 24(6): 807-814.
[17]TSAI J Y, CHU C C, YEH Y H, et al. Structural characterizations of the chloroplast translocon protein Tic110[J]. The Plant Journal, 2013, 75(5): 847-857.
[18]FOURNIER D, PALIDWOR G A, SHCHERBININ S, et al. Functional and genomic analysis of alpha-solenoid proteins[J]. PLoS ONE, 2013, 8(11): e79894.
[19]GRUBER M, SÖDING J, LUPAS A N. REPPER--repeats and their periodicities in fibrous proteins[J]. Nucleic Acids Research, 2005, 33(Web Server issue): W239-W243.
[20]MARSELLA L, SIROCCO F, TROVATO A, et al. REPETITA: detection and discrimination of the periodicity of protein solenoid repeats by discrete Fourier transform[J]. Bioinformatics, 2009, 25(12): i289-i295.
[21]VLASSI M, BRAUNS K, ANDRADE-NAVARRO M A. Short tandem repeats in the inhibitory domain of the mineralocorticoid receptor: prediction of a β-solenoid structure[J]. BMC Structural Biology, 2013, 13:17.
[22]MURRAY K B, GORSE D, THORNTON J M. Wavelet transforms for the characterization and detection of repeating motifs[J]. Journal of Molecular Biology, 2002, 316(2): 341-363.
[23]MURRAY K B, TAYLOR W R, THORNTON J M. Toward the detection and validation of repeats in protein structure[J]. Proteins, 2004, 57(2): 365-380.
[24]SABARINATHAN R, BASU R, SEKAR K. ProSTRIP: A method to find similar structural repeats in three-dimensional protein structures[J]. Computational Biology and Chemistry, 2010, 34(2):126-130.
[25]WALSH I, SIROCCO F G, MINERVINI G, et al. RAPHAEL: recognition, periodicity and insertion assignment of solenoid protein structures[J]. Bioinformatics, 2012, 28(24): 3257-3264.
[26]DI DOMENICO T, POTENZA E, WALSH I, et al. RepeatsDB: a database of tandem repeat protein structures[J]. Nucleic Acids Res, 2014, 42(Database issue): D352-D357.
[27]HIRSH L, PIOVESAN D, PALADIN L, et al. Identification of repetitive units in protein structures with ReUPred[J]. Amino Acids, 2016, 48(6):1391-1400.
[28]HRABE T, GODZIK A. ConSole: using modularity of contact maps to locate solenoid domains in protein structures[J]. BMC Bioinformatics, 2014, 15:119.
[29]CHAKRABARTY B, PAREKH N. Identifying tandem Ankyrin repeats in protein structures[J]. BMC Bioinformatics, 2014, 15:6599.
Sequence and structure methods for detection of solenoid domain in proteins
DING De-wu, XIA Qi-shou, YIN Xiao-ling
(Department of Mathematics and Computer Science, Chizhou College, Chizhou 247000, China)
Research on solenoid proteins in human health and protein engineering are growing. Identification of the solenoid domain helps to infer protein function and mechanism, to study protein origin and evolution, and to understand the protein-protein interactions. Currently, researchers have developed solenoid domain recognition approaches from both sequence and structural features, which are summarized in this paper.
solenoid protein; solenoid domain; sequence feature; structural feature
2016-03-29;
2016-04-11
安徽省教育厅自然科学研究重点项目(KJ2015A264, KJ2015A290)
丁德武,硕士,讲师,主要研究领域为计算智能、生物信息学等,E-mail:dwding2008@aliyun.com
夏启寿,硕士,副教授,主要研究领域为计算机智能与计算机应用技术,E-mail:qishouxia@126.com;殷小玲,硕士,副教授,主要研究领域为计算机智能与计算机应用技术,E-mail:89081489@qq.com
TP339;Q5
A
2095-1736(2017)01-0085-04
doi∶10.3969/j.issn.2095-1736.2017.01.085