冯志国, 王一帆,李 琳,刘振振,卢甜甜, 刘慧娟
(1. 琼台师范学院 a. 理学院; b. 热带生物多样性与资源利用实验室,海南 海口571000; 2. 信阳师范学院 生命科学学院,河南 信阳 464000)
果蝇作为模式生物对研究动物免疫具有重要作用。目前在黑腹果蝇体内已发现了 8 种抗菌肽[1]。果蝇抗菌肽SK66是一种富含甘氨酸的多肽,主要对革兰氏阳性菌有强烈的抑制作用。据报道[2]SK66对子宫颈癌细胞Hela的细胞增殖有明显的抑制效果,细胞的存活率为77%。SK66可能通过细胞膜上某种受体作用使细胞穿孔,形成了阳离子通道。这说明 SK66能在细胞上形成阳离子通道,使细胞膜形成穿孔,原生质严重泄漏,细胞裂解死亡。
昆虫不具备特异性免疫系统,其利用自身产生的各种昆虫抗菌肽来应对损伤和感染[3]。SK66是一个编码N端为丝氨酸、C端为赖氨酸且含有66个氨基酸残基的富甘氨酸果蝇抗菌肽[4-5]。富含甘氨酸(Gly)的抗菌肽的共同特点是一级结构中含甘氨酸,有些是全序中富含甘氨酸[6],果蝇抗菌肽SK66结构域中富含甘氨酸。SK66能杀灭宫颈癌细胞Hela, 经SK66处理后子宫颈癌细胞Hela的贴壁性很快被破坏,大量细胞悬浮并死亡[7]。通过MTT试验,发现SK66能够显著抑制子宫颈癌细胞 Hela 的增殖[8]。
在对该抗菌肽所报道信息的挖掘下发现,编码SK66多肽的基因CG13551属于IATP家族,而该家族主要对线粒体ATP酶起抑制作用。在人类中编码该家族成员的基因为ATPIF1。该基因与人类的众多疾病的发生以及治疗相关。在模式动物试验中,敲除掉小鼠基因组中的Atpif1基因,纯合变异小鼠表现出过度兴奋和脑部发育异常的症状,雄性小鼠还表现出循环碱性磷酸酶水平下降的现象[9]。ATPIF1KO组小鼠肠道结构、线粒体超微结构得到改善,肠上皮细胞线粒体吞噬功能增强,细胞凋亡率减少,腺核苷酸转位酶2(ANT2)蛋白减少,肠道微生物区系完整[10]。对于一些线粒体疾病,抑制ATPIF1的功能可以改善严重的电子传递链机能障碍[2]。利用模式动物斑马鱼的试验中发现Atpif1缺失有助于先天性铁粒幼细胞性贫血和线粒体疾病等人类疾病的治疗。
抗菌肽SK66是由果蝇CG13551基因所编码的多肽,该多肽抗菌效果显著[2]。因此,本文通过生物信息学的手段从美国国家生物技术信息中心NCBI、欧洲分子生物学实验室EMBL 等生物数据库检索出CG13551基因氨基酸序列信息,找到其所从属的基因家族,并在一些常见的模式生物中找出该基因家族的成员,并用各种软件对其蛋白的进化关系、结构、性质及功能进行系统的分析和预测,希望能够对该基因编码的多肽以及其所从属的基因家族,以及成员之间的进化有所了解。
SK66是由果蝇基因CG13551所编码的多肽。利用该基因ID,登录NCBI(National Center for Biotechnology Information)主页(http://www.ncbi.nlm.nih.gov/),在“All Databases”对话框栏中输入检索词“CG13551”,单击Search 检索。Protein 数据库命中5条记录。点击“Proteins-Protein”进入数据库,其中排在第三位、登录号为 NP_726315.1的记录是符合要求的记录,单击进入显示相关信息。单击右上角Send to下拉菜单选择“FileFASTA”选项,将该蛋白序列(sequence.fasta)进行本地下载。并将序列保存在sequence.txt文件中。
通过瑞士生物信息学研究所的蛋白分析专家系统(Expert Protein Analysis Systerm,ExPASY,http://web.expasy.org/protparam/) 分析蛋白质序列理化参数,如分子量、等电点、氨基酸组成、摩尔消光系数、脂肪系数和总平均亲水性等分析。利用ProtScale 程序(http://web.expasy.org/protscale/) 预测SK66蛋白的亲疏水性。 利用在线工具SignalP (http://www.cbs.dtu.dk/services/SignalP)预测蛋白质信号肽。使用TMHMM服务器 (http://www.cbs.dtu.dk/services/TMHMM/) 预测跨膜区结构域。利用波兰Bio-Informatique Lyonnais( http://npsa-pbil.ibcp.fr/cgi-bin/npsa_-automat.pl?page=/NPSA/npsa_seccons.html)对蛋白质二级结构进行预测。利用Swiss-model Workspace (http://swissmodel.expasy.org)对蛋白质的空间构象建模。
进入简单分子结构在线分析工具(Simple Modular Architecture Research Tool,SMART,http://smart.embl-heidelberg.de/)主页,利用“Sequence analysis”一栏中的“Protein sequence”,在该栏中粘贴SK66蛋白序列。将“Outlier homologues and homologues of known structure”等四项全部打钩选中,执行“Sequence SMART”,得到该蛋白质的PFAM domain为IATP,其Pfam号为PF04568。通过欧洲分子生物学实验室的Pfam分析网站(http://pfam.xfam.org/),在JUMP TO栏中输入“IATP”,对该domain信息进行了解。在HMM information中下载IATP基因家族保守domain的隐马科夫模型。在欧洲分子生物学实验室与维尔康姆基金会桑格研究所联合出版在线网站(Ensembl,http://www.ensembl.org/index.html),下载果蝇(Drosophilamelanogaster)、斑马鱼(Daniorerio)、人(Homosapiens)、河豚(Tetraodontidae)、小鼠(Musmusculus)的Protein sequence和Annotated sequence,保存为FASTA格式文件。通过Xshell端口将文件上传至本地服务器数据库中,利用HMMsearch将这些物种中IATP家族成员序列调取出来。将成员序列保存至All sequence. FASTA文件中。
打开MEGA7.0,利用“Align”菜单下的“Edit/Build Alignment”选项,新建一个蛋白质序列比对。将保存的All sequence.FASTA文件打开并用MUSCLE Align Protein,保存文件All sequence.mas。在主窗口中打开上步保存的All sequence.mas文件,序列输入到MEGA软件中。在主窗口点击“Phylogeny”执行“Construct/Neighbor-Joining”,选择临近法操作,得到NJ进化树。
通过NCBI主页( http://www.ncbi.nlm.nih.gov/),在Protein 数据库中检索得到的SK66蛋白序列文件,如图1所示。
图1 利用Clustal2.0显示的SK66蛋白序列Fig. 1 SK66 protein sequence as shown by Clustal2.0
利用在线工具对蛋白质的各种理化性质进行预测,SK66蛋白含有107个氨基酸残基,分子量约11 948.3 Da,理论等电点为8.96。其不稳定系数为56.12,根据不稳定参数值在40以下才是稳定蛋白的标准,可推定该段蛋白稳定性一般。脂肪系数为63.93,疏水性评估系数为-0.903。该蛋白中,甘氨酸(Gly)含量最高,为14.0%;其次为谷氨酸(Glu)和丙氨酸(Ala),分别为11.2%和9.3%。
使用ProtScale对SK66蛋白的亲疏水性进行预测,分值越低代表亲水性越强,分值越高疏水性越强。图2结果表明该蛋白质亲水性最大的氨基酸是精氨酸,分值为-4.5;疏水性最大的氨基酸是异亮氨酸,分值为4.5。由图2可知,从整体上看来,该蛋白的亲水性氨基酸要远远多于疏水性氨基酸,因此可以认为SK66蛋白是一个亲水蛋白质。
图2 SK66氨基酸亲水性/疏水性轮廓Fig. 2 Hydrophilic/hydrophobic profile of SK66 amino acid
利用在线工具SignalP预测到SK66蛋白信号肽,并未显示信号肽剪切位点。预测该蛋白并非分泌蛋白,如图3所示。
图3 SK66蛋白信号肽预测结果Fig. 3 Prediction results of SIGNAL peptide of SK66 protein
跨膜结构是蛋白质与膜内在蛋白的静电相互作用和氢键相互作用与膜结合的一段氨基酸片段,一般由20个氨基酸左右的疏水性氨基酸残基组成,主要形成α-螺旋[6]。预测和分析利用在线软件TMHMM2.0 Server对果蝇抗菌肽SK66蛋白进行跨膜结构分析,不存在跨膜结构域(见图4)。
图4 SK66蛋白跨膜区预测结果Fig. 4 Prediction results of SK66 protein transmembrane region
蛋白质的空间结构决定了它的生物学功能,而它的空间结构又由其一级结构即氨基酸序列决定。蛋白质二级结构包括α-螺旋、β-折叠、β-转角以及无规则卷曲等构象。利用波兰Network Protein Sequence Analysis对果蝇的抗菌肽SK66蛋白二级结构预测(图5)。其中α-螺旋(helix)占57.96%,β-折叠占(sheet)10.28%,无规则卷曲(coil)占31.78%。
图5 SK66蛋白二级结构预测结果Fig. 5 Prediction results of secondary structure of SK66 protein
蛋白质三维结构的预测对研究蛋白质的功能至关重要。常用于预测蛋白质三维结构的方法有从头预测法和同源建模的方法。本文中使用同源建模的方法来对SK66蛋白的三维结构进行预测。利用Expasy中的SWISS-MODEL同源建模方法预测SK66蛋白的三级结构,获得SK66蛋白的三维结构模型(图6)。由图6可知,α-螺旋(占主要部分)。
图6 SK66蛋白三维结构模型预测Fig. 6 Prediction of THREE-DIMENSIONAL structure model of SK66 protein
本文所探讨的果蝇抗菌肽SK66蛋白质序列在SMART网站中,进行motif分析后发现,该多肽含有一保守的domain, 名称为IATP(如图7所示)。该domain从多肽的第三位氨基酸至第107位氨基酸。在Pfam网站上输入该保守domain的Pfam号,得知IATP家族主要功能为线粒体ATP酶抑制剂。在人类中该酶是由ATP1F1基因所编码。该基因在翻译时会发生可变间接,并且已经检测到3个不同的转录本。在电子传递链受损时,线粒体ATP酶抑制剂能够抑制ATP酶水解ATP[9]。每一个ATP合酶抑制剂都与F1ATP酶由α-β连接起来。ATP合酶抑制剂通过组织ATP的释放来抑制ATP合酶的功能[6,10]。该抑制剂有二聚体和四聚体两种低聚物状态,活性状态时变现为二聚体状态。在低pH值时,该抑制剂形态表现为由两个单体的C末端经反平行的螺线圈连接而成的二聚体。在高pH值时,该抑制剂表现为四聚体状态,四聚体由螺线圈将N末端和抑制活性区连接的所构成。由于四聚体的抑制活性区被连接隐藏,该酶无抑制活性。
图7 保守domain-IATP模式图Fig. 7 Diagram of the conservative Domain-IATP schema
在HMM information中下载IATP基因家族保守domain的隐马科夫模型。将所选取物种的蛋白质序列以及IATP家族的隐马尔科夫模型通过Xshell终端上传至服务器。每个物种建立相关文件夹,在终端对话框中利用Linux系统中的HMMSearch功能,执行命令“nohup hmmsearch-E 1e-5-domtblout IATP.hmm.txt IATP.hmm某物种蛋白质库 > IATP.hmm.out &”,分别找出果蝇(Drosophilamelanogaster)、斑马鱼(Daniorerio)、人(Homosapiens)、河豚(Tetraodontidae)、小鼠(Musmusculus)的IATP家族成员。由于所得到的序列中可能存在一些不属于或不含IATP domain的蛋白,因此需要将这些伪成员剔除。将这些IATP家族成员在MEME(Multiple Em for Motif Elicitation)在线网站进行motif检测分析。对所得到的家族成员进行初次筛选,去除不含有IATP domain的家族成员。为了确保所得序列确实是均为IATP家族以及实验的严谨。利用SMART网站的序列检测分析每一个家族成员的保守domain。结果发现共有来自5个物种的12条序列含有IATP Pfam,均为IATP家族成员。图8所示的1号矩形框为IATP Pfam。
根据Mega软件中的muscle对不同来源的IATP家族成员蛋白氨基酸序列进行序列对齐(如图9所示)
图8 5个物种中12条序列的motif模型Fig. 8 Motif models of 12 sequences in five species
图9 利用Clustal2.0对SK66蛋白进行的比对结果Fig. 9 Comparison results of SK66 protein using Clustal2.0
根据相似度进行同源性分析,利用MEGA 7.0作同源树,并用TreeView 进行显示(图10)。
注:A为人(Homo sapiens),B为小鼠(Mus musculus),C为河豚(Tetraodontidae),D为斑马鱼(Danio rerio),E为果蝇(Drosophila melanogaster)。
图10进化树显示,主要分成两类,较为高等的动物分为第一类包括:人、小鼠、河豚,而较为低等的动物归为一类包括:斑马鱼、果蝇。这与物种的进化程度相一致。
应用生物信息学方法和工具对果蝇抗菌肽SK66蛋白的理化性质、信号肽、疏水性/亲水性、二级结构、三级结构、结构域、蛋白质的功能分类和氨基酸同源性进行了分析。结果显示,SK66蛋白为一亲水性的分泌蛋白,编码该蛋白的基因属于IATP家族成员。通过利用IATP家族保守domain隐马尔科夫模型,进行不同物种蛋白质库家族成员搜索,多重比对和进化分析,发现了从属于同一IATP家族、不同动物来源的进化关系。分布在不同物种中的IATP家族成员的进化关系,是与这些物种的进化程度成正比关系的。在后续的研究中,可在模式动物基因组内发现旁系同源的基因或蛋白,从而可以更好地研究该基因乃至该家族成员的功能。这些分析和预测为进一步研究IATP家族成员在对于线粒体疾病的预防和治疗以及其潜在功能打下理论基础。