孙翰昌,庞 敏,靳 涛
(重庆文理学院生命科学与技术学院,重庆永川402168)
斑马鱼(Danio rerio)是鲤科短担尼尔属的一种热带观赏鱼[1]。斑马鱼作为一种新型的脊椎模式生物,可以进行大规模的正向基因饱和突变与筛选[2]。随着斑马鱼基因组测序工程的完成,接着需要进行的就是斑马鱼的基因功能组、转录组、蛋白质组及代谢组学的研究。较准确地注释斑马鱼基因组以及从整体上了解基因家族的结构特点和功能对积极推动基因功能研究具有重要意义。
成纤维细胞生长因子(fibroblast grow th factors,FGFs)是一类结构相似的能促进成纤维细胞生长的多肽家族,其成员主要分布在脑神经、肾、卵巢、胎盘、肝脏、骨肌、睾丸、成纤维细胞、肾上腺皮质、粒细胞和巨噬细胞等组织和细胞[3],通过与细胞膜特异受体结合发挥其生物学功能。FGF家族成员多数都具有一个N端信号肽,属于典型的分泌型生长因子,可被细胞分泌到胞外,以自分泌或者旁分泌形式发挥调控作用[4]。因此,研究FGF成员的信号肽结构对于研究其在生物体内的分泌途径,可以揭示它在胚胎发育、组织形成与修复、炎症、血栓形成、肿瘤发生等生理及病理过程中的作用途径。
本文利用分析准确率较高的Signal P3.0[5]、TMHMM 2.0、Big.PI-Predictor和 Target P1.01四种软件对斑马鱼FGF中分泌型蛋白的信号肽进行预测,并对其信号肽的特征进行分析。
1.1 材料 用于分析的斑马鱼成纤维细胞生长因子基因序列来源于NCBI(National Center for Biotechnology Information)数据库,斑马鱼FGF家族成员共26个。
1.2 方法 采用表1的网络服务器和软件对斑马鱼FGF信号肽进行分析。Signal P3.0软件分析斑马鱼FGF的N端氨基酸序列,确定是否存在信号肽。Signal P3.0的预测结果采用分泌信号肽判别式:L=-918.235-123.455*(Smean)+1 983.44*(HMM)对上述预测值进行判定,当L值>0,即表示该蛋白具有分泌信号肽[5];TMHMM 2.0软件,对该序列的跨膜区进行分析;利用Big-PI predictor对蛋白的GPI-锚定位点进行预测;最后采用Target P1.1软件预测靶标肽段在亚细胞器中的分布和定位,进一步确定该信号序列是否为穿膜信号肽。最后采用Signal P3.0软件对信号肽N、H、C结构域进行分析。
表1 斑马鱼FGF信号肽分析涉及到的Internet资源
2.1 信号肽的预测分析 采用生物信息学软件和网络服务器对26个斑马鱼成纤维细胞生长因子的N-末端信号肽、GPI锚定位点、跨膜结构以及分泌途径进行分析,研究结果显示,26个斑马鱼FGF中有10个可能具有N-末端信号肽,均无GPI-锚定位点,其中8个跨膜螺旋为0,2个均具有1个跨膜螺旋区,并且10个信号肽序列均具有分泌途径的信号肽(SP)。综合分析,满足具有可溶性分泌信号肽的蛋白有10个,所占比例达到38.5%。
2.2 斑马鱼FGF信号肽特征分析 采用生物信息学和统计学分析20种氨基酸残基在斑马鱼FGF分泌型蛋白信号肽中的出现频率,结果如图1所示。研究结果显示,在组成信号肽的氨基酸中,非极性氨基酸出现的频率最高(A 、L、P、V)占43.8%;其次是带负电荷的氨基酸(D、E 、F、H 、I、T 、M 、W 、Y)占23.5%;极性氨基酸(G 、N 、Q 、S)为 21.2%;出现频率最低的是带正电荷的碱性氨基酸(R、K)占7.1%。20种氨基酸的出现频率从高到低为L→A→S→V→C→T→G→M →R→F→P→W→Q→I→K→Y→E→N→H→D,其中亮氨酸(L)出现的频率最高,为 19%,天冬氨酸(D)出现的频率最低为0.3%(图1)。同时,发现丙氨酸、缬氨酸、亮氨酸、丝氨酸、半胱氨酸、甲硫氨酸、精氨酸等脂肪族氨基酸的使用频率都大于5%,这可能与信号肽的功能相关,使其更易穿过质膜。
图1 斑马鱼FGF分泌蛋白信号肽中氨基酸的使用频率
斑马鱼FGF分泌蛋白及信号肽长度,见表2,分泌蛋白长度变化范围为187至258个氨基酸之间,平均为212个氨基酸,信号肽长度变化范围为17至39个氨基酸,平均为30个氨基酸。信号肽的结构基本相似,而信号肽长度的变化说明信号肽具有高度的变异性,这可能与蛋白功能多样化及生物进化相关。
表2 10种FGF蛋白多肽链及信号肽长度
斑马鱼FGF分泌蛋白信号肽包括N结构域、C结构域、H结构域3个功能域。由表3可以看出,斑马鱼FGF分泌蛋白信号肽N结构域的长度变化为3至23个氨基酸,平均为15个氨基酸;H结构域的长度变化为10至12个氨基酸,平均为10.6个氨基酸;这种信号肽的N结构域和H结构域的变化可能与不同生物物种有关。在信号肽中,除了FGF19(NP001012246),FGF4(NP571710)外,其 N区平均含有1~2个正电荷的赖氨酸K或精氨酸R,其中FGF10a(NP878290)含的最多为4个。C结构域在-3位置上缬氨酸(V)出现的次数最多为6次,丙氨酸出现3次,半胱氨酸出现最少为1次;-2位置上亮氨酸、丝氨酸、天冬氨酸、赖氨酸都出现3次,丙氨酸和谷氨酸各出现1次;-1位置上丝氨酸和丙氨酸都出现3次,甘氨酸和半胱氨酸出现2次。
表 3 10种 FGF蛋白的N、H、C结构域
2.3 编码分泌小蛋白的亚细胞位置 蛋白质的亚细胞定位是蛋白质组学研究的重要信息,也是蛋白质功能研究的重要方面。了解蛋白质的亚细胞定位信息,可以为我们推断蛋白质的生物学功能提供必要的帮助。因此,本文采用Subloc v 1.0预测了26个小蛋白的亚细胞位置。从图2可看出,这些蛋白的功能场所包括细胞核、线粒体、细胞质和细胞外。其中分泌到细胞核的蛋白数量是最多的,提示细胞核可能是这些蛋白的主要功能场所。
图2 斑马鱼26个FGF蛋白的亚细胞定位
本研究通过应用 Signal P3.0、TMHMM v 2.0、Big-PIpredictor、TargetPv1.1四种准确度比较高的蛋白分析组合软件对斑马鱼26个FGF分泌蛋白氨基酸序列进行分析和研究,发现有10个FGF蛋白具分泌信号肽。斑马鱼FGF蛋白信号肽的氨基酸组成主要以非极性的氨基酸残基为主,这可能与信号肽的功能与质膜识别的属性有关。但是信号肽长度有一定的差异,说明信号肽可能具有高度的变异性。蛋白质只有转运到正确的靶部位才能参与细胞的各种生命活动[6]。蛋白质要转运到正确的部位是由信号肽决定的,不同的作用位点,对应不同的信号肽。
已有研究表明,多数分泌蛋白在多肽的N端具有信号肽用于指导蛋白运送到蛋白的正确作用位点。尽管不同的分泌蛋白的信号肽存在差异,但一般包括3个明显的结构域,即N结构域、H结构域、C结构域[7]。本研究也获得了相同的信息,具备分泌蛋白特征的斑马鱼FGF蛋白的信号肽均具有上述3个结构域,但是各个结构域的长度和氨基酸组成有一定差异。这可能和它们的分泌功能和分泌特性有关。
通过对斑马鱼FGF氨基酸序列的分析,发现在构成信号肽的氨基酸具有一定的保守性,如主要以非极性的为主且在酶切位点的氨基酸残基的组成中几乎没有酸性氨基酸和碱性氨基酸,这可能与信号肽的与质膜识别的属性有关。但是信号肽本身却是高度进化的,在所分析的具有信号肽的蛋白中没有相同的信号肽,他们的同源性也很差。这种情况可能与信号肽功能的精密分工是密切相关的。因为蛋白要行使其正确的功能,首先必须移位到其正确的亚细胞作用位点。亚细胞位点的识别正是由信号肽决定的,不同的作用位点,就应该有不同的信号肽[7]。但是每一类蛋白的信号肽的保守和进化程度如何,还需要更多的信号肽的信息。
[1] 全珊珊,吴新荣.斑马鱼,人类疾病研究的理想模式动物[J].生命的化学,2008,28(3):260-263.
[2] 刘昌盛,穆宇,杜久林.斑马鱼在生命科学研究中的应用[J].生命科学,2007,19(4):382-386.
[3] 林剑,许雁,刘春宇.碱性成纤维细胞生长因子[J].暨南大学学报:自然科学版,1993,14(1):99-104.
[4] 孙翰昌.草鱼成纤维细胞生长因子-8(FGF8)的cDNA克隆与序列分析[D].重庆:西南大学,2007:1-5.
[5] 周晓罡,李成云,赵之伟,等.粗糙脉孢菌基因组分泌蛋白的初步分析[J].遗传,2006,28(2):200-207.
[6] 张松,黄波,夏学峰,等.蛋白质亚细胞定位的生物信息学研究[J].生物化学与生物物理进展,2007,34(6):573-579.
[7] 范成明,李成云,赵明富.根癌土壤杆菌C58 Cereon中分泌蛋白信号肽分析[J].微生物学报,2005,8(4):561-566.