靳泽希,冯 芬,邓晓银,王维民,2
(1.甘肃农业大学,甘肃 兰州 730070;2.甘肃省肉羊繁育生物技术工程实验室,甘肃民勤 733300)
神经原相关的细胞粘附分子(neuro-related celladhesion molecule,NRCAM)是一种跨膜的细胞粘附分子,它有多种亚型,目前已经鉴定出的有20多种。NRCAM属单基因家族,其不同亚型的形成是由单个NRCAM基因通过不同的转录、转录后加工、翻译、翻译后加工形成的。NRCAM属于免疫球蛋白超基因家族[1-2],它是一种能介导细胞之间及细胞与细胞外基质间相互作用的糖蛋白,在细胞的识别及转移、肿瘤的浸润与生长、神经再生、跨膜信号的传导、学习和记忆等方面均发挥一定的作用。神经细胞粘附分子在组织形成和细胞迁移以及神经突长出中起着重要作用,它还可以通过胞内区与细胞骨架蛋白或第二信使的结合参与信号传导过程。例如,传统的钙粘素通过参与细胞极性建立、细胞增殖、轴突延长和聚集等基本过程,在动物细胞的形态中发挥着重要作用[3]。Zhou WB 等[4]发现,将周围神经植入脑中几天后,丘脑、纹状体部位神经元直接朝向周围神经移植物的方向生长,进入雪旺细胞柱中,而在雪旺细胞和神经元表面均有NRCAM的表达,表明NRCAM在神经的再生过程中担当着重要角色。Doherty P等[5]对鸡NRCAM基因的分析发现,NRCAM基因由内含子和26个外显子组成,这26个外显子的结构在不同的物种和属之间是相当恒定的,但内含子是不同的。目前,人、家鼠、牛、狗、猪、绵羊、鸡、兔子等动物的NRCAM基因序列均已经公布,但对其结构和功能的研究有待进一步研究。我们以生物基因组数据库调取的绵羊NRCAM的序列为基础,利用生物信息学方法对不同物种NRCAM基因及其编码蛋白的理化性质、二级结构及多参数预测、蛋白质跨膜结构、信号肽预测、亚细胞定位和三级结构等进行了分析,以期为深入研究NRCAM基因及其编码蛋白基本结构和生物学功能提供理论基础。
数据来源于NCBI网站的GenBank数据库[6],包括绵羊 (XM_027968593.1)、牛(NM_001206562.1)、人(NM_001193583.1)、家鼠(XM_017594291.1)、猪(XM_021063526.1)、狗(XM_014120801.2)、兔子(XM_00825 8357.2)和鸡(XM_015280741.2)等 8个物种的mRNA序列。括号内为GenBank登录号。
绵羊NRCAM基因开放阅读框(Open reading frame,ORF)采用 NCBI的 ORF Finder程序分析,参照Kozak法则;NRCAM编码产物的理化性质采用Bioedit及ExPASy分析软件预测[7];亚细胞定位采用PSORTⅡ预测[8-9];蛋白潜在信号肽剪切位点预测采用Signalp 3.0软件;跨膜螺旋区域的预测采用TMHMM程序;蛋白保守结构域分析采用Smart软件。采用ProtScale进行蛋白亲疏水性分析。二级结构采用Jpred分析预测。采用Swiss-model软件分析蛋白三级结构多序列比对,同源性分析采用DNAMAN软件。
通过图1可以看出,绵羊NRCAM基因序列中有1条最大长度为3 648 bp的ORF,起始密码子位于405 bp处,终止密码子位于4 052 bp处,推测编码1 215个氨基酸残基。
蛋白质的基本性质包括其相对分子质量、氨基酸组成和等电点等[10]。对绵羊NRCAM基因编码产物理化性质的分析表明,绵羊NRCAM基因编码1 215个氨基酸残基,其分子式为C5995H9389N1613O1830S32,分子质量为134 367.13 KDa,理论等电点pI为5.49。其氨基酸组成如图2所示,其中含量最多的氨基酸是Leu(亮氨酸),所占比例为8.3%;含量最少的氨基酸是Cys(半胱氨酸),所占比例1.2%。负电荷残基总数(Asp+Glu)为 148,正电荷残基总数(Arg+Lys)为 121。基因编码产物半衰期为30 h,不稳定指数为40.22,不稳定指数为40.22>40.00,可确定该基因编码产物属不稳定蛋白。
绵羊NRCAM基因对蛋白亚细胞的定位结果见表1。可以看出,绵羊NRCAM蛋白的亚细胞分布于细胞质的可能性为26.1%,分布于细胞核的可能性为17.4%,分布于囊泡分泌系统、线粒体的可能性均为13.0%,分布于高尔基体、内质网的可能性均为8.7%,分布于细胞骨架、细胞外及细胞壁、质膜的可能性均为4.3%。由此推断,绵羊NRCAM基因的编码产物主要在细胞质中发挥生物学作用。
表1 NRCAM编码产物的亚细胞定位预测结果
从图3、图4可以看出,NRCAM在很多物种中都有表达,且绵羊与牛的NRCAM氨基酸序列同源性较高,这也说明它们在进化过程具有较近的亲缘关系。NRCAM基因编码产物同源树证明,该基因的编码产物在绵羊和牛上的同源性最高,达99%。
信号肽序列是存在于分泌蛋白基因编码序列中、在起始密码子之后的1段富含疏水氨基酸多肽的序列。通过检测绵羊NRCAM蛋白潜在信号肽的存在情况可判断该基因编码的产物是否为分泌蛋白和跨膜蛋白以及跨膜蛋白的基本信息。从图5看出,绵羊NRCAM基因编码产物的C值、Y值和S值分别为0.474、0.580和0.929。推断NRCAM基因的编码产物包含信号肽,剪切位点位于29、30残基处,属于分泌蛋白。
用TMHMM2.0软件分析的结果显示,该基因编码的蛋白有1段跨膜结构(图6),其中1~1 074位氨基酸在细胞膜外,其余氨基酸在细胞质内。
由Smart软件分析可知,绵羊NRCAM第59~130位、第283~347位、第373~439位、第467~532位和第558~623位氨基酸残基存在IGc2区,第152~239位氨基酸残基存在于IG区,第625~635位氨基酸残基均为低复杂性区域,第647~730位、第747~830位、第846~937位和第952~1037位氨基酸残基存在于FN3区,第1075~1 097位氨基酸残基存在于跨膜区(图7、表2)。
表2 绵羊NRCAM蛋白保守结构域分析数据
该基因编码蛋白疏水性最大值为4.078(1 090位),最小值为 -3.022(790~791位),图形的高峰值(正值)区域表示疏水的区域,而负值的“低谷”区域是亲水区域。整条链中亲水性氨基酸残基多于疏水性氨基酸残基。因此可推测该基因编码的蛋白是亲水性蛋白(图8)。
通过Jpred软件分析可知(图9),绵羊NRCAM蛋白二级结构如下:α螺旋(Hh)、β折叠(Ee)、无规卷曲(Cc)分别占2.96%、42.13%、54.89%。可以看出NRCAM基因编码的二级结构中无规卷曲占主导地位,其次是β折叠。
通过在线工具Swiss-model对绵羊NRCAM蛋白三级结构的预测和分析(图10)可知,NRCAM基因编码蛋白的三级结构与二级结构预测的结果一致,主要由无规卷曲和β折叠缠绕形成。
绵羊NRCAM基因含有1个最大长度为3 648 bp的ORF,编码1 215个氨基酸残基;亮氨酸所占比例最多,为8.3%,分子质量为134 367.13 KDa,理论等电点pI为5.49。NRCAM编码的产物为不稳定性蛋白。NRCAM蛋白的亚细胞定位在细胞质的可能性最大,为26.1%。NRCAM基因在很多物种中都有表达,绵羊和牛在同源树中同源性达到99%。NRCAM基因的编码产物中包含信号肽,该蛋白是分泌蛋白。该基因编码的蛋白有1段跨膜结构。NRCAM基因编码的蛋白为亲水性蛋白,亲水性氨基酸残基多于疏水性氨基酸残基。绵羊NRCAM基因编码产物的二级结构主要以无规卷曲和β折叠为主,三级结构主要由无规卷曲和β折叠缠绕形成。