鸡STAT家族成员鉴定及生物信息学分析

2022-07-06 11:21张明华李可强张传生耿立英李祥龙
河北科技师范学院学报 2022年1期
关键词:结构域染色体基因组

孟 婕,张明华,杨 晴,张 贝,李可强,张传生,耿立英,李祥龙

(河北科技师范学院河北省特色动物种质资源挖掘与创新重点实验室,河北 秦皇岛,066004)

STAT(signal transducers and activators of transcription)是一种潜在的细胞质转录因子,是细胞因子和生长因子受体信号传导的下游效应因子[1]。STAT家族在细胞受体相互作用过程中充当载体,保持信号在细胞内传递有内在特异性,引导一部分细胞反应,有控制细胞生长、分化、增殖免疫调节等功能[2~4]。研究发现,STAT含有特定的STAT结构域和SH2结构域,SH2作为最保守的STAT结构域通过结合特定磷酸酪氨酸基序的能力在信号传导中起重要作用[5,6]。

大量研究发现,STAT家族基因在细胞增殖、凋亡、分化和免疫调节等生理过程中的作用复杂且重要,激活后的STAT基因可通过转录调控多种原癌基因的表达来诱导肿瘤的发生[7]。STAT1被认为在生长停滞和凋亡中起重要作用,并作为肿瘤抑制因子,而STAT3和STAT5则参与促进细胞周期进展、细胞转化和防止凋亡[5,8~10]。Cuiping等发现STAT6在肺癌的间质细胞及免疫细胞中高表达,STAT6-/-肿瘤小鼠中CD11b+细胞的动员和分化降低,STAT6的缺乏抑制肿瘤增殖[11]。

随着鸡基因组测序的完成,在基因组水平上研究鸡STAT家族的信息成为一种可能。笔者采用生物信息学方法,对STAT基因及其编码产物的理化性质、序列结构特征、染色体定位和二级结构进行预测和分析。同时,对3个物种进行序列比对,构建系统进化树,以期为进一步研究STAT家族的功能、揭示鸡STAT家族抗病分子机制奠定理论基础。

1 材料与方法

1.1 鸡STAT家族成员鉴定与序列特征分析

在Ensemble数据库(http://asia.ensemble.org/index.htm),下载鸡基因组序列信息和基因组基因结构注释信息文件。从Pfam蛋白家族数据(http://pfam.xfam.org/)下载STAT蛋白的隐马可夫模型(PF02865),并以此作为查询搜索鸡可能STAT蛋白序列,进一步在Batch CD-Search (http://www.ncbi.nlm.nih.gov/Structure/bwrpsb.cgi)和SMART (http://smart.emble-heidellerg.de/)对其进行验证分析,剔除不含STAT结构域、SH2结构域、其他结构域及注释不完整的序列,最终获得鸡STAT基因家族成员。利用在线工具ExPASy[12](http://web.expasy.org/protparam/)预测鸡STAT家族成员理化性质(等电点、蛋白分子量和氨基酸数量等属性)。

1.2 鸡STAT家族系统进化树的构建

从NCBI数据库(http://www.ncbi.nlm.nih.gov/)下载人和家鼠的STAT蛋白序列,将它与鸡STAT蛋白序列整合。通过MEGA-X[13]中的ClustalW将人、家鼠和鸡STAT蛋白序列进行多序列比对分析。并通过邻接法(Neighblour-Joining,NJ)构建系统进化树,自展值(Bootstrap)设定为1 000。

1.3 鸡STAT家族成员motif及基因结构分析

使用在线网站 MEME( http://meme-suiteorg/tools/meme) 对STAT蛋白序列的保守基序进行预测分析,搜索motif值设定为10。STAT的外显子和内含子位置信息参考鸡基因组注释信息gff3文件,利用TBtools[14]软件对其可视化分析。

1.4 鸡STAT的染色体定位

利用TBtools软件从基因组结构注释文件(gff3)中获得鸡STAT染色体位置信息,并通过其Gene Location Visualize from GTF/GFF功能制作染色体定位图。

1.5 STAT家族蛋白质二级结构预测

利用在线软件SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)对鸡STAT蛋白序列的二级结构进行分析,并对STAT家族各成员的二级结构类型在各成员中的占比和分布进行统计。

2 结果与分析

2.1 鸡STAT家族成员的鉴定及理化性质

用生物信息学方法并对其进行筛选验证,从鸡全基因组中得到5条STAT基因序列。将5条鸡STAT家族基因序列命名为ChSTAT1,ChSTAT2,ChSTAT3,ChSTAT4,ChSTAT5A。对鸡STAT家族进行蛋白理化性质分析结果表明,鸡STAT家族的氨基酸序列长度最长为905 aa,最短的为749 aa(表1)。家族成员蛋白分子量最大的是99 826.43 ku,最小的是85 695.54 ku。从理论等位点来看,ChSTAT1,ChSTAT2,ChSTAT3,ChSTAT4,ChSTAT5A的等电点均小于7,为酸性蛋白。其中,ChSTAT2等电点最小,为5.39。ChSTAT家族成员不稳定系数大于40,鉴定其为不稳定蛋白。ChSTAT1,ChSTAT2,ChSTAT3,ChSTAT4,ChSTAT5A疏水性都小于0,都是亲水蛋白。

表1 鸡STAT基因家族基本信息

2.2 不同动物STAT蛋白进化分析

系统进化分析结果表明,鸡的5个STAT基因可分为5组(图1)。5个成员与家鼠和人的STAT家族成员分别聚集,说明STAT基因家族各成员相对较保守。STAT1和STAT4聚为一支,说明相较其他成员STAT1和STAT4亲缘关系更近。

注:ChSTAT表示鸡,HomoSTAT表示人,MusSTAT表示家鼠。遗传距离标尺在左下角。 节点上的值为通过Bootstrap检验次数的百分数。图1 鸡、家鼠、人STAT家族系统进化树

2.3 鸡STAT家族成员结构特征分析

利用TBtools工具绘制了鸡STAT家族成员的结构特征图。对鸡STAT家族的5个成员进行了蛋白保守结构域分析,共获取了10个motif元件(图2)。不同STAT保守基元数量从4~10不等且分布不同,但同一分支基因所含保守基序个数及顺序较为一致。其中STAT5A的编码序列较其他成员简单。基因成员均含有内含子和外显子。在同一分支的成员,基因结构较相似。

2.4 鸡STAT的染色体定位

从鸡基因组中提取鸡染色体长度、STAT基因在染色体上的位置等信息。结果显示,ChSTAT定位在3条染色体上(图3)。ChSTAT1和ChSTAT4定位在7号染色体;ChSTAT3和ChSTAT5A定位在27号染色体;ChSTAT2定位在33号染色体。

图2 鸡STAT家族成员结构特征

图3 鸡STAT基因的染色体分布

表2 鸡STAT家族蛋白质二级预测 %

2.5 鸡STAT家族蛋白质二级结构预测分析

用SOPMA对鸡STAT家族成员蛋白序列的二级结构进行预测,结果表明,鸡STAT家族成员全部包含α-螺旋、β-转角、延伸链及无规则卷曲,但各部分所占比例不同(表2)。ChSTAT2主要由无规则卷曲组成,其余4个成员主要由α-螺旋组成,β-转角在各成员中所占比例最少。

3 结论与讨论

STAT家族成员归属于一个重要的信号转导家族,在各种动物中都存在。STAT家族成员在小鼠及人中被研究较多[15,16]。不同的STAT基因之间通过相互作用共同参与免疫调节过程,对于维持机体免疫系统平衡来说,当某个STAT基因的表达失调时就可能导致疾病发生。

本次研究通过隐马可夫模型对鸡基因组中STAT家族的搜索分析,鉴定获得5个成员。从理论等位点来看,ChSTAT1,ChSTAT2,ChSTAT3,ChSTAT4,ChSTAT5A的等电点均小于7,为酸性蛋白。ChSTAT家族不稳定系数均大于40,鉴定其为不稳定蛋白。ChSTAT1,ChSTAT2,ChSTAT3,ChSTAT4,ChSTAT5A疏水性都小于零,都是亲水蛋白。以上分析推测鸡STAT基因家族成员较易发生改变。研究发现,STAT2,STAT4和STAT6负责调节免疫应答,而STAT1,STAT3和STAT5(STAT5a和STAT5b)作用不同,它们可以调控细胞周期、细胞存活和血管生成等线管基因的表达,这些基因失调都会导致其活性增加,诱导疾病的发生[17~19]。

基因结构是研究基因进化和基因功能的重要依据。据STAT家族结构特征分析可知,不同STAT保守基序数量从4~10不等,并且保守基序分布也是有所不同的,整体来说,亚家族STAT1~4保守基序分布有些许相似。STAT5A的编码序列相比较其他亚家族简单。经过系统进化分析可知,5个成员与家鼠和人的STAT家族成员分别聚集,表明基因保守性较强。相比之下,家鼠和人属于同一分支再与鸡相同基因聚集,说明物种间的差异较大。染色体定位显示ChSTAT1和ChSTAT4定位在7号染色体;ChSTAT3和ChSTAT5A定位在27号染色体;ChSTAT2定位在33号染色体。结合基因结构分析发现,在同一条染色体上的基因结构整体较为相似。

预测分析蛋白质的结构对鸡STAT家族的生物学研究是非常重要的。因为蛋白质只有折叠成特定的空间结构才具有响应的活性和生物学功能[20]。经研究发现,变性蛋白质在可以重新折叠的实验条件下可以重新折叠到原来的结构[21]。在生物体内蛋白质分子的多肽链一般都不是松散的线性分子,而是以α-螺旋、β-折叠延伸链、β-转角和无规则卷曲的形态出现[22]。本次研究发现,鸡大多数STAT基因主要由α-螺旋组成,其次是无规则卷曲,占比例最少的是β-折叠。

本次研究鉴定得到5个鸡STAT基因家族成员。理化性质分析发现,ChSTAT均为酸性蛋白、不稳定蛋白且是亲水蛋白;根据进化关系可知同一分支的基因结构以及蛋白保守结构域较为相近;ChSTAT分布在7,27,33等3条染色体上;除ChSTAT2以外其他成员主要由α-螺旋组成。

猜你喜欢
结构域染色体基因组
“植物界大熊猫”完整基因组图谱首次发布
细菌四类胞外感觉结构域的概述
拟南芥START 结构域亚家族生物信息学分析及功能
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
UBR5突变与淋巴瘤B细胞成熟
血清HBV前基因组RNA的研究进展
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
真假三体的遗传题题型探析