梁莎莎,庞春英,邓廷贤,陆杏蓉,段安琴,马小娅,方艳艳,梁贤威
(中国农业科学院广西水牛研究所,农业部(广西)水牛遗传繁育重点实验室,南宁 530001)
水牛以耐粗饲而著称,具有适应性强、耐高温高湿、抗病力强和易饲养等特点[1]。除了作为役畜外,水牛还可提供奶类和肉类,具有重要的经济价值[2-9]。水牛奶乳汁浓厚,奶质优良,营养丰富,具有较高的乳脂肪(8.0%)、乳蛋白(4.5%)、不饱和脂肪酸比例和较低的磷脂和胆固醇水平[10],有“奶中之王”之称。然而,水牛平均产奶量远低于荷斯坦奶牛,奶产量仅占世界牛奶产量的13%[11]。因此,提高水牛泌乳性能至关重要,而挖掘与产奶性状相关的候选基因则有助于改善水牛泌乳性能。
信号转导和转录激活子(signal transducer and activators of transcription,STATs)家族,存在于细胞质中并被细胞因子、生长因子等胞外信号刺激磷酸化后能够转入核内,并作用于细胞核内特异的DNA片段,调控靶基因的转录,影响细胞增殖、分化和凋亡,并参与肿瘤的发生和恶化[12]。STAT家族由STAT1、STAT2、STAT3、STAT4、STAT5A、STAT5B和STAT6共7个家族成员组成。其中,STAT1可通过参与生长激素[13]与催乳素[14]的信号转导影响哺乳动物的泌乳性能[15]。STAT2是对I型干扰素信号转导途径至关重要的转录因子[16],STAT2缺失可显著抑制人乳腺癌细胞的增殖、迁移、侵袭和形成二维菌落的能力[17]。STAT3对正常的细胞的一些生理功能起着关键性的调节作用,例如细胞的分化、增殖、凋亡等相关的一系列基因异常的高表达由STAT3的持续激活完成[18]。STAT4表达于髓样组织中,特别是睾丸组织和乳腺组织[19-20],在动物生殖系统和泌乳系统中通过结合基因启动子区的STAT4顺式作用元件调节基因的表达,从而发挥一定作用。STAT5对髓系细胞的发育具有重要意义,而且还通过与T细胞中细胞因子的调节不同的机制来调节细胞因子的产生[21]。STAT5基因敲除可抑制水牛乳腺上皮细胞的G1/S转化,显著降低乳蛋白基因的表达,而STAT5基因过表达可显著提高乳蛋白基因的表达[22]。STAT6在各种肿瘤中表达强烈,与癌细胞增殖、恶性程度增加有关,在人类恶性淋巴瘤、胰腺癌、结直肠癌、前列腺癌和乳腺癌中表达最高[23]。大量研究表明,STATs对哺乳动物的乳房疾病、泌乳性能等方面起重要作用[24]。然而目前关于水牛STAT基因家族的研究较少,本研究以水牛基因组为参考,从全基因组水平鉴定水牛的STAT家族成员,分析该家族成员的蛋白序列特征、motif分布、外显子—内含子结构、染色体定位、共线性关系、系统进化关系和表达量差异,为后续更深入挖掘水牛STAT基因家族的功能提供了理论基础。
研究以水牛及其相关物种的全基因组序列和水牛乳腺组织RNA-seq数据(Accession:PRJNA480718)为基础进行分析。全基因组数据包括全基因组的基因序列、蛋白质序列和基因注释文件。全基因组数据下载地址为:
水牛,https://www.ncbi.nlm.nih.gov/genome/?term=buffalo;
奶牛,https://www.ncbi.nlm.nih.gov/genome/?term=cow;
牦牛,https://www.ncbi.nlm.nih.gov/genome/?term=Bos+mutus;
山羊,https://www.ncbi.nlm.nih.gov/genome/?term=goat;
绵羊,https://www.ncbi.nlm.nih.gov/genome/?term=Ovis+aries;
马,https://www.ncbi.nlm.nih.gov/genome/?term=Equus+caballus;
骆驼,https://www.ncbi.nlm.nih.gov/genome/?term=Camelus+ferus。
RNA-seq数据下载于NCBI(Accession:PRJNA480718),包括SRR7523531~SRR7523538.sra共8个文件。
登陆UniProt(https://www.uniprot.org/)搜索STAT基因家族的蛋白质序列,勾选所有该家族不同物种的可靠蛋白序列,下载保存并使用MEGA7.0软件比对其同源性。登陆NCBI下载水牛完整蛋白序列,再使用hmmbuild和hmmsearch软件构建HMM模型并搜索序列库找到水牛STAT基因家族所有的蛋白序列,最后使用TBtools软件将序列提取出来。
使用ProtScale(https://web.expasy.org/protscale/)计算水牛STAT家族蛋白质分子量和等电点;使用TBtools软件中的Table Row Extract or Filter插件从水牛和奶牛的基因注释文件中提取STATs染色体分布信息。
使用MEME(http://meme-suite.org/tools/meme)和GSDS(http://gsds.cbi.pku.edu.cn/)分析水牛STAT家族蛋白质保守motif和基因结构;使用Pfam(http://pfam.xfam.org/)搜索每个motif所属的结构域;使用MEGA7.0构建水牛STAT家族系统进化树;最后使用TBtools软件将水牛STATs系统进化树和motif分析结果整合到一起进行可视化。
为了探讨STAT家族的进化进展,本研究使用one step MCscanX插件对水牛和奶牛的种内及种间进行共线性分析,使用Advanced Circos插件绘制相应的关系图。使用SimpleKa/KsCalculator(NG)插件计算水牛串联重复STAT基因的Ka/Ks(进化选择压力)。
为揭示水牛与其近缘物种STATs之间的进化关系,使用MEGA7.0构建水牛、奶牛、牦牛、山羊、绵羊、马和骆驼的STAT家族系统进化树,最后使用Adobe Illustrator CS6对系统进化树图片进行美化。
为揭示STATs不同成员在水牛乳腺组织中的表达量差异,本试验选用8个不同水牛乳腺组织RNA-seq数据进行STATs表达量分析。使用sratoolkit将所有RNA-seq原始sra文件转换为fastq格式。运用kallisto构建水牛STAT基因家族index库,并分别比对8个RNA-seq数据,进行量化分析,计算STATs在不同RNA-seq中的TPM(transcripts per million)值,由TPM值来表示基因的表达量。最后使用TBtools软件中的Heatmap插件对其进行可视化,绘制STATs在不同水牛乳腺组织中的表达量热图。
对水牛基因组的蛋白序列进行搜索,最终共鉴定得到7条水牛STAT蛋白的编码基因,命名为bbu.STAT1~6,其中bbu.STAT5分为bbu.STAT5A和bbu.STAT5B。染色体分布情况结果显示:bbu.STAT1和bbu.STAT4位于2号染色体,bbu.STAT2和bbu.STAT6位于4号染色体,bbu.STAT3、bbu.STAT5A和bbu.STAT5B位于3号染色体。bbu.STAT2的蛋白长度最长,为865 aa,最短的是bbu.STAT4,为748 aa。所有蛋白的等电点介于4.9~6.6之间,均小于7(表1)。
表1 水牛STAT蛋白序列特征
根据水牛STATs系统进化树结果,可将水牛STAT家族基因分为3组,即STAT1、STAT3、STAT4为一组,STAT2单独为一组,STAT5A、STAT5B和STAT6为一组。
蛋白保守基序结果显示:共预测出10个保守的motifs(命名为Motif 1~10)。这10个保守motifs的分布见图1,详细的氨基酸序列信息见表2。在Pfam搜索过后,由图1可知,水牛STAT家族成员中,除了STAT2外,均含有预测出的Motif 1~10且排序相同,而STAT2缺少了Motif10。
表2 水牛中10个不同的motif
基因结构结果显示:水牛STAT1和STAT4基因有25个外显子,24个内含子,STAT2和STAT3有24个外显子,23个内含子,STAT5A和STAT5B有19个外显子,18个内含子,STAT6有22个外显子和21个内含子(图1)。
为了研究STAT家族的进化进展,对水牛和奶牛的种内及种间进行共线性分析。结果表明,在水牛中,有3对基因:位于2号染色体的STAT1-STAT4、位于3号染色体STAT3-STAT5A和STAT5A-STAT5B表现出串联重复。在奶牛中也发现了3对基因:位于2号染色体的STAT1-STAT4、位于19号染色体的STAT5A-STAT3和STAT5B-STAT5A表现出串联重复(图2A和B)。种间共线性分析结果表明:水牛STAT与奶牛STAT存在4对片段重复基因,分别是bbu.STAT1-bta.STAT1、bbu.STAT2-bta.STAT2、bbu.STAT3-bta.STAT5B和bbu.STAT6-bta.STAT6(图2C)。
计算水牛STATs串联重复基因的Ka/Ks(进化选择压力)结果显示:水牛3对串联重复基因中,STAT1-STAT4的非同义替换(Ka)/同义替换(Ks)值为NaN,STAT3-STAT5A和STAT5A-STAT5B的值均小于0.5(表3)。
表3 水牛STAT家族串联重复基因的Ka/Ks
为揭示水牛与水牛近缘物种STATs之间的进化关系,分别获取了奶牛(Bostaurus)、牦牛(Bosmutus)、山羊(Caprahircas)、绵羊(Ovisaries)、马(Equuscaballus)和骆驼(Camelusferus)的STAT家族蛋白序列一起构建进化树(图3)。根据进化树信息,发现所有的基因划分为4大类,分别是GroupA、GroupB、GroupC和GroupD,GroupA包括所有上述物种的STAT1、STAT3和STAT4,GroupB包括STAT2,GroupC包括STAT6,GroupD包括STAT5A和STAT5B。其中水牛STAT家族基因与奶牛和牦牛的聚类更为相近。
为了探索STATs对水牛乳房发育及泌乳性能的作用,本试验利用8个水牛乳腺组织RNA-seq数据,分析了7个水牛STAT基因的表达量。根据TPM计算结果显示,这7个STAT基因在乳腺组织中均有表达,其中STAT5A的表达量最高,STAT4的表达量最低(表4、图4)。
表4 STAT家族在8头水牛乳腺组织转录组中的TPM值
STATs是细胞因子相关信号传递的重要介质,在调节正常细胞的分化、生长和存活上起重要作用[18],是细胞表面和细胞核之间的纽带[12]。目前,我们对于水牛STAT家族了解较少。本研究利用生物信息学技术在水牛全基因组序列中鉴定出7个STAT家族成员,根据它们的进化关系分成了3组。这7个STAT基因蛋白长度在748~865 aa之间,等电点PI均小于7,这说明水牛STAT蛋白均属于酸性蛋白质。基因结构分析看出不同的组具有不同的内含子数模式。Motif分析显示,水牛STAT基因家族成员中,除了STAT2外,其余成员的蛋白中都包括了STAT_int、STAT_alpha、STAT_bind和SH2这4个结构域且motif排序相同,表明水牛STAT基因家族成员蛋白功能相似。
在遗传进化过程中,串联复制和片段复制有助于加速基因家族的扩增和基因组进化机制,为获取新的基因功能提供了可能[22]。本次对水牛和奶牛的种内共线性分析中,均发现3对相同成员的STAT基因表现出串联重复且没有发现片段重复。由此可以推测串联复制在水牛和奶牛STAT家族的扩增中起着主导作用。此外,水牛和奶牛种间共线性关系很高并且发现了4对片段重复STAT基因,说明两者亲缘关系非常接近[23]。基因在复制的过程中产生遗传变异,导致功能分歧,随后纯化选择将功能固定下来[28]。因此本研究对于水牛串联重复的STAT基因对进行了Ka/Ks计算,结果显示有2对Ka/Ks值小于0.5,其中STAT5A-STAT5B小于0.1,说明该基因对具有更强的纯化选择压力,功能更稳定,不易受环境影响。
不同物种STAT系统发育分析结果显示,不同物种的直系同源STAT基因聚类在一起,可以看出STAT基因家族具有较高的保守性,其中水牛与奶牛和牦牛的聚类更为接近。在进化中的这种高度保守,也暗示了其在哺乳动物中具有重要的生物学功能。
在RNA-seq中,每个mRNA转录本的表达水平由映射片段的总数来测量,这与其丰度水平成正比。TPM(transcripts per million)则是表现RNA丰度的一个单位[29]。本研究基于水牛乳腺组织RNA-seq的STATs表达量分析发现,所有STAT基因在乳腺组织中均有表达,STAT3、STAT5A、STAT5B和STAT6的表达量较高,其中STAT5A的表达量最高。有研究表明,STAT3可通过调节乳脂小球的摄取和溶酶体膜通透性控制乳腺细胞死亡[30]。STAT6基因敲除可抑制人乳腺癌细胞系的增殖并诱导细胞凋亡[31]。STAT5A对于乳房发育[32]、免疫[33]、脂质沉积和脂肪细胞新陈代谢[34]都有重要作用[14]。敲除STAT5A的小鼠在孕期因上皮细胞减少和分化障碍而不能形成具有正常功能的乳腺组织[35]。在水牛中,STAT5表达与乳腺细胞增殖和乳蛋白合成密切相关。与非泌乳期相比,泌乳期STAT5A和STAT5B表达显著降低且STAT5A在乳腺的表达量最高[32]。由此可以推测水牛STAT基因家族参与调控乳房发育及泌乳过程,其中STAT5A可能起更重要的作用。
综上所述,本研究利用生物信息学技术对水牛STAT基因家族进行分析,对未来研究该基因家族在水牛泌乳、乳房疾病等相关生产方面的功能和提高水牛奶品质具有重要意义。
本研究结果显示,水牛STAT基因家族包括STAT1~4、STAT5A、STAT5B和STAT6共7个成员,预测出10个motif保守结构。发现3对水牛STAT基因对表现出串联重复,其中2对受纯化选择。聚类分析表明水牛STAT基因家族与奶牛和牦牛的聚类更为接近。在水牛乳腺组织中,STAT5A的表达量最高,STAT4的表达量最低。推测水牛STAT基因家族参与调控乳房发育及泌乳过程,其中STAT5A可能起更重要的作用。