西洋梨全基因组bZIP基因家族生物信息学分析

2021-02-03 06:45孙耀国蔡天润姬行舟张军
林业与生态科学 2021年1期
关键词:共线性基序拟南芥

孙耀国,蔡天润,姬行舟,张军

(河北农业大学 林学院/河北省林木种质资源与森林保护重点实验室,河北 保定 071000)

转录因子(TFs)在调节和控制植物许多关键的生物学过程中起着重要作用,此类蛋白的不同功能区通过结合功能基因或调控基因的启动子顺式作用元件或与其他蛋白互作来调控基因的表达[1]。据前人研究表明,目前在植物中已经发现 64 种转录因子家族[2]。其中,bZIP转录因子家族是最大和最多样化的家族之一[3]。

碱性亮氨酸拉链(Basic leucine zipper,bZIP)因具有一个高度保守的结构域而得名,该结构域由60~80个氨基酸组成,包括2个功能区域,1个碱性区域和1个亮氨酸拉链[4]。碱性氨基酸区域位于C端,紧靠亮氨酸拉链结构域的N末端,由16~20个保守的氨基酸残基组成,通过一个固定的N-x7-R/K结构与特异DNA序列相结合[5-6];亮氨酸拉链区域位于N端,由若干个重复七肽或者疏水性氨基酸残基组成,每7个氨基酸的第7位含有1个亮氨酸(亮氨酸有时会被苯丙氨酸、缬氨酸、异亮氨酸、和蛋氨酸替代),该结构域主要负责bZIP蛋白DNA 结合之前的异源或同源二聚化[7-8]。目前,已经在多种植物的全基因组范围内鉴定出bZIP转录因子基因,如拟南芥中有75个[9],玉米125个[10],水稻89个[11],大豆131个[12],蓖麻49个[13],黄瓜64个[14],葡萄55个[15],木薯77个[16]。大量研究表明,bZIP转录因子在植物的生长发育过程起着重要的调节作用,例如种子的成熟和萌发[17-18],细胞伸长[19-20],血管发育[19],花的诱导和发育[21-25],胚胎发生[26]等。还有研究表明,bZIP转录因子还参与植物的生物和非生物胁迫响应。在水稻中,OsbZIP12和OsbZIP46响应干旱,盐分和寒冷胁迫以及受ABA信号而诱导[27-28];黄瓜中,在干旱处理24 h后,在根中的10个被选定的bZIP基因都发生了上调,而在叶片中,被选定的bZIP基因都发生了下调[29]。在番茄中,bZIP转录因子SIAREB参与了对水分缺乏和盐胁迫的反应[30]。

西洋梨(PyruscommunisL.)是与东方梨齐名的世界两大栽培类型梨之一[31],因其肉质细腻,芳香多汁,柔软易溶于口,而备受消费者青睐。近年随着人们生活水平的提高,西洋梨在中国需求逐渐增加,栽培面积也逐渐扩大[32]。西洋梨全基因组测序的完成,为bZIP基因家族的全基因组分析奠定了基础。但目前有关西洋梨bZIP转录因子家族的研究还未见报道。本研究利用生物信息学的方法对西洋梨bZIP基因家族进行了全基因组鉴定,并对其基因结构、理化性质、保守基序、系统发育关系、染色体定位、共线性关系和顺式作用元件进行了分析,为西洋梨bZIP基因的功能研究提供依据。

1 材料与方法

1.1 bZIP基因家族成员的鉴定

西洋梨全基因组数据下载于GDR数据库(http://www.rosaceae.org/)[33]。通过pfam数据库 (http://pfam.xfam.org/)下载bZIP转录因子的隐马尔科夫模型文件 (ID:PF07716、CPF12498、PF03131、PF00170),以上面的隐马尔科夫模型文件为搜索条件,利用HMMER 3.0 软件中的Hmmse-arch程序对西洋梨蛋白质序列进行搜索(E<0.001),将得到的结果去除重复,并通过pfam和InterProScan数据库进一步鉴定和筛选,最后得到西洋梨bZIP家族蛋白质序列。最后利用在线工具ProtParam tool(http://web.expasy.org/protparam/)分析西洋梨bZIP蛋白序列的等电点和分子量等信息,采用CELLO 2.5 (http://cello.life.nctu.edu.tw/)在线软件预测分析西洋梨bZIP蛋白的亚细胞定位。

1.2 bZIP基因家族的系统发育分析和分类

从Phytozome数据库(http://www.phytozome.net/cassava.php)下载拟南芥(Arabidopsisthaliana)bZIP蛋白序列。利用MEGA 7.0软件把西洋梨bZIP蛋白与拟南芥中的bZIP蛋白序列进行多序列比对,并用邻接法(NJ)构建系统进化树,参数设置为Bootstrap method 1000;其余参数为默认。

1.3 bZIP基因家族的基因结构及基序组成

利用在线网站GSDS(http://gsds.cbi.pku.edu.cn)对西洋梨bZIP基因家族成员的基因结构进行分析[34];并使用MEME(http://meme-suite.org/tools/meme)来识别西洋梨bZIP基因家族蛋白质序列中的保守基序,设置的参数为:重复次数,任何; 最大图案数量,20; 每个图案的最佳宽度,在6到100个残基之间[35]。最后利用TBtools软件绘制西洋梨bZIP基因家族成员进化树、基因结构、基因组成组合图。

1.4 bZIP基因家族的染色体分布和基因重复

根据西洋梨基因组注释文件,获得PcbZIPs基因在染色体上的位置信息,再利用MapChart[36]软件绘制PcbZIP基因在染色体上的定位图。西洋梨bZIP基因家族的基因加倍事件我们利用Multiple Collinearity Scan toolkit(MCScanX)软件来分析,其中被定义为片段重复基因有以下2个条件:(1)较短序列至少占较长序列的70%; (2)2条基因序列的相似性大于70%[37-38]。另外,被认定为是串联重复基因的条件是:位于相同染色体上的,并且中间相隔的基因数量不得超过1个的同源基因[39]。最后利用Circos软件将bZIP基因加倍事件的分析结果以图片的形式展示出来[40]。为了展示西洋梨和其他选定物种获得的直系同源bZIP基因的共线性关系,使用python程序构建了共线性分析图。使用KaKs_Calculator 1.2计算重复基因对的同义替换率以及非同义替换率[41]。

1.5 bZIP基因启动子中的顺式作用元件分析

利用perl程序提取PcbZIPs编码序列的上游文件(1.5kb)随后提交到PlantCARE[42](http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)来识别顺式作用元件,最后利用在线网站GSDS(http://gsds.cbi.pku.edu.cn)绘制出PcbZIP基因家族顺式作用元件图。

2 结果与分析

2.1 西洋梨bZIP家族成员

通过HMMER 3.0 软件中Hmmsear程序对西洋梨蛋白质序列进行搜索,并通过pfam和InterProScan数据库剔除不含保守结构域的蛋白质序列,手动去除重复和不完整的序列,最后在西洋梨全基因组内共鉴定出52个bZIP基因家族成员。我们发现PcbZIP基因不均匀地分布在西洋梨17条染色体上,如图1所示。

图1 西洋梨bZIP基因的染色体分布

由图1可知,8号染色体含有的PcbZIP基因最多,有8个基因,占PcbZIP基因总数的15.4%。根据其在染色体上的位置依次命名为PcbZIP1-PcbZIP52。西洋梨bZIP基因及其相关信息见表1。

由表1可知,西洋梨bZIP家族蛋白质长度在122(PcbZIP18)~741(PcbZIP21)个氨基酸之间;蛋白质分子量在14 025.17 Da~7 976.86 Da;等电点在5.42~10.41;根据CELLO的预测显示,52个PcbZIP基因全部定位在细胞核上。

表1 西洋梨bZIP基因及其相关信息Table 1 List of PcbZIP genes and their related information

表1(续)

2.2 多序列比对及系统发育分析

用MEGA 7.0中的Clustal W程序对52个PcbZIP蛋白质序列进行比对分析。结果表明:PcbZIP蛋白结构域由碱性结构域和亮氨酸拉链组成,碱性区域由固定的N-X7-R/K结构组成,亮氨酸拉链的二聚化区域紧密与碱性区域相连,由7个氨基酸残基组成1个重复单元,并且每个重复单元的第7位都含有1个亮氨酸(L),少数情况下会被缬氨酸(V),异亮氨酸(I),苯丙氨酸(F),蛋氨酸(M)取代,这与前人对bZIP转录因子结构的研究相符合。

为了研究西洋梨和拟南芥中bZIP基因家族的系统进化关系,使用西洋梨预测出来的bZIP蛋白(52个)与拟南芥中bZIP蛋白(72个),构建了系统进化树见图2。

图2 西洋梨和拟南芥bZIP蛋白的系统进化树

注:bZIP蛋白被分为9个亚族(A、B、C、E、F、G、H、I、S)。UC代表未分类的基因或进化枝。

由图2可知,根据拟南芥bZIP转录因子的分类标准,可以把西洋梨bZIP转录因子分为9个亚家族,即A、B、C、E、F、G、H、I和S,在D亚族中没有成员。每个亚家族对应的bZIP基因数目分别为:10、2、4、3、3、1、2、10和14个。

2.3 PcbZIP基因家族的基因结构和基序组成

对鉴定得到的52个PcbZIP基因进行基因结构分析,结果见图3。

图3 西洋梨bZIP家族成员的系统发育关系,基序和基因结构

从图3可以看出,PcbZIPs中外显子的个数从1~10个不等,其中PcbZIP4的外显子最多,有10个外显子;PcbZIP3、PcbZIP49、PcbZIP36、PcbZIP27、PcbZIP45、PcbZIP12、PcbZIP5、PcbZIP50、PcbZIP46、PcbZIP33、PcbZIP41、PcbZIP51、Pcb

ZIP20、PcbZIP7和PcbZIP22的外显子最少,只有1个。此外,从图中还可以看出,同一亚族内的成员具有相似的基因结构,例如外显子的长度和数目。

利用MEME在线网站对PcbZIPs蛋白的保守基序进行分析。结果表明:同一亚族内蛋白的保守基序的数量和种类大体相同,不同亚族内保守基序的数量和种类存在较大差异。并且发现所有PcbZIP蛋白都具有bZIP结构域即Motif 1,此外,某些基序具有明显的特异性,例如,Motif 8只出现在S亚族内,Motif 4、Motif 11和Motif 12只出现在A亚族内,Motif 5、Motif 6和Motif 14只出现在I亚族内,Motif 13、Motif 15和Motif 19只出现在B亚族内,Motif 9只出现在F亚族内。

2.4 PcbZIP基因共线性分析

在进化过程中,片段重复和串联重复是基因家族产生的重要方式[43]。因此,我们分析了PcbZIPs基因的复制事件。从图4中可以看出有1对串联重复基因PcbZIP25/PcbZIP26,除了串联重复事件外,还用了MCScaX方法鉴定出了36个片段重复,见图4。

图4 西洋梨bZIP基因的共线性分析

为了更好地推测西洋梨PcbZIP家族的系统发育机制,构建了西洋梨与拟南芥的共线性分析图,见图5。

图5 西洋梨和拟南芥的bZIP基因的共线性分析

由图5可知,在西洋梨与拟南芥的bZIP基因中,共有30对基因具有共线性关系。我们还发现一些PcbZIP基因同时与拟南芥中3个不同的基因之间存在共线性关系,如PcbZIP50和PcbZIP5。

2.5 PcbZIP基因启动子顺式作用元件分析

为了进一步研究PcbZIP在非生物胁迫响应中的潜在机制,提取了PcbZIPs基因起始位点上游的1.5kb范围内的序列,并且提交到PlantCARE中检测顺式作用元件,结果见图6。

图6 PcbZIPs启动子中预测的顺势元件

如图6所示,分析并显示了5个与非生物胁迫有关的顺式作用元件,分别是ABA响应元件、干旱诱导响应元件(MBS)、低温响应元件(LTR)、防御和应激反应元件(TC-rich repeats)和创伤响应元件(WUN-motif)。除PcbZIP36和PcbZIP49外,其他基因都具有1个或多个顺式作用元件,其中PcbZIP3和PcbZIP38只含有1个顺式作用元件,PcbZIP15所含的顺式作用元件最多,有14个。其他PcbZIPs具有至少1种顺式作用元件,表明PcbZIPs的表达可能与这些非生物胁迫有关。总共有33个PcbZIP(63%)具有1个或多个ABA响应元件,21个PcbZIP(40%)具有1个或多个LTR响应元件,这表明PcbZIPs有可能对ABA和低温胁迫响应明显。另外,18个PcbZIP(35%)具有TC-rich repeats响应元件,在PcbZIP成员中各有9个PcbZIP具有WUN-motif响应元件和TC-rich repeats响应元件。分析表明,PcbZIPs可能响应不同的非生物胁迫。

3 讨论

西洋梨是世界上主要的栽培种之一,是欧洲、北美、南美、非洲和澳洲生产上主要栽培种,在我国也有广泛栽植。与其他栽培水果(例如苹果和葡萄)相比,西洋梨的研究进展极其缓慢。越来越多的研究表明,bZIP转录因子在植物的生长和发育过程中起着重要的调控作用。目前已经在许多植物物种中鉴定出bZIP基因家族,但是在西洋梨中有关bZIP基因的研究还未见报道。

本研究中,在西洋梨全基因组中鉴定出52个bZIP家族基因,这一结果表明西洋梨中bZIP家族成员的数量与葡萄[15]和黄瓜[14]bZIP成员数量相似。系统发育分析表明,PcbZIPs可分为9个亚族,与拟南芥、水稻、玉米等相比缺少D亚族的成员,可能是因为该亚族的基因在西洋梨基因组进化或人工驯化过程中发生了丢失[44]。值得注意的是,一些原属于I亚族内的AtbZIP基因与其簇发生了分离,这种现象在葡萄[15]中也出现过。此外,AtbZIP74/AtbZIP33/AtbZIP31、AtbZIP72和PcbZIP18与其他bZIPs基因有所区别,在这个进化枝中没有其他物种bZIP基因的个体进化枝,在NIJHAWAN[11]和WEI[10]的研究中也出现了类似的情况。

基因结构和保守基序分析进一步验证了系统发育分析的分组结果。基因结构分析表明,PcbZIPs的内含子数量从0~9个不等。在PcbZIPs中发现大约有28.8%的成员没有内含子,在水稻[11]和木薯[16]中分别发现了15.3%和20.8%的bZIP家族成员不含有内含子。并且这种现象都发生在S和F组,在玉米[10]中也观察到这种现象。在研究中还发现,G亚族成员的内含子数量比A、B、C、E、F、H、I和S组亚族的内含子数量多,之前有关水稻的研究表明,内含子丢失的速度快于节段复制后内含子的获取速度[45]。因此,G亚族成员有可能是原始基因。保守的基序分析表明,所有PcbZIPs蛋白都含有典型的bZIP结构域,即motif 1,并且每个亚族具有相似的保守基序组成,某些基序只属于特定的组。

基因的串联重复和片段重复对于基因家族基因的产生具有重要的作用。分析的结果表明,在西洋梨8号染色体上我们观察到一个串联重复事件,PcbZIP25和PcbZIP26。并且发现,这2个基因都被分到了I亚族,基因的结构和基序的组成都极其的相似。我们还观察到36个片段重复事件,并且一些基因不止复制了1次,例如PcbZIP1、PcbZIP3、PcbZIP5等。由片段复制产生的基因约占所有PcbZIP基因的48%。这种现象在大豆中占58%[12]。这些结果表明,片段重复和串联重复共同促进了PcbZIP基因的产生,但是前者起主要作用。为了更好的地理解PcbZIP基因的选择压力,计算了PcbZIPs基因对的Ka/Ks值,结果表明,所有串联重复和片段重复基因对的Ka/Ks<1,这表明PcbZIP家族在进化过程中受到了纯化选择的作用[46]。

比较不同生物体的基因组可能是推断未表征基因的进化历史,起源和功能的有效手段[47]。由于拟南芥是模式植物,对bZIP基因家族研究的比较多,因此我们构建了西洋梨和拟南芥bZIP基因的共线性图。共有22个PcbZIP基因与21个AtbZIP基因鉴定出共线性关系。其中鉴定出2个直系同源基因对,分别是PcbZIP4、AtbZIP41和PcbZIP16、AtbZIP37,表明这些基因可能存在于2个物种的最后共同祖先的基因组中。并且,发现这2个直系同源基因对分别聚集在系统发生树的同一进化枝内,具有相似的基因结构和基序组成。已有研究表明,AtbZIP36、AtbZIP37和AtbZIP38协同调节与干旱胁迫响应有关的ABRE依赖性ABA信号传导[48]。因此,推测西洋梨中与AtbZIP37有直系同源关系的PcbZIP16可能会在抗旱过程中发挥着功能。

4 结论

本研究以西洋梨基因组数据为基础,鉴定并分析了西洋梨中bZIP转录因子家族成员的基因结构、理化性质、保守基序、系统发育关系、染色体定位、共线性关系和顺式作用元件。分析结果表明,从西洋梨全基因组中共鉴定出52bZIP基因,系统进化将其分为9个亚族(A、B、C、E、F、G、H、I和S)。基因定位显示,52个PcbZIP基因不均匀地分布在17条染色体上。基因结构分析表明:PcbZIP中外显子的个数从1~10个不等,同一亚族内的成员具有相似的基因结构和基序组成。PcbZIP转录因子的氨基酸数目在122~741个;蛋白质分子量在14 025.17 Da~7 976.86 Da;等电点在5.42~10.41,PcbZIP基因都定位在细胞核上。通过共线性分析,发现了1个串联重复事件和36个片段复制事件,这说明PcbZIP基因在产生过程中片段复制事件起了主要作用。顺式作用元件分析表明,大多数PcbZIP基因含有1个或多个顺式作用元件,这表明,PcbZIP基因可能响应不同的非生物胁迫。本研究为进一步探究西洋梨bZIP基因的功能提供了依据。

猜你喜欢
共线性基序拟南芥
龙眼全基因组和转录本序列SSR位点的鉴定
带TRS基序突变的新型冠状病毒威胁更大
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
拟南芥栽培关键技术研究
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
拟南芥
口水暴露了身份