谷子mTERF 基因家族全基因组鉴定与分析

2022-05-20 09:40任雪梅刘浩瑞南力彰陈晋杰韩渊怀
关键词:进化树叶绿体拟南芥

任雪梅,刘浩瑞,南力彰,陈晋杰,韩渊怀,*

(1.山西农业大学 生命科学学院,山西 太谷,030801;2.山西农业大学 农学院,山西 太谷,030801)

谷子(Setaria italica)是我国古老的栽培粮食作物[1]。谷子为旱生C4禾谷类作物,具有突出的抗旱、耐贫瘠的特点;且为二倍体(2n=2x=18)自花授粉的作物,具有基因组小(约为490 Mb)、重复序列少、易于诱变和筛选突变体等优点,正发展为新的模式植物[2]。谷子脱壳后称为小米,富含人体所需的氨基酸、脂肪酸、矿物质等营养成分,具有提高人体免疫力、促消化、预防疾病等作用[3-4]。

线粒体和叶绿体起源于原核生物,在被真核细胞吞噬后逐渐建立起共生关系的半自主细胞器[5-6]。线粒体和叶绿体绝大多数的原核基因组的基因都转移到细胞核,仅保留了几十个基因主要行使基因表达、氧化磷酸化及光合作用的功能[7]。而绝大多数在线粒体及叶绿体中行使功能的蛋白,包括线粒体及叶绿体基因表达机制所需的成员都由核基因编码,转录完成后运到细胞质中进行翻译和加工,再运输到线粒体和叶绿体中。因此,线粒体和叶绿体功能的正常行使需要细胞核调控基因和其自身基因组表达精确统一地协调。已有研究表明核基因编码的模块蛋白能够结合并调节细胞器基因的表达,如三十五肽重复蛋白(pentatricopeptide repeat proteins,PPR)、线粒体转录终止因子(mitochondrial transcription termination factor,mTERF)等[8]。

mTERF 广泛存在于动植物中,具有调节细胞器基因表达及植物抗逆性等生物学过程的作用[9]。mTERF 最早发现是作为人类线粒体DNA 的结合蛋白,并具有终止线粒体基因转录的作用,因此将其命名为线粒体转录终止因子[10]。mTERF 蛋白由重复多个的mTERF 基序组成,序列具有高度保守性,其中每个mTERF 基序含有约30个氨基酸[11]。在动物中mTERF家族有4个成员,即mTERF1~mTERF4,都定位在线粒体,其功能研究也较为深入[12]。在植物中,拟南芥mTERF 基因被研究报道的数目最多。植物mTERF 通常定位于线粒体或(和)叶绿体,通过调控线粒体或(和)叶绿体基因的编辑、剪切等方式影响其基因表达[13]。目前,mTERF 家族已经在拟南芥、玉米、油菜、大麦、葡萄、辣椒、衣藻等多个物种中研究报道[14-20]。但目前 只有衣藻MOC1、油 菜BnaA06.mTERF1、玉 米Zm⁃mTERF4和Zm⁃mTERF10以及拟南芥At-mTERF1、2、4、5、6、8、9、10、11、12、15、18、22和27等已经在功能上进行了相关功能研究[19-41]。相对来说,谷子mTERF 基因功能方面的研究要明显落后于拟南芥、玉米等植物。

本文主要鉴定了谷子mTERF 基因家族成员,并通过生物信息学方法对其进行染色体分布、系统发育进化树、保守结构域及基序、启动子顺式作用元件、基因表达及亚细胞定位分析,推测谷子mTERF 基因家族可能影响叶绿体及线粒体的形态发育,对谷子的生长及逆境响应等生物学过程发挥着重要的作用,该研究有助于了解谷子mTERF 对谷子生长发育及抗逆等生物学过程的意义,为后续基因的研究提供指导。

1 材料与方法

1.1 全基因组序列的获取

从MDSi:Multi-omics Database forSetaria italica(http://foxtail-millet.biocloud.net/home)数据库中获取谷子xiaomi的基因组数据、总蛋白序列、CDS 序列及基因注释文件。

1.2 谷子mTERF 基因的鉴定及染色体分布

使用Pfam 数据库(http://pfam.xfam.org/)下载mTERF 结构域(PF02536)的HMMER 模型。通过TBtools 软件中的Simple HMM Search 命令搜索谷子总蛋白序列,筛选谷子mTERF 家族的候选基因;通过TBtools 软件分别用拟南芥(https://www.arabidopsis.org/)和 玉 米(https://www.maizegdb.org/)mTERF 家族蛋白质序列与谷子总蛋白序列进行比对,筛选E-value<1e-5 的基因为谷子mTERF 家族的候选基因。使用Pfam 数据库中 的 Batch search (http://pfam.xfam.org/search#tabview=tab1)对获得的所有候选基因序列进行验证,进一步确定该基因家族的成员。

通过谷子基因组注释文件,获得谷子mTERF家族基因的位置信息,并使用TBtools 中的Graphics 功能对结果进行可视化。

1.3 谷子mTERF 家族基因的系统进化分析

通过MEGA7.0 将筛选的37个谷子mTERF蛋白序列与拟南芥及玉米的mTERF 家族蛋白序列进行多重序列比对,并采用邻接法(Neighbor-Joining)构建进化树,分析谷子与拟南芥及玉米同源家族的进化关系,使用iTOL(https://itol.embl.de/login.cgi)在线工具对进化树进行美化。

1.4 谷子mTERF 家族的结构域和motif 分析

使用TBtools 分析谷子mTERF 家族的结构域,通过MEME(https://meme-suite. org/)对其进行motif 分析,并使用TBtools 对结果数据进行可视化。

1.5 谷子mTERF 家族顺式作用元件分析

使用TBtools 软件以谷子基因组注释文件,基因序列文件,CDS 序列文件提取基因上游2000 bp的序列。并通过Plant CARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)分析其顺式作用元件。

1.6 谷子mTERF 家族基因表达分析

在MDSi 数据库中下载并整理谷子mTERF家族在晋谷21 不同组织中的表达量数据,包括根、茎、叶、萌发的籽粒及灌浆期S1~S5 时期的籽粒(分别对应灌浆初期、前期、中期、后期及末期)使用TBtools 软件绘制表达热图。对温室种植的谷子材料取不同组织的样品,通过Trizol 法提取RNA,使用诺唯赞HiScript II Q RT SuperMix for qPCR(+gDNA wiper)进行反转录,通过谷子MDSi 数据库设计引物(表1),进行荧光定量PCR,内参引物参考前人论文发表[2]。

表1 荧光定量PCR 引物序列Table 1 The primer sequence for real-time PCR

1.7 谷子mTERF 家族亚细胞定位分析

通 过TargetP(http://www.cbs.dtu.dk/services/TargetP/)数据库对mTERF 家族的蛋白序列进行亚细胞定位分析并整理结果。

2 结果与分析

2.1 谷子mTERF基因的鉴定及其在染色体上的分布

根据拟南芥、玉米mTERF 蛋白序列在谷子数据库中进行Blast,同时使用mTERF 蛋白家族的HMMER 模型及Pfam 数据库分析,共鉴定出37个mTERF 基因家族成员(图1)。该家族的37个基因在染色体上分布不均匀,1号染色体上基因数目最多,有13个;8号染色体上没有基因分布;2~7 及9号染色体分别有4,6,1,3,3,2 及5个基因。mTERF 基因分布情况和拟南芥及玉米中类似,且拟南芥mTERF 基因也在1号染色体上分布最多[14]。

图1 谷子mTERF 基因在染色体上的分布Fig.1 Chromosome location of mTERF genes of S.italica

2.2 mTERF 家族进化树分析

为了解析mTERF 家族在谷子、拟南芥及玉米中的进化关系,使用MEGA7.0 中的NJ 法对3个物种的97个mTERF 基因构建进化树(图2)。97个mTERF 基因被分为6个亚族,命名为groupⅠ~VI。Group V不包含谷子mTERF 基 因,Group VI 中谷子mTERF 基因数目最多,为13个,其它group 含有3~8个。由进化树分析图中得出,玉 米Zm⁃mTERF4(Zm00001eb349900)聚 类 到group I,与谷子 mTERF 基因Si3g23620、Si1g30850 等距离较近;拟南芥mTERF 家族基因At⁃mTERF8(pTAC15、AT5G54180)、At⁃mTERF15(AT1G74120)及At⁃mTERF27(AT1G21150)聚类到 group II,谷子 mTERF 基因Si1g32550、Si6g13410及Si1g33060也聚类到该group;At⁃mTERF2(EMB2219b、AT2G21710)、At⁃mTERF5(MDA1、AT4G14605)、At⁃mTERF10(AT2G3462 0)及At⁃mTERF22(AT5G64950)聚 类 到group III,与 谷 子mTERF 基 因Si5g38490、Si1g34710、Si2g03690、Si6g20970、Si5g41280及Si9g02800聚类在一起;At⁃mTERF1(SOLDAT10、AT2G0305 0)、At ⁃ mTERF6(AT4G38160)、At ⁃ mTERF9(TWIRT1f、AT5G55580) 及At ⁃ mTERF12(AT4G09620)聚类到group IV,与谷子mTERF 基因Si2g36890、Si9g06960、Si1g32510等距离较近;At⁃mTERF4(BSM/RUG2、AT2G02990)及At⁃mTERF18(SHOT1、AT3G60400)聚 类 到group V;At⁃mTERF11(AT3G18870)聚类到group VI,与 谷 子mTERF 基 因Si3g24120、Si4g13270及Si9g03470距离较近,同时,玉米Zm⁃mTERF10(SMK3、Zm00001eb136360)也聚类到该group,与谷子mTERF 基因Si2g30880距离较近。推测聚类到同一个group 的谷子mTERF 与其同一类群的拟南芥mTERF 基因或玉米mTERF 基因进化关系密切,可能行使相似的生物学功能。

图2 谷子mTERF 家族的系统进化树分析Fig.2 Phylogenetic tree analysis of mTERF genes of S.italica

2.3 mTERF 家族的结构域分析

对谷子mTERF 的37个基因家族成员进行结构域分析发现,该家族基因编码的氨基酸序列都很保守,都含有保守的mTERF 基序,不同基因的氨基酸序列中mTERF 基序重复的的个数不同,长短有所差异(图3)。

图3 谷子mTERF 家族结构域分析Fig.3 Domain analysis of mTERF genes of S.italica

2.4 mTERF 家 族 的motif 分 析

对该家族进行motif 预测(图4),结果显示大多数mTERF 蛋白中motif 的排列顺序为motif4、motif3、motif6、motif2、motif7、motif1、motif8、motif5。其中,motif2、motif3、motif6、motif7 易发生易位。motif1 在每个mTERF 蛋白上较其它motif 保守,motif1、motif8 及motif5 串联在大多数mTERF蛋白的3’端。大多数mTERF 蛋白的motif 都含有保守的脯氨酸(P)、亮氨酸(L)及甘氨酸(G),与前人在玉米mTERF 蛋白报道的结果一致[15]。

图4 谷子mTERF 家族motif 分析Fig.4 Motif analysis of mTERF family of S.italica

2.5 mTERF 家族启动子顺式作用元件分析

顺式作用元件是参与植物生长发育过程中基因转录调控和非生物胁迫反应的重要分子开关[42-44]。为了进一步探究mTERF 基因家族在谷子生长发育中的作用,使用PlantCARE 网站对mTERF 基因上游2000 bp 启动子区序列进行分析(图5)。该家族基因主要含有13 类顺式作用元件,包括:光响应元件、昼夜节律响应元件、5种植物激素(包含:生长素、赤霉素、脱落酸、水杨酸及茉莉酸甲酯)响应元件、籽粒特异调控元件、胚乳表达元件、醇溶蛋白代谢元件、细胞周期调控元件、干旱诱导及黄酮合成相关的MYB 结合位点。不同的mTERF 基因含有顺式元件的种类不同,平均每个mTERF 基因启动子区含有6.2种顺式作用元件,大多数mTERF 基因启动子区含有5种以上顺式作用元件,仅在基因Si1g33060、Si2g36890及Si6g13410中都只含有4 类作用元件。细胞周期调控的元件数目最少,仅分布在基因Si1g30850及Si4g13270启动子区域中各一个。籽粒特异调控顺式元件仅分布在基因Si2g32000启动子区3个,基因Si3g24120及Si3g35570启动子区各1个。细胞周期调控元件也是分布较少的一类顺式作用元件,仅分布在基因Si1g32490启动子区3个,Si1g32500、Si3g24030、Si5g41280、Si6g20970及Si9g49000启动子区各1个。光响应元件分布最多,37个谷子mTERF 基因启动子区均含有,平均数目为10个,基因Si3g35570启动子区域含有的光响应元件数目最多为22个,前人在玉米mTERF基因家族启动子区也发现光响应元件是分布最多的一类顺式作用元件,并通过试验证实玉米mTERF 基因参与光响应生物学过程[15],因此推测谷子mTERF 基因也在光响应等生物学过程发挥类似的功能。

图5 谷子mTERF 家族顺式作用元件分析Fig.5 Cis-acting element analysis of mTERF family member of S.italica

2.6 谷子mTERF家族基因表达分析及亚细胞定位

通过谷子(JG21)中mTERF 家族基因在不同组织(根、茎、叶、萌发的籽粒及灌浆期S1~S5 时期的籽粒)表达量的数据绘制热图(图6)。结果显示mTERF 基因的表达具有组织特异性。基因Si9g06960在叶片中的表达量最高,远高于其它组织及其它mTERF 家族基因。基因Si5g41280、Si6g20970、Si1g32480、Si9g03470及Si9g38940在叶片的表达量也相对较高。基因Si5g41280在除叶片外的其它组织中表达量较高于其它mTERF家族基因,在萌发的籽粒、茎以及籽粒灌浆发育S3时期的表达量都相对较高。为了进一步验证转录组的数据,选取了茎、叶及灌浆期S1~S5 的籽粒,通过荧光定量PCR 检测了Si1g23030、Si1g32480、Si5g41280及Si9g06960的 表 达 量,结 果 显 示 这4个基因的表达趋势与转录组数据的结果基本一致(图7)。

图7 Si1g23030、Si1g32480、Si5g41280 及Si9g06960 在谷子不同组织中的表达分析Fig.7 Expression analysis of Si1g23030、Si1g32480、Si5g41280 and Si9g06960 in different tissues of S.italica.

同时,根据TargetP 软件对不同mTERF 家族基因编码的氨基酸序列进行亚细胞定位分析[45],预测37个mTERF 家族蛋白有23个定位在线粒体,8个定位在叶绿体,剩余6个没有明显的定位,这与前人在玉米、拟南芥等植物中的发现较为一致[14-15]。Si9g06960、Si9g03470、Si1g32480是3个在叶片中高表达的基因,同时其蛋白定位于叶绿体,进一步推测这3个基因可能在叶片中行使功能。

3 讨论

mTERF 家族在植物生长发育及植物逆境响应等方面发挥重要的作用,目前在许多植物中都有研究报道[39-40],其中在拟南芥及玉米中的研究较为深入,而谷子中还未曾研究报道。谷子具有突出的抗旱抗逆、耐瘠薄等生物学特性,是我国北方重要的杂粮作物[1],因此本研究对了解谷子mTERF 家族对谷子生长发育及抗逆等生物学过程具有重要意义。

生物信息学作为基因家族分析比较常用的方法在各个物种中都有研究报道,且涉及基因家族的功能也很丰富多样,不仅包含与生长发育相关的基因家族及转录因子[46],抗病及代谢相关的基因家族也连续被报道[47-49]。本研究通过生物信息学分析共鉴定出37个mTERF 家族基因,并对其进行染色体定位、进化树、结构域、启动子顺式作用元件、基因表达及亚细胞定位等分析,为谷子mTERF 家族基因的后续研究提供一定的参考信息。拟南芥At⁃mTERF15(AT1G74120)编码蛋白定位在线粒体,是拟南芥线粒体基因nad2第3个内含子的剪切所必需的,并影响线粒体复合体I 的活性,At⁃mterf15突变植株的生长严重受阻,植株矮小,角果较小,结实率低,籽粒干瘪且粒重严重下 降[30];At⁃mTERF27(AT1G21150)编 码 的 蛋 白也定位在线粒体,该基因突变导致多个线粒体基因转录水平的降低,并且导致在盐胁迫下生长的缺陷[35]。由进化树分析及亚细胞定位结果知与二者距离较近的谷子mTERF 基因Si1g32550、Si6g13410及Si1g33060也定位在线粒体,同时在Si1g32550启动子区也存在干旱诱导响应的顺式元件,推测这3个谷子mTERF 基因编码蛋白能够靶向线粒体,通过调控线粒体基因的剪切及转录发挥作用,从而影响谷子的生长发育。进化树分析group III 中,除At⁃mTERF22(AT5G64950)编码蛋白定位在线粒体外,其余3个基因At⁃mTERF2(EMB2219b、AT2G21710)、At⁃mTERF5(MDA1、AT4G14605)及At⁃mTERF10(AT2G34620)编码蛋白均靶向叶绿体,是叶绿体及植株生长发育 所 必 需 的。At ⁃ mTERF2(EMB2219b、AT2G21710)基因的缺失突变体表现为胚致死的表型[29]。At⁃mTERF5(MDA1、AT4G14605)与非生物胁迫响应相关,突变后可以加强对盐胁迫以及渗透压胁迫的耐性[22]。 At-mTERF10(AT2G34620)也是参与盐胁迫响应的蛋白[34]。同样在group III 中谷子mTERF 蛋白Si9g02800 也预测到有叶绿体定位信号,且该基因启动子区包含干旱响应的顺式元件,因此推测谷子mTERF 蛋白Si9g02800 能够靶向叶绿体,对叶绿体及植株生长发育发挥作用,并且可能参与逆境响应的生物学过程。At⁃mTERF22(AT5G64950)突变影响线粒体基因的表达及线粒体的形态发育[33],推测聚类到该group 的其它谷子mTERF 基因(Si5g38490、Si1g34710、Si2g03690、Si6g20970、Si5g41280)也可能具有相似的功能。进化树分析group IV 中,At ⁃ mTERF1(SOLDAT10、AT2G03050)、At ⁃mTERF9(TWIRT1f、AT5G55580) 及At ⁃mTERF12(AT4G09620)编码蛋白都定位在叶绿体中,At⁃mTERF6(AT4G38160)编码蛋白在叶绿体及线粒体中均有定位信号[27];同样在该group中,谷子mTERF基因Si2g36890、Si9g06960、Si1g32510也具有叶绿体定位信号,其中Si9g06960在叶片中高表达,推测这3个基因对叶绿体及植株的生长发挥作用。在进化树group VI 中,拟南芥At ⁃ mTERF11(AT3G18870)及玉米Zm ⁃mTERF10(ZmSMK3、Zm00001eb136360)编码蛋白分别定位在叶绿体及线粒体,分别在抗逆及籽粒发育中发挥作用[34,37-38];在 该group的谷子mTERF 基因Si1g32480、Si2g30880、Si3g24120及Si9g03470在叶绿体中有定位信号,而剩余谷子mTERF 基因(Si3g3g24030、Si3g24130、Si3g24140、Si4g13270、Si7g26310、Si7g32760、Si9g38940、Si9g49000)在线粒体中有定位信号。在该group的谷子mTERF 基因启动子区分布较多与籽粒发育相关的顺式作用元件,其中Si2g30880、Si3g3g24030、Si3g24120、Si4g13270及Si9g49000启动子区都包含醇溶蛋白代谢调节的顺式作用元件;Si3g24120、Si4g13270启动子区分别还包含籽粒特异调控、细胞周期调控及胚乳表达的顺式作用元件;Si3g24130启动子区也包含胚乳表达的顺式作用元件。推测该group 的谷子mTERF 基因在能够靶向叶绿体和线粒体进而调控籽粒及植株的生长发育。

4 结论

综上,mTERF 家族蛋白通过靶向线粒体或(和)叶绿体,参与调控线粒体及叶绿体基因的表达及加工修饰,从而调控线粒体及叶绿体的形态及功能,最终影响籽粒及植株的发育以及逆境响应等生物学过程。该研究有助于了解谷子mTERF 对谷子生长发育及抗逆等生物学过程的意义,为后续基因的研究提供指导。

猜你喜欢
进化树叶绿体拟南芥
共生
人不吃饭行吗
大学生对进化树的常见误解
福州2009—2014年甲型H1N1流感病毒株HA基因进化分析
艾草白粉病的病原菌鉴定
一种快速提取微藻完整叶绿体及其DNA的方法
拟南芥
口水暴露了身份
一株特立独行的草
对“叶绿体中色素的提取和分离实验”的改进