白菜CRM 基因家族的生物信息学分析

2021-05-19 12:00王晓双
湖北农业科学 2021年9期
关键词:基序拟南芥白菜

朱 斌,王晓双,罗 茜,胡 鑫

(1.贵州师范大学生命科学学院,贵阳 550025;2.浙江农林大学,杭州 311300)

CRM(Chloroplast RNA splicing and ribosome maturation)结构域蛋白家族首先在古细菌和细菌中被鉴定[1],被认为参与叶绿体和线粒体基因的内含子剪接,对于植物生长发育起着重要作用[2-5]。CRM结构域蛋白主要叶绿体及线粒体基因参与I 类及II类内含子的剪接,并影响叶绿体中 rRNA 的加工[2,6];CRM 结构域蛋白还通过转录后调控来调节叶绿体或线粒体相关基因的表达[3];此外,基于拟南芥CRM家族基因的突变体研究表明,部分CRM基因在逆境条件下参与了幼苗的生长,证实CRM基因可响应逆境胁迫[4]。基于其基因结构及所包含的结构域,可将 CRM 家族结构域蛋白分为 4 类:CRS1 亚族、CAF亚族、3 亚族及 4 亚族[1,3]。其中 CRS1 亚族、CAF 亚族及3 亚族基因参与I 类及II 类内含子的剪切,4 亚族基因与核糖体亚基组装相关[3]。

白菜(Brassica rapa)为十字花科(Cruciferae)芸薹属(Brassica)植物,是人类生活极为重要的蔬菜,其富含蛋白质、糖类、多种维生素以及钙、铁等矿物质。白菜存在众多的变种,多在秋冬季种植,对低温有较强的抵抗能力,目前是中国各地乃至东南亚地区重要的、种植面积最大的蔬菜作物。目前对于白菜的研究非常广泛,主要集中在新品种研制、种质资源提升、基因组测序以及分子辅助育种等方面[7,8]。白菜全基因组测序的完成为发掘白菜基因家族的研究提供了极大的可能性。近年来,对于白菜基因家族的研究课题不断增加,如对白菜PLD、SAUR、ENT等基因家族进行鉴定和生物信息学的分析[9-11]。CRM基因家族在绿色植物叶绿体生长发育中起着不可或缺的作用,虽然在水稻[5]、拟南芥(Arabidopsis thaliana)[4]中被系统报道,但目前还未见对白菜CRM基因家族的研究。本研究对白菜CRM基因家族进行生物信息学分析,鉴定相应的CRM基因,旨在为今后研究白菜CRM基因家族的功能提供一定的理论基础。

1 材料与方法

1.1 白菜CRM 基因的鉴定

首先通过PFAM(http://pfam.xfam.org/)获得CRM基因家族(Pfam:PF01985)的HMM文件,随后以HMMER 3.1 软件(HMMER3.1;http://plants.ensembl.org/index.html)的 Hmmsearch 工具在白菜数据库(http://bras⁃sicadb.org/brad/)蛋白序列中进行全基因组筛选,获得候选CRM基因,然后利用Pfam 网站的Sequence search 功能和 SMART 网站的 Normal mode 对获得的白菜候选CRM基因进行蛋白序列结构域预测,剔除不具有完整结构域的候选基因,最终确定白菜CRM基因家族成员的序列。以蛋白质分析软件Expasy(http://web.expasy.org/protparam/)分析白菜 CRM 蛋白成员的分子量、等电点、氨基酸数量。

1.2 白菜CRM 基因家族的进化分析

利用Clustal X 对拟南芥和白菜CRM基因的氨基酸序列进行比对[12],参数设置为默认值,随后利用 MEGA 7.0[13]软件中的邻接法(Neighbor-Joining,NJ)构建系统进化树,Bootstrap 校验值设置为1 000,其余参数设置为默认值。

1.3 白菜CRM 基因在染色体上的定位

从 Ensembl(http://plants. ensembl. org/Triticum_aestivum/Info/Index)白菜基因组数据库中确定CRM基因的初始染色体位置和染色体长度,同时下载白菜基因组的注释文件。利用Tbtools[14]软件对白菜CRM基因在染色体上的分布进行可视化,作图。

1.4 白菜CRM 基因结构、蛋白结构域和基序的特征分析

从 Ensembl(http://plants. ensembl. org/Triticum_aestivum/Info/Index)白菜基因组数据库获得白菜CRM基因的CDS和基因组序列以及注释文件。利用SMART domain search database(http://smart.embl.de/smart/batch.pl)对CRM基因结构进行了鉴定,利用在线程序 MEME(http://meme-suite.org/tools/meme)分析CRM基因家族蛋白序列的保守基序,预测基序数量为10个,其他参数设置为默认值。利用TBtools软件对CRM基因的基因结构、蛋白结构域和基序进行可视化。

1.5 白菜CRM 基因的表达分析

从 GEO 数据(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi)中下载了 GSE43245 和 GSE69785[15]的转录组数据,分析白菜CRM基因在愈伤组织(callus)、花器官(flower)、叶片(leaf)、根(root)、角果(silique)和茎(stem)中的组织特异表达,同时对Flg22 与Ps胁迫下的差异表达进行了分析,并用R 语言中的pheatmap 软件包绘制了基因表达热图。

2 结果与分析

2.1 白菜CRM 基因的预测、分类及系统进化分析

通过生物信息手段在白菜基因组中共预测到22 个CRM基因(表 1)。为进一步研究白菜CRM基因家族的系统发育关系,使用MEGA7.0 构建白菜与拟南芥(Arabidopsis thaliana)的CRM基因家族系统进化树(图1)。系统进化树包含了38 个CRM基因,其中16 个基因来自于拟南芥(Arabidopsis thaliana),22 个基因来自于白菜。根据进化树结果,38 个CRM基因可分为3 个类群,类群Ⅰ包含15 个CRM基因,其中6 个拟南芥基因及9 个白菜基因;类群Ⅱ包含10 个CRM基因,其中 4 个基因来自拟南芥,6 个基因来自白菜;类群Ⅲ包含13 个CRM基因,其中6 个基因来自拟南芥,7 个基因来自白菜。

2.2 白菜CRM 基因家族成员在染色体上的分布

为了探究CRM基因在白菜基因组中的分布,分析了白菜基因组注释信息,并通过Tbtools 软件将其可视化(图2)。结果表明,22 个白菜的CRM基因分布于除A10 外的9 条染色体上(1~4 个基因),且这些CRM基因并未成簇分布。其中A03 染色体上分布4个CRM基因;A02、A04、A05 染色体上分别有 3 个CRM基因;A01、A06、A07 和 A09 染色体上分别有 2个CRM基因;A08 染色体上仅有 1 个CRM基因。

2.3 白菜CRM 基因结构和序列分析

不同CRM基因的蛋白编码序列存在较大差异(表1),22 条CRM基 因编码 长度范 围为 657(Bra011945.1)~5 909 bp(Bra023555.1),平均长度为2 848 bp;蛋白长度为152(Bra022317.1)~1 917 aa(Bra023555.1),平均长度为580 aa;蛋白质分子质量为 17.24 k(Bra022317.1)~126.99 kDa(Bra023555.1),其等电点范围为4.42(Bra033596.1)~9.89(Bra022317.1),有13 个蛋白等电点大于7,偏碱性,其余9 个蛋白等电点小于7,偏酸性,说明大部分CRM基因家族编码

的蛋白质富含碱性氨基酸。

表1 白菜CRM 基因分布及位置信息

2.4 白菜CRM 家族基因结构与保守基序分析

如图3 所示,白菜CRM家族所有基因都有内含子,且数量差异明显。其外显子的数目从2 个(Bra022317.1、Bra036994.1、Bra011945.1)到 13 个(Bra039123.1)不等,其中第Ⅰ类群含有的外显子数目最多,第Ⅱ类群的外显子数量最少,不同成员之间基因长度差距较大。但总体上,含有相同外显子数量的成员,其外显子长度和分布差异较小,系统发育树显示亲缘关系越近的基因,其基因结构和长度越相似。

为进一步分析白菜CRM基因家族蛋白序列的差异,利用MEME 在线软件对白菜CRM基因家族的保守基序进行分析,共获得10 个保守基序,分别命名为Motif 1~ Motif 10。保守基序分析结果表明,不同的CRM 蛋白具有不同类型和数目的Motif,CRM基因家族的保守基序存在较大差异,第Ⅰ类群Motif的数量和种类最多,除了Bra022317.1基因具有2种、Bra036994.1基因具有 4 种类型的 Motif 外,其余CRM基因都具有所有类型的Motif类型;第Ⅱ类群的Motif类型和数目都非常保守,所有的CRM基因都仅含有 Motif 4、Motif 1、Motif 9、Motif 3、Motif 6 这 5 种类型,且Bra025285.1和Bra033017.1含有 2 个 Motif 4 结构域;第Ⅲ类群中保守基序类型和数量都较少,且差异较大,在Bra014565.1基因中没有检测到Mo⁃tif 基序的存在。总体上,系统进化树同一分支上的基因家族成员所含基序种类、数量和位置差异较小,不同分支成员之间所含基序种类、数量和位置差异较大,可能不同的CRM 蛋白在生物体内发挥的功能也有所不同。

2.5 白菜CRM 基因组织特异性表达

利用转录组数据,对白菜中叶、茎、花、角果、根以及愈伤组织中的CRM基因表达量进行分析(图4A),结果表明,不同组织中各基因的表达量高低不同,除Bra022317.1、Bra036994.1和Bra011945.1几乎不在任何组织和器官中表达外,其余的CRM基因至少在一个组织中表达,其中Bra034894.1及Bra033596.1在所有组织中均有较高水平的表达,且大多数基因在叶和茎中呈现出更加显著上调的表达量(t-test,P<0.05)。通过对这些基因的表达量进行分析发现,不同CRM家族基因在不同组织中的表达存在较大差异。

2.6 白菜CRM 基因在Flg22 及Ps 胁迫下的表达分析

Flg22 是人工合成的细菌鞭毛蛋白中一段N 端由22 个氨基酸组成的多肽,它具有比鞭毛素更强的活性,能诱导多种防御基因的表达,从而激发植物的防御性反应[16,17]。研究表明,在病原菌侵染植物的过程中,会向植物分泌大量的效应因子到植物细胞的不同部位来破坏或延缓植物的防卫反应,Ps 是大豆疫霉菌(Phytophthora sojae)侵染植物过程中分泌的一类效应因子,能抑制内源转录因子的结合,从而抑制植物的免疫表达。本研究利用Flg22 及Ps 对白菜进行胁迫,结果表明,Flg22 胁迫下,与对照组相比,白菜CRM基因家族中10 个基因的表达量显著下调表达(P<0.05),8 个基因表达量在胁迫前后无显著差异(P>0.05),仅有4 个基因的表达量表现出轻微的上调趋势,但差异不显著;而在Ps 胁迫下,14 个基因的表达量显著下调,其余8 个基因的表达量无显著变化,说明白菜的CRM基因家族可能广泛响应生物胁迫(图4B)。

3 讨论

CRM 蛋白来源于原核生物的核糖体前体结合蛋白,主要参与线粒体和叶绿体内包含Ⅱ型内含子基因的剪接,而在真核生物中,CRM 结构域仅在植物细胞中被发现,且CRM 结构域在古生物和细菌中是以独立蛋白的形式存在,在植物个体中则是以单个或多个结构域的蛋白形式存在[1]。本研究利用生物信息学的方法对白菜CRM基因进行鉴定,共获得白菜 22 个CRM基因,拟南芥 16 个CRM基因。研究表明,水稻基因组包含 14 个CRM基因[18],同水稻基因组相比,芸薹属CRM基因出现了扩增现象。相较于拟南芥基因组,白菜基因组在进化过程中经历过一个三倍化过程以及随后的二倍化阶段[19],因此白菜又称为中间多倍体(Mesopolyploid)。理论上白菜中CRM基因的数目应当为拟南芥中的3 倍,本研究在拟南芥基因组中鉴定到16 个CRM基因,而白菜基因组中鉴定到22 个CRM基因,远低于理论数目,说明白菜中部分CRM基因在二倍化过程中可能发生了基因丢失、新功能化或变异,此外,白菜CRM基因的保守基序存在较大差异,而水稻CRM基因的基序高度保守[5],这可能由白菜基因组二倍化导致,基因组测序也证实了白菜基因组存在广泛的基因丢失及新功能化事件[19]。

通过对白菜不同组织中CRM基因家族的表达量进行分析发现,不同基因在不同组织中的表达量存在差异,大多数CRM基因家族的基因在叶和茎中的表达量较大,在这些器官中具有较强的转录活性,有关水稻CRM基因家族的研究也证实CRM基因在幼嫩及新出叶片中表达量升高[5],表明CRM基因表达量的差异可能与光合作用之间存在较大联系或者参与叶片的发育过程,研究证实水稻中OsCAF1[20]和OsCRS2[21]参与水稻叶绿体的形成。研究表明拟南芥AtCFM4(属于4 亚族)对盐和冷胁迫比较敏感[22],水稻CRM基因的表达水平在非生物胁迫下也出现显著的变化,特别是在盐胁迫下,所有的CRM基因显著下调表达[5]。本研究以 Flg22 及 Ps 模拟生物胁迫,对不同胁迫下CRM基因的表达量进行分析,发现白菜中CMR基因呈现明显的下调表达趋势,说明白菜的CRM基因家族可能广泛响应生物胁迫。本研究首次阐述了CRM基因家族在白菜基因组中的数目、分布、进化特征,并揭示这些基因可能响应生物胁迫,为白菜应对生物胁迫研究提供一定的理论基础。

猜你喜欢
基序拟南芥白菜
EPIYA 基序与幽门螺杆菌感染相关胃病关系的研究进展
一棵白菜
带TRS基序突变的新型冠状病毒威胁更大
开水白菜
神奇的“白菜换装”
芥蓝Aux/IAA家族基因生物信息学与表达分析
尿黑酸对拟南芥酪氨酸降解缺陷突变体sscd1的影响
两种LED光源作为拟南芥生长光源的应用探究
拟南芥干旱敏感突变体筛选及其干旱胁迫响应机制探究
画说“白菜”