结球甘蓝SET 基因家族鉴定与表达分析

2022-10-25 12:32王丽芳宋江华
安徽农业大学学报 2022年3期
关键词:结球结构域甘蓝

王丽芳,潘 飞,宋江华

(安徽农业大学园艺学院,合肥 230036)

SET(Su(var)3-9,Enhancer of zeste和Trithorax,SET)基因家族广泛存在于动物、植物和真菌等真核生物细胞中,是一组含有SET 结构域的蛋白质统称,在生物进化过程中具有高度的保守性。SET 结构域是由大约130 个氨基酸残基组成的保守序列,因其最初在黑腹果蝇(Drosophila melanogaster)的3 个调节因子Su(var)3-9[1]、Enhancer of zeste[2]和Triohoarx[3]中发现而得名[4-7]。

植物SET基因功能复杂,参与染色体的包装和分离、基因转录调节以及DNA 的复制和修复等,在植物生长发育过程中发挥重要作用[8-9]。目前,在模式植物拟南芥(Arabidopsisthaliana)和水稻(Oryza sativa)中已对SET基因家族的保守性及系统进化进行了研究[10]。 SET 蛋白特异性修饰组蛋白的不同位点,进而修饰染色质结构和调控基因的表达,因此SET 蛋白表达失调,将影响植物各种发育和生理过程[11-14]。

结球甘蓝(Brassica oleraceavar.capitata)为十字花科(Cruciferae)芸薹属(Brassica)植物,具有高产优质、适应性强、易贮耐运等特点,是世界广泛栽培的蔬菜作物[15]。植物中SET基因数量较其他物种偏多,SET 蛋白在不同植物各组织中表达差异较大,因此对结球甘蓝SET基因家族进行系统鉴定和表达分析十分必要,有助于为结球甘蓝SET基因家族功能的深入研究奠定基础。

1 材料与方法

1.1 材料

本研究以安徽农业大学蔬菜育种工程实验室选育的结球甘蓝(B.oleracea)“Bo01-12B”品种为试验材料,于温室中常规栽培管理,采集健康植株莲座期的根、茎、叶和开花期的花蕾、花,液氮速冻,并迅速转移至-80 ℃冰箱冻存备用。结球甘蓝花蕾按大小分级取材,对应于花粉发育的不同时期(S1花粉母细胞时期:0~1 mm;S2 四分体时期:1~2 mm;S3 单核花粉期:2~3.5 mm; S4 双核花粉期:3.5~5 mm;S5 成熟花粉期:> 5 mm;P: 不同花粉发育时期混合花蕾)。

1.2 方法

1.2.1 结球甘蓝SET基因家族的鉴定及生物信息学分析 SET 蛋白 (PF00856) 的隐马尔可夫模型(hidden Markov model,HMM)文件从Pfam 数据库中获得。利用SET 蛋白的HMM 序列文件,在BrassicaDatabase (http://brassicadb.org/brad)中以B.oleracea全基因组为数据库,通过 BLASTp 和tBLASTn 搜索出结球甘蓝SET 蛋白序列和相关基因注释文件。利用Pfam[16]和SMART[17]两个在线网站对SET 结构域进行识别,删除不含SET 结构域的基因。利用MEGA 7.0 软件的Clustal W 程序进行序列比对。

利用 MEGA 7.0 软件, 采用邻接法(neighbor-joining method)并进行1 000 次重复构建结球甘蓝SET基因家族系统进化树,其他参数设为默认值。利用ExPASy (http://www.expasy.org/tools/protparam)在线分析SET基因的理化性质。利用GSDS(Gene Structure Display Server)(http://gsds1.cbi.pku.edu. cn/)绘制候选SET基因结构图。利用MEME(http://meme-suite.org/)分析蛋白保守结构域(保守结构域最大基序数量设置为10 个,其余参数默认)。由结球甘蓝基因组数据库获得基因的染色体位置,采用 MG2C 在线网站(http:/mg2c.iask.in/mg2c_v2.0)对SET基因进行染色体定位。

1.2.2SET基因在结球甘蓝不同器官的qRT-PCR 分析 根据结球甘蓝SET基因的系统进化分析结果,从7 个亚家族中分别随机选择1 个SET基因,用Primer 5.0 软件设计PCR 引物(表1)。利用Trizol 法分别提取根、茎、叶、花蕾、花等不同样本RNA,反转录成cDNA。以GAPDH基因为内参,利用KOD SYBR qPCR Mix(TOYOBO)试剂盒进行实时荧光定量PCR(qRT-PCR),对各基因的表达进行定量分析。所有实验重复3 次。结球甘蓝SET基因的相对表达量采用 2-ΔΔCT法计算。

表1 结球甘蓝SET 基因的qRT-PCR 引物序列Table 1 Real-time quantitative PCR primer sequences of SET domain-containing genes in B. oleracea

1.2.3SET基因在结球甘蓝花蕾发育不同时期的RT-PCR 分析 为进一步探究SET基因在结球甘蓝花蕾不同发育时期的表达情况,以GAPDH基因为内参,通过半定量PCR(RT-PCR)方法进一步分析结球甘蓝花蕾发育5 个不同时期(S1、S2、S3、S4和S5)SET基因的差异表达情况。

2 结果与分析

2.1 结球甘蓝SET 结构域基因的鉴定和理化性质分析

利用 HMMER 软件及 SMART 等网站在结球甘蓝中鉴定出28 个SET基因家族成员(表2),对其进行理化性质分析发现,结球甘蓝SET基因开放阅读框在765 (Bol024624)~5 088 (Bol027564) bp 之间,编码254~1 695 个氨基酸。相对分子质量在29.20~185.16 kDa 之间,差异较大。此外,结球甘蓝SET结构域蛋白等电点预测值在5.02 ~ 9.06 之间,其中13 个SET 蛋白的等电点低于7.0。结球甘蓝28 个SET基因不均匀分布在8 条染色体上。6 号染色体上分布的数量最多,为5 个;而1 号染色体上不含有SET基因。

表2 结球甘蓝SET 基因的理化性质Table 2 Physical and chemical properties of B. oleracea SET domain-containing genes

2.2 结球甘蓝SET 基因家族系统进化分析

为研究分析结球甘蓝SET基因之间的系统进化关系,将鉴定获得的28 个SET 蛋白序列,利用软件MEGA7.0 通过邻接法构建系统进化树。结果表明,结球甘蓝28个SET结构域基因分为7个亚家族(图1)。

图1 结球甘蓝SET 基因系统进化树Figure 1 Phylogenetic tree of SET domain-containing genes in B. oleracea

亚家族I 包括3 个基因,包含pre-SETCXC、SET 两个结构域。其中Bol018423和Bol040761亲缘关系较近,属于同一分支,Bol011402单独分为一支。亚家族II 包括6 个基因,基本保守结构域模型为AWS-SET-Post-SET,其中AWS 为SET 相关联结构域,Post-SET 为后-SET 结构域,Bol023819、Bol044511、Bol030053和Bol029500均为此结构,

亲缘关系较近,属同一分支,而Bol012978和Bol027564亲缘关系较远,属不同分支。亚家族III包括 4 个基因,保守结构域模型为 PWWPPHD-PHD-SET-Post-SET。其中 PWWP 为PWWP保守结构域,PHD 为PHD 锌指。亚家族IV 包含PHD-SET 两个结构域,共有 4 个基因,其中Bol022437、Bol024624和Bol043727亲缘关系较近,属于同一分支。亚家族V 包括6 个基因,分为2 个分支,Bol024169单独成一个分支,其余基因聚为另一分支。根据是否含有Post-SET 结构域将另一分支细分为两个亚支。第一亚支包含2 个基因,保守结构域模型为SRA-YDG-Pre-SET-SET-Post-SET,其中SRA-YDG 为SET 和RING finger 关联结构域,Pre-SET 是位于N 末端的前-SET 结构域;第二亚支包含 3 个基因,结构域模型为 SRA-YDGPre-SET-SET。亚家族VI 的结构域模型为SET-Post-SET,包括2 个基因。亚家族VII 只含有SET 一个结构域,包括3 个成员。

2.3 结球甘蓝SET 蛋白保守基序分析

保守结构域的数目和排列方式可以反映基因家族不同成员间序列和结构上的差异程度。结球甘蓝SET 蛋白包含多个保守基序,这些基序可能对激活SET基因进行特殊表达具有重要作用。为识别结球甘蓝SET基因家族成员的潜在保守基序,利用在线保守基序分析软件MEME 进行预测性分析。从结球甘蓝SET 蛋白中检测到10 个不同的保守基序(图2)。同一亚家族的SET 蛋白含有的保守基序的类别、数量和排列方式大体一致,不同亚家族之间保守基序的种类和排列位置差异较大。Motif 6 为SET 结构域,28 个SET 蛋白均含有该结构域,Motif 3 和Motif 4紧密相连,主要存在于第I、II 和V 亚家族SET 蛋白中。在第II 亚家族中,Motif10 和Motif 2、Motif 1和Motif 7 以及Motif 4 和Motif 3 分别紧密相连且按照一定顺序排列。Motif 5 主要存在于亚家族I 和II 中。

图2 结球甘蓝SET 基因保守基序组成Figure 2 Motifs compositions of SET domain-containing genes in B. oleracea

2.4 结球甘蓝SET 基因结构分析

通过GSDS 分析结球甘蓝SET基因的内含子和外显子,发现其一级结构差异明显(图3),表明结球甘蓝SET基因家族成员结构的多样性。在基因长度方面,第IV 分支所包含基因的基因长度差异最大,Bol013303基因长度为所有基因中最长,Bol024624基因长度为最短。所有基因中内含子数目差异明显,其中Bol027418、Bol027257和Bol037943 基因不含内含子,而Bol018289、Bol010867和Bol042363基因内含子数目超过20 个。每个SET基因的CDS 被不同数量内含子分割,并且同一分支的基因在基因结构上呈现一定的相似性。同一亚家族内基因结构和蛋白质保守基序的相似性证实了在同一亚家族内的成员之间具有较近的同源关系。

图3 结球甘蓝SET 基因的基因结构图Figure 3 Gene structure map of SET domain-containing genes in B. oleracea

2.5 结球甘蓝SET 基因的组织特异表达分析

对不同亚家族中7 个SET基因在结球甘蓝各组织器官中的qRT-PCR 分析发现,7 个基因在甘蓝花蕾中均有较高的表达,而在叶片中不表达,在根、茎和花中均有不同程度的表达(图4)。其中,Bol040761、Bol027607和Bol043727这3 个基因在不同组织中表达模式相似,均在花蕾中表达量最高,根中次之,茎和花中表达量持平。Bol025176基因在花蕾中表达量最高,花中次之,根和茎中表达量较低。Bol011910基因在花蕾中超高表达,在根、茎和花中表达量较弱。Bol042363基因在根中表达量略高,花蕾中表达量也较高。而Bol030053基因在各组织中的表达量均较低,在花蕾中表达相对较高。

图4 结球甘蓝SET 结构域基因家族表达模式分析Figure 4 Expression profiles of SET domain genes in B. oleracea

2.6 结球甘蓝SET 基因在花蕾不同发育时期的表达分析

由于qRT-PCR 分析发现7 个SET基因在结球甘蓝花蕾中表达量均较高,我们进一步利用RT-PCR方法对SET基因在结球甘蓝花粉发育的5 个不同时期的表达情况进行了分析。 结果表明,7 个SET基因均在S1 期即花粉母细胞时期表达,Bol030053和Bol025176基因在花蕾S2 期即四分体时期也有表达。而在结球甘蓝花粉发育的S3—S5(即单核花粉期、双核花粉期和成熟花粉期)没有发现SET基因的表达(图5)。

图5 SET 结构域基因在结球甘蓝花蕾发育不同时期中表达Figure 5 Expression analysis of SET domain genes in different developmental stages of flower buds in B. oleracea

3 讨论与结论

SET 蛋白作为调控蛋白或蛋白复合体的结合位点,参与染色体的浓缩和分离,基因的转录,以及DNA 的复制和修复等。大量包含SET 结构域蛋白的发现,及其对于组蛋白赖氨酸甲基化的作用,为我们深入了解组蛋白密码的调节机制提供了重要的信息[18]。本研究利用生物信息学方法首次在甘蓝中鉴定得到28个SET基因家族成员, 数量上低于拟南芥、水稻、和谷子(Setaria italica)等作物中已分别鉴定的47、43 和53 个SET 蛋白[19-21],可能是由于不同作物基因组大小有差异,且基因组中发生大规模的基因片段复制事件的概率不同等原因造成的。

通过进化分析,将结球甘蓝的28 个SET基因分为7 个亚族。这与拟南芥、水稻、玉米、雷蒙德氏棉中SET基因分类相似[10,21-22]。在同一个亚族内,SET基因家族成员的外显子-内含子的结构特征较为接近。第V 亚家族成员基本不含有内含子,外显子序列较长;第I 和III 亚家族成员所含内含子数目较多;第II 亚家族SET基因上内含子基本均匀分布。对保守结构域的分析表明,结球甘蓝中SET基因的绝大多数保守域和拟南芥的相同,如第II 亚族Bol012978在AWS 结构域的上游还存在一个PHD结构域,与拟南芥ASHR3和SDG736蛋白结构相似。第V 亚族Bol024169不包含YDG 结构域,但在N末端存在一个WIYLD 保守结构域,而该结构域是植物特有的,在拟南芥SUVR1、SUVR2、SUVR4基因以及其他植物品种的SUVR同源基因中均发现该结构域[23]。然而,在第I 亚族Bol011402和Bol040761基因中发现了一个CXC 结构域。研究发现CXC 结构域是水稻SET结构域基因特有的,并不存在于拟南芥中[24]。由此推断SET 蛋白在进化的过程中,可能通过产生新的结构域来适应环境变化。

为探究SET基因在结球甘蓝不同组织中的表达模式,通过qRT-PCR 对7 个SET基因的表达图谱进行分析。结果表明,7 个SET基因在除了叶以外的器官普遍表达,尤其在花蕾中的表达量较高,与Thakur 等在水稻不同组织中的研究结果[25]相似。但Yadav 等[20]研究发现,约75%SET基因在谷子叶中有所表达。这表明SET基因在不同作物的不同组织中表达存在差异。SET基因对结球甘蓝叶片的生长发育影响较小,但是对根和花蕾的生长发育有一定影响,尤其是花蕾。

为进一步揭示SET基因对甘蓝花蕾发育各个时期的影响,通过RT-PCR 对SET基因在结球甘蓝花蕾不同发育时期的表达进行了分析。结果发现7 个SET基因均在S1 期即花粉母细胞时期表达,而随着花蕾的发育,SET结构域基因的表达逐渐减弱。这表明SET基因可能参与调控了结球甘蓝花粉发育的早期过程。张亮生[24]发现SET基因家族在拟南芥花发育过程中表达较高。ATXI基因通过激活花的同源异型基因来参与花的发育[26-27]。水稻OsSDG724通过甲基化OsMADS50染色质调节开花[28]。Liu 等研究发现水稻OsSDG708控制水稻开花时间并参与许多生物过程[29]。本研究发现结球甘蓝SET基因在花粉发育初期表达,可能参与调控花粉母细胞的生成及花粉四分体的发育,为深入探究结球甘蓝SET基因家族在花粉发育过程中的功能奠定基础。

本研究通过生物信息学分析鉴定出28 个结球甘蓝SET家族基因,共分7 个亚家族,其基因结构保守,亚家族各成员保守基序类别和排列方面具有相似性。同时分析了7 个选取SET基因在甘蓝不同组织中的表达模式,qRT-PCR 结果发现SET基因在结球甘蓝花蕾中表达量较高,RT-PCR 分析进一步表明它们在甘蓝花粉发育早期高表达,而花粉发育晚期表达减弱。推测结球甘蓝SET基因家族可能在结球甘蓝花粉发育过程中发挥重要作用。研究结果将为进一步深入探索SET蛋白对结球甘蓝花粉发育调控的分子机制奠定理论基础。本研究中,我们并未对所有的28 个SET基因的表达情况进行检测。其他SET基因家族成员的组织表达情况有待今后深入研究。

猜你喜欢
结球结构域甘蓝
设施结球生菜绿色生产技术
南京农业大学在不结球白菜抗逆方面取得新进展
结球甘蓝类钙调蛋白CMLs与花粉萌发NPG1及NPGRs相互作用研究
细菌四类胞外感觉结构域的概述
变色的紫甘蓝
厨房色彩游戏
结核分枝杆菌蛋白Rv0089的生物信息学分析
黄星天牛中肠中内切葡聚糖酶的鉴定与酶活性测定
紫甘蓝
蛋白质功能预测方法研究进展