田文杰 ,侯瑞泽,杜泽光,李改珍,侯雷平,李梅兰*
(1.山西省曲沃县智慧菜谷发展服务中心,山西 曲沃 043400;2.山西农业大学园艺学院,山西 太谷 030801)
转录因子是一种可以与DNA 特异性结合,保证基因以特定的强度在特定的时空表达,从而进一步调控基因转录的蛋白质,其在植物生长发育、细胞周期调控、环境应答等过程中扮演着重要角色[1~3]。锌指(zinc finger,ZF)蛋白最早发现于非洲爪蟾卵母细胞ⅢA,是一类具有锌指结构域的、对基因调控起重要作用的转录因子家族[4]。锌指结构域由半胱氨酸(Cys)和/或组氨酸(His)组成,通过锌离子形成“指”状四面体结构,因而将含有这种结构的蛋白质统称锌指蛋白。根据其结构和功能的不同,锌指蛋白可分为大约14 个基因家族[5],包括WRKY 和AP2/ERF 等基因家族,其功能也涉及DNA 识别、RNA 包装、细胞凋亡等众多领域,是植物已知较大的转录因子家族之一[6]。根据锌指结构序列和功能的差别,又可以将锌指蛋白分为十大类——C2H2、C2C2、C2HC、C2HC5、C3H、C3HC4、C4、C4HC3、C6和C8,其中C3H(CCCH) 型锌指蛋白占比仅0.8%[7,8]。近年来,越来越多的研究表明,C3H 型锌指蛋白在调节植物生长发育以及胁迫响应中起着重要作用。
C3H 型锌指蛋白,其特征是含有一个或多个由3个Cys(C)和一个His(H)残基构成的锌指基序[9],现对其定义为C-X4-15-C-X4-6-C-X3-H,X 代表任何氨基酸[10,11]。而在植物中,C-X7/8-C-X5-C-X3-H 基序更为常见[12]。区别于其他类型的锌指蛋白,C3H 型锌指蛋白已被广泛证明是具有RNA 加工作用的RNA 结合蛋白[13]。目前,在拟南芥中已经鉴定出68 个C3H 型锌指蛋白家族成员[14],分为11 个亚族,其功能涉及到拟南芥生长发育的多个阶段。如,PEI1是一种胚胎特异性转录因子[15],可在胚胎顶端区域作用于拟南芥胚胎的发生过程。HUA1 蛋白是一个可以参与一种新的花调节机制的RNA 结合蛋白[16],通过与AGAMOUSpre-mRNA 结合来调节花形态的发生。FES1 可以与FRI 形成转录复合体作用于开花调节因子FLC,从而提高拟南芥的越冬活性[17]。而在另一种模式作物水稻中,共鉴定出67 个C3H 型锌指蛋白家族成员,分属8 个亚族[18]。水稻C3H 锌指蛋白主要参与水稻的生长发育和胁迫响应,其中OSDOS 蛋白可以整合发育信号参与茉莉酸途径以延缓衰老[19]。SAW1可以调节水稻中赤霉素的稳态和花药的发育[20]。可见,C3H 型锌指蛋白具有重要的研究价值。
普通白菜(Brassica campestrisL. ssp.chinensisMakino),又称小白菜,属十字花科芸薹属植物[21],是维生素颇为丰富的蔬菜之一,因而受到人们的广泛喜爱。但其是种子春化型作物,在春季易产生先期抽薹的现象,影响产品质量。因此,培育耐抽薹品种,使作物在合适的时间抽薹开花,是重要的研究内容。但截至目前,在普通白菜中有关C3H 型锌指蛋白的研究还较少。为了全面了解这一新兴RNA 结合蛋白家族在普通白菜中的作用,利用生物信息学技术对普通白菜全基因组进行鉴定,分析其成员的蛋白理化性质、系统进化和染色体的分布等,并对其在不同时期的表达模式进行分析,旨为进一步了解C3H 类锌指蛋白在普通白菜中的功能奠定理论基础。
在拟南芥官网TAIR(https://www.arabidopsis.org/)上获取已知C3H 基因家族成员蛋白质序列的FASTA格式,以其作为模板,利用TBtools 的Blast 功能(Evalue 值设置为10-5) 将其与白菜数据库NHCCDB(http://tbir.njau.edu.cn/NhCCDbHubs/index.jsp) 中下载的普通白菜基因组进行比对(Brassica campestris(syn.Brassica rapa)ssp.chinensis(Cultivar NHCC001)v1.0 Genome) 获取候选基因,通过NCBI 上(CDsearch)对候选基因的保守结构域进行预测,筛选得到含有C3H 类结构域的成员,然后按其染色体测序顺序依次命名,并在在线网站ExPASy(https://www.expasy.org/)上对其蛋白质的理化性质进行分析。
从NHCCDB 上获取基因的染色体位置信息,利用Tbtools 软件对其进行可视化。
利用MEGA7.0 软件对普通白菜和拟南芥2 个物种的C3H 蛋白序列进行进化树构建,采用最大似然法(设置Bootstrap 值为1 000,其余参数按照默认设置),保存Newick 结果文件,并通过iTOL 在线网站(https://itol.embl.de/)进行美化。
利用Tbtools 软件和Mcscan 功能对普通白菜物种内的C3H 成员进行共线性分析,并对所得数据进行可视化。
通过Tbtools 软件分析BrcC3H 成员的保守基序(将最大基序检索值设置为10,其他参数默认,得到xml 格式结果文件)。将普通白菜的gff 文件、保守基序xml 格式预测文件结合1.1 CD-search 预测的保守结构域(Domain) 文件、1.3 Newick 结果文件在Tbtools 软件上进行一体可视化。
根据本课题组的普通白菜的转录组数据,对普通白菜C3H 家族基因不同时期的表达情况进行分析。
通过拟南芥C3H 类锌指蛋白基因家族68 个成员的蛋白序列,在Tbtools 上进行Blast 同源比对,并通过Interpro 和Smart 验证其蛋白序列结构域,最终鉴定到84 个C3H 蛋白,并根据其在染色体中的顺序命名为BrcC3H1~BrcC3H84(表1)。对蛋白质理化性质进行预测发现,C3H 蛋白的氨基酸数目为156~1 542 个,其中,BrcC3H10 的氨基酸数目最少,BrcC3H2 的氨基酸数目最多;相对分子量为17.26~172.69 ku,差异明显;等电点为4.96~10.84,其中碱性蛋白居多,共49 个,酸性蛋白35 个;不稳定系数为25.57~104.91,除BrcC3H3、BrcC3H10、BrcC3H16、BrcC3H31、BrcC3H42 和BrcC3H77 为稳定蛋白外,其他蛋白均不稳定;亲水性均为负值,表明该家族蛋白均是亲水性蛋白。
表1 C3H 基因家族蛋白质理化性质分析Table 1 Analysis of physical and chemical properties of C3H gene family proteins
续表
染色体定位结果显示,普通白菜84 条C3H 基因不均匀地分布在10 条染色体上(图1),1 条定位未知。其中,定位在A03 号染色体上的基因最多,有15 个;定位在A02、A04 号染色体上的基因最少,各有5 个。
为了更好地了解C3H 类锌指蛋白基因家族的特性,采用最大似然法,对普通白菜C3H 家族的84 个成员蛋白进行聚类分析,并参考拟南芥C3H 亚家族的分类对普通白菜C3H 成员进行分类。聚类分析结果(图2) 显示,普通白菜C3H 家族可分为4 个亚家族——C3H-A、C3H-B、C3H-C 和C3H-D,成员数量分别为16 个、21 个、22 个和23 个,其中D 家族成员最多。共线性分析结果(图3)显示,65 对染色体片段发生复制事件,说明基因复制是造成C3H 家族进化的重要原因。
图2 普通白菜C3H 类锌指蛋白的系统进化树Fig.2 Phylogenetic tree of C3H zinc finger proteins in B. campestris ssp. chinensis
图3 普通白菜C3H 家族成员的共线性分析Fig.3 Colinear analysis of C3H family members in B. campestris ssp. chinensis
通过在线网站MEME 对84 个C3H 蛋白序列进行保守基序分析(表2),共鉴定出10 种不同类型的Motif,将其命名为Motif1~Motif10。所有成员均包含C3H 型Motif,其中C-X8-C-X5-C-X3-H 型居多,其次是C-X7-C-X5-C-X3-H 型,二者合计占总数的一半以上,说明C-X8/7-C-X5-C-X3-H 型是普通白菜中C3H 型蛋白的主要形式。通过对保守基序结果进行可视化分析,发现84 个成员各包含1~7 个保守基序,4 个亚族间保守基序差异明显,其中,C3H-A 亚族主要包含Motif 1、Motif 2、Motif 4、Motif 8 和Motif 9,C3H-B 亚族主要包含Motif 2 和Motif 7,C3H-C 亚族主要包含Motif 3、Motif 5、Motif 6、Motif 7 和Motif 10,C3H-D 亚族主要包含Motif 2 和Motif 7,而不同亚族内基序保守。
表2 C3H 基因家族蛋白质保守基序分析Table 2 Conservation motif analysis of C3H gene family proteins
通过NCBI 上的CD-search 功能对普通白菜84 个C3H 家族成员的结构域进行分析,发现所有蛋白均包含C3H 型结构域(图4),除此之外,还包含多种其它结构域,说明普通白菜该家族成员功能比较广泛。其中根据亚族的不同又各有特征:C3H-A 亚族成员多数包含Ank(锚蛋白,Ankyrin);C3H-B 亚族成员部分包含YTH1(YT521B homology);C3H-C 亚族成员多数包含重复的C3H 型结构域;C3H-D 亚族成员少数包含KH(K-homology)结构域,同时RRM(RNA recognition motif)结构域在各亚族里较为常见。
图4 普通白菜C3H 类锌指蛋白基因家族保守基序(A)及保守结构域(B)Fig.4 Conservative motifs and domains of C3H zinc finger protein gene family in B. campestris ssp. chinensis
为了进一步了解普通白菜C3H 家族特征,对84个基因的基因结构进行分析,结果(图5)表明,普通白菜C3H 家族成员基因长度差异明显,基因结构也有所区别。普通白菜C3H 家族基因包含CDS 1~14 个,其中CDS 数量为1 个和7 个的居多,分别有15个和18 个,合计占成员总数的39.3%。
图5 普通白菜C3H 类锌指蛋白基因家族的基因结构Fig.5 Gene structure of C3H zinc finger protein gene family in B. campestris ssp. chinensis
为研究普通白菜C3H 基因在普通白菜花芽分化不同阶段的表达特性,利用普通白菜不同时期茎尖的转录组数据进行分析,结果(图6)显示,有69 个普通白菜C3H 基因在花芽分化不同阶段均有表达,但不同时期的表达差异明显,其中有10 个BrcC3H 基因在花芽分化临界期有高表达、在花芽分化中后期表达降低,如BrcC3H11、BrcC3H18、BrcC3H23、BrcC3H27、BrcC3H38和BrcC3H52,猜测其可能参与普通白菜花芽的形成。在花芽分化临界(S0)、花芽分化1 级(S1)和花芽分化3 级(S3)时期高表达的普通白菜C3H 基因相对较少,其中BrcC3H59、BrcC3H6和BrcC3H61分别为这3 个时期差异表达最显著的基因,猜测他们可能对花芽分化的进程具有促进作用。
图6 普通白菜C3H 类锌指蛋白基因家族基因在花芽分化不同时期茎尖表达情况Fig.6 Expression of C3H zinc finger protein gene family genes at different stages of flower bud differentiation in stem tips of B. campestris ssp. chinensis
随着植物全基因组测序的不断完成,C3H 类锌指蛋白基因家族已经在水稻、玉米、拟南芥等多种作物中被鉴定出来。本研究通过生物信息学方法比对拟南芥C3H 类锌指蛋白基因家族,在普通白菜中鉴定出84个成员。该数据多于水稻(67 个)、玉米(68 个)[22]和拟南芥(68 个)中的数量,同样数量较多的还有同为芸薹属的白菜(117 个)[23]和甘蓝(110 个),说明C3H类锌指蛋白基因家族在不同物种中存在差异。
通过基因定位,将普通白菜C3H 基因定位于10条染色体上,且大部分染色体上定位到5~9 条染色体,其中在染色体A03 和A05 上分布较多,分别有15 条和12 条,同时发现有部分普通白菜C3H 基因分布较为密集,可能在生物学上发挥相似功能。对普通白菜C3H 类锌指蛋白基因家族进化研究表明,普通白菜C3H 类锌指蛋白基因家族可分为3 个亚族,且各亚族间差异明显,在各亚族发现有部分基因序列相似度较高,猜测是基因进化中序列片段复制的的结果。共线性分析结果印证了我们的猜想,在普通白菜基因组的10 条染色体上均检测到大量基因同源,这也与之前白菜进化中发生多倍体化的研究相符合。
目前,对C3H 型锌指蛋白的Motif 模型定义多为C-X4-15-C-X4-6-C-X3-H 的形式。同时,由于2 个Cys(C)中的氨基酸种类与数量不尽相同,造成了成员间的差异性[24]。本研究从普通白菜C3H 基因家族成员中鉴定了10 种Motif,其中C-X7-C-X5-C-X3-H和C-X8-C-X5-C-X3-H 是普通白菜C3H 基因Motif的主要形式,二者占总数的比例分别为57.14%和40.48%,合计占比达到97.62%,较拟南芥(82.24%)、玉米(79.44%)和水稻(78.67%)占比更高,同时还发现有C-X11-C-X5-C-X3-H 和C-X8-C-X4-C-X3-H 型的Motif,这在其他植物中比较少见。结构域研究发现,除C3H 结构域外,还存在着多种其他类型的结构域,如Ank 结构域、KH 结构域和RRM 结构域等,这一现象并非偶然,在其它物种如甘蓝型油菜[25]和烟草[26]中的C3H 家族成员中也发现有类似的结构域,这些结构域参与DNA 或RNA 的结合、胁迫响应和开花调节等多项生物进程[27~32],多样的结构域也说明不同物种的C3H 家族成员有着较为广泛的功能,以帮助植物适应各种环境[30,31]。
开花是植物重要的生物学过程,拟南芥C3H 型锌指蛋白HUA1 蛋白可以作为RNA 结合蛋白参与花的发育,并通过与AGAMOUSpre-mRNA 结合来调节花形态的发生。另一个拟南芥C3H 型锌指蛋白FES1,可以与FRI 形成转录复合体调节开花调节因子FLC的表达,从而提高拟南芥的越冬活性。同时在C3H 成员中鉴定到的多种其他结构域也被证明具有调节开花相关的功能[32,33],故结合转录组数据对普通白菜C3H基因花芽分化不同阶段的表达特性进行分析。结果显示,在鉴定出的84 个成员中,有69 个普通白菜C3H 基因在花芽分化不同阶段均有表达;在未表达的15个基因中,有4 个基因(BrcC3H54、BrcC3H68、BrcC3H69和BrcC3H71)同属C3H-B 亚族,且其亲缘关系接近,同时其结构域均同时存在有C3H 结构域和YTH1 结构域,猜测C3H 结构域和YTH1 结构域同时存在可能影响普通白菜C3H 基因在花芽分化时期的表达。
本研究对普通白菜C3H 类锌指蛋白基因家族进行了鉴定与分析,共鉴定到84 个成员,并利用生物信息学分析不同家族成员的理化性质、染色体位置、保守基序、基因结构等,发现其均有差异,进化树分析结果表明普通白菜C3H 家族同一亚族成员可能有类似的功能。通过对不同成员在花芽分化不同时期的表达模式进行分析,发现有10 个BrcC3H基因在花芽分化临界期有高表达,且在花芽分化中后期表达降低,其中BrcC3H23、BrcC3H38和BrcC3H52的表达特征尤为显著,猜测其可能参与普通白菜花芽的形成。BrcC3H48、BrcC3H6和BrcC3H61可能对花芽分化的进程具有促进作用。本研究为后续了解普通白菜C3H类锌指蛋白基因家族成员的功能提供了重要参考依据。