张晓霞 ,李瑞淼 ,张路瑶 ,雷翠云 ,杨宇琭 ,杨致荣
(1.山西农业大学 基础部,山西 太谷 030801;2.山西农业大学 生命科学学院,山西 太谷 030801;3.山西农业大学 农学院,山西 太谷 030801)
组蛋白(Histone)是真核生物核小体的重要蛋白质组分,包括H1、H2A、H2B、H3 和H4 等5 类成员[1]。其中,组蛋白H3 的序列变化在动物和植物中十分保守,作为表观遗传调控的重要靶位点,通过甲基化、乙酰化、泛素化、丁酰化等多种修饰,影响基因的转录活性、染色质结构和细胞功能[2]。组蛋白H3 与其他核心组蛋白一起形成八聚体,具有球状三维结构,H3 组蛋白的羧基端(C 端)结构域与DNA 结合密切相关[2],而位于球状结构域之外氨基端(N 端)结构域的许多残基可以被共价修饰,不同的修饰作为不同的识别密码形成特殊信号而被其他相关蛋白质识别,影响一系列下游的活动,调控真核生物中的基因表达[3-4]。H3 组蛋白可分为常规组蛋白(Conventional histones)和组蛋白变体(Histone variants)2 种形式。其中,常规组蛋白在细胞周期的S 期表达,在DNA 复制过程中组装到核小体中[5];而组蛋白变体可以通过改变核小体的结构稳定性来维持染色质结构,从而在转录激活或抑制、DNA 损伤修复等生物学过程中起重要作用[6-8]。在植物中,除了常规组蛋白H3.1 以外,还有3 种变体,分别是H3.2、H3.3 和着丝粒组蛋白H3(Centromeric histone H3,CENH3)[9]。
1884年,ALBRECHT KOSSEL 发现组蛋白[10],之后科研工作者在拟南芥(Arabidopsis thaliana)[11]、水稻(Oryza sativa)[12]、玉米(Zea mays)[13]、小麦(Triticum aestivum)[14]等植物中进行了研究。在拟南芥中,组蛋白H3 家族成员AtMGH3/At1g19890在花粉雄配子中特异性表达,在雄配子发育过程中对于染色质重塑和转录调控具有特殊作用[11]。水稻中组蛋白RH3.2A基因在高盐条件下,根部的表达受到强烈诱导,而叶片的表达则不受诱导调节,该基因还可能参与了依赖于脱落酸(Abscisic Acid,ABA)的高盐胁迫应答反应[12]。玉米组蛋白编码基因的表达水平会产生明显的差异,如在热和盐胁迫下多数组蛋白编码基因表达下调,干旱、冷和紫外胁迫下部分组蛋白编码基因表达上调,受到禾谷镰孢菌(Fusarium graminearum)侵染时,组蛋白编码基因在侵染后期表达水平显著上升[13]。小麦组蛋白TaHis3.2 的表达受到盐胁迫的抑制,可能影响了DNA 的复制,该基因在根部表达,而根系发育情况与植物抵御非生物胁迫密切相关[14]。在水稻中,比较秀水03 和日本晴2 个亚种的8 个H3同源蛋白,发现其同源基因的表达特性相似,其中LOC_Os06g04030 和LOC_Os03g27310 在大部分组织器官中组成型表达,而其他Histone3同源基因的表达水平较低;部分同源基因在种子、花粉囊和雌蕊等组织器官中特异性高表达,表明水稻Histone3同源基因在表达调控上的差异可能造成其在生物学功能上发挥不同作用[15]。此外,多种组蛋白H3 相关修饰酶的研究揭示了在不同位点的修饰对植物生长发育和防御反应的调控[16]。拟南芥中的ATX1 蛋白由于具有组蛋白甲基转移酶活性,从而能够激活拮抗水杨酸和茉莉酸甲酯信号的WRKY70基因表达,维持该基因核小体的组蛋白H3 在K4 位的三甲基态[17];Wuschel(WUS)基因家族是诱导茎形成的关键因子,WUS基因座上结合的H3 的K27 三甲基化修饰(H3K27me3)水平降低或K9 乙酰化修饰(H3K9Ac)水平升高,都可激活WUS基因的表达[18-19]。
谷子(Setaria italica)是起源于我国的一种重要杂粮作物,属1 年生草本植物,是典型的二倍体禾本科作物(2n=18)[20]。谷子抗旱,耐贫瘠,适应性广,且谷子籽粒脱壳后营养价值丰富,已受到越来越多人的喜爱。因其基因组小(约450 Mb)[21]、自花授粉、易于培养、繁殖系数高、生育周期短等特点,已经逐渐成为C4禾谷类模式植物,是作为研究分子遗传学的重要作物[22]。
组蛋白H3 是表观遗传调控的重要靶位点,关于其本身的编码基因相关的表达模式研究较少,本研究以名优谷子品种晋谷21 号(JG21)超早熟突变体xiaomi和豫谷一号(YG1)为研究对象,对谷子组蛋白H3基因家族(SiH3)进行全基因组鉴定和初步预测分析,旨在为进一步研究谷子组蛋白H3基因家族在生长发育和胁迫响应中的生物学功能以及分子调控机制提供依据。
在TAIR 数据库(https://www. arabidopsis.org/)中查询及下载得到拟南芥组蛋白H3基因家族序列[11],通过Pfam 数据库(http://pfam-legacy.xfam.org/)进行对应特征结构域的搜索,下载相对应的隐尔可夫模型(Hidden Markov Model,HMM)[23]。从Phytozome数据库(https://phytozomenext.jgi.doe.gov/)下载狗尾草(Setaria viridis)、谷子(YG1)、玉米、大豆(Glycine max)、拟南芥和水稻的基因和蛋白质数据;从谷子xiaomi数据库MDSi:Multi-omics Database forSetaria italica(http://foxtail-millet.biocloud.net/home)中下载xiaomi的基因和蛋白质序列信息以及注释信息。
利用1.1 提到的6 个物种的蛋白质数据库,采用Blastp 与HMM 等生物信息学方法综合筛选组蛋白H3基因家族成员。使用Blast+(v2.9.0)对拟南芥组蛋白H3基因家族成员进行Blastp 筛选(Evalue<le-5),将获得的蛋白质序列通过InterPro(https://www.ebi.ac.uk/interpro/)进行保守结构域预测筛选符合组蛋白H3结构域特征的蛋白质序列;使用HMMER(v3.3.2)[23]对6 个物种的蛋白质组进行筛选(E-value<1e-5),并将结果使用MAFFT(L-INS-I 算法)[24]进行比对,综合提取组蛋白H3 的同源序列,从而得到更加精确的HMM分析结果。
将上述2 种方法得到的结果综合判据,二者的交集为更可靠的谷子组蛋白H3基因家族成员筛选结果。利用MAFFT 对结果进行多序列比对,并用IQ-Tree v1.6[24]构建组蛋白H3基因家族的系统发育树。其中,参数选择重复抽样次数(UltraFast bootstrap approximation,UFboot)为1 000 次,并用SH-aLRT(approximate likelihood ratio test[aLRT]and Shimodaira-Hasegawa)[25]检验以保证可靠性。最后使用Figtree(http://tree.bio.ed.ac.uk/software/Figtree/)对进化树的分类拓扑结构(Cladogram)进行可视化展示。
在MDSi 数据库和Phytozome 数据库中分别下载xiaomi和YG1 的基因组注释信息(gff 格式),使用TBtools(v1.108)[26]软件对SiH3在染色体上的位置信息以及基因结构进行分析并命名,将结果可视化。
为了解SiH3 同源蛋白序列差异,在LaserGene软件中选择MegAlign 工具对SiH3 同源蛋白序列进行分析,采用Clustal W 方法、默认参数进行计算;利用在线网站GenScript(https://www.genscript.com/wolf-psort.html)对SiH3编码的蛋白质进行亚细胞定位预测。
用MEME(https://meme-suite.org/meme/tools/meme)在线网站预测SiH3基因家族的保守基序:将SiH3基因家族成员编码的蛋白序列提交,保守位点宽度设置为≥10 和100,最大保守序列鉴定数目设置为10,使用TBtools(v1.108)绘制SiH3基因家族保守基序的可视化图。利用NCBI-CDD 数据库(https://www. ncbi. nlm. nih. gov/Structure/bwrpsb/bwrpsb.cgi)的Batch-CD-Search 功能查询,确定SiH3基因家族成员氨基酸序列的保守结构域,最后利用TBtools(v1.108)软件进行可视化分析。
利用MDSi 数据库获得SiH3的启动子区域(ATG 上游序列2 000 bp),将得到的序列用PlantCARE(http://bioinformatics. psb. ugent. be/webtools/plantcare/html/)在线数据库进行提交,分析SiH3启动子顺式作用元件,使用TBtools(v1.108)软件对其常见功能元件进行可视化分析。
分析SiH3基因家族成员在谷子中的表达情况,需利用MDSi 数据库获取xiaomi中组蛋白H3家族成员在不同时期和不同组织中的表达数据,YG1 的相关数据利用Phytozome 数据库下载公布的YG1 转录组双端测序数据进行筛选。使用R(v4.2.2)中的pheatmap[27]函数绘制不同时空组织表达热图,对相关基因的表达量(TPM,Transcripts Per Kilobase of exon model per Million mapped reads)进行对比并可视化。
在xiaomi和YG1 中分别鉴定出15 个注释的H3基因,结合xiaomi和YG1 在染色体上分布的对应位置,将xiaomi和YG1 中H3基因依次命名为SiH3.1~SiH3.15。从图1 可以看出,xiaomi和YG1中H3均分布在第1、3、4、5、6、7、9 号染色体上,其中SiH3.1、SiH3.3~SiH3.12、SiH3.14和SiH3.15的分布位置均相对应,但仍然有少数基因的分布位置有所不同,如xiaomi中1 号染色体上分布有3 个SiH3,而YG1 中1 号染色体上只分布有2 个SiH3,xiaomi中位于1 号染色体的SiH3.2和位于7 号染色体的SiH3.13在YG1 中无对应位置、YG1 中位于5 号染色体的SiH3.10.1和位于6 号染色体的SiH3.11.1在xiaomi中无对应基因。
图1 xiaomi(A)和YG1(B)组蛋白H3 基因家族成员染色体定位Fig.1 Chromosome location of histone H3 gene family members in xiaomi (A) and YG1 (B)
为了探究xiaomi和YG1 的H3 进化关系,将拟南芥(14 个)、水稻(14 个)、狗尾草(16 个)、玉米(19 个)、大豆(23 个)、xiaomi(15 个)和YG1(15 个)的组蛋白H3 进行系统进化分析。
2 个谷子材料的进化关系结果显示(图2),SiH3可分为4 类(class),分别是H3.1、H3.2、H3.3 和CENH3。在xiaomi中,H3.1 包括SiH3.2、SiH3.6、SiH3.8、SiH3.9、SiH3.12和SiH3.13,共6 个;H3.2包括SiH3.10;H3.3 包括SiH3.1、SiH3.3、SiH3.7、SiH3.11、SiH3.14和SiH3.15共6个;CENH3有2个,分别是SiH3.4、SiH3.5。在YG1 中,H3.1、H3.2、H3.3、CENH3分别有4、2、7、2个。同源性比较发现,xiaomi和YG1 中位置对应的2 个H3 序列几乎都是100% 相同,仅SiH3.10 序列同源性为89.72%,SiH3.15 序列同源性为42.37%,说明组蛋白H3 保守性较强。
图2 组蛋白H3 家族的系统进化分析Fig.2 Phylogenetic analysis of histone H3 family
从基因结构分布图来看,SiH3.2、SiH3.6、SiH3.8、SiH3.9、SiH3.12、SiH3.13不是断裂基因,不含内含子,其余均为断裂基因,外显子数目为1~7 个,大部分xiaomi和YG1 中对应的SiH3基因结构相似(图3);对SiH3 进行亚细胞定位预测分析,结果显示,其均在细胞核内表达,表明SiH3 是作为染色质的主要蛋白成分而发挥作用。
图3 xiaomi 和YG1 组蛋白H3 基因家族成员基因结构Fig.3 Gene structure of histone H3 gene family members in xiaomi and YG1
对SiH3基因家族成员进行保守基序和保守结构域分析,结果显示,SiH3中共存在9 种不同的保守基序以及4 种不同的保守结构域(图4)。
图4 xiaomi 和YG1 组蛋白H3 基因家族成员保守基序及保守结构域分析Fig.4 Analysis of conserved motifs and conserved domains of histone H3 gene family members in xiaomi and YG1
由图4 可知,SiH3.10.1(仅存在于YG1 的组蛋白H3 中)仅存在Motif 4 和Motif 5,其余SiH3 中均包含Motif 1、Motif 2、Motif 3、Motif 4、Motif 5。除此之外,SiH3.4 和SiH3.5 中还存在Motif 7,SiH3.10 中还存在Motif 6、Motif 8、Motif 9。绝大多数SiH3 中有且只含有PTZ00018 保守结构域,但是SiH3.4、SiH3.5 和SiH3.10.1 中只包含有H4 superfamily 一个保守结构域。H4 superfamily 结构域在维持组蛋白稳定性和生物学功能方面发挥着重要作用。CENH3(SiH3.4 和SiH3.5)具有与组蛋白H3普通变体不同N 端和C 端的氨基酸序列,这也使CENH3能够更好地与其他着丝粒蛋白相互作用,确保了着丝粒的正确定位和分离;SiH3.15 中Si9g37480.1 和Seita.9G378800.1 的保守基序以及结构域稍有不同,后者除了包含有PTZ00018 外,还额外包含一个UNC80 superfamily 结构域(一种存在于动植物中,主要参与调节离子通道的活性和转运的保守域),SiH3.10 中还存在SNC1 保守结构域(一种在植物体内,参与免疫响应的保守域)。
为研究SiH3基因家族启动子在转录水平的调控功能,使用在线网站PlantCARE 对SiH3的启动子顺式作用元件进行分析,结果显示(图5),在SiH3中共鉴定出18 种顺式作用元件,既有与生长调节剂相关的元件(如生长素、脱落酸、赤霉素和水杨酸等),又有与环境信号相关的应答元件(如光、低温、缺氧、干旱和防御反应等),还有特异表达元件(如胚乳、根和分生组织等),以及与细胞周期调控、MYB 转录因子结合位点等相关的元件。其中,xiaomi和YG1 中对应基因的启动子顺式作用元件的类型和位置均相似,大部分基因家族成员都有光响应元件、厌氧诱导元件、MeJA(Methyl jasmonate)响应元件、赤霉素响应元件、ABA 响应元件、低温响应元件、干旱诱导元件、生长素响应元件,推测这些基因可能在生物钟、光信号感知和调节生长发育等方面的功能和厌氧调节方面发挥作用。SiH3参与谷子各种生长以及抗逆调控,而水杨酸响应元件只存在于SiH3.6、SiH3.11以及SiH3.14中,推测这些基因可能响应水杨酸信号分子。上述结果表明,不同基因的顺式调控元件存在差异,谷子组蛋白H3基因的表达可能受到多种因素的调控,推测不同谷子组蛋白H3基因对植物生长发育调控或环境信号应答可能存在较大差异。
图5 xiaomi 和YG1 组蛋白H3 基因家族成员启动子顺式作用元件Fig.5 Cis-acting elements of promotors of histone H3 gene family members in xiaomi and YG1
为深入探究SiH3的时空表达模式,利用转录组数据对其进行表达模式分析,结果表明(图6),SiH3.7、SiH3.15在11 个组织和时期中组成型高表达,在xiaomi中SiH3.15的TPM 值均在1 000 以上,在播种14 d 时植株中TPM 值达到最高值,在YG1 中SiH3.15的TPM 值在穗中最高;xiaomi中SiH3.2、SiH3.6、SiH3.8、SiH3.9、SiH3.10、SiH3.12、SiH3.13在各组织器官表达量较低,在播种14 d 的植株中TPM 值相对高表达,SiH3.1、SiH3.3、SiH3.4、SiH3.5、SiH3.11整体的TPM 值均较低;YG1 中SiH3.10的TPM 值为0,其余SiH3表达特征相似,均较低。结果表明,SiH3不同成员在不同组织器官中的表达模式各不相同,暗示其在不同组织器官中的作用不同。
图6 xiaomi(A)和YG1(B)组蛋白H3 基因家族组织表达模式Fig.6 Tissue expression pattern of histone H3 gene family in xiaomi(A)and YG1(B)
本研究基于名优品种JG21 的超早熟突变体xiaomi和YG1 的基因组信息,利用生物信息学方法,筛选到xiaomi和YG1 的各15 个SiH3,谷子组蛋白H3家族种间进化树可分为4 个亚组,其分布情况与在拟南芥和水稻中鉴定到的组蛋白H3基因家族的聚类和分布情况相似[11]。值得注意的是,尽管SiH3 整体的同源性较高,但在序列和分类上产生了一定的差异,可能是植物中H3.2 和H3.3 变体在第31、41、87、90 位有4 个氨基酸位点的差异造成的蛋白功能不同[4]。H3.1 是负责DNA 复制时进行染色质组装的组蛋白,这些基因可能在细胞分裂时在染色质结构和表观遗传标记的维持中发挥重要作用[28-29],而进化分析发现,xiaomi和YG1 共有的SiH3.6、SiH3.8、SiH3.9、SiH3.12以及xiaomi特有的SiH3.2和SiH3.13均属于H3.1 亚组,同样推测其在该方面发挥作用。
基因结构分析发现,谷子H3.2 亚组中只存在SiH3.10和SiH3.10.1,但其含内含子,而变体H3.3中的SiH3均有内含子,与已发现的“组蛋白H3 变体中,H3.2 变体具有多个拷贝,多个基因串联成簇存在且一般不含内含子,依赖于DNA 复制而合成;而H3.3 变体只有几个拷贝,散布在基因组中且大多有内含子,以不依赖DNA 复制的方式合成,这些基因在整个细胞周期都能表达[9]”的规律一致。SiH3与水稻组蛋白H3亲缘关系相近,SiH3.3、SiH3.7、SiH3.14、SiH3.15与水稻的LOC_Os06g04030和LOC_Os03g27310聚类在亚组H3.3 中,已有研究表明,上述2 个水稻基因在不同组织部位中组成型表达[15],与本研究结果中SiH3.7和SiH3.15为组成型高表达相同。在拟南芥中研究发现,H3.3 主要在常染色质区分布,H3.3 在3′端以及一些启动子区富集,3′端的富集与RNA 聚合酶II 的富集趋势相似,富集程度与基因表达水平正相关,表明H3.3可能与基因的转录激活相关,而启动子区H3.3 的富集水平与基因表达水平并没有相关性,但这些基因的转录更容易受到调控[29-31]。因此,推测本研究RNA-seq 中同属于H3.3 的SiH3.7和SiH3.15同样与转录激活相关。此外,CENH3 定位于着丝粒区域,具有相对其他谷子组蛋白变体结构特异的N端,但C 端结构域较为保守,该特殊结构对着丝粒的建立及染色体正常分裂和分离非常重要[32-33]。本研究保守基序分析显示,CENH3存在单独的Motif 7,推测其在谷子着丝粒和染色体功能区域发挥作用。
启动子对基因表达调控有重要作用,顺式作用元件分析表明,SiH3含有与生长调节相关的生长素、ABA、赤霉素和水杨酸等调控元件,以及与环境信号相关的光、低温、缺氧、干旱和防御反应等应答元件,表明谷子SiH3同源基因的表达可能受到多种因素的调控。结合水稻RH3.2A 的启动子中存在的ABA 反应元件,推测SiH3可能在ABA 信号通路中发挥作用[12];研究发现,拟南芥ATX1 蛋白靶向作用于水杨酸、茉莉酸甲酯信号相关基因的核小体而并不均一地作用于染色质中所有组蛋白H3,说明表观遗传调控在特异性识别靶位点方面存在潜在机制[15],推测SiH3可能受到激素信号转导和非生物逆境信号的调控,参与植物对逆境反应的防御。综合来看,组蛋白H3 虽然在进化上是保守的,但其基因在不同组织和不同时期、染色体分布以及mRNA 表达方面仍然复杂且多样化。
本研究通过生物信息学方法对谷子组蛋白H3基因家族进行了全基因组鉴定,共鉴定出各15 个xiaomi和YG1 的SiH3,在xiaomi和YG1 这2 个品种之间,其各自组蛋白H3基因的染色体位置大部分均对应,只有xiaomi中的SiH3.2 和SiH3.13、YG1中的SiH3.10.1和SiH3.11.1无对应关系。结合2 个品种的组蛋白H3各自对应基因的结构、保守基序和保守结构域来看,其相似度极高,但SiH3.15中Si9g37480.1和Seita.9G378800.1的保守基序、保守结构域以及启动子顺式作用元件存在较大差异,推测其因结构不同会产生独特的生物学功能;对SiH3的时空表达模式进行研究,SiH3.7和SiH3.15在各个组织和时期中均组成型高表达,但也会存在差异性表达的情况,如SiH3.10中Seita.5G393100.1在各个组织中的TPM 值均为0,而Si5g39340.1在不同时期的不同组织中均有表达,暗示某一种组蛋白H3同源基因可能在特定组织器官中发挥重要作用,相关机理还有待深入研究。这些结果初步呈现了谷子组蛋白H3同源基因可能参与的生物学过程,可供后续深入探索谷子在生长发育以及胁迫响应过程中的基因功能提供参考。