何春玲,齐 妍,沈 超*
(1.茂名市农业科技推广中心,广东茂名 525000;2.广东石油化工学院生物与食品工程学院,广东茂名 525000)
生长素是在植物的胚胎形成、发育、叶片成熟和衰老、不定根的形成、果实发育等生长过程中起着调控作用的一种关键的植物激素,能够促进或者抑制靶基因合成产物。生长素响应因子(auxin response factor,ARF)是植物中广泛存在的影响生长素信号转导的重要转录因子,其特异性结合生长素响应元件TGTCTC,从而影响基因的表达,调控植物的生长发育。在1997年,Ulmasov等在拟南芥中鉴定出第一个生物素响应因子,将其命名为AtARF1。测序技术的发展极大地推动了基因组测序的发展,使越来越多物种的基因家族被鉴定,研究发现在不同物种间表现出差异化,且以多基因家族的形式存在。目前,除了拟南芥外,水稻、杨树、番茄,玉米、大豆、葡萄、苹果、香蕉和柳属等植物的也陆续被鉴定出来。此外,miRNA与ta-siRNA转录后调控影响基因的表达。如在拟南芥中,microRNA160对17的调控会对拟南芥不定根的发育产生影响。植物种子的萌发是microRNA160通过调控10、16和17来完成。TAS3 ta-siRNAs 和2、3 和4结合,抑制其表达。
巨桉木材材质结构粗、纹理笔直、耐朽性适中、易劈裂,因此在造纸、纤维板、矿柱材原料等方面普遍应用,成为一种拥有高商业价值的树种。同时,巨桉培育面积大,树干通直,树冠茂密,抵御外界恶劣环境能力强,易于生存,且萌芽能力强,一次造林能够萌芽更新2代,广泛用于人工造林,经济效益巨大。巨桉基因组测序已经完成且已更新,极大地促进了其分子遗传学研究,为巨桉功能基因组学研究奠定了基础。笔者基于巨桉基因组和转录组数据,鉴定分析了巨桉基因家族的结构特征与组织表达模式,为后期进一步对巨桉基因进行功能解析提供基础,弥补相关基因研究的不足。
从PlantFTDB(http://planttfdb.gao-lab.org/family.php?sp=Egr&fam=ARF)数据库中下载巨桉的基因序列信息和蛋白质信息。在Pfam蛋白质家族数据库(http://pfam.xfam.org/)下载基因的HMM Profile,并将其作为查询(<0.001)搜索巨桉蛋白质序列数据。去除所有冗余序列后,将输出的ARF蛋白序列提交给CDD(https://www.ncbi.nlm.nih.gov/cdd)、SMART(http://smart.embl-heidelberg.de/)和Pfam,以确认保守的基因结构域。所有非冗余高置信度基因均命名为巨桉基因,在巨桉中共分析和筛选出17个基因。
使用ExPASy的ProtParam tool(https://web.expasy.org/protparam/)进行巨桉ARF蛋白理化性质分析。利用SOPMA(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)进行二级结构分析。应用SWISS-MODEL(https://swissmodel.expasy.org/)进行建模,分析ARF蛋白的3级结构。
利用MEGA(https://meme-suite.org/meme/index.html)对巨桉基因序列进行分析,使用MEGA打开巨桉基因的fas格式氨基酸序列,用ClustalW算法对巨桉ARF氨基酸序列进行多序列比对,选择距离模型p-distance构建NJ树,设置Bootstrap method值为1 000。
从巨桉数据库(https://eucgenie.org/)中获取基因,将巨桉11条染色体上的位置信息数据导入Mapchart软件进行染色体定位分析图的绘制。巨桉基因结构以及Motif结构分析使用在线网站MEME(https://meme-suite.org/meme/tools/meme),将motif个数设定为10,其余参数均不变。
从桉树功能基因组数据库中的转录组数据分析巨桉基因家族成员各组织FPKM数值,利用TBtools(https://github.com/CJ-Chen/TBtools)软件进行基因表达HEATMAP的绘制。
通过转录本数据CDD、Pfam和SMART保守结构域分析,共鉴定出17个巨桉基因,并对其进行理化性质分析。根据理化性质分析结果(表1)得知,巨桉基因的氨基酸数量为454~1 119个残基,其中带负电荷的残基总数在52~98,带正电荷的残基总数在56~93,最短的03433由454个氨基酸残基组成,最长的03293和02178由1 119个氨基酸残基组成。蛋白质分子量为50 713.28~124 934.23 Da,其中03293的分子量最大,03433的分子量最小。巨桉ARF蛋白等电点处于5.37~8.38,其中04380、00923、02197 和03433等电点大于7.5,偏向于碱性。不稳定系数在45.96~72.98,均大于40.00,属于不稳定蛋白,脂肪族指数在67.38~77.35,其中02480脂肪族指数最高,热稳定性最强;03433的脂肪族指数最低,热稳定性最差。亲水性指数为-0.621~-0.276,亲水指数较低,均小于0,为亲水性蛋白。亚细胞定位分析表明巨桉ARF均定位于细胞核中。
表1 巨桉ARF蛋白的理化性质Table 1 Physico-chemical properties of Eucalyptus grandis ARF protein
根据二级结构预测结果(表2)可知,巨桉ARF蛋白二级结构均由α-螺旋、β-转角、延伸链和无规卷曲组成。其中,无规卷曲占比最多,为44.41%~66.11%,其中02178占比最少,00588中占比最多。β-转角占比最少,为2.57%~7.77%,04380中β-转角占比最少,03293和02178中β-转角占比最多。三级结构预测所示,巨桉ARF蛋白三级结构相似,主要以无规则卷曲为主(图1)。
进化树聚类分析结果显示,17个巨桉基因可分为4个亚群,其中第1亚群含有2个(00588、02480),第2亚群含有4个(02838、04380、01240、00923),第3亚群含有5个(02090、00264、02065、02178、03293),第4亚群含有6个(02197、03551、01764、00888、00076、03433)成员(图2)。亲缘关系越近,基因的结构越相似。
该研究发现,基因在巨桉染色体上的分布不均匀(图3)。其中,染色体Chr8和Chr9上不含基因,Chr4和Chr11上含有3个基因,Chr2、Chr3、 Chr6和Chr7号染色体上有2个基因,Chr1、Chr5和Chr10号染色体上含有1个基因。
表2 ARF蛋白二级结构Table 2 Secondary structure of ARF proteins
图1 巨桉ARF蛋白三级结构预测Fig.1 Tertiary structure of Eucalyptus grandis ARF protein
图2 巨桉ARF基因家族的系统进化树Fig.2 Phylogenetic tree of ARF gene family of Eucalyptus grandis
图3 巨桉ARF基因在染色体上的分布Fig.3 Chromosome distribution of ARF gene in Eucalyptus grandis
根据保守结构域分析结果,发现04380、03433、00588、02838、00923和01240不含AUX_IAA结构域(图4)。且这6个ARF蛋白氨基酸残基总数偏低(表1)。巨桉的基因Motif分析表明,17个基因中都存在Motif 1,02065、02480、03551、02178、03293、00264、00076含有的Motif最多共10个保守基序,04380含有的Motif最少只有Motif1、2、3、7共4个保守基序。基因结构分析表明,巨桉均含有外显子和内含子结构,但不同基因所含有的外显子数目存在很大差异,其中04380最少为2个(图4)。这些结果暗示不同基因结构会对基因的功能产生不同的影响。
利用巨桉基因家族成员的不成熟木质部、成熟叶片、韧皮部、树根、茎尖、3个花期和幼叶中的转录组数据进行分析。结果表明(图5),巨桉基因存在组织表达特异性。其中,01764和00888在幼叶中表现出组织特异性,能够调控幼叶的成熟和发育。00076和02178在未成熟木质部高量表达。02178、02090、02197、04380、00264、00588、00923、01240、02838、03293、02065和02480在开花的3个花期表达量高,其中04380、00264和00588在花部为特异性表达,暗示其可能调控花的生长发育。02090、03551、00923、01240和02838在根部高量表达,可能参与根部生长的调控。03433在幼叶和茎尖特异性表达,暗示其可能影响分生组织的发育。00076、02178、00923和02065在未成熟的木质部大量表达,可能影响植物对无机盐和水分的吸收。
图4 巨桉ARF基因的特征分析Fig.4 Characterization of ARF gene in Eucalyptus grandis
图5 巨桉ARF基因组织特异性表达分析Fig.5 Analysis of tissue-specific expression of ARF gene in Eucalyptus grandis
测序技术的发展促进了生物学在基因组层面解析基因家族特征和功能解析中的应用。研究表明,基因具有重要的生物学功能,参与调控植物生长发育各个阶段。该研究对巨桉基因进行鉴定分析,共筛选出17个基因,大多数含有3个保守结构域,且每个巨桉基因都含有B3结构域。根据理化性质分析属于不稳定的亲水性蛋白,均定位于细胞核。巨桉基因在染色体上分布并不均匀,其中Chr8和Chr9染色体上不含基因。根据构建NJ树所得的结果,将17个巨桉基因划分成4个亚族,与对葡萄和梨等的研究结果一致。该研究表明,基因在巨桉不同组织中均有表达,且存在组织特异性。例如02197在花发育的3个时期特异高量表达,预示着其可能影响巨桉的花期。00888和01764在幼叶特异性表达。03433在幼叶和茎尖特异性表达,暗示其能够调控植物的分生组织发育。
该研究利用生物信息学分析在巨桉中鉴定出17个,并进一步综合分析其理化性质、蛋白质结构、染色体定位、基因的结构特征、系统进化和组织表达,发现巨桉相对保守且表达模式存在组织特异性,为深入探究巨桉各个成员之间的结构功能关系奠定了坚实基础。00076 和02178在未成熟木质部呈现高表达,推测其可能在巨桉木材形成过程中发挥重要作用,这是后续研究的重点。