高加索三叶草全长转录组测序及Dof转录因子家族分析

2023-12-04 06:21赵啟军刘玉英李长慧谢久祥
草地学报 2023年11期
关键词:高加索三叶草家族

牟 丹, 赵啟军, 刘玉英, 李长慧, 谢久祥*

(1. 青海大学省部共建三江源生态与高原农牧业国家重点实验室, 青海 西宁 810016; 2. 青海大学农牧学院, 青海 西宁 810016)

青藏高原高寒地区气候严寒,不利于牧草生长和越冬,豆科牧草品种选育和引种工作的开展较为困难[1]。长期以来,科学研究工作者在青藏高原高寒地区(尤其是青海省的高寒地区)进行了大量的豆科牧草引种试验,主要结果为:在海拔2 500~3 000 m的地方,引种成功的报道很多,如黄花草木樨(Melilotusofficinalis(L.) Lam.)、红豆草(Onobrychisviciifolia)、‘甘农1号’杂花苜蓿(MedicagovariaGannong No.1)、截形苜蓿(MedicagotruncatulaParaggio)、波斯三叶草(TrifoliumresupinatumKyambro)等[1-4];在海拔3 000~3 300 m的地方,引种成功的报道很少,如甘肃红豆草(OnobrychisUicicaefoliaGansu)、‘甘农1号’杂花苜蓿和‘青大1号’紫花苜蓿(MedicagosativaL. Qingda No.1)[5-7];在海拔3 300 m以上的地方,虽有几次尝试,均以失败告终[8]。由此可见,引进豆科牧草是青藏高原高寒地区草业科技工作者长期攻坚的难题。

高加索三叶草是目前已知三叶草属中唯一一种具有密集根状茎系统且可利用地下根蘖进行克隆生长的多年生豆科牧草,抗逆性极强[9-10],如抗寒耐盐性优于红三叶(TrifoliumpratenseL.)和白三叶(Trifoliumrepens L.)[11],抗旱性也强于白三叶和地三叶(TrifoliumsubterraneumL.)等[12]。本研究团队前期在青藏高原进行的高加索三叶草引种试验表明,从内蒙古农业大学引进的高加索三叶草育成品种‘蒙农三叶草1号’能够在青海省河南蒙古自治县(简称:河南县)海拔3 640 m的地方自然越冬,越冬率高达98%。高加索三叶草能够经历青藏高原高寒地区长时间的低温(河南县在2015年至2021年期间的最低温度为-30℃)而自然越冬,说明其对长时间的低温胁迫具有很强的耐受性。因此,高加索三叶草抵御高寒地区秋冬季节长时间低温胁迫的生理生化机制值得研究。早前对于该物种面临长时间低温胁迫的研究主要从物理和生理水平着手,即通过长时间的田间观察其是否能安全越冬,或者采用生理生化指标检测其抗寒生理[13]。然而,从分子水平对其响应低温胁迫的研究极少,且仅是通过Illumina平台的二代测序技术对人工模拟短期低温胁迫的高加索三叶草叶片做了转录组比较分析[9,14]。鉴于高加索三叶草还未进行全基因组测序,为了更好地解释这一现象,我们有必要利用更为准确的第三代转录组测序技术从分子水平来分析其对长时间低温胁迫的响应机制。

目前,基于第二代测序技术的RNA-seq技术最为常见,在农学、医学和基础生物学等研究领域广泛应用;但因第二代测序技术读取长度短,碱基错配,组装出来的转录本的结构不完整等,RNA-Seq的发展受到一定限制,第三代测序技术(即全长转录组测序技术)应运而生;与二代测序相比,三代测序技术能够在转录组水平上提供读取长度更长和准确性更高的转录本,并且对于没有参考基因组的物种,还可提高其转录组表征的准确性[15]。但是,两种测序技术各有优劣,近两年越来越多的学者通过三代与二代测序技术相结合的方法,对遭受低温胁迫的植物进行了测序分析,获得了大量与植物响应低温胁迫有关的基因信息[16-17]。

转录因子(Transcription factor,TF)是能够专一地结合目的基因上游的特异核苷酸序列,激活或抑制靶基因的一类含有特殊结构的蛋白,参与植物应对生物/非生物胁迫和生长发育等过程[18-19]。Dof蛋白即DNA结合单锌指(DNA-binding with one finger)蛋白,是植物中的一种特有转录因子,在裸子、被子和一些低等的藻类植物中均存在[18]。Dof转录因子的N-末端含有高度保守的C2-C2型单锌指结构域,C-末端为特异转录调控结构域,可调控下游基因的表达,在植物生长发育、逆境响应、代谢调节和农艺性状改良等方面具有重要作用[18-19]。逆境响应方面,Dof转录因子可能作为上游调控因子,在调控植物响应逆境(低温、盐分和干旱)胁迫中扮演重要角色[19]。

高加索三叶草能够在海拔3 640 m的青藏高原安全越冬并正常生长,繁殖主要靠克隆生长的组织——根茎。因此,本研究以河南县试验地中正常生长期和低温胁迫期的高加索三叶草根茎芽为材料,结合PacBio平台的第三代测序技术和Illumina平台的第二代测序技术对其进行测序,获得了准确性更高的全长转录本,对其进行了功能注释、结构分析和转录因子鉴定;并进一步基于全长转录组数据,鉴定并分析了高加索三叶草Dof转录因子的理化性质、亚细胞定位、系统进化及保守基序。本研究不仅可为高加索三叶草二代测序数据的拼接提供模板,为耐寒相关基因的鉴定和分子机理分析提供科学依据,还可为进一步研究Dof转录因子在高加索三叶草响应长时间低温胁迫过程中的作用奠定理论基础。

1 材料与方法

1.1 试验材料

供试材料为高加索三叶草的育成品种‘蒙农三叶草1号’,其种子由内蒙古农业大学王明玖教授于2018年提供,并在2019年经育苗后种植于青海大学试验地。2020年将青海大学试验地的高加索三叶草实生苗的地下根茎移栽至河南县试验地,行距30 cm,株距15 cm。

1.2 试验方法

1.2.1根茎芽的采集 2020年8月至 2021年1月,在河南县试验地分4个时期(NG,BW,EW,MW)对移栽后第一年的高加索三叶草根茎芽进行采集(表1),各时期样本的生物学形态如图1。采集样品时,在各时期随机选取高加索三叶草3株,将其根茎芽混为1个生物学重复,各时期各3个生物学重复。剪取根茎芽后,用UP水冲洗干净并小心擦干,装入冻存管后立即至于液氮中速冻,随后再置于-80℃超低温冰箱保存备用。

图1 4个采样时期的根茎芽生物学形态Fig.1 Biological morphology of rhizome buds in four sampling periods

表1 取样日期及室外空气温度Table 1 Sampling date and outdoor air temperature

1.2.2总RNA提取与检测 使用Trizol试剂盒,按照说明提取高加索三叶草根茎芽的总RNA。通过琼脂糖凝胶电泳、NanoPhotometer spectrophotometer、Qubit2.0 Fluorometer和Agilent 2100 bioanalyzer对各样品的RNA进行质量检测。

1.2.3二代测序文库的构建、测序与质控 采用NEB#7530试剂盒,对高加索三叶草根茎芽样品的二代转录组测序文库进行构建。总共创建了 12个样品(NG,BW,EW,MW,4个时期各3次重复)的二代测序文库。委托广州基迪奥生物科技有限公司通过Illumina HiSeqTM4000测序平台进行测序。高通量测序完成后,通过fastp[20]软件对下机的Raw reads进行质控,最终得到高质量的clean reads。

1.2.4三代测序文库的构建与测序 将4个采样时期的高加索三叶草根茎芽样品等量混合为1个样品(简称MS)提取总RNA后进行三代全长转录组测序文库的构建。采用Clontech SMARTer PCR cDNA Synthesis Kit进行文库构建,主要步骤为:RNA样本质检;第一链cDNA合成;PCR扩增合成双链cDNA;PCR产物纯化;SMRTbell文库构建。最后将SMRT bell文库退火结合引物和聚合酶,由广州基迪奥生物科技有限公司在PacBio Sequel II平台进行测序。

采用Pacific Biosciences[21]支持的Isoform sequencing(Iso-Seq)对cDNA文库的原始测序序列进行分析。具体分析过程为:选取下机数据中full passes数目大于等于1的序列开展环型一致性序列(Circular consensus sequence,CCS)分析,得到用于后续转录本分析的高精确度CCS reads(又称HIFI reads);根据CCS reads是否都包含5′引物、3′引物和poly A结构来判断转录本的完整性,包含这三种结构的序列称为全长序列,进一步获得全长非嵌合(FLNC)序列;用Minimap2将相似的FLNC序列进行层级聚类,获取到一致性序列(Unpolished consensus isoforms);利用Quiver算法,对一致性序列进一步校正,根据输出的序列准确度,获得高质量序列(High quality isoforms,HQ isoforms,预测准确度≥0.99)和低质量序列(Low quality isoforms,LQ isoforms,预测准确度<0.99);利用相同样品的二代Illumina测序数据,同时利用LoRDEC(version 0.8)[22]对上述低质量序列进行校正。校正后取校正覆盖度(二代数据校正的碱基占三代一致性序列的百分比)达99%以上的低质量序列与Quiver校正得到的高质量序列进行合并,得到更准确的转录本,用于后续分析;使用软件CD-HIT-V4.6.7对校正后的序列进行去冗余,最终得到MS样品的非冗余转录本序列,即全长转录本序列。

1.3 数据处理

1.3.1全长转录本功能注释 通过NR(Non-Redundant Protein Sequence Database),SwissProt,KEGG(Kyoto Encyclopedia of Genes and Genomes),KOG(EuKaryotic Orthologous Groups)和GO(Gene Ontology)数据库对isoforms进行功能注释[23]。

1.3.2全长转录本结构分析 使用MISA软件对所有的isoforms进行搜索,寻找其中的简单重复序列(Simple sequence repeat,SSR),并进行统计分类;对没有注释到NR,SwissProt,KEGG和KOG四大数据库的isoforms序列进行长链非编码RNA(Long non-coding RNA,LncRNA)分析,主要通过CNCI和CPC软件进行编码能力预测,取两个软件都预测为“非编码”的结果作为最终的LncRNA结果;利用软件SUPPA对组装出来的编码序列进行可变剪切(Alternative splicing,AS)分析;通过TF数据库(plant TFdb)进行hmmscan比对鉴定转录因子。

1.3.3高加索三叶草Dof转录因子家族鉴定分析 采用TBtools软件对高加索三叶草Dof转录因子家族成员的相关理化性质进行预测;WoLF PSORT (https://www.genscript.com/wolf-psort.html) 预测亚细 胞定位;MEME (https://meme-suite. org/meme/tools/streme) 分析保守氨基酸基序,并通过TBtools可视化。借助MEGA 11邻接法(Neighbor-joining,NJ)进行高加索三叶草和拟南芥Dof转录因子家族成员系统进化树构建分析,并用利用iTOL (https://itol.emb.de/) 对构建的进化树进行美化,其中拟南芥Dof家族成员序列来源于NCBI (https://www.ncbi.nlm.nih.gov) 网站。

2 结果与分析

2.1 Pacbio Iso-Seq全长转录组测序和组装

在PacBio Sequel平台上,对4个采样时期的高加索三叶草根茎芽混合样品(MS)构建一个全库开展全长转录组测序,获得的原始总碱基数为77.26 Gb,Subreads数量为49 485 458条,Subreads平均长度为1 561 bp,N50为1 811 bp。通过Full Passes≥1对Subreads进行筛选,得到1 016 541条高精度的CCS reads,其碱基数量为1 842 493 178 bp,平均长度为1 812 bp,平均Full Pass数量为44。进一步对以上CCS reads进行分类,得到894 504条全长非嵌合序列(FLNC reads),121 372条非全长序列,16 625条嵌合体序列,665条短序列。将FLNC reads进行层级聚类,获取到一致性序列。然后利用Quiver算法对一致性序列进行校正后,获得87 044条高质量序列和941条低质量序列。另一方面,通过Illumina RNA-seq高通量测序平台,对4个采样时期的高加索三叶草根茎芽共计12个样品的cDNA文库进行二代测序,共得到644.20百万的raw reads,进一步得到641.19百万的clean reads。为了提高根茎芽混合样品全长转录本序列的准确性,利用Ilumina RNA-seq二代数据对低质量序列进行校正,与Quiver校正得到的高质量序列进行合并,进而得到更准确的转录本序列87 852条。再使用软件CD-HIT-V4.6.7对校正后的序列进行去冗余,最终得到N50为1 916 bp的70 590条非冗余序列或称全长转录本(即isoforms)。

2.2 全长转录本功能注释

70 590条中的67 684条Isoforms在NR,KEGG,KOG和SwissProt数据库获得注释,注释率达95.88%;此4种数据库注释量分别占总量的94.79%,92.60%,62.15%和78.26%。其中,以NR数据库为基础,对所有Isoforms进行序列比对,预测高加索三叶草的同源物种,此处仅展示排名前三的物种(图2)。结果发现,高加索三叶草与红三叶的同源相似率最高,达41.09%;其次为蒺藜苜蓿(Medicagotruncatula),相似率为31.22%;此外,与鹰嘴豆(Cicerarietinum)的相似率也有12.10%。

图2 同源物种分布Fig.2 Homologous plant species classification

为更好地预测和分类高加索三叶草的转录组数据,通过KOG,GO和KEGG数据库对所有Isoforms进行比对与功能注释。KOG数据库中,有43 870条Isoforms被注释成功,大致可分为 25个功能类型(图3)。其中,涉及Isoforms数量均较多的类别为:信号转导机制(T)、碳水化合物转运和代谢(G)、氨基酸转运和代谢(E)和脂质转运和代谢(I)等与转运代谢相关的类别,分别有6 129条、3 348条、2 297条和2 019条。此外,能量的产生和转化(C)类别中也涉及较多的Isoforms,达2 198条。

图3 KOG功能注释及分类Fig.3 KOG functional annotation and classification

GO分析显示,共有51 905条Isoforms获得GO功能注释,涉及生物过程(Biological process,BP)、分子功能(Molecular dunction)和细胞组分(Cellular component,CC)3大类别,进一步分为53个亚类(图4)。在BP类别中,代谢过程涉及的Isoforms数量最多,有37 331条;刺激响应涉及的Isoforms也较多,达21 392条。在CC类别中,涉及Isoforms数量前三的是细胞、细胞部分和细胞器,均在30 000条以上。在MF类别中,结合和催化活性中涉及的Isoforms数量远多于其他亚类。

KEGG分类表明,注释到的Isoforms涉及代谢和遗传信息处理等5大类,进一步分为19个亚类(图4)。代谢类别所占比例最大,其中碳水化合物代谢类别富集的Isoforms数量较多,为4 308条;此外,环境信息处理类别中的信号转导和有机系统类别中的环境适应两个亚类也值得关注,分别富集到1 494和1 154条Isoforms。进一步经KEGG通路富集分析,发现20 190条Isoforms被富集到135个通路。由图5可以看出,代谢类别主要包括淀粉和蔗糖代谢等通路。另外,植物激素信号转导和MAPK信号通路等与环境有关的通路中也富集较多的Isoforms。

图5 KEGG通路富集分析Fig.5 KEGG pathway analysis注:因KEGG通路较多,仅将各类富集基因数目排名前2的通路进行展示Note:Due to the large number of KEGG pathways,only the pathways with the number of enriched genes listed in not less than the top 2 were showed

2.3 全长转录本结构分析

利用MISA软件对高加索三叶草MS样品的 70 590 条Isoforms进行搜索,共筛选到二、三、四、五和六核苷酸五种类型的SSR位点19 693个,其中三核苷酸类型最丰富(10 273个),五核苷酸类型最少(684个);重复型中以4~7次重复最多(1 473个),其次为8~11 次重复(3 071个)(图6)。从2.2部分可以看出,大多数全长序列得到了较好的注释;通过CNCI和CPC软件对于没有得到注释的全长序列进行LncRNA预测,获得2 668条LncRNA。通过软件SUPPA的分析,共有2 788个AS被鉴定到,包括可变3′端位点(752个)、可变5′端位点(683个)、可变首外显子(65个)、可变末外显子(5个)、外显子互斥(25个)、内含子保留(1 200个)和外显子跳跃(58个)7种类型;以内含子保留、可变3′端位点和可变5′端位点三种类型为主。

图6 SSR分析Fig.6 Analysis of SSR

2.4 转录因子家族预测

基于高加索三叶草的全长转录本测序数据,将70 590 条全长转录本序列通过TF数据库进行hmmscan比对预测,鉴定到2 917条序列分属于53个TFs家族;其中,ERF,C3H,bHLH和bZIP这4个TFs家族所含序列较多,均超过200条(图7);数量居中的TFs所含序列也超过40条,如Dof,TCP和SBP等家族。

图7 转录因子分析Fig.7 Analysis of TFs

2.5 高加索三叶草Dof转录因子家族鉴定分析

2.5.1TaDof家族理化性质和亚细胞定位分析 经比对预测,在高加索三叶草全长转录组数据中获得42条Dof转录因子序列,命名为TaDof1~TaDof42(表2)。蛋白理化性质分析显示,高加索三叶草42个Dof转录因子编码的氨基酸数目为63~495;相对分子质量为7 415.52~54 964.37,最小值和最大值分别对应TaDof7和TaDof6;等电点为5.3~10.38,9个蛋白等电点小于7,为酸性蛋白,33个蛋白等电点大于7,为碱性蛋白;不稳定系数为32.6~73.58,3个蛋白不稳定系数小于40,为稳定蛋白,其余39个为不稳定蛋白;脂溶指数介于35.56~58.24之间;平均亲水系数均为负值,表明其属于亲水性蛋白。亚细胞定位显示,TaDof8和TaDof24定位于叶绿体,TaDof10,TaDof13,TaDof27和TaDof32定位于细胞外基质,其余36个成员均定位于细胞核。

2.5.2TaDof家族系统进化分析 利用MEGA11构建高加索三叶草与拟南芥Dof转录因子家族系统进化树,再通过iTOL进行美化(图8),结果将高加索三叶草与拟南芥Dof蛋白聚类为11个亚族(A~K)。该进化树显示,除A和B亚族均只包含高加索三叶草或拟南芥Dof成员,未表现出两者之间的亲缘关系;而在其他9个亚族中,二者的Dof蛋白可能存在较近的亲缘关系,例如C亚族中的TaDof9和DOF4.7蛋白在相同的进化分支,D亚族中的TaDof19,TaDof23和OBP4蛋白处于同一进化分支。进化树中距离较近的蛋白功能通常是相似的,可据此推测TaDof蛋白的功能。

图8 Dof蛋白的系统发育树Fig.8 Phylogenetic tree of the Dof proteins注:红色字体代表高加索三叶草Dof家族成员;黑色字体代表拟南芥Dof家族成员Note:The protein with red font represented the members of caucasian clover Dof family,and the protein with black font represented the members of Arabidopsis Dof family

2.5.3TaDof家族保守基序分析 通过在线软件MEME对高加索三叶草Dof蛋白保守结构域进行预测,并利用TBtools软件将Motif的分布情况可视化。由图9可以看出,在TaDof家族中共预测得到10个Motif;各成员含有的Motif数量为1~7个,其中除了TaDof24和TaDof37,其余成员均含有Motif1;除了TaDof7,其余成员均含有Motif2。此外,同亚组TaDof成员的Motif组成与分布相同或相似,不同亚组间的Motif组成及分布有所差异。

3 讨论

本研究通过PacBio Iso-Seq和Illumina RNA-Seq两种测序技术结合的方法,在正常生长期和自然降温期的高加索三叶草根茎芽混合样本中获得平均长度约1 727 bp和N50为1 916 bp的全长转录本70 590条。本研究中的转录本数量高于人工模拟低温胁迫下的高加索三叶草转录组的数量[9,14],但低于正常生长情况下的高加索三叶草转录组的数量[24]。究其原因,前者是对短期低温胁迫的高加索三叶草叶片进行的转录组测序;后者是对正常生长期高加索三叶草主根、水平根茎、主根膨大部位、根茎芽和根茎芽尖5种组织及部位的混样进行的转录组测序;进一步说明转录组结果会因植物组织部位、生长阶段及环境的不同而发生变化[25]。

与NR数据库比对后,发现高加索三叶草比对到红三叶的Isoforms最多,这与二代转录组测序的比对一致[9],表明其与红三叶亲缘性较高。本研究发现,与KOG,GO,KEGG数据库比对后,有6 129条与信号转导机制相关的Isoforms注释到KOG数据库,21 392条与刺激响应相关的Isoforms注释到GO数据库,1 494条与信号转导和1 154条与环境适应相关的Isoforms注释到KEGG数据库。逆境信号的感知和转导是植物适应环境和生存所必需的[26],说明高加索三叶草可能通过调控信号转导和环境适应途径相关基因的表达来抵御自然降温这一环境刺激。碳水化合物代谢途径中,编码某些酶的同源基因的表达可能对植物抵御低温起到重要作用[27]。植物面临低温时涉及的代谢通路一般为半乳糖代谢、淀粉和蔗糖代谢和脯氨酸代谢等通路[28]。淀粉和蔗糖代谢通路的某些基因在高加索三叶草响应短期人工模拟低温胁迫中上调表达[9]。本研究的KEGG注释结果显示碳水化合物代谢富集的Isoforms较多,进一步的KEGG通路注释结果显示淀粉和蔗糖代谢通路涉及较多Isoforms,推测淀粉和蔗糖代谢等碳水化合物代谢在高加索三叶草适应长时间低温胁迫扮演着重要角色。此外,本研究KEGG通路注释结果中的植物激素信号转导通路富集的Isoforms也较多。植物激素可以通过激素信号与低温信号的交叉来参与低温响应[29]。其中,由ABA介导的ABA信号途径在植物抵抗低温的过程中也扮演了重要角色[30-31],如马铃薯(SolanumtuberosumL.)的StABF1基因可被低温诱导,还对耐寒起到正向调控的作用[32]。因此,推测高加索三叶草也能通过调节激素信号途径相关基因来抵抗低温。

SSR作为一种多态性高、重复性好和特异性强的共显性遗传标记,在物种遗传多样性分析、亲缘关系远近对比及遗传图谱构建等方面具有重要作用[33]。本研究筛选到多种类型的多个SSR位点,可为进一步开发高加索三叶草特异的SSR标记及遗传多样性分析等提供数据参考。LncRNA被普遍认为是一类不能编码蛋白质的RNA,在人类医学领域受到了较多学者的研究[34]。目前,对植物LncRNA的研究多集中在拟南芥、水稻、蒺藜苜蓿和番茄等模式植物中,涉及在植物生长发育、开花及响应逆境胁迫等方面发挥的作用[35]。本研究通过对高加索三叶草的全长转录本进行预测,最终得到2 668 条LncRNA,比Yin等[24]的研究结果多239条,推测这些LncRNA在高加索三叶草面临长时间低温胁迫的生理反应调控方面具有一定作用。此外,这些LncRNA也可能有助于高加索三叶草其他方面的研究。真核生物体中,AS事件可调节基因表达和增加蛋白质的多样性,在植物开花诱导和响应非生物胁迫等方面具有重要作用[36]。本研究中,AS数量为2 788,说明这些AS在高加索三叶草响应低温胁迫中扮演了重要角色。此外,AS数量低于Yin等[24]对高加索三叶草的研究结果,推测组织来源及低温环境共同造成了该差异。

植物面临低温胁迫时,细胞中的低温感受器能够迅速感知环境温度,随后通过多种转导途径将信息传递至细胞核,细胞中能够响应低温胁迫的TFs基因开始表达,进而调控下游相关基因的表达,最终影响植物对低温的应答[37]。目前,多种参与调控植物低温应答的TFs已经被鉴定出来,如AP2/ERF,bHLH和ZFP等TFs家族的成员[38]。本研究在70 590 条全长转录本序列中鉴定到属于53个TFs家族的2 917条TFs序列,其中含序列数量较多的TFs家族为ERF,C3H,bHLH等。AP2/ERF家族是植物界中最大的转录因子家族之一,该家族成员可参与植物对低温的应答,也可通过调控下游靶基因的表达来增强植物的抗寒能力[39]。C3H型锌指蛋白是ZFP家族的一个亚家族,在植物的生长发育过程,与植物响应多种胁迫的过程中均占有一席之地[40]。据报道,过表达PvC3H72的转基因柳枝稷在4℃的耐冷性显著提高,其电解质渗透率更小,相对含水量更高,并且经-5℃冷冻处理后的转基因株系存活率显著提高[41]。此外,作为植物特有的转录因子——Dof,也有42条序列在本研究中被鉴定出来。Dof家族成员广泛参与植物对低温胁迫的响应过程,过表达编码Dof的同源基因可提高转基因植株的耐寒性[18,42]。先前的研究表明,葡萄的25个假定Dof基因中有11个能够响应冷胁迫,其中Dof17d是受冷胁迫诱导最强烈的基因之一;VaDof17d在葡萄中的过表达可使葡萄的耐寒性增强,而CRISPR/Cas9编辑则导致其耐寒性降低,这些结果表明VaDof17d在葡萄耐寒性中发挥了正向作用,可能是抗寒分子育种的重要候选基因[43]。因此,推测ERF,C3H,Dof等TFs在高加索三叶草响应长时间低温胁迫的过程中具有重要作用,值得探讨。

为后期深入研究转录因子在高加索三叶草响应低温胁迫中的功能,本研究基于全长转录组测序结果选取Dof家族从生物信息学分析入手进行初步探讨。经过比对分析,本研究从高加索三叶草全长转录组数据中筛选到42个TaDof家族成员,该数量高于模式植物拟南芥和近缘种红三叶[44-45],导致这一差异的原因可能是物种在进化过程中,为了适应环境,基因发生了复制与分化。本研究通过对42个TaDof成员进行了亚细胞定位预测,结果显示大多数定位于细胞核,说明该家族成员主要在细胞核发挥生物学功能,但是该定位结果还需通过实验结果来验证。系统进化树分析将高加索三叶草与拟南芥Dof蛋白聚类为11个亚族(A~K),其中A亚族的2个高加索三叶草Dof成员未与拟南芥Dof聚在一起,说明这2个Dof蛋白可能是高加索三叶草特有的,其功能有待研究。研究报道,突变体cdf3-1基因使拟南芥对低温胁迫敏感,而过表达该基因出乎意料地增加了植物对渗透胁迫的抗性[46];过表达与拟南芥CDF1同源的甘蓝型油菜BnCDF1基因,可使拟南芥在-8℃冷冻处理2 h后,相较野生型植株,转基因株系叶片仅轻度萎蔫,存活率显著增加,且冷响应基因的表达被激活,说明BnCDF1作为调节因子可影响植物的相变和对冰冻胁迫的响应[47]。本研究发现TaDof4和拟南芥CDF1,CDF3蛋白处在相同的进化分支,推测TaDof4可能对高加索三叶草响应低温胁迫起到一定的正向调控作用,未来可对其功能做进一步解析。TaDof家族的保守基序分析显示,同亚组TaDof成员的Motif组成与分布相似,表明同亚组成员的功能可能相似;不同亚组间的Motif组成及分布有所差异,这可能代表各亚族间功能的差异。总之,这些生物信息学分析的结果将为高加索三叶草Dof转录因子的功能验证提供理论基础,尤其是TaDof4可能在低温胁迫响应中起重要作用,需要进一步验证。

4 结论

本研究通过PacBio Iso-Seq和Illumina RNA-Seq相结合,在正常生长期和自然降温期的高加索三叶草根茎芽混合样本中获得70 590条Isoforms。全长转录本分析表明:高加索三叶草与红三叶的同源相似率最高,KOG中涉及与信号转导机制相关的Isoforms较多,GO条目中涉及与刺激响应相关、信号转导和环境适应相关的Isoforms较多,KEGG通路中淀粉和蔗糖代谢、植物激素信号转导通路富集较多的Isoforms,推测高加索三叶草可能通过调控信号转导、环境适应途径和碳水化合物代谢相关基因的表达来抵御长时间的低温胁迫;预测到19 693个SSR,2 668 条LncRNA,2 788个AS和2 917条TFs序列,TFs中的ERF,C3H,Dof等转录因子家族含序列数量较多。Dof转录因子家族的生物信息学分析结果表明:42个Dof家族成员全部为亲水蛋白,大部分定位于细胞核,少数定位于叶绿体或细胞外基质中;系统进化树分析将高加索三叶草与拟南芥Dof蛋白聚类为11个亚族,TaDof4和拟南芥CDF1,CDF3蛋白亲缘关系较近,推测TaDof4可能对高加索三叶草响应低温胁迫起到一定的正向调控作用,后期可进一步验证其功能。

猜你喜欢
高加索三叶草家族
高加索山的英雄
我家的三叶草
HK家族崛起
高加索的摩登时代
俄罗斯文学中的高加索形象
《小偷家族》
皿字家族
穿越千年高加索
家族中的十大至尊宝
三叶草和喇叭花