谢佳敏 周明兵
(浙江农林大学 亚热带森林培育国家重点实验室 杭州 311300)
转座子广泛分布在生物基因组内,是生物基因组成的重要部分,在有些植物中转座子含量可以高达80%以上(Sergeevaetal.,2011),如在小麦(Triticumaestivum)基因中转座子含量为88%(Chouletetal.,2010),在玉米(Zeamays)基因中转座子含量为84%(Schnableetal.,2009)。转座子在基因组内的活动可以对生物基因组产生巨大的影响,主要表现为:转座子的转座活动造成基因插入突变,同时,转座过程中也产生新基因,因此转座子的活动被认为是生物进化的重要动力之一(Kazazian,2004)。
根据转座子在生物基因组内转座模式的不同,将转座子分为ClassⅠ和ClassⅡ 2类。ClassⅠ类转座子又叫逆转录转座子(RNA转座子),在生物体内以RNA为中间体进行转座,其转座模式为“复制-黏贴”;ClassⅡ类转座子又叫DNA转座子,在生物体内的转座模式为“剪切-黏贴”。根据序列的相似性,DNA转座子又可以分为12个不同的超级家族:Tc1/Mariner,hAT,Mutator,Merlin,Transib,P,Piggybac,PIF,CACTA,Crypton,Helitron以及Maverick(Wickeretal.,2007)。
DNA转座子根据能否发生自主转座又可分为自主转座子和非自主转座子。自主转座子由于其结构完整,具有编码完整转座酶的能力,所编码的转座酶可以促使自身发生转座;而非自主转座子与自主转座子相比,其内部的转座酶编码序列有所缺失,不能编码转座酶,必须依靠相应的自主转座子编码的转座酶作用才能转座。非自主DNA转座子既可以是自主DNA转座子缺失部分序列所产生的衍生物,也可以是仅仅带有与对应自主DNA转座子相似的末端倒置重复序列(Terminal Inverted Repeats,TIR)(Liuetal.,2009)。
Mariner-like elements (MLE)家族转座子是DNA类转座子Tc1/Mariner超级家族中的重要成员,最早是在研究毛里塔尼亚果蝇(Drosophilamauritiana)白眼基因的一个不稳定突变时发现的(Haymeretal.,1986;Jacobsonetal.,1986)。完整的MLE转座子的结构比较简单,主要包括转座子末端被转座酶识别并结合的末端颠倒重复序列(TIRs)、中间编码转座酶开放阅读框(Open Reading Frame,ORF)和转座子插入靶基因组时存在的靶位点重复序列(target site duplications,TSDs)(Robertson,1993)。其中,TIR结构是在基因组中,两端前后倒置互补的重复DNA序列,TIR是转座酶所识别及结合的区域。转座酶的编码区一般包含2个功能区域,HTH结构域(螺旋-转角-螺旋空间结构)与DDD(3个天冬氨酸组成的保守空间结构)功能结构域,其中HTH结构域的功能是识别和结合基因组中对应的TIR结构,DDD功能域是催化转座的催化区域,具有剪切转座子并整合入基因组的功能。
MLE转座子结构简单,在转座酶的催化作用下,含有其结合序列的TIR结构就有概率发生转座(Lampeetal.,1996)。利用MLE转座子的转座必需元件和转座酶可以分离的特征,可以构建二元转座子系统,该转座子系统具有高载量、高转座效率、高安全性等突出优点,可将其应用于转基因、基因功能研究、基因治疗等领域。如在鲑鱼(Oncorhynchusketa)中发现的Sleeping Beauty,在经过人工改造后,构建成为具有高活性的转座子(Izsvaketal.,2000;Ivicsetal.,2006),它能在大多数脊椎动物细胞中发生转座(Liuetal.,2006),还可使所携带的基因在动物体内实现稳定整合和长期表达(Horieetal.,2003)。同时利用该转座子的定向点特异性修复能力与干细胞的多向分化性相结合,就可通过基因修复来治疗多种疾病,且无需进行体外细胞培养(Vandendriesscheetal.,2009;Dupuyetal.,2002),是目前利用最广泛的转座子基因工具。
毛竹(Phyllostachysedulis)占我国竹类种植面积的近74%,约有627.7万hm2,是非木材产品中最丰富的自然资源(Jiangetal.,2007)。最新的毛竹基因组测序结果表明,毛竹基因组中转座子含量高达63.24%(Zhaoetal.,2018)。本课题组从毛竹基因组中克隆得到2个MLE转座子并成功构建了2个MLE转座子的体外表达体系(Zhouetal.,2015;2016;2017)。本研究利用最新的毛竹基因组数据系统地鉴定了毛竹基因组中MLE自主转座子,及对应非自主转座子,并分析它们的进化模式,研究结果有助于毛竹的基因组进化研究与新的植物转座子工具开发。
1.1 毛竹MLE转座子完整序列的鉴定 下载最新版的毛竹全基因组序列文件(http:∥bamboo.bamboogdb.org),使用IRF307(Warburton,2004),对毛竹基因组中的TIR结构进行筛选,参数设置为TIR序列长度大于20且小于100,两侧TIR序列的相似度在80%以上。
根据两端TIR序列坐标,提取坐标间包括TIR的完整DNA序列,利用NCBI数据库中已发布的植物中完整MLE转座酶序列,使用Fasta36软件构建本地MLE蛋白数据库,使用Fasty36功能,将提取的核酸序列进行翻译,将e值小于-10、阅读框连续且具有正常的起始密码子和终止密码子的序列视为MLE自主转座子。使用DNAMan分析获得的完整MLE自主转座子的转座酶ORF,使用在线工具HELIX-TURN-HELIX MOTIF PREDICTION(https:∥npsa-prabi.ibcp.fr)进行HTH结构域的预测,使用在线工具Swiss model对转座酶的三级结构进行分析,确定其DDD结构域。
1.2 完整MLE转座子的活性分析 从NCBI数据库下载水稻(Oryzasativa)、大豆(Glycinemax)和毛竹中已报道的、具有转座活性的MLE转座酶(Yangetal.,2014;2006;Jarviketal.,1998;Zhouetal.,2015)。使用Mafft软件将本次筛选获得的毛竹MLE自主转座子的转座酶与下载的活性MLE转座酶进行比对(Feschotteetal.,2003),验证所获得的毛竹MLE自主转座子的转座酶功能区域,预测所得到的MLE转座子的转座酶是否具有潜在的转座活性。
通过NCBI数据库下载已经发表的部分动植物及微生物中的活性MLE转座酶完整序列,将本研究得到的毛竹完整MLE转座酶进行比对构建进化树,分析其在生物中的进化关系。
1.3 非自主转座子鉴定 将上述鉴定MLE自主转座子的TIR序列与IRF307软件获得的TIR序列(含有TIR的序列)数据库进行本地Blast,获得了高度相似性的TIR序列,提取与MLE自主转座子TIR一致的TIR序列。将提取的序列与MLE自主转座子序列通过在线BlastN进行两两比对(https:∥blast.ncbi.nlm.nih.gov/Blast.cgi),得到MLE自主转座子与TIR序列内部序列一致的TIR序列,视为MLE自主转座子对应的非自主转座子。
使用Mafft软件将获得的MLE非自主转座子与其对应的MLE自主转座子进行比对,分析MLE非自主转座子与自主转座子各部分缺失的情况。
1.4 插入偏好性规律 根据MLE自主转座子与非自主转座子的坐标,在毛竹全基因组中,提取MLE自主转座子与非自主转座子侧翼25 bp序列,使用TBTools工具的SequenceLogo进行比对和可视化展示(Chenetal.,2020)。
2.1 2个潜在 Mariner-like自主转座子的鉴定 通过IRF307软件在新版毛竹基因组中共找到了310 845条含有TIR的序列,利用Fasta软件构建的植物MLE转座酶本地数据库,经Fasty36进行筛选,获得了301个含有TIR结构且拥有完整或部分编码转座酶结构的序列(e值小于5)。筛选得到了2个拥有完整MLE转座酶功能域的MLE转座子,命名为PhV2MLE1A和PhV2MLE2A。PhV2MLE1A全长3 950 bp,TIR长30 bp(5′TIR:CTCCCTCCGTCCCAGTATATAGGGCGTATA;3′TIR:TATATGCCCTATATACTGGGACGGAGGGAG),阅读框编码414个氨基酸(图1A);PhV2MLE2A全长12 990 bp,TIR长49 bp(5′TIR:CGACTATGAGG TAGTCGTAGCAAGACTTACGACTATGGGATAGTCGT AG;3′TIR:CTACAACTATATTACAGTCGTAAGATC TCCTACGACTATATTACGGTCG),阅读框编码372个氨基酸(图1B)。
通过在线工具HELIX-TURN-HELIX MOTIF PREDICTION和Swiss model,将PhV2MLE1A和PhV2MLE2A编码的转座酶进行结构域的在线预测,图1A和图1B中分别为PhV2MLE1A和PhV2MLE2A转座酶阅读框翻译序列,下划线依次为预测得到的HTH结构域和DDD结构域。
图1 PhV2MLE1A和PhV2MLE2A转座酶ORF翻译Fig.1 ORF translation of PhV2MLE1A and PhV2MLE2A transposaseA:PhV2MLE1A转座酶ORF翻译图;B:PhV2MLE2A转座酶ORF翻译图。下划线依次为预测得到的HTH结构域和DDD结构域。A:ORF translation diagram of PhV2MLE1A transposase;B:ORF translation diagram of PhV2MLE2A transposase.The underline is the predicted HTH domain and DDD domain in sequence.
2.2PhV2MLE1A和PhV2MLE2A具有转座活性 将PhV2MLE1A和PhV2MLE2A的转座酶,与已报道的水稻中的活性MLE转座子Osmar1,Osmar5,Osmar9,Osmar10,Osmar14,Osmar17,Osmar19的转座酶(Osmar5是目前水稻中发现的唯一拥有天然活性的MLE转座子),大豆中的活性MLE转座子Soymar1的转座酶,毛竹中的完整活性MLE转座子Phmar1,Phmar2的转座酶,进行比对(图2)。PhV2MLE1A和PhV2MLE2A转座酶的HTH结构域和DDD结构域与已报道的活性转座酶的对应结构域高度同源(图2),其中,一些在关键位点上的氨基酸完全一致,如在结合区域HTH结构的R、T,DDD结构域的DEKWF、QQDNA、PNSPD,这些关键位点的氨基酸决定了转座酶的功能。PhV2MLE1A和PhV2MLE2A转座子的TIR结构完全符合已报道的活性MLE转座子结构特征。
图2 PhV2MLE1A和PhV2MLE2A转座酶与水稻、毛竹及大豆中完整MLE转座酶的比对Fig.2 Comparison of PhV2MLE1A and PhV2MLE2A transposase with complete MLE transposase in rice,Moso bamboo and soybeanOs:水稻;Soy:大豆;Ph:毛竹。细框内为HTH结合域,粗框内为催化域DDD结构。Os:Oryza sativa;Soy:Glycine max;Ph:Phyllostachys edulis.The HTH binding domain is in the thin frame,and the catalytic domain DDD structure is in the thick frame.
同时发现,所筛选得到的PhV2MLE1A转座子与已发表的Phmar2转座子相似性极高,认为是同一个MLE转座子;PhV2MLE2A转座子为全新发现的一个毛竹MLE转座子。
图3中转座酶的进化关系共分为A和B 2个大类。本次筛选获得的2个完整MLE转座子的转座酶处在A类,与水稻、大豆等植物中的MLE转座酶十分接近,B类中主要为微生物、昆虫以及人类中的MLE转座酶。
图3 PhV2MLE1A和PhV2MLE2A的进化关系Fig.3 The evolutionary relationship of PhV2MLE1A and PhV2MLE2APh:毛竹;Os:水稻;Soy:大豆;Bm:野桑蚕;Hi:草蛉;Hs:人;Mbou:蚂蚁;Am:蜜蜂;Fa:地蜈蚣;Mos:家蝇。Ph:Phyllostachys edulis;Os:Oryza sativa;Soy:Glycine max;Bm:Bombyx mandarina;Hi:Chrysopinae;Hs:Homo sapiens;Mbou:Messor bouvieri;Am:Apis mellifera;Fa:Forficula auricularia;Mos:Musca domestica.
2.3 非自主MLE转座子的鉴定 将PhV2MLE1A和PhV2MLE2A的TIR序列与通过IRF307软件获得的毛竹TIR序列数据库,进行本地Blast,获得了高度相似性的TIR序列,提取对应的非自主转座子序列,将对应非自主转座子序列与完整的MLE自主转座子序列使用BlastN进行两两比对之后,PhV2MLE1A共筛选得到4条结构一致的对应非自主转座子(PhV2MLE1NA1,PhV2MLE1NA2,PhV2MLE1NA3和PhV2MLE1NA4)。PhV2MLE2A共筛选得到4条结构一致的对应非自主转座子(PhV2MLE2NA1,PhV2MLE2NA2,PhV2MLE2NA3和PhV2MLE2NA4)。图4为PhV2MLE1A(A)和PhV2MLE2A(B)转座子与对应的非自主转座子两侧TIR结构比对情况。
图4 PhV2MLE1A(A)和PhV2MLE2A(B)及其非自主转座子的TIR结构Fig.4 TIR structure of PhV2MLE1A(A)and PhV2MLE2A(B)and their non-autonomous transposons
将完整MLE转座子根据编码区域及转座酶的功能分为9个部分:TIR,TIR-M,M-HTH,HTH,HTH-DDD,DDD,DDD-T,T-TIR,TIR(分别为5′TIR结构,5′TIR结构至转座酶起始密码子M,起始密码子M至HTH结构区域,HTH转座酶结合域,HTH结合域至DDD功能域的连接区域,DDD结构功能域,DDD功能域至终止密码子T,终止密码子T至3′TIR结构)。将2个完整MLE转座子及其非自主转座子结构比对后,对MLE非自主转座子与其自主转座子的各个区域的序列分布的情况进行统计(图5)。发现除TIR结构依旧完整之外,与完整MLE转座子相比较,其他非自主转座子各个部分DNA序列缺失严重,且缺失情况并不存在规律。PhV2MLE1NA1和PhV2MLE2NA1保留了大部分HTH和DDD结构域,PhV2MLE1NA2、PhV2MLE1NA3、PhV2MLE1NA4的转座酶缺失比较严重,PhV2MLE2NA2、PhV2MLE2NA3保留了TIR序列及侧翼序列,而PhV2MLE2NA4只具备完整的TIR序列。
图5 PhV2MLE1A(A)和PhV2MLE2A(B)及其非自主转座子结构缺失情况Fig.5 PhV2MLE1A (A)and PhV2MLE2A (B)and their non-autonomous transposons structure deletion
2.4 转座子插入偏好性规律 对鉴定到的2个MLE自主转座子及其对应的非自主转座子的侧翼20 bp序列进行比对分析(图6),PhV2MLE1A和PhV2MLE2A以及它们的非自主转座子插入位点上下游均为2 bp的TA,MLE转座子在插入基因组的过程中存在着明显的插入偏好性。
图6 PhV2MLE1A及其非自主转座子(A)和PhV2MLE2A及其非自主转座子(B)两侧侧翼序列富集分析Fig.6 Sequence enrichment analysis on flanking of PhV2MLE1A and its non-antonomous transposon (A)and PhV2MLE2A and its non-antonomous transposon (B)
本次研究从MLE转座子具有特征性的TIR序列入手,首先对新版毛竹全基因组中全部含有TIR结构的序列进行了发掘,再分析具有MLE转座酶的MLE转座子序列,全面鉴定了毛竹MLE自主转座子,也对相应的MLE非自主转座子进行了鉴定和分析。
MLE转座子在进化过程中以垂直传递为主,也可通过横向传递的方式侵入其他物种基因组中,频繁转座,大量扩增自身的拷贝数,从而在宿主基因组长期进化中保留下来(Miskeyetal.,2005;Lampeetal.,2001;Hartletal.,1997)。一个转座子从侵入宿主基因组到在宿主基因组稳定下来一般要经历5个阶段:1)外源转座子的侵入;2)高频转座以扩增拷贝数;3)通过物种杂交在群体里广泛扩散;4)大量转座子积累点突变和插入/缺失突变丧失活性;5)通过转座子的随机丢失,宿主基因组和转座子达到生态平衡。处在第2)阶段的MLE转座子活性最强,目前在基因组鉴定的MLE转座子大部分处在4)或5)阶段,积累了或多或少的突变,部分或全部丧失了转座能力,成为低活性或非活性的转座子“化石”。本研究从新版毛竹基因组中共找到了310 845个TIR结构,在这些TIR结构中找到了301个可编码完整或者部分MLE转座酶的DNA序列(e值小于-5),但是只有2个可被鉴定为潜在自主转座子。说明在毛竹的基因组中分布着大量的MLE转座子,在毛竹进化过程中,绝大多数的MLE转座子的转座酶结构发生了缺失,这可能是毛竹进化过程中对于转座子活动的一种调控,通过对MLE转座子的结构进行了干预,使其MLE转座酶结构缺失,从而丧失转座能力(Mtésetal.,2009)。
本次共找到2条结构完整的MLE转座子PhV2MLE1A和PhV2MLE2A,将它们的转座酶与水稻、大豆以及毛竹中已经报道的MLE转座子的转座酶比对,发现PhV2MLE1A和PhV2MLE2A转座酶具有完整的功能结构。通过与动植物中的MLE转座酶比对构建进化关系,PhV2MLE1A和PhV2MLE2A转座酶与同属禾本科(Gramineae)的水稻中的MLE转座酶相似性非常高,而这些转座酶已经被确定具有转座活性。PhV2MLE1A转座子(Phmar2)已经证明具有转座活性,因此PhV2MLE2A很可能也具有自主转座活性,是下一步重点研究对象。Zhou等(2015)报道的另一个毛竹Phmar1转座子在本次筛选中没有发现,可能原因是本研究毛竹全基因组测序中所选取的毛竹样品与Zhou等(2015)克隆转座子所用毛竹植株存在差异,在不同毛竹个体中MLE转座子的活动及分布状态有较大差异。
将结构完整转座子PhV2MLE1A和PhV2MLE2A序列与其非自主转座子进行比对后发现,非自主转座子的缺失情况并不存在规律,转座子内部的编码区与非编码区都存在着序列缺失的情况。这些在进化过程中丧失自主转座能力的MLE转座子,当其对应的转座酶表达时,可以借助转座酶的催化作用发生转座,此特性已经在拟南芥(Arabidopsisthaliana)和酵母(Saccharomycescerevisiae)等模式生物中验证(Zhouetal.,2016)。
通过对2个MLE自主转座子PhV2MLE1A和PhV2MLE2A,及其对应非自主转座子插入位置侧翼DNA序列比对发现,MLE转座子插入位点两侧都是2 bp的TA,说明MLE转座子在转座过程中存在着明显的特异性,插入位点选择有偏好TA的现象(Feschotteetal.,2005)。
毛竹基因组资源丰富,是很好的植物基因库。而转座子活动是生物进化的重要动力,毛竹基因组中MLE转座子的分布情况,对研究毛竹基因组的构成与进化有着重要的意义。本研究从毛竹基因组中筛选得到的MLE自主转座子PhV2MLE1A和PhV2MLE2A,拥有高度保守的TIR结构与完整的编码转座酶结构,可以为基因标签的开发提供新的选择。另一方面,从自主转座子与非自主转座子角度出发,研究了MLE转座子在基因组中的分布与缺失特点,MLE转座子在毛竹基因组中的分布与缺失情况并无明显规律,探究MLE转座子的活动规律有助于揭示MLE转座子在毛竹进化过程中的演变规律。