王晓娟,董文攀,周世良
1 上海科技馆,上海自然博物馆自然史研究中心,上海 200127 2 北京林业大学生态与自然保护学院,北京 100083 3 中国科学院植物研究所,系统与进化植物学国家重点实验室,北京 100093
苜蓿属(MedicagoLinn.)隶属于豆科蝶形花亚科车轴草族,属下物种经历数次划分调整,物种数量从最初的46种不断增加至目前的87种,我国有15种[1—3]。苜蓿属植物的分类困难与其起源、地理分布以及相似的易混淆物种有关,例如,区分苜蓿属、胡卢巴属(TrigonellaLinn.)和草木犀属(MelilotusLinn.)的一些物种,一直是令人棘手的难题[4—5]。1977年,Ivanov[6]提出苜蓿属植物的起源地在高加索地区,之后有学者认为是地中海北部海岸[1]。目前发现的苜蓿属大多数物种分布于地中海沿线、阿拉伯半岛、伊拉克和巴尔干东部地区,而部分成员如紫花苜蓿复合体中的少数种则因栽培逃逸扩展至中亚、北亚和东亚地区[2—3]。苜蓿属植物为一年生或多年生草本,稀灌木,在整个生态系统乃至农牧生产系统中均具有重要的功能,广泛分布于山地、农田、草地、森林等不同生态系统类型,其中,紫花苜蓿因其高蛋白、全营养和耐消化等优良特性,成为世界上最为重要的饲料作物之一[7];截形苜蓿因其为二倍体、自花授粉、种子量大和遗传操作方便等特性,成为豆科植物研究的模式植物[8]。
据《中国植物志》记载,我国现有苜蓿属植物15种,隶属于木本苜蓿组、天蓝苜蓿组、紫苜蓿组、阔荚苜蓿组和南苜蓿组,而《Flora of China》未做属下等级的划分[2]。邓宏超等[4]研究了国内苜蓿属和胡卢巴属的分类划分,并基于形态学特征等将苜蓿属植物分为三类:一是开紫花而荚果螺旋盘卷,二是开黄花而荚果镰刀状弯曲或稍直,三是花杂色而荚果镰刀状弯曲至螺旋盘卷的过渡类型。但由于苜蓿属植物耐受性强,分布广泛,生活型多变,导致学界难以将苜蓿属植物的进化历史与其地理、生境特征直接关联。如何通过科学方法探究苜蓿属植物的生态演化路径已经成为本学科关注的热点之一。
随着分子生态学的出现和发展,利用基因组学和分子生物学的方法解决生态学问题不断报道,但目前我国有关苜蓿属植物叶绿体基因组和系统发育方面的研究尚开展较少,通过叶绿体基因组揭示该属植物的起源、演化方面的研究也少有报道。叶绿体是细胞内一类具有自主遗传功能的重要细胞器。自1986年叶绿体基因组首次被测定以来[9—10],已有近6,549个物种的叶绿体基因组被测序,涵盖大多数重要的真核光合类群(National Center for Biotechnology Information,NCBI,2021年6月8日登录)。叶绿体基因组数据的迅速增加,表明本领域已经逐渐成为研究热点,同时也为揭示叶绿体基因组在研究生态进化中的重要价值提供了依据。研究表明,叶绿体基因组不仅在探究物种起源、演化以及物种间亲缘关系等方面具有重要贡献[11—12],而且在作物遗传改良、生物制剂生产等方面也显示出了巨大潜力[13]。基于此,为了阐明我国苜蓿属植物的分子生态学结构特征,探究其在我国的生态进化路径,本研究选取我国10个苜蓿属代表物种和葫芦巴属一个物种作为研究对象,采用高通量测序平台测定其叶绿体全基因组和核基因ITS序列,通过分析其叶绿体基因组结构特征和变异规律,构建苜蓿属植物的系统发育关系,结合上述苜蓿属植物来源地的生境特征,探究我国苜蓿属物种的叶绿体基因组进化式样,揭示我国苜蓿属植物的演化机理。
苜蓿属和胡卢巴属植物种子来自中国科学院昆明植物研究所中国西南野生生物种质资源库(Germplasm Bank of Wild Species,GBWS),截形苜蓿种子来自澳大利亚南澳研究开发院(South Austrulian Research and Development Institute,SARDI)牧草种质资源库,每种供试材料的采集编号以及采集地的年均降雨量、年均日照时数、年均气温和气候区特征见表1。
表1 取样的苜蓿属植物材料信息
2018年至2019年,表1中苜蓿属和胡卢巴属植物的种子于智能温室(上海乾菲诺农业科技有限公司)进行萌发和培养。所有种子经温水浸种8 h后,将种子置于25℃恒温箱中催芽,每天投洗种子2次,直至种子露白后,进行播种。温室栽培条件为温度(25±2)℃,光照强度400 μmol m-2s-1,空气湿度40%,始终保持基质湿润。整个生育期内常规管理(图1)。
图1 供试苜蓿属植物形态Fig.1 Medicago plants cultivated in green house1,紫苜蓿 M. sativa;2,杂交苜蓿 M. varia;3,截形苜蓿 M. truncatula;4,南苜蓿 M. polymorpha;5,天蓝苜蓿 M. lupulina;6,青海苜蓿 M. archiducis-nicolai;7,花苜蓿 M. ruthenica;8,直果胡卢巴 M. orthoceras;9,单花胡卢巴 M. monantha;10,毛荚苜蓿 M. edgeworthii; 每个种各2张图片,图示各物种的叶片、花序、荚果或复叶等
采集幼嫩叶片立即置于液氮中冷冻后低温保存。样品总DNA采用mCTAB法提取,具体步骤参考李金璐等[14]的植物DNA提取方法。
总DNA采用超声打断,切胶回收350 bp的DNA片段,利用NEBNext©的建库试剂盒构建350 bp大小的文库,利用Hiseq 4000 PE150的测序平台进行测序(北京诺禾致源科技股份有限公司,北京)。
高通量测序数据采用SPAdes3.6.1软件进行质量控制和拼接,以已经发表的叶绿体基因组和ITS序列为参考,用Blast程序筛选出叶绿体基因组和ITS序列的contigs[15],筛选出的叶绿体基因组和ITS序列的contigs用Sequencher 4.10组装成完整的叶绿体基因组和ITS序列。
利用Plann程序对获得的叶绿体基因组进行注释。利用已经公开发表的M.sativa(序列接收号:MK460489)为参考序列,对所有的蛋白质编码基因,rRNA和tRNA基因进行注释,并对注释结果进行逐一检查。缺失的基因或者自动注释错误的基因,依照参考序列的注释信息进行手动调整,得到完整的注释结果。利用在线软件OGDRAW(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)绘制苜蓿属物种的叶绿体基因组物理图谱。
利用MISA 软件对苜蓿属物种的叶绿体基因组的简单序列重复(simple sequence repeats, SSRs)分别进行检测。SSR位点的定义如下,单核苷酸单元的重复数≥10;二核苷酸单元的重复数≥5,三核苷酸单元重复数≥4,四核苷酸、五核苷酸和六核苷酸单元的重复数≥3。两个SSRs之间的距离不少于20 bp。
根据注释结果,提取苜蓿属叶绿体基因组的76个编码基因,利用MAFFT 软件进行比对,并利用MEGA X进行手工检查。比对好之后串联成一个数据集进行系统发育分析。用RAxML软件以最大似然法进行系统发育分析。核苷酸替换模型采用GTR+G,系统发育各个分支长度的支持率通过进行500次自展重复分析获得。
本研究测定了苜蓿属10个物种完整的叶绿体基因组和1个胡卢巴属物种的叶绿体基因组,平均测序深度从1,222×(青海苜蓿)到10,340×(花苜蓿)。供试材料的叶绿体基因组基本特征见表2。叶绿体基因组大小不尽相同,介于121—127 kb之间,其中,青海苜蓿叶绿体基因组最大,长度为127,358 bp,单花胡卢巴最小,长度为121,082 bp,两者基因组大小相差约6 kb。GC含量介于33.8%—34.1%之间,平均值为34.02%,不同物种间GC含量差异较小,有5个物种的叶绿体GC含量完全一致,均为34.1%。
表2 苜蓿属植物叶绿体基因组测序分析
由图2可见,供试苜蓿属和胡卢巴属均非典型的“四区”结构,都缺失了一个大的反向重复序列,属于豆科蝶形花亚科车轴草族反向重复序列缺失支(inverted repeat-lacking clade,IRLC)。依据组装注释的叶绿体基因组的结构特征,供试材料的叶绿体基因组分为以下4种类型:1)类型I最为普遍,包括图2中所示的直果胡卢巴、单花胡卢巴、毛荚苜蓿、紫苜蓿、杂交苜蓿、南苜蓿和截形苜蓿;2)类型II,包括青海苜蓿和花苜蓿两种;3)天蓝苜蓿单独作为类型III;4)胡卢巴单独作为类型IV。对比后发现,四种类型的叶绿体基因组结构发生了不同程度的变化,包括基因的重排现象、片段丢失等。
图2 苜蓿属植物4种叶绿体基因组类型Fig.2 Four types of plastomes in Medicago plants最外圈的方框表示基因(圈内的表示顺时针转录,圈外的表示逆时针转录);不同颜色表示不同功能的基因;阴影表示GC含量;类型I,直果胡卢巴、单花胡卢巴、毛荚苜蓿、紫苜蓿、杂交苜蓿、南苜蓿和截形苜蓿;类型II,青海苜蓿和花苜蓿;类型III,天蓝苜蓿;类型IV,胡卢巴
供试材料的叶绿体基因组都含有111个不同的基因,包括77个蛋白编码基因、30个tRNA基因和4个rRNA基因。其中,自我复制基因包括核糖体大亚基、核糖体小亚基的蛋白编码基因、tRNA和rRNA基因;光合作用基因包括光系统I、光系统II、NADH脱氢酶、细胞色素b/f复合物、ATP合成酶和RubisCo大亚基的蛋白编码基因;其他基因包括成熟酶K、囊膜蛋白、乙酰辅酶A羧化酶亚基、C-型细胞色素酶、蛋白酶基因以及未知功能蛋白编码基因(表3)。
表3 苜蓿属叶绿体基因组的基因类型、基因群和基因名称
由图3可见,苜蓿属叶绿体基因组的简单序列重复数为102到129个,单碱基重复出现次数最多(62.14%),其次为二碱基重复(21.29%)。单碱基重复多是A/T,二碱基重复则多为AT/TA。
图3 苜蓿属物种叶绿体基因组简单重复序列的数量及其分布特征Fig.3 Numbers and characterization of simple sequence repeat (SSR) in Medicago plastomes
如图4所示,在供试苜蓿属和胡卢巴属的叶绿体基因组中,共发现10个倒位的结构变异:1)天蓝苜蓿中2个,发生在基因atpB到ycf3、ndhC到trnLUAA之间的区域;2)青海苜蓿和花苜蓿共享4个倒位,发生在从基因psbM到psaA、ndhB到trnNGUU、ndhB到rpoA和clpP到rpl20之间的区域;3)胡卢巴中6个,发生在基因accD到trnPUGG、ndhB到rpoA、rpl20到psbF、ndhB到trnNGUU、psbJ到cemA以及psbB到ycf1之间的区域。其中,胡卢巴发生倒位变异最多,6处倒位既包括从psbB到ycf1共包含32个基因的长序列区段,也有从psbJ到cemA仅包含3个基因的短序列区段。其中,天蓝苜蓿独立发生2处倒位,而在青海苜蓿、花苜蓿和胡卢巴3个物种中则平行共享以下2处倒位:ndhB到trnNGUU(包含12个基因)、ndhB到rpoA(包含14个基因)。
图4 基于叶绿体编码基因的苜蓿属植物系统发育关系和叶绿体基因组结构变异Fig.4 Phylogenetic relationships based on plastid coding genesand distribution of plastome structural mutations内含子丢失和倒位绘制在分支图的分枝上;右上角的小图表示带枝长的系统发育树,图中数字表示所在节点的支持率,未标注数字的节点的支持率均为100
叶绿体基因组序列分析还在天蓝苜蓿中发现了内含子丢失现象。3个发生内含子丢失的基因分别是clpP、rpoC1和atpF,其功能分别为编码蛋白酶、DNA的RNA聚合酶以及ATP合成酶(图4)。
基于叶绿体基因的系统发育关系显示4个主要谱系分支,从基部开始分别包含毛荚苜蓿、直果胡卢巴和单花胡卢巴、青海苜蓿和花苜蓿以及其他5个种。基于核基因ITS的系统发育关系与以上结果略有不同,主要是天蓝苜蓿单独形成分支,而不是与截形苜蓿等组成一个分支。ITS系统发育分化式样与传统的5个组的划分吻合。
图5 基于rDNA的ITS序列的苜蓿属植物系统发育树 Fig.5 Phylogenetic tree of Medicago species based on rDNA ITS sequences
作为分子生态学研究的基础,分子测序技术的快速发展,直接推动了叶绿体基因组学的发展[16]。典型陆生植物叶绿体基因组为双链环状DNA分子,大小一般为115—165 kb,常编码约101—118个基因。这些基因主要分为3类,即光合作用有关基因、基因自身表达有关的基因和其他生物合成有关的基因。植物的叶绿体基因组结构一般具有相对保守的“四区”结构:大单拷贝区(large single copy region,LSC)、小单拷贝区(small single copy region,SSC)和两个序列完全相同、方向相反的反向重复区(inverted repeat region,IR)。在被子植物中,反向重复区域的基因高度保守,碱基的突变速率也低于单拷贝区,研究表明IR区的存在对于稳定叶绿体基因组结构起到重要作用[17]。IR区主要编码4个rRNA基因(rrn16、rrn23、rrn4.5 和rrn5)和一些未知功能基因(ycf)[18]。被子植物叶绿体基因组的“四区”结构相对保守,但IR区域可扩张或缩减,是影响叶绿体基因组大小的重要因素之一,导致不同植物类群的叶绿体基因组差异很大[19]。例如,发生在豌豆(Pisumsativum)中IR完全删减[20]和天竺葵(Pelargoniumhortorum)中IR极度增加(增至76 kb)[21]的极端报道。此外,已报道的樟科叶绿体基因片段丢失事件,导致该科植物叶绿体基因组整体缩小,并且和樟科种系发生进程一致[22]。
物种的进化必然是建立在基因组的进化之上,物种多样性是生态、进化和历史过程的产物,其演化路径可能既有宏观上的方向性,也有微观成种的随机性。叶绿体基因组的缩减、扩张及丢失可能与物种在进化过程中的物种分化和谱系分化相吻合,当然,两者也不一定完全等同[23]。目前,尽管对植物叶绿体基因组的结构和功能有所认识,但有关叶绿体基因组结构变异与其生态进化起源、演化驱动机制等尚待深入研究。自Kolodner & Tewari[24]首次在豌豆叶绿体基因组中发现IR丢失现象,之后的研究又陆续在绿豆(Vignaradiata)、大豆(Glycinemax)、菜豆(Phaseolusvulgaris)和蚕豆(Viciafaba)中证实了其叶绿体基因组IR缺失现象[25—26]。随着叶绿体基因组数据的不断积累,豆科蝶形花亚科车轴草族物种的叶绿体基因组发生IR区的丢失现象,成为该类植物的指示特征,为此,该类群也被称为反向重复序列缺失支,并且IR丢失事件(该支的分化事件)发生在—3900万年前[27—30]。如图2 所示,供试苜蓿属及其近缘属胡卢巴也呈现IR区域的丢失,均为IRLC类成员(图2)。越来越多的证据发现,IR区段丢失现象还发生在其它植物类群中,如牻牛儿苗科(Geraniaceae)的老鹳草属(Geranium)[31]和仙人掌科(Cactaceae)的仙人掌(Carnegieagigantea)[32]中,进一步表明IR区的丢失可能在被子植物谱系中多次独立发生,而叶绿体基因组大的结构变异在特定类群因具有强烈的系统发育信号,常被用来定义单系类群[33]。
包括苜蓿属在内的豆科IRLC类群是IR收缩的经典案例,目前认为大的IR收缩可能与基因组的异常重组有关[34]。研究发现,小苜蓿(M.minima)中一段新的IR位于ycf1和clpP附近,而这两个基因序列通常被认为是高度变化的,并可能是基因重组的热点区域[23]。碱基替换和结构变异引起的基因重组事件频发也可能导致豆科植物IR收缩的发生[35]。叶绿体基因组的大小除了受IR扩张和收缩的影响,还与重复序列的含量相关。本研究测定的我国苜蓿属植物的叶绿体基因组简单序列重复数为102到129个,单碱基重复是出现次数最多的(62.14%),可作为分子标记,为研究苜蓿系统学和进化生物学提供依据。然而,叶绿体基因组的稳定性和重复序列累积以及IR缺失或是获得之间的关系尚未明了,特别是IR扩张、收缩或缺失等结构变异对核酸替换率的影响尚不清晰。
除反向重复序列(IR)的缺失,供试苜蓿属物种中还发现了其它显著的叶绿体基因组结构变异,如天蓝苜蓿clpP、rpoC1和atpF基因的内含子丢失、青海苜蓿和花苜蓿之间共享倒位等,这些独立或是平行发生的结构变异,也是潜在的系统发育信号,可以作为区分不同类群的重要特征(图4)。研究发现,豆科菜豆亚族的刺槐属(Robinia)、绿豆、菜豆等物种,其叶绿体基因组发生50 kb倒位,和其它具有该结构变异的类群构成了50 kb倒位支[36—38]。事实上,包括苜蓿属在内的核心车轴草族的叶绿体基因组也发生了不同程度的重排,包括基因的重复、丢失和序列的倒位等[39]。大于1kb的倒位在蝶形花亚科植物中较为常见,本研究中青海苜蓿和花苜蓿倒位发生在基因psbM到psaA、ndhB到trnNGUU、ndhB到rpoA以及clpP到rpl20之间,而近缘属的胡卢巴倒位变异则高达6处,包括psbB到ycf1的区段(含32个基因),以及psbJ到cemA区段(含3个基因),显示出叶绿体基因组结构变异的多样性和复杂性。
本研究结果发现,我国天蓝苜蓿中的内含子丢失与其它研究报道相一致,有必要通过更加广泛的取样和分析,进一步评估该分支苜蓿物种的倒位、内含子丢失及其演化模式[23]。研究表明,反向重复序列可能通过介导分子内重组而导致倒位的发生[28]。缺乏反向重复区的豆科蝶形花亚科IRLC物种如何控制叶绿体基因组稳定性还远未被阐明,或许对苜蓿属广泛的叶绿体基因组分析可以找出结构稳定性与多样性的关系,从而揭示IR多次得失的变异机制。
我国野生苜蓿分布在全国不同地理区域,适应各种生境特征,从寒冷的北部沙漠到温暖潮湿的南部山区和中部平原地带,从国内东部沿海到喜马拉雅山脉[2]。这些野生种拥有丰富的自然变异来源,是了解苜蓿属植物种群动态和改善苜蓿品种的重要基础。对于植物的生长和分布来说,温度、降水和光照是最重要的气候因子,强烈地影响着物种的分布格局(表1)。由本实验测序结果(图4),对照表1生境特征可知,苜蓿属植物的进化与年平均温度、年均降雨量、年均日照时数等生境因子之间存在密切关系,特别是年平均温度影响最大。年均温度越高,物种出现的时间越晚,进化程度越高,如紫苜蓿(11.1℃)、截形苜蓿(17.1℃)、南苜蓿(15.6℃)、天蓝苜蓿(17.6℃),反之,处于进化分支树基部的物种,其生境条件均相对较为恶劣,如胡卢巴(3.6℃)、毛荚苜蓿(7.4℃)、单花胡卢巴(6.4℃)、花苜蓿(4.5℃)、青海苜蓿(5.1℃),表明温度是苜蓿属植物物种进化的重要影响因子,温度越高,越利于苜蓿属植物的生长,有利于其拓展更广阔的生境,进而成为广布种。其中,天蓝苜蓿是一年生、二年生或偶尔短命的多年生植物,自交为主(自交率大于95%),分布广泛,是易于繁衍的绿肥植物;而花苜蓿则是长寿的多年生植物,行异交(自交率低于30%),分布狭窄,适应干燥极寒的砂砾和沙漠等低投入生态系统。此外,天蓝苜蓿具有不裂的小豆荚,通过生物和非生物因子促进种子的长距离传播,而花苜蓿具开裂的豆荚并缺乏有效的种子传播机制。从表型上看,天蓝苜蓿的花相对较小,具2—4 mm的黄色蝶形花冠,而花苜蓿则有长达8 mm的黄色花冠,更大更艳丽,能够吸引更多的昆虫访花,如蜜蜂、大黄蜂等。然而,随着快速城市化和过度放牧,国内的野生苜蓿资源受到人为干扰和城市化进程的影响,种群数量和规模大幅减少,其野生种质资源调查和保护需引起重视。
苜蓿属和胡卢巴属植物具有相似的特征,长期以来,二者之间的进化分类界限不明显,部分物种的归属存在争议,两个属之间存在“类苜蓿植物(Medicagoid)”或“类胡卢巴植物(Trigonelloid)”[40]。邓宏超等[4]开展了苜蓿属和胡卢巴属植物形态特征及数量分类研究发现,直果胡卢巴和单花胡卢巴属于角形果组,聚类结果显示它们与苜蓿属植物之间存在较近的亲缘关系,建议进一步开展深入研究确定其能否归并到苜蓿属。而早期Small等[41]也曾提出将胡卢巴归至角形果组并合并到苜蓿属中。本研究基于叶绿体基因组及ITS序列重新构建了苜蓿属系统发育关系,我国苜蓿属物种的基因分化式样与传统分类的紫苜蓿组、南苜蓿组、阔荚苜蓿组和天蓝苜蓿组基本吻合。其中,直果胡卢巴和单花胡卢巴与毛荚苜蓿形成一枝,分子证据支持将苜蓿属和胡卢巴属之间的过渡类型“类苜蓿植物”独立出来(图4和图5)。由此可见,叶绿体基因组大量的系统发育信息位点,不仅有助于阐明苜蓿属和胡卢巴属之间的系统发育关系,而且可建立高分辨率的苜蓿属和胡卢巴属种间的生态进化关系。生命形式、交配系统和种子传播是影响苜蓿属植物种群的遗传结构塑造和地理分布的适应性性状。以上苜蓿属植物叶绿体和核基因组分析连同生态、表型数据可为该属植物的演化路径提供依据,并有助于确定自然种群的进化潜力和保护策略。