吴永飞, 杨雪莲, 颜 丽, 王 霞, 胡小京
(贵州大学农学院, 贵阳 550025)
叶绿体是绿色植物细胞中的一种重要细胞器,能通过光合作用合成氨基酸、类脂、蛋白质等物质,以供植物生长发育所需[1]。绿色植物叶绿体基因组的结构非常保守,大多数基因组为双链环形DNA分子,呈四段式结构,包括一个大单拷贝区(LSC)、一个小单拷贝区(SSC)和两个大小相同、方向相反的反向重复区(IRs)[2]。绿色植物的叶绿体是半自主的,具有独立的遗传物质,通常编码110~130个基因,主要编码参与光合作用、转录和翻译的基因[3]。叶绿体基因组由于其小而简单的结构、保守的序列和中等的核苷酸替换率,成为鉴定物种和分析系统发育的有前景的工具[4]。随着高通量DNA测序技术的发展,叶绿体基因组序列在植物系统进化研究中得到了广泛应用,如裂叶独活[5]、红兜兰[6]、景天[7]、阳春砂[8]、紫罗兰[9]等。
闭鞘姜(Helleniaspeciosa(J.Koenig) S. R. Dutta)为闭鞘姜科闭鞘姜属多年生草本植物,又叫雷公笋、水蕉花、樟柳头、白石笋等,主要分布在亚洲亚热带地区,在我国云南、贵州、广东、广西等省区较为常见[10]。闭鞘姜富含氨基酸、多种维生素、矿质元素、果胶、纤维素等多种营养成分[10],以及甾类化合物、萜类化合物、黄酮类化合物等成分[11],具有抗氧化[12]、降糖活性[13]、抗菌[14]、抗炎[15]、抗肿瘤[16]等功效,可用于治疗发热、高血糖、皮疹、哮喘、支气管炎和肠道蠕虫,并可用于缓解烧灼感、便秘、麻风病、贫血和其他皮肤病[17]。此外,闭鞘姜花大且为白色,呈厚锥形顶生穗状花序,具鲜红色苞片和淡红色小苞片,是一种极具开发前景的野生花卉资源[18]。目前,闭鞘姜的研究还停留在功能的描述和化学成分的研究上,对闭鞘姜遗传和进化方面的研究较少。本研究以闭鞘姜为试验材料,利用高通量测序技术对闭鞘姜的叶绿体基因组进行测序,并对其进行密码子偏好性、重复序列和系统发育关系分析,为闭鞘姜的物种鉴定、遗传多样性等的研究提供参考。
试验材料为新鲜无病害的闭鞘姜叶片,采摘于贵州省贵阳市(26°38′52″N,106°37′49″E)。凭证样本存放在贵州大学农学院实验室(HS 20210701 YX)。
采用改良的十六烷基三甲基溴化铵(Cetyltrimethylammonium Bromide,CTAB)法[19]从新鲜叶片中提取总基因组DNA,提取的基因组DNA经检测合格后,用超声波法将DNA片段化;对片段化的DNA进行片段纯化、末端修复、3′端加A、连接测序接头,再用琼脂糖凝胶电泳进行片段大小选择,进行聚合酶链式反应(Polymerase Chain Reaction,PCR)扩增形成测序文库;建好的文库先进行文库质检,质检合格的文库用Illumina NovaSeq进行测序(深圳市惠通生物科技有限公司)。原始数据经过去接头污染,去除低质量序列后得到1.51 G的干净数据(Clean reads)。
原始测序数据使用NGS QC Tool Kit v 2.3.3[20]进行质控,使用Denovo组装软件SPAdes v 3.11.0,从1.51 G的高质量数据中组装出完整的叶绿体基因组[21]。使用PGA软件对完整的叶绿体基因组进行注释[22]。用OGDRAW在线软件绘制闭鞘姜叶绿体基因组图谱。注释完成后,序列提交至NCBI数据库,序列登录号:OK 641589。
运用CodonW 1.4.2软件[23]统计分析闭鞘姜叶绿体基因组密码子的偏好性(Relative Synonymous Codon Usage,RSCU)。利用Reputer软件预测散在重复序列。即正向重复(F)、反向重复(R)、互补重复(C)、回文重复(P),最小重复长度设置为30 bp,最小排列值为50,最多碱基错配为3。利用MISA软件[24]提供的Perl程序分析简单重复序列(Simple Sequence Repeat,SSR)位点,程序在WINDOWS命令窗口运行。其中单核苷酸最低重复次数设置为10,二核苷酸为5,三核苷酸、四核苷酸、五核苷酸和六核苷酸的最低重复次数为4。
以石蒜科君子兰属的细叶君子兰[Cliviagardenii(MW 561117)]作物外群,构建闭鞘姜及其20个近源物种系统发育树。利用MAFFT 7.037软件[25]将所有物种的叶绿体基因组序列进行比对并校正;随后,使用model-finder var 1.6软件来选择TVM+F+I+G 4模型[26],利用RAxML var 8.2.9软件[27],基于最大似然法构建系统发育树。自举检测值为1 000。
闭鞘姜叶绿体基因组序列由167 158 bp核苷酸组成,具有典型的四分体结构特征,即一个大单拷贝区(LSC),一个小单拷贝区(SSC)和一对反向重复序列(IRs)(图1)。
由表1可知,LSC长度为91 239 bp,SSC长度为19 955 bp,两个反向重复序列长度为27 982 bp,全基因组的GC含量为36.3%。注释结果显示,闭鞘姜叶绿体基因组共编码了134个基因,包括88个蛋白编码基因(PCGs)、8个rRNA基因和38个tRNA基因。其中21个基因在IR区域复制,包括9个PCGs(ndhB、psbL、rps7、rps19、rpl2、rpl22、rpl23、ycf1、ycf2),8个tRNA基因(trnI-CAU、trnL-CAA、trnV-GAC、trnI-GAU、trnA-UGC、trnR-ACG、trnN-GUU、trnH-GUG)和全部4个rRNA基因(rrn4.5、rrn5、rrn16、rrn23)。
表1 叶绿体基因组基因基本特征
编码基因根据其产物功能的不同可分为光合作用相关基因(44)、自我复制相关基因(59)、其他基因(5)和未知功能基因(4)。闭鞘姜叶绿体基因组中只有少部分基因含有内含子,其中trnK-UUU、rps16、trnG-UCC、atpF、rpoC1、trnL-UAA、trnV-UAC、petB、petD、rpl2、ndhB、trnI-GAU、trnA-UGC、ndhA基因各含有一个内含子,clpP、ycf3基因含有两个内含子,此外,rps12基因存在反式剪接情况(表2)。
表2 闭鞘姜叶绿体基因组注释信息
闭鞘姜叶绿体基因组中共鉴定出50个散在重复序列,其中有22个正向重复(44%),2个反向重复(4%),1个互补重复(2%)和25个回文重复(50%)。除了1个回文重复序列较长(27 982 bp)外,其余重复序列长度均在30~81 bp范围内。各重复序列在基因编码区(rps3、psaB、ycf1等)、基因间隔区(rpl22-psaA、accD-psaI、rps15-ycf1等)、tRNA(trnL-UAA、trnS-GGA)和ycf3基因内含子区域均有分布,在ycf2基因中出现了多个嵌套的序列重复(表3)。
表3 闭鞘姜叶绿体基因组的重复序列
鉴定到闭鞘姜叶绿体基因组中含70个SSR位点(表4),其中单核苷酸重复序列最多,由A/T组成的有36个,占总SSR位点的51.43%;其次是二核苷酸重复序列,有23个,包括2个AG/CT和21个AT/AT重复序列,占总SSR位点的32.86%;三核苷酸序列出现8个,包括1个ACT/AGT和7个AAT/ATT重复序列,占总SSR位点的11.43%;四核苷酸序列出现3次,占所有SSR的4.29%,序列为AAAT/ATTT,未检测到五核苷酸序列和六核苷酸序列。
图1 闭鞘姜叶绿体基因组图谱
表4 闭鞘姜叶绿体基因组SSR序列
密码子使用情况显示,闭鞘姜叶绿体基因组中共含有55 719个密码子,共编码了22种氨基酸,各氨基酸的使用频率在1.31%~9.84%之间(表5)。其中,编码亮氨酸(Leu)的密码子数量最多,为5 483个,占密码子总数的9.84%;色氨酸(Trp)出现的次数最少,为732个,占密码子总数的1.31%。除了甲硫氨酸(Met)和色氨酸(Trp)只有1个密码子外,其余氨基酸均含2~6个同义密码子。闭鞘姜叶绿体基因组中RSCU值大于1.00的密码子为32个,其中29个以A或U结尾,3个以G或C结尾。说明闭鞘姜叶绿体基因组的密码子偏爱A或U结尾,不偏好G或C结尾。
表5 闭鞘姜各氨基酸相对同义密码子使用度
图2 基于22个物种叶绿体基因组序列构建的系统发育树
以细叶君子兰作物外群,将闭鞘姜叶绿体基因组序列与21个近源物种的叶绿体基因组序列构建系统发育树,以获取闭鞘姜的系统发育关系(图2)。结果显示,所有节点的支持率都大于90%,可信度高,其中闭鞘姜与绿苞闭鞘姜(Costusviridis)亲缘关系最近,处于同一小支,支持率达100%,此外,闭鞘姜和绿苞闭鞘姜组成的分支与粉鸟蝎尾蕉(Heliconiacollinsiana)处于同一分支上,支持率同样为100%。
由于闭鞘姜科物种形态变异复杂,含有一些显著的特点,因此从姜科分离出来成为一个独立的科,目前对闭鞘姜科物种科内等级的划分和系统学研究还存在较大困难,因此闭鞘姜科植物的遗传背景和系统进化关系是植物学的研究热点[28-29]。叶绿体是重要的细胞器,具有自己的基因组,能通过光合作用将光能转化为碳水化合物,提供植物生长和生存所需的基本能量[30]。本研究以采自贵阳市的闭鞘姜为材料,对其叶绿体基因组全序列进行了高通量测序,对闭鞘姜科物种的遗传背景及系统进化关系加以补充。结果显示,闭鞘姜叶绿体全基因组全长167 158 bp,具有典型的四分体结构,与大多数被子植物相似,其叶绿体基因组大小在120 000~180 000 bp区间内[31]。闭鞘姜叶绿体基因组编码了134个基因(88个蛋白编码基因、38个tRNA基因和8个rRNA基因),总GC含量为36.3%。本研究结果与同属的绿苞闭鞘姜的叶绿体基因组研究结果相似[32],而相较于已报道的生姜[33]、砂仁[34]、蘘荷草[35]等姜科植物,其叶绿体基因组更长,表明闭鞘姜与姜科植物存在不同特点。
密码子使用偏好性是生物进化过程中广泛存在的同义密码子非均衡使用的现象,对基因表达以及蛋白的功能具有重要作用[36]。研究发现,闭鞘姜叶绿体基因组包含55 719个密码子,除了终止密码子外,为22种氨基酸编码,编码密码子最多的氨基酸为亮氨酸(Leu),占密码子总数的9.84%,其次是异亮氨酸(Ile),占总密码子的8.89%,最少的是色氨酸(Trp),占总密码子的1.31%,偏好使用A和U碱基,密码子使用偏性现象与荨麻[37]类似。本研究分析了闭鞘姜叶绿体基因组的密码子使用频率,确定了该物种偏好使用的密码子,对于了解闭鞘姜的遗传背景具有重要意义。
重复序列在叶绿体基因组中发挥着重要的进化作用,能促进叶绿体基因组重排,影响基因组结构的变化,并且可以增加种群遗传多样性[38]。闭鞘姜叶绿体基因组中共含有50个散在重复序列,其中正向重复和回文重复为主要重复序列,占比超过90%,大多数重复序列分布在基因间隔区和ycf2基因中。重复序列分布现象与豆瓣菜叶绿体基因组[39]的研究结果一致。简单重复序列(SSR)作为重要的分子标记技术,在植物基因组中具有高度可重复性、多态性、通常共显性和丰富性,已成功用于园艺植物[40]、农作物[41]、中药材[42]等多种植物上,为植物遗传多样性和遗传关系的研究提供了有用的信息。本研究发现,闭鞘姜叶绿体基因组含有70个SSR位点,其中单核苷酸重复序列是最多的,且全部由A、T碱基组成,随着拷贝数目增加,SSR数量逐渐减少,但重复序列也主要由A、T碱基构成,进一步验证了叶绿体基因组序列中的SSR主要由A或T碱基所构成[43]。
为确定闭鞘姜的进化地位和亲缘关系,本研究以22个物种叶绿体全基因组序列构建系统发育树,结果表明,闭鞘姜与绿苞闭鞘姜处于同一小支,支持率达到100%,表明二者具有较近的亲缘关系,这与Chen等[44]的研究结果相似。本研究为闭鞘姜科植物物种鉴定和等级划分提供有用信息,为闭鞘姜的分子进化和遗传系统发育研究提供重要的参考。