无叶假木贼叶绿体基因组特征系统发育及密码子偏好性分析

2023-04-29 14:29江萍黄祥SulaimanShah等
林业科学研究 2023年4期
关键词:密码子

江萍 黄祥 Sulaiman Shah等

关键词:无叶假木贼;叶绿体基因组;系统发育;密码子

中图分类号:Q941.2 文献标识码:A 文章编号:1001-1498(2023)04-0109-13

无叶假木贼(Anabasis aphylla L.)隶属于藜科(Chenopodiaceae)假木贼属(Anabasis),半灌木,具有强的抗盐碱能力,在我国主要分布于西北地区。无叶假木贼是荒漠植被的主要建群种和优势种,常作为防风固沙的植物材料,具有很高的生态价值。同时,其植株提取物包含生物碱、萜类、皂苷类等多种生物活性物质,有效治疗疥癣、疥疮和湿疹痒痛,还有效防治菜青虫、蚜虫等多种害虫。

叶绿体是一种重要的质体,在植物细胞的光合作用等生物过程中起着关键作用。叶绿体基因组通常比核基因更为保守,对植物系统发育和物种鉴定有重要作用。在物种进化过程中,叶绿体基因组在序列、组成、大小和基因含量方面高度保守,具有2个反向重复区(inverted repeats, IR)、1个小单拷贝区(small single copy,SSC)和1个大单拷贝区组成的四分体结构(large single copy,LSC)。IR区域的收缩和扩张是叶绿体基因含量和基因组大小变化的主要影响因素。叶绿体基因组中存在一些简单重复序列(SSRs)和单核苷酸多态性(SNP)的热点区域,可产生足够的信息用于物种分类和鉴定。此外,植物叶绿体基因组中的密码子偏好性反映其在进化过程中的分子适应程度和受到的进化压力,同时参与基因的表达。目前,叶绿体基因组序列作为超级条形码,已经在藜科中多个物种的系统发育研究中得到应用。然而,假木贼属物种的叶绿体基因组尚未被报道,它们的进化特征和遗传多样性尚不清晰。

本研究首次对假木贼属的无叶假木贼的叶绿体基因组进行测序、组装和注释,进一步分析其叶绿体基因组特征和密码子偏好性等;此外,将其与已公布叶绿体基因组的藜科物种构建系统发育树,进一步筛选种间基因组高变区。本研究目的在于:(1)阐明无叶假木贼与其它藜科物种的进化关系及其在系统发育中的地位;(2)筛选有效的候选分子标记序列和最优密码子,以期为无叶假木贼的分子标记开发、系统进化及叶绿体基因工程研究提供参考。

1材料与方法

1.1试验材料及测序

植物样本来源于新疆准格尔盆地南缘(84°52′E,45°22′N,海拔265 m),经石河子大学楚光明教授鉴定为无叶假木贼(A.aphylla L.)。采集的幼嫩同化枝用液氮处理后置于液氮保温桶,带回实验室放于-80℃冰箱保存。基于改良的CTAB法提取无叶假木贼总DNA,用超声波将DNA片段化,经过纯化、末端修复、3端加A、连接测序接头的片段,通过琼脂糖凝胶电泳的方法选择合适长度的片段进行PCR扩增,构建测序文库。文库质检后,基于Illumina Genome Analyzer Hiseq 2000测序平台进行叶绿体基因组测序。

1.2叶绿体基因组组装与注释

使用GetOrganelle软件对无叶假木贼叶绿体基因组序列进行组装;通过Perl语言脚本Plann对叶绿体基因组进行注释;利用Sequin检查注释缺失或错误的基因。利用OGDRAWv.1.3.1软件绘制叶绿体基因组环状结构图。无叶假木贼叶绿体基因组数据已上传GenBank数据库(https://www.ncbi.nlm.nih.gov/genbank/),登录号为OP712667。

1.3叶绿体基因组重复序列分析

利用REPuter在线工具对长重复序列进行分析,最大重复序列数为100,最小重复大小为22bp。使用MISA在线工具检测简单重复序列(Simple Sequence Repeats,

SSRs),参数设置为:单核苷酸重复次数≥10,二核苷酸重复次数≥5,三核苷酸重复次数≥4,四核苷酸到六核苷酸重复次数≥3。

1.4系统发育树构建

从NCBI的GenBank数据库下载19种藜科(Chenopodiaceae)物种的叶绿体基因组序列,登录号分别为:Spinacia oleracea L.(AJ400848)、Dysphania pumilio (R.Br.) Mosyakin&Clemants(MH936550) 、Dysphania botrys L.(MH898873)、Dysphania ambrosioides L.(MK182726)、Chenopodium quinoa Willd.(KY419706)、Chenopodium ficifolium Sm.(MK182725) 、Chenopodium album L.(KY419707)、Chenopodium acuminatumWilld. (MW057780)、Atriplex centralasiaticalljin(MK867774)、Atriplex gmelinii C.A.Mey.ex Bong. (MT810472)、Salsola affinis C.A.Mey (ON080842) 、Salsola abrotanoides(Bunge)Akhani (MW123092)、Haloxylonammodendron (C. A. Mey.) Bunge(KF534478) 、Haloxylon persicum Bge.(KF534479) 、Suaeda glauca L.(MK867773)、Salicornia europaea L.(KJ629116)、Salicornia brachiate Miq.(KJ629115) 、Salicornia

bigelovii Torr.(KJ629117)、Kalidium foliatum (Pall.) Moq.(MW699755);以2种苋科物种,Deeringia amaranthoides (Lam.) Merr. (MK397865)和Celosia argentea L.(MK397861)的叶绿体基因组序列作为外群,与测得的无叶假木贼叶绿体基因组序列共同构建系统发育树。基于MAFFT v.7.450软件对22个物种的叶绿体基因组序列进行多序列比对,通过IQ-TREE v.2.1.1软件构建最大似然法(Maximum likelihood, ML)系统进化树,其中最优构树模型为TVM+F+R3,步长值为1000。

1.5叶绿体基因组突变位点和IR边界分析

通过MAFFT v.7.450软件对包括无叶假木贼在内的藜科20个物种的叶绿体基因组序列进行多序列比对,对齐后的序列通过DnaSP 6.0软件计算核苷酸多态性值(搜索窗口长度为600 bp,步长为200 bp)。将无叶假木贼及其近缘种的genbank格式的叶绿体基因组文件上传至生信云在线分析网站(http://112.86.217.82:9919/#/tool/all-tool/detail/296),进行叶绿体基因组IR区边界区域上基因的可视化。

1.6密码子使用偏好性分析

在无叶假木贼叶绿体基因组中,筛选长度大于300 bp的基因序列,使用Codon W 1.4.2软件和CUSP在线程序(https://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)对有效密码子数、同义密码子相对使用度( RSCU)、密码子GC含量和最优密码子进行计算。通过中性绘图、ENC-plot和PR2-plot分析密码子偏好性的影响因素。

2结果与分析

2.1叶绿体基因组结构特征

无叶假木贼叶绿体基因组呈典型的双链环状四分体结构(图1),全长为154 084 bp,其中,LSC长85 124 bp,SSC长18 934 bp,IRa和IRb长25 013 bp。叶绿体基因组GC含量为36.25%,其中,SSC、LSC、IR区的GC含量分别为29.26%、33.89%、42.85%。

无叶假木贼叶绿体基因组中共注释到132个基因,包含83个蛋白编码基因,8个rRNA基因,37个tRNA基因和4个假基因。其中,75个基因与自我复制功能相关,45个基因与光合作用功能相关,6个基因编码其它蛋白质,6个基因的功能未知(表1)。16个基因存在双份拷贝,包括6个蛋白编码基因(rp/23、rp/2、rps12、rps7、ndhB、ycf2),6个tRNA基因(trnA-UGC、trnl-GAU、trn L-CAA、trnN-GUU、trn R-ACG、trnV-GAC)和4个rRNA基因(rrn4.5S、rrn5S、rrn16S、rrn23S)。此外,1个tRNA基因(trn M-CAU)在无叶假木贼叶绿体基因组中存在3份拷贝。

无叶假木贼叶绿体基因组中有16个基因包含内含子,12个基因位于LSC区,3个基因位于IR区,1个基因位于SSC区(表2)。14个基因包含1个内含子(trn K-UUU、rps16、trn G-UCC、atpF、rpo C1、trnL-UAA、trnl-GAU、petB、petD、rp/16、ndhB、trn V-UAC、trnA-UGC、ndhA),2个基因包含2个内含子(ycf3、c/pP)。内含子长度在525 bp(trnL)~2500 bp(trnK)之间。

2.2重复序列分析

无叶假木贼叶绿体基因组中共有41对长序列重复,其中,正向重复21对,回文重复20对,无互补和反向重复(图2A)。其中,重复长度为30 bp的数量最多,分布在IR区的重复长序列数量最多。无叶假木贼叶绿体基因组中,共确定71个SSR位点,属于12种重复类型(图2B)。其中,A/T重复类型的SSR数量最多,且重复次数在10、11、12次最常见。此外,SSR在基因间区的数量最多(70.4%),其次是位于内含子(14.1%)和蛋白编码序列(12.7%),tRNA和rRNA数量最少(1.4%)(图2 C)。

2.3系统发育分析

为确定无叶假木贼在藜科的系统位置,将其和19个藜科物种的叶绿体基因组进行系统发育分析,并以2种苋科物种为外类群,构建了ML系统发育树(图3)。结果表明:藜科物种系统发育树共分为2个大的分支,聚类的支持率较高,大部分节点的支持率为100%。第一分支包含聚类组1和聚类组2,聚类组1包含:盐爪爪属、盐角草属和碱蓬属的5个物种;聚类组2包含:假木贼属、梭梭属和猪毛菜属的5个物种。第二分支包含聚类组3和聚类组4,聚类组3包含:滨藜属和藜属的6个物种;聚类组4包含:腺毛藜和菠菜属的4个物种。2个苋科的外群物种单独在一个分支。

2.4突变热点分析

基于聚类分析结果,将无叶假木贼及其9种近缘种叶绿体基因组序列进行突变热点分析。结果表明:LSC和SSC区的核苷酸多态性明显高于IR区(图4)。序列比对总长度为161 920 bp,序列一致位点长度为138 470 bp,突变位点数为14021;核苷酸多态性平均值为0.039 18,范围为0~0.143 43。19个突变位点的核苷酸多态性大于0.1,3个在LSC区,16个在SSC区;19个突变位点分别属于trnS-trn G(exon1)、ndhF-rpl32、rpl32-trnL、rps16(exonl)-trnQ基因间区和ycf基因区。

2.5 IR区边界收缩和扩张分析

无叶假木贼及其9种近缘种的边界分析显示:IR区长度变化不大(23 701~25 036 bp),但4个边界区的过渡区域存在一定差异(图5)。藜科10个物种的叶绿体基因组在IRb-LSC边界均存在rps19基因,向LSC区扩张长度在148~173 bp之间。在IRb-SSC边界,梭梭属、猪毛菜属和碱蓬属的5个物种ycf假基因缺失;其它5个物种的ycf基因均不同程度的扩张到了SSC区域中,扩张长度在18~4440 bp之间。在IRa-SSC边界,均存在不同程度的ycf基因扩张,长度在3~5426 bp之间。在IRa-LSC边界,盐爪爪属、盐角草属、猪毛菜属和碱蓬属的6个物种IRa区不存在rps19基因,其余4个物种的rps19基因均没有越过IRa-LSC边界。

2.6密码子偏好性分析

无叶假木贼叶绿体基因组中RSCU值在0.32(CUG)~2.07(UUA)之间,30个密码子为高频密码子(RSCU>1),除编码亮氨酸的密码子UUG以G结尾外,其它29种密码子均以A/U结尾(表3)。共确定20个最优密码子(UUU、UAU、UGU、CAU、UCU、UCA、UUA、CUU、CCU、AGA、GAA、ACU、ACA、AAU、GAU、AAA、GUU、GCU、GGU、CAA),均以N/U结尾。

进一步通过ENC-plot、ENC分布直方图、PR2-plot和中性绘图,分析无叶假木贼叶绿体基因组中密码子偏好性的影响因素(图6)。由图6A可知:大部分基因分布在期望曲线附近。由图6B可知:大部分基因的ENC值小于ENC期望值,且主要分布在直方图的0~0.1区间内。由图6C可知,分布在四个象限点的数量差异不大,但右下角分布点的数量略高于其它三个象限;这表明除了突变因素,自然选择也是无叶假木贼叶绿体基因组密码子偏好性的影响因素。由图6D可知:GC12和GC3之间相关性系数为0.45,线性回归系数为0.343 6,进一步表明突变因素对密码子使用偏好性的影响占34.36%。因此,无叶假木贼叶绿体基因组密码子使用偏好性主要受自然选择影响,突变等影响因素对其影响较弱。

3讨论

植物叶绿体基因组相对保守,已有研究表明,被子植物叶绿体基因组长度通常在120~180 kb之间,IR区在20~30 kb之间。本研究中,无叶假木贼叶绿体基因组全长为154 084 bp,IR区长度为25 013 bp,在被子植株叶绿体基因组序列长度范围内。此外,无叶假木贼叶绿体基因组与大多数被子植物的叶绿体基因组有相似的环状四分体结构。被子植物叶绿体基因组大小与IR区和SC区边界的扩张和收缩密切相关。本研究中,无叶假木贼及其9种近缘种叶绿体基因组的边界分析显示,IR区长度变化不大(23701~25036 bp),表明藜科植物叶绿体基因组结构相对保守;但藜科中一些物种在IR-LSC边界处yc1和rps19基因的缺失和不同程度的扩张,这导致了藜科物种叶绿体基因组中IR区长度大小的差异。无叶假木贼叶绿体基因组的平均GC含量为36.25%,这可能与该基因组偏好使用NU结尾的密码子有关。无叶假木贼叶绿体基因组中共注释到132个基因,这和蒋礼玲等报道的4种藜属物种的叶绿体基因组编码基因相比,少1个蛋白编码基因,多4个假基因,这可能与假木贼属中物种进化较缓慢有关;同时,在胡桃科(Juglandaceae)核桃属(Carya)和蔷薇科(Rosaceae)梨属(Pyrus)的叶绿体基因组的相关研究中也得到相似的结果,表明藜科中不同物种间叶绿体基因组基因数量存在差异属于正常现象;此外,笔者还推测这与不同研究中的测序平台和注释结果的差异有关。

分布在植物叶绿体基因组上的重复序列和多态性变异位点,目前已广泛应用于多个物种的遗传多样性和系统关系的研究。本研究在无叶假木贼叶绿体基因组中鉴定到12种类型,共71个SSR位点,其中,单碱基重复(A/T)、二碱基重复(AT/TA)、三碱基重复(TAA/TTA)和一些多碱基重复(AAAT、TAAT、TTAT、TAAAA、TTA、TTATT、TTTTA)均为多聚A或多聚T,占所有SSR位点的83,33%,这是假木贼叶绿体基因组中AT含量高的一个重要因素。在真核生物中,大多数SSR分布在非编码序列,无叶假木贼叶绿体基因组中SSR主要位于基因间区(70.4%),这可能与该物种的叶绿体基因组在遗传进化中较保守有关。此外,本研究中,LSC和SSC区的核苷酸多态性显著高于IR区,这和蒋礼玲等在藜属植物叶绿体基因组的研究结果一致。trnS-trnG(exon1)、ndh F-rpl32、rpl32-trnL、rps16(exon1)-trnQ和ycf1是无叶假木贼叶绿体基因组中的高核苷酸多态性区域,这些序列为该科的属间分子鉴定奠定了基础。

植物叶绿体全基因组序列较单个或多个编码序列包含更丰富的信息,基于其构建的系统发育树结果更加准确。高鸣泽通过对藜科41个物种的蛋白编码基因构建系统发育树,将盐角草属、碱蓬属、梭梭属聚成一类,表明其亲缘关系较近。本研究得到了相似的结论,同时,本研究结果进一步表明,假木贼属和梭梭属、猪毛菜属有较高的亲缘关系,这和前人基于形态学特征将假木贼属、梭梭属、猪毛菜属归为猪毛菜族(Salsoleae)的研究结果一致。本研究是首次对藜科中假木贼属物种进行叶绿体基因组测序,明确了假木贼属在藜科中系统发育的位置,但要充分明确藜科物种的系统发育关系,需要更多藜科物种全基因组被测序。

密码子偏好性在植物叶绿体基因组中蛋白质编码基因的过程中发挥重要作用,这与突变、自然选择和随机遗传漂变等分子进化现象密切相关。本研究中,ENC-plot、ENC分布直方图、PR2-plot和中性绘图分析的综合结果表明,无叶假木贼叶绿体基因组密码子使用偏好性主要受自然选择影响,突变等影响因素对其影响较弱,这可能与荒漠植物在遗传进化过程中的特殊生存环境有关。前人研究表明,密码子第三个碱基的GC含量在基因组结构进化过程中也起着重要作用。本研究中,在RSCU值大于1的30个密码子中,除编码亮氨酸的UUG以G结尾外,其它29种密码子均以A/U结尾。当RSCU值<1时,多以G/C结尾。这表明,以A/U结尾的同义密码子更多地参与无叶假木贼叶绿体基因组的蛋白质编码基因的过程,这与前人在双子叶植物中密码子使用偏好性的研究一致。此外,本研究在无叶假木贼叶绿体基因组中确定了20个最优密码子,均以NU结尾,这为无叶假木贼中外源基因密码子的优化提供了理论依据。

4结论

无叶假木贼叶绿体基因组全长为154 084 bp,包括1个LSC区(85 124 bp)、1个SSC区(18 934 bp)、1对IR区(IRa和IRb,25 013 bp),呈典型的四分体结构。12种类型共71个SSR位点在无叶假木贼叶绿体基因组中被鉴定;trnS.trn G(exon1)、ndh F-rpl32、rpl32-trnL、rps16(exon1)-trnQ和yc1是无叶假木贼叶及其9种近缘种叶绿体基因组中的高核苷酸多态性区域;这些信息为无叶假木贼今后的分子标记开发提供了科学的依据。系统发育分析中,20个藜科物种被归为4个聚类组,其中,无叶假木贼与梭梭属和猪毛菜属的物种亲缘关系最近;在无叶假木贼叶绿体基因组中确定20个最优密码子,均以A/U结尾;其密码子使用偏好性主要受自然选择影响,突变等影响因素对其影响较弱;研究结果可为无叶假木贼的系统进化及叶绿体基因工程研究提供参考。

猜你喜欢
密码子
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
以“题”带“面” 突破密码子与反密码子的特性
密码子与反密码子的本质与拓展
新型密码子、反密码子、氨基酸对应盘
新型密码子、反密码子、氨基酸对应盘
10种藏药材ccmFN基因片段密码子偏好性分析
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
密码子偏性分析方法及茶树中密码子偏性研究进展
嗜酸热古菌病毒STSV2密码子偏嗜性及其对dUTPase外源表达的影响
植物逆境相关基因密码子的偏好性分析