阔叶猕猴桃叶绿体基因组特征及密码子偏好性分析

2020-06-13 02:17周俊良唐冬梅仲伟敏马玉华
种子 2020年5期
关键词:阔叶密码子叶绿体

王 宇, 周俊良, 唐冬梅, 仲伟敏, 马玉华, 张 敏

(贵州省农业科学院果树科学研究所, 贵阳 550006)

猕猴桃为猕猴桃科猕猴桃属多年生落叶藤本植物[1],是20世纪野生果树人工驯化栽培最有成就的四大果种之一[2]。中国是猕猴桃的原产地,近年来科技工作者在猕猴桃资源调查、搜集、整理、鉴评与利用等方面进行了广泛的研究[3]。猕猴桃属植物在不同种间存在明显的杂交现象,此外,其复杂的染色体倍性,也使得猕猴桃属植物在分类界定方面变得模糊[4]。

叶绿体,植物与部分藻类特有的细胞器,与光合作用直接相关[5]。不同于核基因组所储存的庞大的遗传信息,叶绿体基因组基因含量相对较低,核苷酸较少发生替换,此外,基于其单亲遗传的特性,使其在研究系统发育方面越发的重要[6-8]。猕猴桃属为严格的叶绿体基因组父系遗传[9-11],这是一种罕见的遗传方式,而这种特殊的遗传方式可以在一定程度提高猕猴桃属植物间亲缘关系的复杂性[12]。

阔叶猕猴桃是猕猴桃属植物中鲜果维生素C含量最高的种,具有很高的开发利用和研究价值[13]。张慧等[4]运用扩增片段长度多态性技术对猕猴桃属33份种质资源的遗传多样性进行分析,研究发现阔叶猕猴桃与其他品种间遗传距离较大,亲缘关系较远。截止目前,采用高通量测序手段对猕猴桃种质资源进行遗传多样性分析的研究较少。本研究通过高通量测序技术注释出阔叶猕猴桃的完整叶绿体基因组,对了解猕猴桃属主要谱系之间的系统发育关系和猕猴桃品种遗传改良具有一定的意义。

1 材料与方法

1.1 序列拼接组装

从NCBI中数据库下载阔叶猕猴桃全基因组测序原始数据(NCBI登录号:SRP073634,Reticulate evolution in the genus Actinidia Raw sequence reads),利用SOAPnuke软件过滤掉低质量序列和接头序列,得到高质量有效数据。使用SPAdes软件(参数设置:-k 127)对上述高质量序列进行拼接,连接好的序列使用 Gapcloser(version:v 1.12)进行补洞。

1.2 基因注释、 结构预测

利用DOGMA软件对编码基因进行分析及注释,相关参数设置如下:Genome type选择选Chloroplast;Genetic Code for Blastx参数,选择11 Plant plastid;Percent identity cutoff for protein coding genes参数为60,Percent identity cutoff for RNAs参数为80,E-value参数为1 e-5,Number of blasthits to return参数为5,其它参数用默认值。利用OGDRAW软件对基因注释结果进行作图分析。

1.3 重复序列结构分析

利用MISA软件搜索叶绿体全基因组SSR位点。

1.4 聚类分析

从GenBank 中下载7个猕猴桃属和1个外类群藤山柳属的叶绿体基因组序列与阔叶猕猴桃进行聚类分析,品种信息如下:毛花猕猴桃(Actinidiaeriantha,NCBI登录号:KY-100978)、软枣猕猴桃(Actinidiaarguta,NCBI登录号:KY-100980)、狗枣猕猴桃(Actinidiakolomikta,NCBI登录号:KY-100979)、中华猕猴桃(2 X)(Actinidiachinensis,NCBI登录号:KP-297242)、美味猕猴桃(4 X)(Actinidia deliciosa,NCBI登录号:KP-297244)、葛枣猕猴桃(Actinidiapolygama,NCBI登录号:KX-345297)、四萼猕猴桃(Actinidiatetramera,NCBI登录号:KX-345298)、绵毛藤山柳(Clematoclethrascandens,NCBI登录号:KX-345299)。将上述序列与阔叶猕猴桃叶绿体基因组序列进行ClustalW比对,用MEGA 5.0构建进化树进行作图分析。

1.5 密码子偏好性分析

利用 CodonW 1.4.2软件,分析叶绿体基因密码子的碱基组成规律。GC 1、GC 2、GC 3分别表示密码子第一、二、三位的G、C含量,GC 1和GC 2的均值用GC 12表示。中性绘图参考Zhang等[14]的方法。ENC绘图分别以ENC值与GC 3 s作为纵坐标与横坐标进行作图分析。

以同义密码子相对使用度(relative synonymous codon usage, RSCU)作为密码子使用偏性衡量指标,参考Bellgard等[15]的方法进行最优密码子分析。以叶绿体基因组候选基因中A 3/(A 3+T 3)统计数据为纵坐标,以G 3/(G 3+C 3)统计数为横坐标,采用PR2(parity rule 2)绘图进行密码子偏好性分析。

2 结果与分析

2.1 叶绿体基因组的基本特征

阔叶猕猴桃的完整叶绿体基因组长度为155 964 bp,平均 GC 含量37.30%,包括反向重复序列IRA和IRB(各23 452 bp)1对,小单拷贝区域(SSC,20 496 bp)一个和大单拷贝区域(LSC, 88 564 bp)一个(图1),IR区GC含量(43.28%)明显高于SSC区(31.11%)和LSC区(35.56%)。

图1 叶绿体基因组图谱(阔叶猕猴桃)

分析注释结果可知,阔叶猕猴桃叶绿体基因组共有117种功能基因,分别是83种蛋白质编码基因,4种核糖体rRNA基因和30种tRNA基因,详见表1。

2.2 叶绿体基因组SSR分析

阔叶猕猴桃叶绿体基因组共发现36个SSR位点(≥5 bp)。 其中有34个单核苷酸重复单元,约占94.44%,1个二核苷酸重复单元和1个三核苷酸重复单元(表2)。对所有SSR位点进行分析,不同类型SSR重复单元数量差异较大。在单核苷酸重复单元中, 以AT为主,占88.89%;1个二核苷酸重复单元为AT/AT;1个三核苷酸重复为AAT/ATT。A/T、AT/AT和AAT/ATT重复单元占所有SSR位点的94.44%。

表1 叶绿体基因组基因列表(阔叶猕猴桃)

类别家族基因光合作用相关基因光系统ⅠpsaA, psaB, psaC, psaI, psaJ光系统ⅡpsbAb, psbB, psbC, psbD, psbE, psbF, psbH, psbI,psbJ, psbK, psbL, psbM, psbN, psbT, psbZ细胞色素b/f复合体petA, petB, petD, petG, petL, petNATP合酶atpA, atpB, atpE, atpFb, atpH, atpINADH脱氢酶ndhA, ndhBa,b, ndhC, ndhD, ndhE, ndhF,ndhG, ndhH, ndhI, ndhJ, ndhK二磷酸核酮糖羧化酶大亚基rbcL自身翻译相关基因RNA聚合酶rpoA, rpoB, rpoC1b, rpoC2核糖体蛋白(SSU)rps2, rps3, rps4, rps7a, rps8, rps11, rps12a,rps14, rps15, rps16, rps18, rps19核糖体蛋白(LSU)rpl2b, rpl14, rpl16, rpl20, rpl22, rpl23, rpl32,rpl33, rpl36转运RNAstrnA-UGCa,b,trnC-GCA,trnD-GUC,trnE-UUC,trnF-GAA,trnfM-CAUb,trnG-UCC,trnH-GUGa,trnI-GAUa,b,trnI-CAUa,trnK-UUU,trnL-CAAa,trnL-UAAb,trnL-UAG,trnM-CAU,trnN-GUUa,trnP-GGG,trnP-UGG,trnQ-UUG,trnR-ACGa,trnR-UCU,trnS-GGA,trnS-GCU,trnS-UGA,trnT-GGU,trnT-UGU,trnV-GACa,trnV-UACb,trnW-CCA,trnY-GUA核糖体RNAsrrn4.5a,rrn5a,rrn16a,rrn23a转录起始因子基因7infA生物合成相关基因成熟酶基因matKC型细胞色素合成基因ccsA乙酰辅酶A羧化酶亚基accD囊膜蛋白基因cemA未知功能基因Hypothetical chloroplast reading frames ycfycf1, ycf2a, ycf3c, ycf4, ycf15a, ycf68ORFsorf42, orf56b, orf188

注:上标a指在IRs有2个重复基因;上标b指包含1个内含子;上标c指包含2个内含子。

表2 叶绿体基因组(阔叶猕猴桃)SSR 序列

重复类型重复序列重复次数567891011121314total单核苷酸重复A/T-----151042132C/G-----22二核苷酸重复AT/AT-11三核苷酸重复AAT/ATT11

2.3 聚类分析

聚类分析结果显示,主要聚类两大支,其中阔叶猕猴桃与其他猕猴桃科遗传距离较远,被单独聚为一支,其余8种聚为一支。软枣猕猴桃、毛花猕猴桃及狗枣猕猴桃聚为一支,其中软枣猕猴桃与毛花猕猴桃遗传距离更近。中华猕猴桃、美味猕猴桃、葛枣猕猴桃、四萼猕猴桃及绵毛藤山柳聚为一支,中华猕猴桃与美味猕猴桃遗传距离更近(图2)。

图2 基于邻接法构建的系统发育树

表3 叶绿体基因组(阔叶猕猴桃)密码子GC含量分析

基因GC含量GCGC3GC12ENCCAIrbcL0.4380.2680.51747.560.264psbD0.4320.2990.49346.130.247psaA0.4230.2720.49247.840.197atpB0.4190.2560.49745.470.205rps140.4170.3120.46641.970.14psaB0.4110.2750.47348.560.185rps70.4000.2080.49147.850.175petA0.3980.2870.45248.430.190ndhJ0.3970.2820.44954.840.146atpA0.3940.2150.48045.090.212rpoB0.3910.2660.45149.080.148rpl140.3910.2270.47043.980.172ndhK0.3880.2590.44946.900.162atpE0.3880.2560.45252.230.152rps20.3860.2570.44448.400.167ycf40.3840.2510.44648.770.150atpI0.3810.2520.44143.750.176ndhK0.3760.2630.42849.320.162ndhH0.3760.2150.44850.150.159ndhB0.3720.2740.41746.250.163rps80.3630.2500.41743.800.116ndhI0.3590.2440.41345.880.195ndhC0.3580.1980.43052.760.214rpl220.3550.1990.42646.440.171rps30.3500.2210.41244.190.181matK0.3330.2680.36447.430.155ndhG0.3330.1950.39844.160.129ndhE0.3230.2060.37940.830.152ccsA0.3200.1900.38143.440.146cemA0.3190.2630.34553.100.188

2.4 密码子偏好性分析

选取编码序列长度超过300 bp的以ATG为起始密码子,以TGA/TAA/TAG为终止密码子的未重复的30条候选基因用于分析。结果表明:阔叶猕猴桃30条候选基因密码子3个碱基的平均GC含量为37.92%,第1、2位平均GC含量为(44.07%),第3位平均GC含量为24.76%,密码子不同位置的GC含量并非平均分布,且差别较大(表3)。这表明阔叶猕猴桃叶绿体基因组的密码子使用频率以A/T结尾较多,且与叶绿体基因组高AT含量的特征相一致。各参数的相关性分析表明,GC含量与GC 12、GC 3显著相关(表4)。

表4 叶绿体基因组(阔叶猕猴桃)各参数的相关性分析

ItemGC3GC12GCallCNENCGC31.000GC120.3071.000GCall0.582**0.952**1.000CN0.3020.2790.3351.000ENC0.2190.0360.1150.1301.000

注:“**”在 0.01 水平上显著相关。

如图3所示,中性绘图分析表明阔叶猕猴桃密码子GC 12取值范围是34.5%~51.7%,GC 3 s的取值范围是19%~31.2%,两者的相关系数为0.307,回归系数为0.345 3,结果表明,两者并无显著的相关性,从而说明自然选择影响阔叶猕猴桃候选基因密码子的使用模式。

ENC值在一定程度上反映基因表达水平的高低及密码子偏好性的强弱[16,17]。阔叶猕猴桃叶绿体基因有效密码子ENC在40.83~54.84之间,平均值ENC为47.15,且大部分在45以上(73.33%),说明阔叶猕猴桃叶绿体密码子偏好性较弱。ENC绘图(图4)显示,在标准曲线的周围均分布着大部分候选基因,仅少部分远离标准曲线,说明阔叶猕猴桃候选基因密码子使用模式受到突变和自然选择的双重影响。

表5 叶绿体基因组(阔叶猕猴桃)同义密码子使用度分析

氨基酸密码子数量RSCU*PheUUU3401.31UUC1800.69LeuUUA3592.15UUG1911.15CUU2071.24CUC640.38CUA1220.73CUG570.34TyrUAU2931.66UAC590.34TERUAA181.74UAG40.39HisCAU1931.58CAC520.42GlnCAA2691.49CAG910.51IleAUU4341.56AUC1580.57AUA2440.88MetAUG2421.00ValGUU2181.54GUC470.33GUA2251.59GUG750.53AsnAAU3011.50AAC1000.50LysAAA3321.53AAG1020.47AspGAU2981.59GAC780.41GluGAA3761.54GAG1120.46氨基酸密码子数量RSCU*SerUCU2031.79UCC1060.94UCA1271.12UCG630.56ProCCU1671.67CCC640.64CCA1161.16CCG540.54CysUGU891.55UGC260.45TERUGA90.87TrpUGG1851.00ArgCGU1341.51CGC340.38CGA1361.53CGG380.43ThrACU2221.77ACC830.66ACA1501.20ACG470.37AlaGCU2981.82GCC940.57GCA1951.19GCG680.42SerAGU1341.18AGC460.41ArgAGA1441.62AGG470.53GlyGGU2391.33GGC910.51GGA2791.56GGG1080.60

注:“*”为同义密码子相对使用度;下划线表示每种氨基酸的最优密码子。

对30个候选基因的同义密码子相对使用度进行分析,筛选出最优密码子(表5),RSCU值大于1.00的密码子有 30个,其中,29个以A或U 碱基结尾,以G或C碱基结尾的密码子RSCU值大部分都小于1.00,这进一步说明阔叶猕猴桃叶绿体基因偏好于以A或T碱基结尾的密码子。

PR 2-plot分析结果显示,大部分基因分布于图的下半部或左半部,说明4种碱基分布不均衡,且密码子第3位上碱基的使用频率T>A,C>G。表明阔叶猕猴桃叶绿体基因组密码子第3位T、C使用频率较高,且密码子使用模式受突变和自然选择等多重因素的影响。

图3 中性绘图分析

图4 ENC绘图分析

图5 PR 2绘图分析

3 讨 论

据报道,第一个解析出来的猕猴桃科叶绿体基因组是中华猕猴桃(2 X,4 X)和美味猕猴桃(2 X,4 X)[18],全长分别为156 346 bp、156 810 bp、156 741 bp及157 375 bp,有113种基因,79种蛋白编码基因,4种核糖体rRNA基因和30种tRNA基因GC含量为37.2%。本研究中阔叶猕猴桃完整叶绿体基因组长度为155 964 bp,比中华猕猴桃短;平均 GC 含量37.30%,差异不大;有83种蛋白质编码基因,4种核糖体rRNA基因和30种tRNA基因。其IR区域长度为23 452 bp,有明显的缩短现象,同时也发现clpP基因的丢失,这与先前的研究报道一致,可能在叶绿体的进化过程中,clpP基因转移到细胞核中。在植物的进化过程中,由于部分基因向细胞核内转移,导致了叶绿体基因的缺失[19]。

丰富的cpSSR位点有利于从叶绿体角度对猕猴桃群体遗传学展开研究[18]。本研究共分析获得36个SSR位点(≥5 bp),其中单核苷酸重复单元占总数量的94.44%(34个),二核苷酸重复单元占2.78%(1个),三核苷酸重复单元占2.78%(1个),不存在四、五、六碱基的重复单元。A/T、AT/AT和AAT/ATT重复单元占所有SSR位点的94.44%,这与前人的研究结果相呼应[20]。

为了解猕猴桃科叶绿体基因组间的差异,本研究从NCBI中下载8个猕猴桃品种的叶绿体基因组与之进行对比。结果显示其总长度最短,IR区段也较短。聚类结果显示,中华猕猴桃与美味猕猴桃表现较高的亲缘关系,与先前报道一致[21],葛枣猕猴桃、四萼猕猴桃、软枣猕猴桃、狗枣猕猴桃之间的遗传距离较近。本研究基于叶绿体全基因组聚类分析发现,阔叶猕猴桃确实与毛花猕猴桃遗传距离较近,但与其他品种遗传距离均较远,印证了前人基于叶绿体SSR研究猕猴桃遗传多样性的研究结果[12,13]。目前已发表的猕猴桃科叶绿体基因组数据有限,因此在系统发育研究方面,可能仍需要全基因组数据支持。

在植物基因组中广泛存在密码子偏好性现象,其形成原因多样,机制复杂[22,23]。作为研究基因组进化关系的一项重要指标,其变化受多个因素影响,如基因表达水平[24]、基因序列长度[25]、tRNA丰度[26]、密码子变异偏好性以及GC分布的位置等[27,28]。Sharp等[29]的研究表明,变异方向和自然选择是影响密码子偏好性的主要因素[30]。本研究中筛选到30个最优密码子,其中29个以A/T碱基结尾,这与其它双子叶植物相一致[31,32]。并且ENC绘图和PR 2-plot分析都表明,阔叶猕猴桃叶绿体密码子使用模式受突变和自然选择等多重因素的影响。

本研究以阔叶猕猴桃全基因组为数据来源,从中筛选有效数据并进行拼接组装,得到叶绿体全基因组数据,研究其叶绿体基因组特征、基因注释情况、SSR标记开发、遗传多样性分析及密码子偏好性分析,一方面可进行密码子改造以提高异源基因的表达水平,另一方面也为种质资源鉴定及遗传育种等提供理论依据。

猜你喜欢
阔叶密码子叶绿体
阔叶槭物候特征及播种育苗试验
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
热带地区园林植物景观设计浅析与实践应用
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
关于美国阔叶木外销委员会(AHEC)
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
晚荷