辛雅萱,董章宏,瞿绍宏,刘 成,叶 鹏,辛培尧
( 西南林业大学 西南山地森林资源保育与利用教育部重点实验室/ 西南地区生物多样性 保育国家林业和草原局重点实验室,云南 昆明 650224)
密码子(Codon)又称遗传密码,在生物体遗传信息传递的过程中作为联结核酸和蛋白质的纽带,扮演着重要的角色,其偏好性作为基因和基因组的一个静态特征,是生物在长期演化过程中适应和选择的结果[1]。其中,同义密码子虽然编码相同的氨基酸,但其使用频率并不相同。大量研究表明,在蛋白质编码过程中,某一物种或某一基因往往倾向于使用一种或几种特定的密码子,该现象称为密码子的使用偏性(Codon usage bias)[2]。这种现象的产生可能与基因的表达水平[3]、基因的碱基组成[4]、翻译起始效应[5]和基因的长度[6]等因素有关。密码子使用模式会影响基因的功能与表达,且基因的表达量越大,其密码子偏好性就越强[7]。
叶绿体是地球上绿色植物体中把光能转化为化学能的重要细胞器。叶绿体基因组是一个裸露的环状双螺旋分子,有一套完整的复制、转录和翻译系统。叶绿体基因组分子量小、多拷贝,结构和基因种类一般较为保守,这些有利于对叶绿体基因组进行分析,现已被广泛用于分子进化、系统发育和遗传表达等领域[8]。近年来,对叶绿体基因组密码子使用模式的研究,已在竹亚科(Bambusoideae)[9]、铁核桃(Juglans sigillataDode)[10]、巨桉(Eucalyptus grandis)[11]等多种植物中开展。
杜梨(Pyrus betulifoliaBge.)为蔷薇科(Rosaceae) 梨属(Pyrus)落叶乔木,别名棠梨、土梨、海棠梨等,在我国南北方各地均有种植。杜梨不仅是一种美味水果,而且其果实、枝、叶、根均可入药,用于治疗咳嗽、腹泻等[12]。目前,对杜梨的研究主要集中在其果实多糖的提取[13]、叶黄酮类化合物提取[12]以及对盐、碱胁迫的响应等方面[14],其叶绿体基因组的相关研究,仅见Dong 等[15]对其叶绿体基因的基本结构进行了简要分析,而叶绿体密码子使用偏好性方面的研究还未见报到。通过分析杜梨叶绿体基因组密码子使用偏好性,确定其叶绿体基因组最优密码子,为杜梨乃至梨属植物叶绿体基因组学的研究提供理论依据。
从瑞丽植物园,采集新鲜杜梨幼叶,将样品保存在干冰中,送至浙江优诺金生物工程有限公司进行叶绿体基因组的测序,其结果已提交至中国科学院西双版纳热带植物园综合保护中心樟科植物叶绿体基因组数据库(登录号:LAU10003),通 过Geneious 8.1.3、BioEdit Sequence Alignment Editor、ORF Finder(https://www.ncbi.nlm.nih.gov/orffinder/)等软件对杜梨叶绿体基因组进行分析,为了降低误差,研究时从88 条CDS(coding DNA sequence)中剔除序列长度小于300 bp、内部含有终止密码子的序列和重复基因,最终选取了37 条以ATG 为起始密码子,TAA、TGA、TAG 为终止密码子的基因序列用作后续分析。
1.2.1 密码子相关参数计算 运用Codon W 1.4.2 软件分析符合条件的37 条CDS,获得各CDS 的有效密码子数(ENC,Effective number of codon)、同义密码子相对使用度(RSCU,relative synonymous codon usage);应用EMBOSS explorer 中的CUSP软件分析获得不同基因中各个密码子第1 位、第2 位、第3 位碱基的GC 含量(分别用GC1、GC2、GC3表示),以及该基因中GC 碱基的含量(GCall),并利用SPSS 软件对所得参数进行相关性分析。
1.2.2 中性绘图分析 中性绘图分析是用来初步判断密码子使用偏好性影响因素的方法之一[16]。若GC12和GC3显著相关,且回归系数接近于1,则说明密码子3 个位置上的碱基组成相似,则密码子偏好性主要受突变影响;反之,说明密码子第1、2 位与第3 位碱基组成差异较大,基因组GC 含量高度保守,其偏好性受选择影响较大[17]。首先,根据已获得的GC1、GC2含量计算出GC12(GC1和GC2的平均值)的数值,再以GC12为纵坐标,GC3为横坐标作散点图,图中的1 个点即代表1 个基因的位置;通过分析第1、第2 位碱基和第3 位碱基组成的相关性,推测出其密码子偏好性的主要影响因素。
1.2.4 PR2-plot 分析 PR2 分析(Parity rule 2)也叫偏倚分析,用于分析各密码子第3 位碱基A、T和G、C 之间突变是否平衡,尤其是针对由4 个同义密码子编码的氨基酸。以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标进行偏倚分析,图的中心点表示A=T 且G=C(此时其密码子偏好性完全受突变的影响),其余的点由中心点向该点发出的矢量表示该基因的偏性方向和程度[20]。
1.2.5 最优密码子分析 鉴定杜梨叶绿体基因组中的最优密码子,需要结合其高频率和高表达密码子。选取RSCU 值>1 的为高频密码子;以37 条CDS 的ENC 值为偏好性标准,由低到高对其进行排序,分别选出两端10%的基因(前后各4 个基因),建立高低表达库[21],将ΔRSCU ≥0.08(ΔRSCU=RSCU高表达-RSCU低表达)的密码子作为高表达密码子。最后将同时满足二者的密码子定义为杜梨叶绿体基因组的最优密码子[22]。
利用Codon W 1.4.2 和在线程序CUSP 软件分析杜梨叶绿体基因组中符合条件的37 条CDS 序列,结果如表1 所示。
表1 杜梨叶绿体基因组密码子不同位置的GC 含量及ENC 值Table 1 GC content and ENC value of different positions of codon in chloroplast genome of P.betulifolia
其中,有核糖体基因10 个(rpl14、rpl16、rpl20、rps11、rps14、rps2、rps3、rps4、rps7、rps8),光 合 作 用 基 因9 个(petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD)、7 个基因(ndhC、ndhD、ndhE、ndhG、ndhH、ndhJ、ndhK)为烟碱脱氢酶基因、ATP 基因4 个(atpA、atpB、atpE、atpI)以及其他基因7 个。所有CDS 密码子的平均GC 含量为38.87%,其中,第1 位GC 平均含量为48.45%,第2 位GC 平均含量为40.76%,第3 位平均GC 含量为28.66%,可见,GC 含量在密码子的3 个位置上并不是均匀分布的,且绝大多数CDS 密码子第1 位、第2 位的GC 含量明显高于第3 位,可见杜梨叶绿体基因组密码子末位碱基偏好以A/T(U)结尾。表1 还显示,37 个基因的ENC 取值范围是33.13 ~52.73,平均为47.41,可以认为,杜梨叶绿体基因组密码子的偏性较弱。
杜梨叶绿体基因组密码子不同位置GC 含量、ENC 值和密码子数(N)之间的相关性分析如表2所示,GCall与GC1和GC2呈极显著相关,GC1和GC2呈显著相关,但GC3与GC1和GC2都未呈显著相关,说明密码子第1、2 位碱基组成相似,和第3 位碱基存在较大差异。进一步比较发现,ENC 与GC2极显著相关、与GC3显著相关,与GC1无相关性,说明密码子不同位置上的碱基组成会影响有效密码子数。密码子数N 除了与GC3极显著相关外,与其他参数均无显著相关。
分析表明,RSCU >1 的密码子有30 个。其中,16 个以U 结尾;13 个以A 结尾;以G 结尾的只有1 个。说明杜梨叶绿体基因组密码子偏好以A 或U结尾(表3)。
表2 密码子数各位置GC 含量、数量与ENC 值的相关性分析 Table 2 Correlation analysis of GC content, quantity and ENC value of different position codon numbers
表3 杜梨各氨基酸的RSCU 分析Table 3 RSCU analysis of each amino acid in P.betulifolia
续表:
分析表明,在杜梨叶绿体基因组密码子中,GC12的取值范围在0.333 ~0.540 之间,GC3的取值范围在0.203 ~0.366 之间, GC12和GC3的相关系数-0.143 4,回归系数(即趋势线斜率)为0.207 2,说明密码子第1、2 位碱基和第3 位碱基组成存在差异,其基因组中GC 含量高度保守,密码子的偏好性受选择影响较大(图1)。
图1 中性绘图分析Fig.1 Neutrality plot analysis
ENC-plot 分析如图2 所示,大部分基因位于标准曲线下方,说明其密码子偏好性的影响因素中,选择占主导地位。进一步计算ENC 比值,分析基因的ENC 频数分布(表4)。
图2 ENC-plot 绘图分析Fig.2 ENC-plot analysis
结果表明,分布在-0.05 ~0.05 区间的基因有14 个,这14 个基因与预期ENC 值较接近,而分布在这个区间以外的基因有23 个,这23 个基因与预期ENC 较远,也就是离标准曲线较远。说明了杜梨叶绿体基因组密码子的偏好性更多地受选择的影响。
表4 ENC 比值频数分布表Table 4 Distribution table of ENC ratio
由图3 可知,平面图的4 个区域内基因并非均匀分布,大部分基因分布在右下方,表明密码子第3 位碱基的使用具有偏好性,且T 的使用频率高于A,G 的使用频率高于C,说明杜梨叶绿体基因组密码子使用模式不仅受到突变的影响,还受到其他因素的影响。
依表3 结果,选出RSCU 值>1 的密码子为高频密码子,共计30 个。
图3 PR2-plot 绘图分析Fig.3 Analysis of PR2 bias plot
进一步根据ΔRSCU 值,筛选出28 个ΔRSCU ≥ 0.08 的高表达密码子(表5 中),其中U 结尾的9个,A 结尾的9 个,G 结尾的4 个,C 结尾的有6 个。将高频密码子和高表达密码子相结合,同时满足二者条件的密码子才能被确定为杜梨叶绿体基因组的最优密码子。最终筛选出UUU、UUG、CUU、AUU、GUU、UCU、CCU、CCA、ACA、GCA、UAU、UAA、CAA、GAA、CGU、CGA、GGU、GGA 这18 个为最优密码子,9 个以U 结尾,8 个以A 结尾,1 个以G 结尾。
表5 杜梨叶绿体基因组最优密码子的确定Table 5 Determination of optimal codons in the chloroplast genome of P.betulifolia
续表:
同义密码子的非均衡使用现象在植物基因中普遍存在,引起这种现象的成因较复杂,基因的碱基组成被认为是最普遍的因素[23]。密码子第3 位上碱基的改变通常不会引起编码氨基酸的改变,因此密码子第3 位上碱基突变所受到的选择压较小,GC3也被作为分析密码子使用模式的一个重要依据。通过对PR2-plot 分析结果表明,T >A,G >C,这与蒺藜苜蓿(Medicago truncatula)[24]、降香黄檀(Dalbergia odorifera)[25]等植物的研究结果一致。但在陆地棉(Gossypium hirsutum)[26]、剑麻(Agave sisalana)[27]等植物中,叶绿体基因组碱基使用频率 上T >A,C >G;Zhou 等[28]对 红 松(Pinus koraiensis)、苏铁(Cycas revoluta)等植物的研究中,发现A、T 和G、C 的使用频率相当;而张月荣[29]对禾本科植物的研究中也发现了嘧啶嘌呤使用频率相当。这说明不同植物的叶绿体基因组中碱基组成存在一定的差异,从而使密码子偏好性的影响因素有所不同。
前人研究发现,在植物叶绿体基因组中,密码子偏向于以A 或T 碱基结尾[30]。在杜梨叶绿体基因组碱基组成中发现,GC1平均含量为48.45%;GC2为40.76%;GC3为28.66%,GC3含量明显少于GC1和GC2;而密码子各位置上碱基相关性分析表明,GC1和GC2呈显著相关,GC3与GC1、GC2相关不显著且与前两位存在较大差异,说明碱基组成偏向于A 和T,第3 位密码子偏好以A、T 结尾。这与马尾松(Pinus massoniana)[31]、樟树(Cinnamomum camphora)[30]等植物密码子的偏好性研究结果一致,说明不同物种间密码子偏好性存在着一定的相似性。研究表明,变异和选择是影响密码子偏好形成的主要因素[20]。对杜梨37 条CDS 的相关参数进行中性绘图分析、ENC-plot 分析以及PR2-plot 分析均表明,其密码子的偏好性主要受选择影响。这与沙枣(Elaeagnus angustifolia)[19]、 酸 枣(Ziziphus jujubevar.spinosa)[23]等 植 物的密码子偏好性一致;而在普通油茶(Camellia oleifera)[32]、蒺藜苜蓿[24]中,突变是影响叶绿体基因组密码子偏好性的因素。而续晨等[33]对蝴蝶兰(Phalaenopsis aphrodite)叶绿体基因组密码子研究后认为,其偏好性受自然选择和碱基差异的共同影响;糜子(Panicum miliaceum)叶绿体基因组密码子受突变和选择的共同影响[17];刘庆坡等[34]认为基因表达水平和碱基组成是影响水稻(Oryza sativa)叶绿体密码子使用偏性的主要因素。由此可见,植物密码子偏好性是受多重因素影响的,不同植物中影响密码子偏性的主要因素有所不同。
采用高频密码子和高表达密码子相结合的办法,将同时满足二者条件的密码子确定为杜梨叶绿体基因组的最优密码子,筛选出18 个最优密码子,9 个以U 结尾,8 个以A 结尾,多数以U 和A结尾。这与银白杨(Populus alba)、水稻等植物中叶绿体基因组密码子偏好NNA、NNU 型研究结果相一致[34]。
叶绿体是植物进行光合作用的主要器官,在生物进化的漫长历史中发挥着重要作用。如今,随着生物技术的不断深入发展,人们发现叶绿体基因组结构和序列的信息在揭示物种起源、进化演变及其不同物种之间的亲缘关系等方面具有重要价值,与此同时叶绿体转化技术在遗传改良、生物制剂的生产等方面显示出巨大潜力。本文通过研究杜梨叶绿体基因组密码子使用偏好性,揭示了与杜梨叶绿体基因组有关的编码基因以及基因表达的重要信息,为今后开展杜梨叶绿体基因工程、异源表达基因修饰奠定了基础,同时也将为在叶绿体基因组水平上建立梨属植物分类的新方法提供重要依据。