建始槭叶绿体基因组密码子使用偏性分析

2022-11-29 03:09赵月梅杨贵清徐其碧
关键词:偏性同义密码子

赵月梅, 杨贵清, 徐其碧, 尹 鑫, 徐 林, 丁 波

(贵州师范学院生物科学学院,贵州 贵阳 550018)

密码子(codon)是生命最基础的信息单元,在生物体内的DNA转录与蛋白翻译中起着非常重要的作用.在翻译过程中,大部分氨基酸由两个或多个密码子编码,而对同一氨基酸编码的密码子叫同义密码子[1],氨基酸在翻译时对同义密码子的使用倾向叫密码子偏性(codon usage bias)[2].造成密码子偏好性的原因有多种,如转运RNA丰度[3]、基因复制原点[4]、核苷酸碱基对总数[5]以及基因转录和翻译水平高低[6]等.但在大多数植物的研究中,突变压力和自然选择是影响密码子使用偏好的主要因素[7-8].密码子使用模式是揭示物种演化的先决条件,而对其选择机制的深入研究可为探究生物演化与环境的适应性提供依据.

叶绿体(chloroplast)是一种独特的半自主性植物细胞器,除能进行光合作用和能量转换外,还具有复制、转录、翻译等生命活动功能.叶绿体基因组具高保守性、进化速度慢、拷贝数多、规模小、基因组数多等特点[9],目前被广泛应用于植物进化[10-11]和物种鉴定[12]等方面的研究.随着基因组测序的进步和发展,叶绿体基因组密码子使用模式的相关研究在藻类[13-14]、蕨类[15]、裸子植物[16]和被子植物[17-18]中都已有报道.

建始槭(Acerhenryi)属于槭树科(Aceraceae)槭属(Acer),主要生长于海拔500~1 500 m的疏林中[19],广泛分布于中国各地.建始槭是我国特有的槭树科野生彩叶树种,因树姿美观、果序下垂、果实形状奇特、果尖鲜红、秋叶金黄等特点[20],在我国西北部,常被用作造林和园林绿化的优良景观材料.近年来,关于该物种的研究多集中于栽培[21]、繁殖[22-23]等方面,对其遗传信息方面的研究很有限,仅有部分研究集中于槭属[24]或槭树科[25-26]等.这些研究均丰富了槭属的遗传信息,但有关建始槭的叶绿体基因组密码子信息较少.本研究在获得叶绿体基因组信息基础上分析建始槭叶绿体基因组密码子偏好选择的方式和来源,有助于后期了解其密码子偏好选择的潜在分子机制以及相关物种进化和环境的适应性.

1 材料与方法

1.1 材料

建始槭叶片为课题组成员于2020年6月采自陕西咸阳(108°05′E, 34°05′N),将干燥叶片送至北京百迈客生物科技有限公司进行二代测序、文库构建等工作,将得到的reads进行拼接、注释后得到156 970 bp的叶绿体基因组序列,将序列上传至NCBI数据库,登录信息为MT246196.该序列共86条CDS(coding DNA sequence),去除了7条重复CDS、27条小于300 bp的CDS以及2条非ATG起始的CDS,最后选取50条蛋白质编码序列用于后续分析.

1.2 方法

1.2.1 同义密码子偏性分析 利用软件CodonW1.4.2 (https://sourceforge.net/projects/codonw/)和在线程序EMBOSS(https://www.bioinformatics.nl/emboss-explorer/)中的CUSP程序,统计分析50条建始槭叶绿体基因组密码子中的同义密码子相对使用频率(relative synonymous codon usage, RSCU)、有效密码子数(effective number of codon, ENC)、密码子最后位点碱基含量 (A3、T3、C3、G3)、密码子上总GC含量(GCall)、密码子各位点GC含量(GC1、GC2、GC3)以及密码子出现次数(codon number, CN)等.同时,用SPSS 20.0分析GCall、GC1、GC2、GC3、CN、ENC值之间的相关性.

1.2.2 中性绘图分析 中性绘图分析(neutrality plot)可以初步判定突变压力和自然选择对密码子使用偏性的作用,主要通过以GC3值为X坐标,以GC12[(GC1+GC2)/2]值为Y坐标,利用Excel绘制二维散点图(X-Y),并对GC12和GC3进行线性拟合分析进而判断两者相关性,根据相关性判断影响密码子使用偏性的主要因素.当R2越大且趋于1时,GC12与GC3的相关程度越强,密码子3个位点上的核糖核苷酸组成越相似,这时密码子使用存在偏性是受突变压力的作用;当R2越小且趋于0时,GC3与GC12越不相关,密码子的3个相邻核糖核苷酸的组成存在较大差异,这时密码子使用偏性主要是受自然选择的作用[27].

1.2.4 PR2-plot分析 PR2-plot分析(偏倚分析)是为了防止A/T及C/G之间在密码子最后位点上的组成发生突变不平衡.通过Excel作二维散点图(X-Y),变量X为G3/(G3+C3),变量Y为A3/(A3+T3),通过观察各基因在散点图4个平面上的分布,统计分析每个基因密码子的最后位点上A、T、C、G碱基的分布情况.以A=T、C=G为中心轴,根据基因在4个平面上发散程度判定该基因密码子碱基的偏向及其偏向程度[32].

1.2.5 最优密码子分析 通过指标高频率密码子和高表达密码子确定建始槭叶绿体基因组的最优密码子.具体操作如下:(1)利用CodonW1.4.2软件算出50条建始槭叶绿体基因序列各氨基酸同义密码子RSCU,RSCU>1的密码子为高频率密码子;(2)将ENC从小到大排序,将前10%(5个)的基因建成高基因表达库,将后10%(5个)的基因建成低基因表达库[17].利用CodonW1.4.2软件分别算出高、低库的同义密码子RSCU,通过ΔRSCU=(RSCU高表达-RSCU低表达)计算,ΔRSCU≥0.08的密码子为高表达密码子.最后,符合RSCU>1和ΔRSCU≥0.08的密码子作为建始槭叶绿体基因组的最优密码子[33-34].

2 结果与分析

2.1 同义密码子的偏性分析

通过对50条建始槭叶绿体基因序列进行分析(表1),统计了密码子各位点上的GC含量分布,结果表明:3个位置GC含量的平均值为39.10%,GC1、GC2、GC3分别为47.46%、39.08%、30.77%.这说明GC在密码子3个位点上的分布存在显著差异,呈GC335(37.96~56.37).其中,只有rps18基因和rpl16基因的ENC小于40,其余48个基因的ENC均>40.50条序列平均ENC为50.67,这表明建始槭叶绿体基因组的密码子偏性较弱.

表1 建始槭叶绿体基因组各基因密码子不同位置的GC含量1)Table 1 GC content in different parts of A.henryi chloroplast genome

通过SPSS 20.0进行相关性分析,结果表明(表2):GCall与GC1、GC2在0.01水平上均存在极强的正相关,GCall与GC3在0.05水平上显著相关;GC1与GC2关系在0.01水平上存在强正相关,但两者均与GC3不相关.以上结论说明建始槭叶绿体基因组密码子前两位的碱基组成相似,而与第3位不相似.ENC与GC1不相关,与GC2在0.01水平上存在极强的负相关,与GC3在0.01水平上存在强正相关关系,说明密码子上的碱基组成对ENC值有影响,即对密码子偏性有影响.CN值除与GC3在0.01水平上存在很强的正相关关系外,与其他参数都不相关,说明建始槭叶绿体基因组中的基因序列长度对GC3有一定的影响,而对密码子的使用模式则没有明显的影响.

表2 建始槭叶绿体基因组中各基因参数的相关性1)Table 2 Correlation analysis on gene parameters of A.henryi chloroplast genome

通过CodonW1.4.2软件分析出50条建始槭叶绿体基因组序列RSCU(表3),共有30个RSCU>1的密码子,其中,除UUG外,其余都以A、U 结尾.该结果表明:A、U碱基在密码子最后位点上出现的频率最高,建始槭叶绿体基因组密码子偏好以A、U结尾.

表3 建始槭叶绿体同义密码子的使用频率(RSCU)Table 3 Relative synonymous codon usage (RSCU) analysis on coding region of A.henryi chloroplast genome

2.2 中性绘图分析

建始槭叶绿体基因组中各基因中性绘图分析结果表明(图1),GC3含量为0.219 8~0.371 8,GC12含量为0.347 7~0.579 2,R2为0.013 2,双尾检验两者相关性不显著,回归斜率为0.151 6,说明GC12与GC3不相关.密码子上的碱基组成中最后1个位点不同于其他2个位点,表明建始槭叶绿体基因组密码子使用偏性很大程度上受自然选择的影响,而受突变压力的影响小.

2.3 ENC-plot分析

ENC-plot分析如(图2)所示:建始槭叶绿体50个基因中,仅有少数基因分布在期望曲线上或曲线附近,而大部分基因分布在期望曲线下方较远处,说明大部分基因的实际ENC值与理论ENC值存在差异.为更具体地看到实际ENC值和理论ENC值的差异程度,计算了ENC比值频数即(ENCexp-ENCobs)/ENCexp,数据显示(表4):建始槭叶绿体50个基因中,有36%(18个)的基因分布在-0.05~0.05区间,表明这部分基因分布于期望曲线上或曲线附近,即ENCobs值接近于ENCexp值.这18个基因中,9个基因与光合作用相关,8个基因为自我复制基因,1个为其他基因.有64%的基因分布在-0.05~0.05区间外,远离期望曲线分布,即ENCexp和ENCobs相差较大.以上结果说明自然选择是影响建始槭叶绿体基因组密码子使用偏性的主要因素,而突变压力的作用较小.

GC12表示密码子第1、2位GC含量的平均值;GC3表示密码子第3位的GC含量.图1 建始槭叶绿体基因中性绘图分析Fig.1 Neutrality plot analysis on A.henryi chloroplast genome

2.4 PR2-plot分析

表4 ENC比值频数分布Table 4 Distribution of ENC ratio

建始槭叶绿体基因组密码子的PR2-plot绘图分析结果表明(图3),X、Y坐标轴均以0.5为界限,发现4个平面内基因分布不均衡.从G3/(G3+C3)轴看,有26个基因位于左侧(<0.5),24个基因位于右侧(>0.5);从A3/(A3+T3)轴看,有31个基因位于下方(<0.5),19个基因位于上方(>0.5).该结果表明4种碱基在同义密码子第3位上呈现出C>G、T>A的分布趋势.当密码子使用存在偏性完全受突变压力影响时,C和G以及A和T同义密码子在第3位上的分布应相等.因此,除突变压力外,建始槭叶绿体基因组密码子使用偏性还受到自然选择等其他因素的影响.

2.5 最优密码子分析

图3 PR2-plot绘图分析Fig.3 Analysis of PR2 bias plot

根据分析结果,选出30个高频率密码子(RSCU>1)(表3)、27个(ΔRSCU≥0.08)高表达密码子(表5).其中,同时满足条件RSCU>1和ΔRSCU≥0.08的密码子共16个,即UUA、CUU、GUU、GUA、UCU、CCU、GCU、UAA、CAA、AAA、GAA、UGU、CGU、AGU、AGA、GGU,这些密码子都以A、U结尾,被确定为建始槭叶绿体基因组的最优密码子.

3 讨论

G、C碱基之间由3个氢键相连,比A、T多1个,所以在DNA分子中GC含量越高,说明DNA双链越稳定,因此在基因测序中GC通常被用来衡量生物体基因组碱基组成差异的重要指标.密码子由3个相邻排列的碱基组成,在翻译过程中,密码子第1、2位碱基发生变化时,其编码的氨基酸通常发生变化,而第3位碱基具有一定的自由度,可以被多个tRNA上的反密码子的首位碱基所识别,所以,密码子第3位的突变一般不会导致编码的氨基酸发生变化,这种特性确保了基因密码子在编码过程中的稳定性,降低了选择压力的影响[35].在建始槭叶绿体基因组密码子各位置的碱基分布中,第1、2、3位上GC被使用的频率不同,呈GC3

表5 建始槭叶绿体基因组最优密码子分析1)Table 5 Putative optimal codons in A.henryi chloroplast genome

中性绘图和ENC-plot分析均表明:建始槭叶绿体基因组密码子偏性的产生主要受自然选择的影响,这与蒜头果(Malaniaoleifera)[38]、樟树[36]、思茅松[37]、杜梨(Pyrusbetulifolia)[18]、铁核桃(Juglanssigillata)[39]、灯盏花(Erigeronbreviscapus)[28]、大花香水月季(Rosaodoratavar.gigantea)[40]等植物的密码子偏好性一致;而在西南桦(Betulaalnoides)[41]、籽粒苋(Amaranthushypochondriacus)[42]、乳油木(Sheanut)[43]等植物中,突变是影响其叶绿体基因组密码子偏性的主要因素;在糜子(Panicummiliaceum)[27]、阔叶猕猴桃(Actinidialatifolia)[44]、巨桉(Eucalyptusgrandis)[45]、镰翅羊耳蒜(Liparisbootanensis)[46]等植物中,其叶绿体基因组密码子编码存在偏性是受自然选择和突变压力的双重影响;在蝴蝶兰(Phalaenopsisaphrodite)[47]中,自然选择和碱基组成的差异是影响其叶绿体基因组密码子使用偏性的主要因素;在禾本科植物水稻(Oryzasativa)[48]中,除碱基组成的差异外,基因表达水平(即转录和翻译水平)也是影响其叶绿体基因组密码子使用的因素.因此,在不同的植物中,叶绿体基因组密码子使用偏性的影响因素存在差异.在大多数植物中,叶绿体基因组密码子使用的偏性受到多种因素的共同作用.

PR2-plot分析表明:密码子第3位上碱基组成呈现出T>A、C>G的趋势,这与糜子[27]、阔叶猕猴桃[44]、灯盏花[28]、乳油木[43]、大花香水月季[40]、剑麻(Agavesisalana)[49]等植物结果一致;在杜梨[18]、思茅松[37]、蒜头果[38]、铁核桃[39]等植物中叶绿体基因组密码子第3位碱基组成中呈T>A、G>C;在樟树[36]中呈A>T,C>G;在籽粒苋[42]和镰翅羊耳蒜[46]中呈A>T、G>C;在红松(Pinuskoraiensis)和苏铁(Cycasrevoluta)[50]的研究中,结果均呈A=T与G=C使用均等的现象.综上所述,不同植物的叶绿体基因组密码子上的碱基分布可能存在类似或不同的结果,从而导致影响密码子使用偏性的主要因素不同.

通过对高频率密码子、高表达密码子的计算统计分析,最终共筛选出16个满足RSCU>1和ΔRSCU≥0.08且均以A、U结尾的密码子,即UUA、CUU、GUU、GUA、UCU、CCU、GCU、UAA、CAA、AAA、GAA、UGU、CGU、AGU、AGA、GGU,将这16个密码子确定为建始槭叶绿体基因组的最优密码子,这与杜梨[18]、樟树[36]、思茅松[37]、蒜头果[38]、铁核桃[39]、巨桉[45]等植物中密码子偏好NAA和NUU型研究结果一致.

本试验以建始槭叶绿体基因序列为研究对象,对建始槭叶绿体基因组密码子使用的偏性进行了分析,并对其最优密码子进行了筛选.该结果可预测外源基因片段的最适受体,并选用最优密码子从而提高外源基因在受体中的表达水平,为建始槭的叶绿体基因工程研究奠定基础.

猜你喜欢
偏性同义密码子
银杏叶绿体基因组密码子使用偏性分析
独行菜抗逆相关转录因子LaDREB密码子偏性与进化分析
密码子与反密码子的本质与拓展
until用法巩固精练
新型密码子、反密码子、氨基酸对应盘
西夏文《同义》重复字研究
10种藏药材ccmFN基因片段密码子偏好性分析
西夏文《同义》考释三则
看待中药毒性 厘清三大误区
II/III期无缝设计二分类变量效应的估计*