香花枇杷质体基因组序列密码子偏性分析

2021-08-16 01:50:50屈亚亚冯发玉董章宏瞿绍宏王海洋辛培尧
西北林学院学报 2021年4期
关键词:偏性香花同义

屈亚亚,辛 静,冯发玉,董章宏,瞿绍宏,王海洋,李 斌,辛培尧*

(1.西南林业大学 园林园艺学院 国家林业和草原局西南风景园林工程技术研究中心,云南 昆明 650224;2.西南林业大学 西南山地森林资源保育与利用教育部重点实验室,云南 昆明 650224;3.毕节市林业科学研究所,贵州 毕节 551700)

自然界共存在20种标准氨基酸,其中,除甲硫氨酸(AUG)和色氨酸(UGG)外,均由2~6个密码子编码[1],这些编码同种氨基酸的密码子互为同义密码子。而密码子使用偏性(codon usage bias,CUB)这一概念主要指对某一种或几种特定的密码子的使用频率高于其他同义密码子的统计结果[2]。研究结果表明,物种之间、不同器官和组织之间、甚至基因之间都存在密码子使用偏性,这种由于密码子偏性造成的不同会在高表达基因中被检测到,也会对基因功能、蛋白质表达等产生影响[3-5]。在蛋白质的翻译过程中,密码子的末尾碱基很容易发生突变,因此在探究密码子偏性时,常注重于密码子末尾碱基的使用,或将其与第1、第2位碱基的使用模式进行对比分析。

不同于核遗传方式,叶绿体基因组物质主要源于母本细胞质,具有相对稳定的基因组系统和环境,且基因组长度小、基因拷贝数多[6-7],基因组结构相对保守,是很好的研究材料,被广泛应用于物种鉴定和植物系统发育领域。随着测序技术的不断发展,越来越多植物的叶绿体基因组数据被相继发表,为基于植物叶绿体基因组的相关研究提供了储备资料。关于高等植物密码子使用偏性的研究,目前主要集中于核基因密码子,叶绿体密码子方面的研究仍具有很大潜力。分析叶绿体基因组密码子的使用偏性特征及其影响因素,一方面能够在一定程度上反映物种或基因的起源、进化规律及突变方式,且有助于研究生物适应外界环境的分子机制;另一方面,通过分析确定的最优密码子,可以为基因表达载体的设计提供参考,提高叶绿体基因组中基因的表达量[1,8-10]。

香花枇杷(Eriobotryafragrans)是蔷薇科枇杷属中一种极具药用潜力的常绿灌木,光和能力在枇杷属中最强,广泛分布于广东、广西、西藏及中国南部。它被报道含有次生代谢物多酚和黄酮类化合物,具有抗菌和抗氧化活性等药性[11]。关于香花枇杷叶绿体基因组方面的研究很少,仅见Dong等[12]对香花枇杷叶绿体基因组结构进行了报道,并以叶绿体基因组为基础,确定香花枇杷在其近缘物种中的系统发育位置。本研究在香花枇杷叶绿体基因组测序的基础上,分析其叶绿体基因组密码子的使用特征及其形成的影响因素,为香花枇杷这一物种的深入研究与应用奠定前期基础。

1 材料与方法

1.1 材料

香花枇杷叶绿体基因组数据来源于中国科学院西双版纳热带植物园综合保护中心(Lauraceae Chloroplast Genome Database)构建的樟科植物叶绿体基因组数据库(https://lcgdb.wordpress.com/)登录号为LAU10001。另外,香花枇杷材料采集于云南省勐腊县(101.2546 E,21.9263 N,564 m)。

1.2 方法

1.2.1 密码子组成和偏好性分析 通过Geneious 8.1.3、BioEdit 7.0.9.0、ORFfinder(https://www.ncbi.nlm.nih.gov/orffinder)等软件对香花枇杷叶绿体基因组进行分析。结果显示,香花枇杷叶绿体基因组全长159 286 bp,包含89条CDS(Coding DNA Sequence)、37个tRNA和8个核糖体rRNA[12]。为了减少分析误差,从89条CDS中剔除了重复序列和长度<300 bp的序列,筛选出37条具有起始密码子(ATG)和终止密码子(TAA、TAG、TGA)的基因序列进行后续分析。将筛选好的37条CDS整合到一个.fasta文件中,利用Codon W 1.4.2软件和在线程序cusp(http://www.bioinformatics.nl/emboss-explorer/)对37个编码基因序列进行密码子的碱基组成分析和偏好性参数分析。描述密码子组成的指标有:密码子第1、第2、第3位碱基的鸟嘌呤和胞嘧啶含量(GC1、GC2、GC3)及密码子的G、C含量(GCall),全部通过在线程序cusp分析获得;同义密码子中第3位碱基的G、C含量(GC3S)、密码子适应指数(codon adaptation index,CAI)、密码子偏好指数(codon bias index,CBI)、最优密码子频率(frequency of optimal codons,Fop),可通过软件包Codon W 1.4.2获得。密码子使用偏好性的度量指标包括有效密码子数(effective number of codons,ENC)、同义密码子相对使用度(relative synonymous codon usage,RSCU),可由Codon W 1.4.2软件计算得到[1]。其中,ENC可检测单个基因密码子使用偏好程度,取值范围为20~61。当ENC=20时,表示在某一特定基因中,使用的密码子种类为20,即每个氨基酸都只使用1个特定的密码子,偏好性强;当ENC=61时,表示每个氨基酸的各个同义密码子均衡使用,无偏性, ENC值从小到大表示偏性逐渐变弱,通常以ENC=45作为判断偏性强弱的标准[13];RSCU衡量的是某个特定密码子在其同义密码子中的相对使用概率,它去除了由于氨基酸组成不同而引起的背景差异。无偏性时,RSCU=1;若RSCU>1代表该密码子使用频繁;RSCU<1代表该密码子使用频率较低。

1.2.2 密码子使用偏性影响因素分析

1.2.2.1 中性绘图分析 为了解析编码基因密码子3个位置碱基组成的差异,以GC3为横坐标,GC12(GC1与GC2的均值)为纵坐标进行中性绘图。中性绘图可以清晰地展示出的相关程度,两者之间有无相关性用以指示密码子的使用是否具有偏性。若二者显著相关,表明密码子各个位置的碱基变异模式相同,即密码子使用无偏性,完全受到突变影响作用,反之则说明密码子各个位置碱基使用模式不同,受到选择压力的影响更大[14]。

1.2.2.2 ENC-plot分析 以各基因GC3S和ENC分别作X和Y轴,探讨两者之间的分布关系。其中的标准曲线代表密码子偏好性完全受突变影响时,同义密码子第3位上的G、C含量与ENC含量之间的关系,标准曲线公式如下:

(1)

具体判断标准为图中散点与标准曲线的距离。若点落在标准曲线附近,表明实际ENC与期望ENC值接近,密码子偏好性主要受突变影响作用;若点落在下方较远位置,说明其偏性受到其他作用的影响,比如选择。为了更具体地显示实际ENC值(ENCobs)和预期ENC值(ENCexp,由标准曲线公式得出)之间的差异大小,计算了ENC比值即[(ENCexp-ENCobs)/ENCexp]并统计了ENC比值频数,结合ENC比值频数对差异进行量化分析[9],可以较为准确地判断突变和选择压力的影响程度。

1.2.2.3 PR2- plot分析 为了避免由第3位碱基A、T、C、G之间的突变不均衡,分析时仅选择由“>=4”种密码子编码的共8种氨基酸,对其密码子上末尾碱基组成情况进行分析[13],具体选择的氨基酸有脯氨酸、苏氨酸、缬氨酸、丙氨酸、甘氨酸、亮氨酸(6种中选CUA、CUU、CUG、CUC)、丝氨酸(6种中选TCA、TCC、TCG、TCT)、精氨酸(6种中选CGA、CGC、CGG、CGT)。具体方式为:分别计算每条CDS上编码以上8种氨基酸的密码子的A、T、C、G数目,进一步计算出每条CDS对应的G3/(G3+C3)值、A3/(A3+T3)值,并以此为横、纵坐标进行PR2偏倚分析(PR2-bias plot analysis),图中的中心点(0.5,0.5,即A=T且C=G)代表无使用偏性时的密码子状态,表明4种碱基使用均衡,密码子的使用完全由突变造成,其余点与中心点的矢量距离则代表其偏倚程度和方向[15]。

1.2.2.4 最优密码子确定 根据△RSCU法预测最优密码子(the mostpreferred codon),将各基因按ENC大小排序,取两端各10%(各4条)的基因组成高(ENC值小的一端)、低表达库(ENC值大的一端)[16],计算出△RSCU。RSCU>1的密码子为高频密码子,这些密码子在同义密码子中被偏爱,使用频繁;△RSCU>0.08的密码子为高表达优越密码子,同时满足2个条件的密码子既被偏爱使用,又具有高表达性,因此被作为香花枇杷叶绿体基因组的最优密码子[17]。

2 结果与分析

2.1 密码子组成和偏好性分析

香花枇杷37个叶绿体基因的G、C含量及ENC值见表1。GCall为39.08%,3个位置G、C含量由高到低依次为GC1(48.79%)>GC2(40.18%)>GC3(28.44%)。这表明,在香花枇杷叶绿体基因组中,A、U(T)含量相对较高,且末位碱基以A、U(T)为主;而ENC值介于32.55~52.74,平均值为47.02,ENC>45的密码子高达29个,说明香花枇杷大部分基因编码序列的同义密码子的偏性较弱。

对密码子各参数之间的相关性进行分析(表2),继而判断各因子对密码子偏好性的影响。表2显示,GC1、GC2显著相关,但与GC3的相关性均不高,表明香花枇杷叶绿体基因组密码子第1、第 2位碱基的使用较为相似,但与第3位不同。ENC与GC1相关性不显著,与GC2呈现显著负相关,与GC3、GC3S呈现显著正相关,说明密码子第2、第3位的GC含量与基因同义密码子使用偏好性程度显著相关,进一步说明同义密码子使用偏好性与碱基组成有关;CAI、CBI、Fop与 GCall及GC1间存在显著正相关关系,这说明香花枇杷叶绿体基因密码子的G、C含量与基因的表达水平、最优密码子使用频率、密码子偏爱指数之间呈显著正相关关系,且GC1含量越大,基因表达水平、密码子偏爱指数及最优密码子适应频率越高;ENC与CAI、CBI及Fop之间不存在显著相关性,且相关系数也不高,侧面揭示了基因的表达水平、最优密码子使用频率、密码子偏爱指数与同义密码子偏性之间可能不存在显著关联。

表1 香花枇杷37个叶绿体基因的GC含量及ENC值

表2 香花枇杷叶绿体基因密码子相关参数相关性

2.2 中性绘图分析

由中性绘图分析可知,GC12的取值略大,介于0.335~0.54,GC3的取值范围较小,介于0.2~0.37,各基因均落在对角线上方。GC12与GC3的相关系数r=-0.09,回归曲线斜率为-0.127,表明二者不具有显著的相关性(P=0.597),香花枇杷叶绿体基因组密码子的第1、第2位与第3位上的碱基组成有差异,说明G、C含量保守性较高,密码子第3位的G、C含量较低,选择压力对香花枇杷叶绿体基因组中密码子使用的影响较大(图1)。

2.3 ENC-plot绘图分析

ENC与GC3S关联分析见图2,标准曲线代表密码子偏好性完全受突变影响时,同义密码子第3位上的G、C含量与ENC含量之间的关系。结合ENC比值频数分布表(表3)可知,62%(23)的ENC比值分布在-0.05~0.05,表明至少有23个位点落在标准曲线附近,即香花枇杷质体基因组密码子的偏性受突变的影响较其他影响因素大;至少4个位点落在标准曲线下方较远位置,提示这些序列编码基因可能还受到弱的选择作用。

2.4 PR2-plot绘图分析

采用PR2-plot绘图法分析了部分氨基酸嘌呤(A、G)与嘧啶(T、C)之间的关系(图3)。当密码子的使用仅受突变影响时,4种碱基使用频率应该一致,位点集中于中心。图3显示,多数位点偏离了中心点(0.5,0.5),落在平面图的左下方,说明A、T及G、C的使用不均衡,且在密码子第3位的使用频率上,T>A,C> G,嘧啶的使用频率高于嘌呤。由此也可推断影响香花枇杷叶绿体密码子的使用模式的因素除了突变外,还包括其他(比如选择),这与中性绘图分析的结果具有一致性,且很好地解释了ENC-plot绘图分析的结果。

图1 中性绘图分析

图2 密码子使用的有效密码子数绘图分析

表3 ENC比值频数分布

2.5 最优密码子确定

由表4和表5可知,RSCU>1的UUU、UUA、UUG等29个高频率密码子中,1个以G结尾,28个以A、U 结尾;表5中△RSCU>0.08的UUU、UUG、CUU等24个高表达优越密码子中,以A、U结尾的密码子有15个,以C、G结尾的密码子有9个。结合高频密码子和高表达优越密码子,同时满足2个条件的香花枇杷叶绿体基因组的最优密码子有ACA、CAA、CUU、UUU、UUG、CCA、AUU、GGU、GUU、UCU、GCA、GAA、UAU、CGU、CGA共15个,其中只有1个以G结尾,其余均以A或U结尾。

图3 PR2-plot绘图分析

3 讨论

在关于密码子偏性的相关研究中,越来越多的研究表明,密码子的使用差异并非由单一因素决定,而是不同物种在不同的环境中,经过几百万年的繁衍,经历环境选择、碱基突变、遗传漂变等多因素叠加起作用的,此外,还可能受到基因组长度、tRNA丰度、密码子变异偏好性、碱基组成、基因表达水平等因素的影响[18-23];本研究以GC3为主要对象进行了中性绘图分析、ENC-plot绘图分析,是因为密码子的第3位碱基的突变经常不会引起所编码氨基酸种类的改变,因此可能面临较小的选择压力,且相关性分析表明GC3含量与密码子使用偏性之间存在显著相关性。

本研究结果显示,香花枇杷叶绿体基因组同义密码子的使用偏好以A(U)碱基结尾,这与前人的研究相符[24],如:剑麻(AgavehybridNo.11648)[25]、蝴蝶兰(Phalaenopsisaphroditesubsp.formosana)[26]、蒺藜苜蓿(Medicagotruncatula)[27]、糜子(Panicummiliaceum)[9]、陆地棉(Gossypiumhirsutum)[13]、马尾松(Pinusmassoniana)[10]、降香黄檀(Dalbergiaodorifera)[8]等植物,可能是由于陆地植物叶绿体基因组中富含A、T碱基,且进化相对保守导致;本研究中,香花枇杷叶绿体基因组密码子模式的形成受到选择和突变等多因素共同影响作用,在关于陆地棉(Gossypiumhirsutum)[13]和糜子(Panicummiliaceum)[9]的相关研究中,也得出类似结论,但在关于樟(Cinnamomumcamphora)[14]、降香黄檀(Dalbergiaodorifera)[8]、马尾松(Pinusmassoniana)[10]等植物的研究结果则表示,这些植物的叶绿体密码子的使用更偏向于受某一种主要因素(选择或突变)的影响,这说明不同植物种之间影响其叶绿体密码子使用模式的主要因素存在差异,且这些影响因素发挥作用的程度也各不相同。除选择压力和突变之外,香花枇杷叶绿体基因组同义密码子的使用可能还受到碱基组成的影响,这与叶友菊等[10]、Romero等[19]的研究结果具有一致性,本研究相关性分析也可以从侧面证明这一点。相关性分析还显示,ENC与CAI、CBI及Fop之间相关性不显著,说明基因的表达水平与密码子偏性之间可能不存在紧密关联,所以在确定最优密码子时,以ENC来衡量密码子的高表达性可能存在局限性,在叶友菊等[10]的研究中也提出了类似看法。

表4 香花枇杷叶绿体基因组氨基酸相对同义密码子使用度

表5 香花枇杷叶绿体基因组最优密码子确定

本研究最终分析确定了15个香花枇杷叶绿体基因组最优密码子,其中14个均以A、U碱基结尾。而在糜子(Panicummiliaceum)[9]、巨桉(Eucalyptusgrandis)[28]、美丽梧桐(Firmianapulcherrima)和云南梧桐(Firmianamajor)[29]等植物最优密码子的研究中,最优密码子几乎都以A、U结尾,同样可能是由于叶绿体基因组中富含A、T碱基,且叶绿体基因组密码子在进化关系上比较保守的缘故;最优密码子的确定为以后香花枇杷叶绿体基因组改造、密码子优化以及提高光合作用效能等相关研究提供一定的理论依据。

猜你喜欢
偏性香花同义
Dale Carnegie
另一天
特区文学(2023年2期)2023-06-07 16:55:21
卫士
当代作家(2023年3期)2023-04-23 23:40:14
结香花
心声歌刊(2021年2期)2021-07-16 07:05:52
西夏文《同义》重复字研究
西夏学(2019年1期)2019-02-10 06:22:08
澄香花开——旅美新锐钢琴家李贺澄梓专辑签赠会小记
西夏文《同义》考释三则
西夏学(2018年2期)2018-05-15 11:25:30
看待中药毒性 厘清三大误区
中老年健康(2018年2期)2018-04-10 03:00:18
密码子偏性分析方法及茶树中密码子偏性研究进展
茶叶通讯(2016年2期)2016-03-24 12:30:00
茶树CsActin1基因密码子偏性分析
茶叶通讯(2014年4期)2014-02-27 07:55:49