18种苔藓植物rbcL基因的密码子偏性及聚类分析

2020-11-14 12:32张家榕雷万钧
关键词:密码子碱基核酸

张家榕,雷万钧

(山西农业大学 生命科学学院,山西 太谷30801)

在生物体传递遗传信息的过程中,作为联结核酸和蛋白质的密码子扮演着重要的角色,是编码氨基酸及遗传信息传递的基本编码单位。构成基因组的4种核苷酸可形成64种密码子,除去3个终止密码子外,共有61个密码子,用来编码20种氨基酸[1],除甲硫氨酸和色氨酸外,其余18种氨基酸均由2个或更多密码子编码,这些密码子都具有简并性,能有效减少有害突变,即使其中的某一碱基被改变,大多数仍能编码原来的氨基酸,保证了翻译的稳定性[2],在合成蛋白质的过程中,编码同一个氨基酸的同义密码子并不是被平均使用的,有一定的偏好性,存在优先使用某种密码子的现象,即“密码子偏好性”[3]。密码子使用偏好性是生物体中广泛存在的一种自然现象,这种偏好性随种类的不同而不同[4],同一物种的不同基因间、不同物种的同一基因或同一基因的不同区域间其密码子的使用模式均存在差异。自然选择、遗传漂移以及基因突变都是引起密码子使用偏好的重要原因[5];此外碱基组成[6]、GC含量[7]、氨基酸保守性、基因长度、基因表达水平[8]、蛋白质编码基因的位置等也是影响其形成的一些因素[9,10]。密码子偏好性是自然选择、诱变及基因漂变共同作用的一个平衡状态,表明这些物种和基因在进化过程中受到外界影响不同,故研究密码子的使用偏性有助于了解物种间的亲缘关系,进而揭示一些物种的进化规律[11,12]。

核酮糖-1,5-二磷酸羧化酶/加氧酶(Rubisco)是叶绿体基质中的主要可溶性蛋白,它包含8个相同的大亚基和8个相同的小亚基,分子量约为12~18 kD[13]。Rubisco对核酮糖-1,5-二磷酸进行羧化和加氧,参与光合作用中CO2的固定,是光合固碳过程中最重要的限速酶[14]。Rubisco全酶是由8个大亚基(rbcL)和8个小亚基(rbcS)构成的异源十六聚体结构,其中由叶绿体基因rbcL编码的大亚基起催化作用,而由细胞核基因rbcS编码的小亚基具有调控RuBPCase活性的功能,全酶的组装调节最终依赖于rbcS的表达调控。叶绿体基因rbcL编码核酮糖-1,5-二磷酸羧化/加氧酶(Rubisco,Rbc)的大亚基,可用于植物系统发育研究,是因为其有一些优点:(1)rbcL基因存在于大单拷贝区(LSC),一般不发生基因转变;(2)长度约1 400 bp,能提供比较充足的分子性状;(3)进化速率可用于研究属及属以上的分类单位间的进化关系;(4)不存在内含子,产物为大约475个氨基酸,相对保守,因此对rbcL基因的研究尤为重要[15]。

苔藓植物是植物界的一个重要分支,在进化地位上处于蕨类和藻类之间,具有极其重要的研究意义。从全面性状考虑,苔藓植物可能源于某一些绿藻或褐藻,但是它没有直接进化成蕨类,而是成为进化关系中的一个侧枝[16],本文以苔藓植物门中有完整rbcL基因CDS核酸序列的具有代表性的18种苔藓植物为研究对象,以藻类植物钝形凹顶藻,蕨类植物松叶蕨,单子叶植物水稻,和双子叶植物拟南芥为外类群,综合各种软件,对苔藓植物的系统发育进行研究,以期获得研究苔藓植物系统进化有所帮助的工具,同时也试图对rbcL基因是否与苔藓植物登陆后适应陆生生活并获得广泛适应性进行初步研究。

1 材料与方法

1.1 数据获取

美国国立生物技术信息中心(NCBI)数据库中下载18种苔藓植物及藻类植物钝形凹顶藻,蕨类植物松叶蕨,单子叶植物水稻,和双子叶植物拟南芥rbcL基因的完整CDS核酸序列。各种植物在NCBI(http://www.ncbi.nlm.nih.gov)数据库的登录号见表1。

1.2 方法

1.2.1 同义密码子的偏好性分析

下载各rbcL基因的全长CDS核酸序列,包括起始密码子和终止密码子,用DNAstar,Codon W计算出反映密码子偏好性的一系列指标:(1)有效密码子数(effective number of codons,ENC),即某基因从61个编码氨基酸密码子中选择使用了密码子的种类个数,其取值范围为20~61,小于35表示密码子使用具有极强的偏好性,大于50表示密码子使用不具有较强的偏好性[17],可以直接体现出密码子的使用是否存在偏倚。本研究利用软件Codon W1.4.2计算每条CDS核酸序列的ENC。(2)全长基因中各碱基含量及密码子第三位各碱基含量。(3)同义密码子相对使用度RSCU(relative synonymous codon usage,RSCU),是指其中一个同义密码子的实际出现次数与其在完全不存在偏好性时出现的理论次数的比值[18],RSCU值偏离1越远,密码子使用偏好性越强。(4)密码子使用频率(Frequency,Fre),指某一密码子在编码该基因总密码子中出现的频率,它的比值可以用来衡量两物种间密码子偏性的相似程度。

表1 rbcL基因序列登录号Table 1 The accession number of rbcL genes

1.2.2 藻苔与其他物种基因组密码子偏好性的比较

本文采用在线工具EMBOSS的CUSP程序计算22种植物rbcL基因CDS区核酸序列的密码子使用频率,并分别计算苔藓植物中最原始的藻苔目植物藻苔与其余21种植物的密码子使用频率比值,当比值小于2.0并且大于0.5时,表明二者密码子偏好接近,反之偏好性差异较大[19]。

1.2.3 RSCU及CDS的 聚类分析

本文采用2种方法对所研究的CDS核酸序列进行聚类。第一种是利用EBI的Clustal W模块对各植物rbcL基因的CDS核酸序列进行聚类分析,选用Neighbour-joining法构建系统进化树。第二种方法是利用SPSS 22软件对密码子的RSCU值进行系统聚类分析。具体操作如下:去除3个终止密码子(UAA、UAG、UGA)和只编码1个氨基酸的2个密码子(UGG、AUG),将其余59个密码子的RSCU值作为变量,计算基因间的距离(欧拉平方距离),利用SPSS 22构建距离系数矩阵,后进行聚类分析,构建系统进化树[20],欧拉平方距离的计算公式为:

2 结果与分析

2.1 rbcL基因碱基组成

本文从苔藓植物各属中选择18个代表物种,对其rbcL基因的密码子偏好性进行研究,以期获得研究苔藓植物系统进化有所帮助的工具,进而对于基于18种植物rbcL蛋白质编码序列的系统进化分析结果与基于其密码子使用偏好性的的聚类结果进行了比较。鉴于聚类分析和系统进化分析的对应性需要在选择了单、双子叶高等植物各一物种的基础上,又引入了一种高等藻类植物和一种低等蕨类植物共4种外来群用于比较研究。各物种rbcL基因的ENC、总碱基构成和密码子末位碱基构成见表2和表3。

表2 rbcL基因的碱基构成Table 2 Base composition of codons in rbcL gene

有效密码子数(ENC),是密码子使用偏好性的一个非常直观的体现,可以直接体现出某基因或基因组对密码子的使用是否存在偏倚。当密码子使用不具有任何偏好性时,61种密码子将均被使用,且被使用的概率相同,其有效密码子数应为61;如果有效密码子数为20,即表示只选择了每种氨基酸的数个简并密码子当中的一个来表达该氨基酸,意味着密码子的使用具有绝对的偏好性。全长基因中各碱基含量及密码子第三位各碱基含量是基因或基因组的一个重要指标,其与基因组成、基因表达、基因组演进、基因组上基因密度等具有重要关系,同时也是密码子偏好性产生的主要原因之一。结果显示,18种苔藓植物均存在较强的偏好性,其中,钝叶木灵藓、地钱、欧黑藓、壶苞苔、东亚小穗藓、小立碗藓、粗疣连轴藓等7种苔藓植物的ENC值小于35,表现出显著的偏好性。裸蒴苔目的圆叶裸蒴苔ENC大于50,偏好性较低,但分析其A+T和G+C含量可以看出,该物种仍偏好使用A/T碱基,其余17种苔藓植物的ENC均小于50,A/T含量均较高,A+T>50%,G/C含量相对较低,说明苔藓植物rbcL基因均偏好使用A/T碱基。由于同义密码子之间的差别主要体现在第三位碱基上,因此本文分析了密码子第三位碱基组成,从中发现,A+T含量明显比G+C高,说明密码子偏好使用A/T结尾的密码子,而以G/C结尾的密码子较少。

表3 rbcL基因的第三位碱基构成Table 3 Base composition of the third base of codon in rbcL gene

2.2 rbcL基因密码子使用特性分析

RSCU作为密码子偏好性的衡量标准,已经被广泛接受并使用。同义密码子的相对使用频率等于一个基因中某个密码子的实际使用次数除以平均使用所有密码子时其出现频率的期望次数。实际上是某一密码子实际所使用的频率与理论无偏使用时的频率的比值。RSCU等于1时,表示某一密码子的使用没有偏好性;若RSCU大于1时,表示该密码子为同义密码子中出现频率较高的,即为偏好性密码子。计算公式如下:

各植物rbcL基因的RSCU值如附表1所示,RSCU>1的值已加下划线标出,RSCU>1且密码子以G/C结尾的值,加“*”标出。18种苔藓植物和4种外类群植物共22个物种的rbcL基因共使用了59个密码子,观察RSCU>1的密码子时发现,拟小凤尾藓、小立碗藓、圆叶裸蒴苔、粗疣连轴藓RSCU值大于1的密码子数最少,有25个,拟小凤尾藓、粗疣连轴藓全部以A/T结尾,小立碗藓、圆叶裸蒴苔以A/T结尾的分别有23个和19个,其密码子使用有很强的偏好性。欧黑藓东亚变种、东亚小穗藓、壶苞苔、拟小凤尾藓、地钱、钝叶木灵藓、紫叶苔目、粗疣连轴藓、四齿藓9种苔藓植物与藻类植物钝形凹顶藻,RSCU值>1的密码子第三位全部是A/T,表现出很强的偏好性。TAA、ATT、GTT、GTA、TCT等13个密码子在本研究的22个物种中的RSCU值均>1,是18种苔藓植物和4种外类植物共同偏爱的密码子。

2.3 藻苔与其他物种基因组密码子使用频率的比较

探究密码子的使用偏好性对基因的异源表达、转基因的研究有重要意义。在本研究中考虑到物种演化的发生规律,故选择最为低等的苔藓植物藻苔作为基准物种,与其他苔藓植物以及外类群植物进行比较。运用CUSP程序计算出各植物的密码子使用频率,并计算最低等的苔藓植物藻苔与其他物种的频率比值,结果如表4所示,其中A/B、A/C、A/D、A/E、A/F、A/G、A/H、A/I、

A/J、A/K、A/L、A/M、A/N、A/O、A/P、A/Q、A/R、A/S、A/T、A/U、A/V分别代表藻苔与钝叶木灵藓、叉苔目、地钱、拟小凤尾藓、光缘毛萼苔、欧黑藓、壶苞苔、弯叶毛锦藓、圆叶裸蒴苔、泥炭藓、东亚小穗藓、四齿藓、离瓣苔、狭叶叶苔、小立碗藓、粗疣连轴藓、紫叶苔目、钝形凹顶藻、松叶蕨、水稻、拟南芥的密码子使用频率比值。结果显示,藻苔与其余17种苔藓植物中的某些种类在密码子使用频率上均有相似性,即藻苔rbcL基因的每个密码子在其余17种苔藓植物中都有一种或多种苔藓中相同密码子的使用频率与其相似,即该密码子的使用频率的比值十分接近1。其中GCA、GCT、GAT、GAA、GGA、GGT等17个密码子在18种苔藓植物中都有使用,且藻苔与其余各种植物在该17种密码子的使用上有较强的相似性。

表4 藻苔与各物种密码子使用频率比Table 4 The ratio of frequency between Takakia lepidozioides and all other plants

续表

2.4 聚类分析

2.4.1 基于rbcL基因CDS序列的聚类分析

利用rbcL基因的CDS核酸序列,使用EBI在线工具的Clustal W板块(http://www.ebi.ac.uk/clustalw/),采用Neighbour-joining法构建系统进化树,如图1所示。从图中可以看出属藓纲的四齿藓,欧黑藓东亚变种,小立碗藓,弯叶毛锦藓,钝叶木灵藓,拟小凤尾藓,粗疣连轴藓,东亚小穗藓,聚成一类,属苔纲的毛缘光萼苔,紫叶苔目,狭叶叶苔,叉苔目,离瓣苔,圆叶裸蒴苔聚成一小类,泥炭藓和藻苔纲的藻苔聚成一小类,最后与藓纲和苔纲聚成一大类,说明同属苔藓植物门的植物进化关系较近,苔藓植物类群中CDS核酸序列系统进化分析与苔藓植物分类系统相一致。水稻和拟南芥聚成一类,又与钝形凹顶藻聚成一小类,而松叶蕨未与藻类和高等植物聚为一类,而是单独聚为一个亚类。

图1 基于各物种rbcL基因CDS核酸的聚类图Fig.1 Clustal analysis dendrogram of coding secquence for rbcL genes

2.4.2 基于各物种rbcL基因RSCU值的聚类分析

将59个密码子的RSCU值作为变量,计算欧拉平方距离,将要分类的22种植物看成22类,运用SPSS 22计算22条序列两两之间的聚类指标,构建距离系数矩阵表(表5),根据此矩阵来衡量生物序列之间的密切程度,进行聚类分析,构建进化树(图2)。其中拟南芥、水稻、钝形 凹顶藻与其它物种的距离系数较大,表明双子叶植物、单子叶植物、藻类植物与苔藓植物的密码子使用差异较大,它们之间的进化关系较远。同属真藓亚纲的钝叶木灵藓、粗疣连轴藓、东亚小穗藓、拟小凤尾藓聚成一小类,欧黑藓东亚变种,四齿藓聚在一起,壶苞苔和地钱聚在一起,离瓣苔、毛缘光萼苔、狭叶叶苔、紫叶苔目聚成一类,叉苔目、藻苔、松叶蕨聚在一起,此分类部分反映了18种苔藓植物间进化关系,这些小类中彼此之间的距离系数都较小,表明它们之间的密码子使用差异较小,这一结果与刘汉梅等[12]的研究结果一致,可以用于物种间的分类研究。但结果中还出现有属藓纲的弯叶毛锦藓与苔纲植物紫叶叶苔等聚在一起,壶苞苔、地钱与藓纲植物欧黑藓等聚在一起的现象,这种将部分苔纲植物与藓纲植物聚类在一起的情况表明,基于rbcL单一基因密码子使用偏好性聚类分析并不能准确细化地反映物种间的系统进化关系,还应该综合其它方面的研究。

3 讨论

自从遗传密码得到破译,研究发现基因表达与密码子使用模式的选择之间有很重要的联系。同一物种不同基因或不同物种同一基因中都呈现出不同的密码子使用偏好,探究密码子使用模式的选择及其影响因素对深入了解基因表达、在表达系统中引入外源基因具有重要意义。衡量密码子使用偏性的指标有很多,研究中使用较多的是ENC、GC1、GC2、GC3、RSCU。突变、自然选择、基因长度、tRNA丰度等对密码子使用模式都有一定的影响。同义密码子的区别主要体现在第三位碱基上,第三位碱基的改变通常不影响基因所编码的蛋白。在自然选择的作用下,某一氨基酸使用的同义密码子数有可能增多,也有可能减少[21]。当所研究的基因较短时,密码子总数较少,得出的密码子偏好从统计学的角度讲具有偶然性,不能反映真实的偏好情况。mRNA上的密码子与tRNA上的反密码子配对结合是蛋白质合成过程中非常重要的一步,当tRNA较多时,携带的反密码子种类丰富,有利于其与更多密码子配对,间接影响密码子的使用模式。

表5 密码子偏好性分析矩阵Table 5 Matrix of codon usage bias analysis

图2 基于rbcL基因密码子使用度的聚类图Fig.2 Cluster analysis dendrogram of RSCU for rbcL genes

本文通过对rbcL基因密码子的用法分析发现,18种苔藓植物rbcL基因的GC含量较低,尤其是密码子第三位碱基的GC含量。进一步研究发现,各植物每个氨基酸在同义密码子的使用上存在偏爱性,均偏好使用A/T结尾的密码子。通过对密码子使用特性的分析,我们发现各物种密码子使用模式有一定相似之处。对比苔藓植物中最低等的藻苔目植物藻苔与其余17种苔藓植物密码子使用频率发现,藻苔与17种苔藓植物密码子使用模式均有相似之处,其中藻苔与叉苔目、泥炭藓的密码子频率之比大于2.0或小于0.5的密码子最少,分别有13个、11个。藻苔与4个外类群的密码子使用频率也有相似之处。基于CDS核酸序列的聚类中,属藓纲的四齿藓,欧黑藓东亚变种,小立碗藓,弯叶毛锦藓,钝叶木灵藓,拟小凤尾藓,粗疣连轴藓,东亚小穗藓,聚成一类,属苔纲的毛缘光萼苔,紫叶苔目,狭叶叶苔,叉苔目,离瓣苔,圆叶裸蒴苔聚成一小类,泥炭藓和藻苔纲的藻苔聚成一小类,最后与藓纲和苔纲聚成一大类,较准确的反映了苔藓植物门的生物学分类。密码子偏好性分析可以为基因表达选择更加合适的表达系统。但基于基因同义密码子相对使用度RSCU值的聚类与基于蛋白编码区CDS核酸序列的聚类结果存在一定差异,这可能是由于叶绿体基因组遗传物质在进化上非常保守,虽然有核基因组的影响,但在单基因密码子偏性聚类上进化关系并不明显;也有可能是单基因在进化过程中发生了突变,致使其密码子使用模式发生变化,而与真实的分类地位表现出差异。故基于RSCU的聚类并不一定能反映真实的系统进化关系,只能作为一种辅助参考。

猜你喜欢
密码子碱基核酸
全员核酸
核酸检测点上,有最可爱的平江人
第一次做核酸检测
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
基因“字母表”扩充后的生命
核酸检测
创建新型糖基化酶碱基编辑器
新型密码子、反密码子、氨基酸对应盘
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员