李 薇,王 倩,胡晓艳,杜淑辉
(山西农业大学林学院,山西 太谷 030800)
遗传密码是沟通遗传信息和生物功能的桥梁,也是生命信息的基本遗传单位,密码子的使用与生物大分子物质的功能表达密切相关[1]。自然界中存在的20种氨基酸是由密码子(信使RNA分子一组相邻的3个核苷酸)所编码的,编码相同氨基酸的密码子被称为同义密码子。植物基因组中当同义密码子以相同频率出现时,表明不存在基因突变或选择压力等影响密码子使用的情况[1]。但实际翻译过程中,在不同物种生物体内,密码子的使用存在一定程度的差异,这就形成了同义密码子的使用偏性[2]。密码子使用偏性是物种在进化过程中由于基因突变和自然选择压力等因素共同作用形成的[3],广泛存在于人类、动物、植物、真菌和细菌等生物体中[4]。研究发现,影响密码子使用偏性的因素主要包括基因组大小、基因序列的碱基组成、mRNA二级结构、tRNA丰度和蛋白质三级结构等[4],在不同生命体中,影响密码子使用偏性的因素也不同。随着基因表达调控和分子进化等研究的不断深入,密码子使用偏性的研究表现出了重要的生物学意义。对密码子使用偏性及其影响因素进行分析,不仅可以确定最优密码子,通过对基因工程表达载体进行设计来提高基因表达丰度,还可以根据密码子使用偏性和特定生物学功能的相关性来对某些基因的功能进行预测。
银杏(GinkgobilobaL.)为银杏科(Ginkgoaceae)银杏属(Ginkgo)落叶乔木,是世界著名的中生代孑遗树种,系我国特有树种,素有“金色活化石”美誉,具有非常高的观赏、药用和食用等价值,在我国栽培区域甚为广泛[5]。植物叶绿体基因组密码子使用偏性及其主要影响因素研究,已在酸枣[6]、大花香水月季[4]和沙枣[7]等物种中展开。目前关于银杏的遗传物质[8]、全基因组序列[9]、WRKY家族基因密码子使用偏性[10]和叶绿体基因组[11]等研究工作也已相继展开,但有关其叶绿体基因组密码子使用偏性的研究还未见报道。本研究从NCBI中获取银杏叶绿体基因组序列,分析银杏叶绿体基因组密码子使用偏性及其影响因素,以期为银杏生长发育及叶绿体基因组遗传变异研究提供重要的理论依据。
从NCBI公共数据库中获取银杏叶绿体基因组序列(NC_016986,序列全长156 988 bp)。为减少分析误差,保留长度大于300碱基对(base pair,bp)的编码序列(coding sequence,CDS),剔除小于300 bp以及重复的序列,最终筛选出57条CDS序列用于此次分析。
1.2.1同义密码子偏好性分析
运用CodonW软件对银杏叶绿体基因组57条CDS序列的密码子组成和偏好性参数进行分析。其中,衡量叶绿体基因组密码子组成的度量指标主要包括:同义密码子第3位上碱基的出现频率,即胸腺嘧啶(T3S)、鸟嘌呤(A3S)、腺嘌呤(G3S)和胞嘧啶(C3S)的出现频率;同义密码子第3位碱基的GC含量(GC3S);密码子GC含量(GC);密码子适应指数(codon adaptation index,CAI),主要用于基因表达水平的测量,其取值范围为0~1,越接近1表明基因表达水平越高;密码子偏好指数(codon bias index,CBI),指特定基因中高表达优越密码子的组分情况;最优密码子频率(frequency of optimal codon,Fop);氨基酸长度(length of amino acid,Laa)等。将同义密码子使用相对频率(relative synonymous codon usage,RSCU)和有效密码字数组成(effective number of codons,ENC)作为密码子使用偏好性的度量指标。RSCU指对于某个特定的密码子在编码对应氨基酸时的同义密码子中的相对概率;若RSCU=1,则该密码子无使用偏性;若RSCU>1,则该密码子使用频繁;若RSCU<1,则该密码子使用频率较低[12]。ENC反映一个特定基因中所用到的密码子种类的多少,取值范围为20~61,与密码子使用偏性呈负相关,即ENC值越大,密码子使用的随机性越高,使用偏性越弱;越靠近20则偏性越强[12]。
1.2.2中性绘图分析
以各基因GC3为横坐标,GC12(GC1和GC2的平均值)为纵坐标作图,进行相关性分析,判断影响密码子使用偏性的主要因素。如果二者显著相关,说明GC12与GC3碱基组成相似,突变对密码子使用偏性影响较大;反之,说明GC12与GC3碱基组成差异较大,选择压力对密码子使用偏性影响较大[12]。
以各基因GC3为横坐标,ENC为纵坐标作图,进行相关性分析,判断各基因GC3含量对密码子使用偏性的影响。理论上ENC=2.5-GC3+29.5/[GC32+(1-GC3)2],若ENC值分布在理论值曲线上或附近,说明密码子使用偏性仅受GC3含量的影响;若ENC值分布在曲线下方较远的位置,说明选择压力对密码子使用偏性影响较强[13]。
1.2.4最优密码子分析
结合高频率密码子和高表达密码子分析银杏叶绿体基因组的最优密码子。利用软件计算得到RSCU值,根据ΔRSCU法,将各基因按照ENC值的大小进行排序,分别取两级10%的基因组成低样本组和高样本组,对最优密码子进行预测。如果ΔRSCU>0.08,且基因组RSCU值>1,则该密码子为最优密码子[14]。
1.2.5奇偶偏差分析
选择4种密码子编码的氨基酸进行密码子第3位上的4种碱基组成情况分析,以A3/(A3+T3)/4为横坐标,G3/(G3+C3)/4为纵坐标绘图,密码子使用偏性的程度和方向以从图的中心点(表示A=T且G=C)发出的矢量来表示,以此来判断密码子使用偏性的影响因素是否为AT或GC的碱基组成差异[15]。
1.2.6对应性分析
为阐明密码子在使用模式上的变异趋势,运用CodonW软件,基于RSCU值来进行对应性分析。筛选出的57条CDS序列,经软件处理后分布于一个57维的向量空间内,密码子使用偏性的影响因素就根据基因值的变异和在该向量空间的分布情况来判断。基因在主向量轴(第1,2轴)的分散程度,反映密码子的主要变化趋势,分别以第1,2轴为横纵坐标作图,依据基因的分布情况来判断密码子使用模式的变异趋势[16]。
运用CodonW软件计算分析银杏叶绿体基因组57条CDS序列密码子碱基组成与ENC值(表1)。
从表1可知,同义密码子在第3位上的T3S、G3S、A3S、C3S的使用频率变化范围为0.39~0.55、0.08~0.26、0.28~0.51、0.09~0.31,平均值分别为0.47、0.17、0.42、0.17;G+C含量的变化范围为0.33~0.46,平均值为0.40;第3位碱基G+C含量范围为0.18~0.34,平均值为0.26;ENC的平均值为48.56,说明银杏叶绿体基因组密码子使用随机性较高,使用偏性较弱。
表1 银杏叶绿体基因组CDS序列密码子使用指标
银杏叶绿体基因组各基因中性绘图分析如图1。
图1 中性绘图分析
相关性分析得出R2值为-0.694 57,表明GC12与GC3S无显著相关关系,银杏叶绿体基因组各基因保守性较高,说明选择压力对密码子使用偏性的影响较大。
ENC-plot绘图分析结果如图2。
续表1
图2 ENC-plot绘图分析
相关性分析得出R2值为0.435 24,同时从图2可看出,银杏叶绿体基因大部分偏离了基因预测值的标准曲线,表明ENC与GC3S无显著相关关系,除碱基组成对密码子使用偏性有影响外,影响更多来自于自然选择。
银杏叶绿体基因组最优密码子分析结果见表2。
表2 银杏叶绿体基因组最优密码子
续表2
将同时满足高频密码子和高表达优越密码子这两个条件的密码子确定为银杏叶绿体基因组最优密码子,其中,RSCU>1的密码子为高频密码子,UUU、UUA、UUG等为银杏叶绿体基因组的高频率密码子;ΔRSCU>0.08的UUU、UUG、CUU等为银杏叶绿体基因组的高表达优越密码子。最终确定UUU、UUG、CUU、GUU、UCA、CCA、ACA、UAU、AAU、CGA、AGA等11个银杏叶绿体基因组的最优密码子,除密码子UUG外,其余密码子均以A和U结尾,其中5个以A结尾,5个以U结尾。
银杏叶绿体基因组使用偏性的奇偶偏差分析结果如图3所示。
图3 奇偶偏差分析
各基因较多的集中在图的左下方,密码子第3位上碱基A+T和G+C的分布频率是不平衡的,T高于A,C高于G,嘧啶的使用较嘌呤频繁,说明密码子第3位碱基的使用存在偏好性。当密码子的使用仅由突变影响时,A、C、G、T这4种碱基的使用频率应是一致的。因此可判断,银杏叶绿体基因组使用偏性的影响因素,除突变外,还有自然选择压力等。
银杏叶绿体基因组密码子使用偏性的对应性结果分析如图4所示。
图4 对应性结果分析
由图4可知,银杏叶绿体基因组57个编码基因的分布相对集中。
从各度量指标与第1轴的相关性分析可知,ENC与第1轴呈显著相关关系,相关系数为0.335,其他度量与第1轴的相关关系未达到显著水平,说明ENC对银杏叶绿体基因组的密码子使用偏性影响最大,其他因素也有一定影响(表3)。
表3 各度量指标与第一轴的相关性分析
通过密码子使用参数之间的相关性分析可知,ENC与GC3S含量呈极显著相关,说明密码子第3位碱基组成对密码子使用偏好性影响较大(表4)。
表4 基因密码子使用参数之间的相关性分析
针对银杏叶绿体基因组57条CDS序列,分析其密码子使用偏性与影响因素。通过中性绘图、ENC绘图和奇偶偏差性分析发现,选择压力等因素对银杏叶绿体基因组密码子使用偏性的影响较大,而碱基突变等因素影响较小。通过对应性分析发现,ENC与碱基组成对密码子使用偏性影响较大。ENC平均值为48.56,根据Wright的研究[14],以ENC值35作为偏好性使用强弱的阈值,可以得出银杏叶绿体基因组密码子使用偏性较弱。依据ENC值建立高低表达基因库,最终确定UUU、UUG、CUU、GUU、UCA、CCA、ACA、UAU、AAU、CGA、AGA等11个银杏叶绿体基因组的最优密码子,其中除UUC外,以U结尾5个,以A结尾5个,与此次最优密码子分析结果基本一致的有酸枣[6]、大花香水月季[4]及巨桉[17]等物种的叶绿体基因组,均偏好以A/T结尾的密码子,这可能与不同物种间叶绿体基因组进化的相对保守性有关。
在生物漫长的进化历程中,遗传密码子也在不断地进化,且这种趋势总是朝着稳定化的方向前进[18]。自然界各个物种的功能基因,在不断适应外界自然环境改变以及朝着有利于自身进化方向发展的过程中,表现出了密码子的使用偏好性。在众多影响密码子使用偏性的因素中,影响最广泛的因素就是密码子自身的碱基组成。在分析碱基组成对密码子使用偏性的各个参数里,由于密码子第3位碱基受到的选择压力最小,因此,GC3S通常被作为推断密码子使用偏性影响因素的重要参数[6]。通过中性绘图分析发现GC12与GC3S无显著相关关系,而奇偶偏差分析表明密码子第3位碱基的使用存在偏性,嘧啶的使用较嘌呤更为频繁,即选择压力较影响密码子的使用偏性。这与大花香水月季[4]和陆地棉[13]等叶绿体基因组密码子使用偏性的研究结果相一致,但与酸枣[6]等的研究结果存在差异。在密码子碱基使用频率研究中发现,蒺藜苜蓿[19]等植物叶绿体基因组碱基使用频率中,T高于A,但G和C的使用频率存在物种差异。上述分析结果表明,密码子使用偏性的影响因素存在一定差异,与不同物种间叶绿体基因组碱基组成的差异有一定的关系。有的物种受自然选择压力影响较大,如大花香水月季[4];有的物种受自身碱基组成影响较大,如籽粒苋叶[20];有的物种中突变和选择起到相对均衡的作用,如巨桉[17]。而影响银杏叶绿体基因组密码子使用偏性的主要因素是自然选择压力,其他因素如碱基组成和碱基突变等也具有一定的影响。
目前发现,银杏的自然栖息地绝大部分位于中国,是银杏家族唯一存活的物种[21],其野生状态的树木也仅在中国有发现,而遍及世界多个国家的栽培品种均源自中国。在对银杏这一物种进行更深层次的研究过程中发现,银杏顽强的生命力源自其在物种遗传变异方面维持了较高的水平,即随着环境的变化,银杏也会朝着利于自己生存的方向进化。因此围绕银杏功能基因展开研究,对保持银杏的种群优势有着重要作用,而叶绿体是植物进行光合作用的主要场所,针对叶绿体基因组进行深入研究,能够为该植物类群的保护及利用提供科学依据[22]。经过近年来的研究发展,叶绿体基因组序列在叶绿体基因工程、系统进化分析、物种鉴定以及分子标记等领域应用广泛[23]。随着对各类植物在分子水平上更深入的研究,针对植物叶绿体基因组的序列测定以及组装都将极大地推动相关产业的发展[24]。本研究通过对银杏叶绿体基因组密码子使用偏性的分析,为银杏叶绿体基因组有关的编码基因进化及基因表达与选择提供了重要信息,为今后开展银杏基因工程等工作奠定了坚实的基础。