龚婷婷 李维仪 陶媛 李少凡 王嘉文 杨柏云 罗火林
关键词:兰科;ABI3 基因;密码子偏性
中图分类号:Q943 文献标识码:A
编码同一氨基酸的不同密码子称同义密码子,在不存在外界压力或者其他干扰因素条件下,同义密码子的使用频率是相同的。但是实际情况下,基因在编码氨基酸时同义密码子的使用频率存在一定的倾向,这种现象称为密码子偏好性[1]。生物在长时间的进化过程中由于基因突变和外界环境的影响会形成自身偏好的密码子系统,当某一密码子在编码氨基酸受阻碍时,它的同义密码子能够代替其行使功能从而保证蛋白质合成的准确性[2]。早在20 世纪70 年代,在对基因的异源表达进行研究时,人们就意识到密码子偏性的重要性[3]。密码子偏好性广泛存在于生物界中,不仅可以用来描述基因进化规律、基因表达过程中的调控机制,也可用于预测外源基因的最适宿主,通过密码子优化提高宿主中外源基因的表达量以及评估基因的表达水平等[4-5]。研究表明,原核生物和真核生物中均存在密码子使用偏好性。目前已有人对辣椒[6]、芒果[7]、陆地棉[8]等高等植物进行了密码子偏性分析。分析生物对同义密码子的使用情况特别是偏好性可为该生物的外源基因插入及表达提供一定的理论依据[9]。
兰科(Orchidaceae)植物作为被子植物的大科之一,是植物保护中的“旗舰”类群[10]。此外,很多兰科植物具有极高的观赏价值和药用作用[11],受世人的喜爱与追捧。然而其种子细小无胚乳,自然条件下需与适宜的菌根真菌共生才能萌发,萌发率低且萌发时间漫长[12]。为了做好兰科植物资源的保护与利用工作,针对其种子萌发的研究也引起越来越多的关注。ABI3 是ABA 信号转导的中心调控因子,调节胚胎成熟和幼苗早期发育之间的过渡,是种子成熟所必需的[13]。目前国内外对兰科萌发基因ABI3 基因研究较少。本研究通过CodonW、MEGA 等程序对兰科ABI3 基因密码子进行偏性分析,以期优化密码子来提高外源基因的表达量,然后对外源基因进行密码子改造,提高兰科种子萌发率,为兰科植物种子萌发的分子育种提供理论依据。
1 材料与方法
1.1 材料
以拟南芥ABI3 的基因序列(登录号为NC_003074.8)为探针,在NCBI 的数据库中,通过blastn 软件查找同源的序列,获得的序列经CDHIT(http://www.bioinformatics.org/cd-hit/)在线软件去冗余后,选择包含300 bp 以上CDS(codingDNA sequence)的序列用于本研究(表1)。
1.2 方法
1.2.1 中性绘图分析 以GC3为横坐标,GC12(GC1和GC2的平均值)为纵坐标绘图,解析密码子3 个位置碱基组成的相关性。若GC12与GC3值无显著性差异,则所有点将沿对角线分布,说明主要来自碱基突变,外界选择影响弱或者无;反之,则说明选择效应是基因最主要的进化约束力。
1.2.2 有效密码子数(effective number of codons,ENC)绘图分析 ENC 值反映同义密码子的使用偏好,ENC 值范围为20~61,当ENC=20 时表示密码子偏性最强;ENC=61 表示同義密码子被平均使用,不存在密码子偏性。ENC 绘图分析主要反映ENC 与GC3之间的分布关系,标准曲线ENC=2+GC3+29/(2×GC32?2×GC3+1)[14-15]。当无自然选择压力影响时,密码子偏性仅由碱基突变产生,散点则位于曲线之上,如散点远离曲线时,则表示自然选择压力更多地参与了同义密码子的使用频率[16]。
1.2.3 PR2-plot 分析(parity rule 2, PR2) 密码子奇偶偏好分析主要分析密码子第三位的奇偶偏性。理论上DNA 的2 条互补链,如没有发生突变则A=T,G=C。分别以基因A3/(A3+T3),G3/(G3+C3)为横纵坐标做散点图,图中中心A=T且C=G 横纵坐标均为0.5,从该中心出发的矢量表示奇偶性的方向与程度[17]。
1.2.4 最优密码子分析 相对同义密码子使用度(relative synonymous codon usage, RSCU)是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,在某一密码子和与其编码相同氨基酸的多种同义密码子之间(同一基因序列上)[18],是某一个密码子使用的频率与平均使用期望值的比值,它去除了氨基酸内部组成对密码子使用的影响[19]。如果密码子的使用没有偏好性,该密码子的RSCU=1;若RSCU>1,表示密码子偏性较强,使用频率相对较高;若RSCU<1,表示基因偏性较弱,基因低表达。由此可以确定基因的最优密码子,并进一步判断基因密码子偏好A/T 或C/G 结尾。
将ENC 值由大到小排序,分别将前10%和后10%的基因设为高表达基因库和低表达基因库,计算ΔRSCU 值。最优密码子确定:高表达基因库中RSCU>1;低表达基因库中RSCU<1;ΔRSCU≥0.2[20-21]。
1.3 数据处理
将获得的序列整理后,用CodonW 软件对45条序列进行密码子组成和偏好性参数分析;在Excel 软件中对运行获得密码子第1、2、3 位上的GC 含量,各碱基ENC、CAI 及RSCU 等值进行整理;运用SPSS13.0、MEGA5.1 软件进行数据分析和绘图分析。
2 结果与分析
2.1 兰科ABI3 基因的碱基组成及相关性分析
利用CodonW、MEGA 软件获得并计算ABI3基因编码区序列不同位置的GC 含量、ENC 值和CAI 值(表2)。总GC(GCall)含量为42.8%~65.9%,平均值为49.45%,GC1 为43.8%~68.7%,平均值为50.58% ,GC2 为41.8%~61.4% , 平均值为48.48%,GC3为41.1%~67.6%,平均值为49.33%,接近50%,说明其在编码氨基酸碱基选择上对于G/C 和A/T 没有明显的偏好性。同样地,ENC 值范围在40.84~58.46,平均值为49.81;CAI 平均值为0.203,远小于1,这些证据都表明这类基因的密码子偏性较弱。
2.2 中性绘图分析
ABI3 基因的中性绘图分析结果显示(图1),45 个ABI3 基因坐标点几乎均沿着图中对角线分布,有些甚至位于对角线上,表明ABI3 基因主要受碱基突变的影响,来自外界的选择压力较小。GC12的范围为43.50%~65.05%,GC12与GC3的回归曲线的斜率为0.6103,R2=0.7928,P<0.05,有极高的相关性,说明碱基组成对密码子偏性在一定程度上受碱基组成的影响。
2.3 基因密码子使用参数之间的相关性分析
对基因ENC 值以及密码子不同位置碱基组成情况进行相关性分析,分析结果如表3 所示,GC1、GC2、GC3任意二者之间均存在极显著正相关性(P<0.01),说明各基因密码子三位碱基的组成之间密切相关,受随机突变或者有一定方向突变压力的影响较大;这暗示着3 个位点的GC值(GC1、GC2、GC3)都可能对密码子偏性产生一定程度的影响;而ENC 值与GC1存在显著负相关性(P<0.05),与GC2、GC3和基因总的GC含量(GCall)都存在极显著负相关性(P<0.01),与基因编码氨基酸的长度(Laa)存在极显著正相关性。说明在基因密码子中,第3 位碱基组成对密码子使用模式存在较大的影响。由参数间的相关性可知,同义密码子碱基所在位置及含量对基因密码子使用偏好性的影响从大到小排序:GC3>GCall>GC1>GC2(密码子使用偏好性越强,ENC值越小)。
2.4 ENC 与GC3的关联分析
以各基因ENC 值为纵坐标,GC3值为横坐标做散点图(图2)。ABI3 基因GC3值41.1%~67.6%之间,平均值为49.33%,表明密码子第3 位碱基GC 变化频率较大。ENC 值在40.84~58.46 之间,说明不同基因密码子偏性相差较大。部分分布在标准曲线周围的ABI3 基因密码子偏好性主要由突变造成;而在偏离期望曲线位点基因密码子偏好性受自然选择影响大;没有一个点落在曲线上,说明不存在完全由碱基突变的密码子偏性情况。
2.5 奇偶偏好分析
密码子奇偶偏好性主要用于分析密码子第3位发生奇偶偏性,图中中心横纵坐标均是0.5,A=C 且G=C,表示DNA 两条互补链之前不存在突变。由PR2 分析图(图3)可知,大多数基因A3/(A3+T3)或G3/(G3+C3)值都偏离了0.5,只有个别基因接近0.5,表明该基因密码子偏性受基因突变影响大,其他因素的影响依然存在,例如自然选择等。从横坐标来看,除个别基因小于0.5,大多数大于0.5,表明第3 位上A 的比例大于T(U),密码子在A 和T(U)之间具有一定的偏好性;从纵坐标来看,大多数大于0.5,表明第3位上G 的比例大于C。综上进一步说明了ABI3基因密码子偏性除了主要受基因突变影响以外还受其他因素的影响。
2.6 ABI3 基因相对同义密码子使用度分析(RSCU)
通过CodonW 软件计算45 条ABI3 基因序列的RSCU 值(表4)。结果显示,RSCU=1 的密码子有4 个(AAC、UGG、GCC、GCA),表明这几个同义密码子无偏性被随机使用;RSCU>1的密码子有28 个(占全部密码子的46.67%),其中以T(U)结尾的有12 个,A 结尾的有7 个,C 结尾的有5 个,G 结尾的有4 个,以A/T(U)结尾的占比67.86%,表明兰科ABI3 基因偏爱A/T(U)结尾的密码子,显著偏爱T(U)结尾的密码子。
2.7 最优密码子分析
通过ENC 值大小排序,取前后10%值作为高低表达基因库,计算ΔRSCU 值(表5),确定最优密码子。最终确定了ABI3 基因编码12 个氨基酸的26 个最优密码子,其中有编码12 个氨基酸的22 个密码子ΔRSCU≥0.5,G/C 结尾的有12个,以A/T(U)结尾的有14 个,其中以U 结尾的密码子有10 个,表明兰科植物ABI3 基因偏好以A/T(U)结尾的最优密码子,尤其偏爱以T(U)结尾的密码子。
3 讨论
密码子是基因传递信息中的基本结构单位,自然界生物基因组中密码子偏性使用现象广泛存在[22]。不同物种在自然选择中生存下来,密码子存在一定差异并且有其偏好性,因此对密码子偏性研究可反映一定的进化特征[23]。作为生物碱基组成重要指标之一,GC 含量可反映密码子使用偏性突变的整体趋势[24],密码子第3 位GC3 含量通常可作为分析密码子偏性的主要衡量标准之一。ENC 值可表示偏性的强弱,兰科植物ABI3 基因的ENC 平均值为49.81,表明在兰科植物中大部分ABI3 基因密码子的偏性较弱。通过RSCU 和ΔRSCU 分析,发现ABI3 基因主要偏爱使用以A/T(U)结尾的密码子,与KUMAR 等[25]研究马流感病毒,陈哲等[26]研究菠萝和WU 等[27]研究的芍药密码子偏性使用一致,尤其偏爱以T(U)结尾的密碼子;与其他多数单子叶植物主要偏爱C/G 结尾的密码子不同,如小麦CBL4 基因密码子[28],香蕉Aux/IAA 基因家族密码子[29]等。在对多种植物基因组密码子进行偏好性分析中发现,双子叶植物的GC 含量最低,而单细胞藻类GC含量最高,说明密码子使用偏性的程度可能随物种进化的程度而降低[30]。
影响密码子偏性的因素主要包括:碱基组成差异、自然选择、tRNA 丰富度、翻译效率、蛋白质功能,选择突变漂变学说等[31]。通过中性绘图分析、ENC 与GC3 关联分析和奇偶偏好分析,说明兰科植物ABI3 基因受碱基突变影响较大,同时也受到其他因素的影响,如选择压力。植物基因的密码子偏性形成过程中,一般受由碱基突变和自然选择等多重影响,如杨祥燕等[32]研究的菠萝叶绿体基因密码子、ZHOU 等[33]研究的一些种子植物叶绿体基因密码子、梁娥等[34]研究的竹节参转录组密码子、刘慧等[35]研究的糜子叶绿体基因组密码子;有时也会其中一个占主导作用,如马盛超等[18]研究的蓼科大黄属植物CHS 基因,主要受自然选择影响。另外,对基因ENC 值以及密码子不同位置碱基组成情况进行相关性分析发现,GC1、GC2、GC3 显著相关,说明同义密码子3 个位置上碱基含量接近,受随机突变或者有一定方向突变压力的影响较大;ABI3 基因同义密码子碱基所在位置及含量均对基因密码子使用偏好性产生一定影响。
由于兰科植物自然生境的破坏和资源的过度开采,野生兰科植物极度濒危。濒危兰科植物的再生和合理利用有赖于种苗繁殖技术的蓬勃发展,而该技术的核心问题之一便是种子萌发。ABI3是种子成熟所必需的,它调节胚胎成熟和幼苗早期发育之间的过渡,被视为假定的种子特异性转录激活剂[36]。基因功能研究表明该基因可有效提高种子萌发效率。因此,通过遗传转化技术,提高兰科植物ABI3 基因的表达水平,是解决兰科植物种子萌发障碍的重要途径之一。本研究通过分析ABI3 密码子偏性并筛选出26 个最优密码子,为优化育种提供理论依据,在今后ABI3 基因转化兰科植物时,可以对外源基因序列进行适当改造,然后转化至兰科植物中,有望提高其表达效率,更有利于培育出种子易萌发的兰科花卉。