辛雅萱,黎若竹,李 鑫,陈丽琼,唐军荣,屈亚亚,,杨琳懿,,辛培尧1a,,李云芳
(1.西南林业大学 a.国家林业和草原局西南风景园林工程技术研究中心;b.西南地区生物多样性保育国家林业和草原局重点实验室,云南 昆明 650224;2.中国科学院 西双版纳热带植物园综合保护中心,云南 勐腊 666303;3.中国科学院大学,北京 100049;4.云龙县诺邓镇果郎办公区天池保护区管护局,云南 云龙 672700)
密码子是信使RNA(mRNA)分子上每相邻的三个核苷酸编成的一组,在蛋白质合成时,代表某一种氨基酸的规律。自然界中能够编码20 种氨基酸的密码子共有61 个,其中有18 种氨基酸至少有两个或多个对应的密码子,这种能够编码同一氨基酸的密码子称为同义密码子[1-2]。研究表明,不同物种、不同生物体中的密码子存在不能均衡使用的情况,一些密码子频繁出现,一些密码子极少甚至不出现,这一现象为密码子的偏好性,使用频率最高的密码子则为最优密码子[3]。而造成密码子使用偏好性的原因主要受碱基组成、基因表达水平、密码子位置、基因长度、环境压力等[4-7]因素影响。密码子的偏好性在不同物种中普遍存在,尽管表现的偏好性各有不同,但其对于物种在基因组水平上的研究具有重要意义。
叶绿体一般为共价闭合环状DNA,其基因组大小为115~165 kb,在细胞中以多拷贝的形式存在,在基因表达过程中可以进行转录和翻译[8]。由于其结构稳定、基因含量保守、分子进化速率慢等优势,叶绿体基因组被广泛应用于探究物种进化、物种分类及系统发育等研究[9-10]中。目前,关于叶绿体基因组密码子的研究,已见蝴蝶兰Phalaenopsis aphrodite[11]、陆地棉Gossypium hirsutum[12]、抽 筒 竹Gelidocalamus tessellatus[13]、金莲花Trollius chinensis[14]等物种的相关报道。
杧果Mangifera indica为漆树科Anacardiaceae杧果属Mangifera的常绿乔木[15-16],又名芒果、檬果,有“热带果王”之称[17],原产自北印度和马来半岛,在中国主要分布于云南、广西、广东、四川等地[18]。杧果作为热带水果,汁多味美,营养丰富,其果皮可以入药,叶子和树皮还可以作黄色染料[19]。由于杧果产量较高、风味独特、经济效益高等特点,使其目前已成为继葡萄、柑橙、香蕉、苹果之后的世界第五大水果[20]。目前,关于杧果的研究主要集中在杧果近缘种的探索[21]、系统发育分析[22]、耐旱性研究[23]以及ISSR 反应体系优化[24]等,而关于其叶绿体基因组密码子偏好性方面的研究还未见报道。因此,本研究通过分析杧果叶绿体基因组密码子偏好性特征,揭示密码子偏性的影响因素,找出最优密码子,为杧果基因组研究及其遗传改良提供理论基础。
完整的杧果叶绿体基因组下载于NCBI 数据库(Genbank 登录号为KY635882.1),该叶绿体基因组序列全长为157 780 bp,GC 含量为37.9%,共获得86 条编码蛋白质的基因序列。为了提高分析密码子偏好性的准确性,首先从86 条CDS 序列中剔除序列长度过短、重复的基因序列,其次选择以ATG 为起始密码子,TAA、TAG、TGA 为终止密码子的CDS 序列,最终共获得51 条序列用于后续的数据分析。
1.2.1 密码子组成分析
使用CodonW 1.4.2 软件(http://codonw.sourceforge.net)分析筛选出51 条CDS(.fasta 格式)密码子偏好参数,获得各CDS 序列密码子的出现次数(codon number,CN)、有效密码子数(effective number of codons,ENC)以及同义密码子的相对使用情况(RSCU);通过EMBOSS 在线网站(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析杧果叶绿体基因组中各个密码子第1 位、第2 位、第3 位的GC 含量(分别为GC1、GC2、GC3)和3 位碱基的GC 平均含量(用GCall表示),最后使用SPSS 18.0 软件进行参数间的相关性分析。
1.2.2 中性绘图分析
中性绘图分析可初步判断密码子使用偏好性的影响因素[25]。以GC3为横坐标、GC12[GC12=(GC1+GC2)/2]为纵坐标,绘制二维散点图,图中每一个散点都为杧果的一个基因。若图中散点沿对角线集中分布,则回归系数接近于1,GC12和GC3二者的差异基本一致,密码子不同位置上的碱基构成没有明显差异,表明该基因所受到的选择压力较弱,受到突变的影响较大[26]。若图中散点未分布在对角线周围,则回归系数趋近于0,GC12和GC3的变异较大,表明该基因受到选择的影响[27]。
1.2.3 ENC-plot 绘图分析
有效密码子数(ENC)是一种用于辨析密码子偏好性的依据,其理论范围为20~61,当数值越靠近20 时,表明密码子受突变的影响较大,反之表示选择对密码子的影响较大[28]。GC3S为编码同一氨基酸的密码子第3 位上的G、C 总含量。以杧果叶绿体基因组各CDS 序列中的GC3S含量为横坐标,有效密码子数为纵坐标,绘制二维散点图,并利用公式在散点图中构出ENC 值的期望曲线,公式为:ENC=2+GC3+29/[ GC32+(1-GC3)2](GC3为除了蛋氨酸、色氨酸和终止密码子外,G 和C出现在密码子第3 个位置的频率)[29]。
1.2.4 PR2-plot 分析
PR2-plot 分析又名奇偶偏好(PR2)分析,是为了探究密码子第3 位上A、T、C、G 这4 种碱基之间的组成偏差是否对密码子偏好性产生影响[30]。分别以G3/(G3+C3)和A3/(A3+T3)作为横坐标和纵坐标进行绘图分析,平面图中心点表示碱基含量A=T,C=G(密码子不存在偏性和突变),而从中心点发出的矢量表示该碱基偏移的程度和方向[31]。
1.2.5 最优密码子分析
为了确定杧果最优密码子,需对其高频率及高表达密码子进行分析。选取RSCU 值高于1 的密码子作为高频密码子[32],以前期筛选出的51 条杧果CDS 序列的ENC 值为参考,将其从小到大排序,然后从最低和最高两端各取10%的基因,建立高低表达库(ENC 值越低则密码子偏性越高),而ΔRSCU≥0.08(高、低两组相减所得的RSCU值)的密码子作为高表达密码子[33];最终将同时表现为高频和高表达的密码子定义为杧果叶绿体基因组的最优密码子。
利用CodonW1.4.2 分析杧果叶绿体基因组中筛选后的51 条CDS 序列的密码子组成,结果如表1所示。在51 条CDS 序列中,光合作用相关基因(Photosynthesis related genes)有26 个,自我复制(Self replication)基因有17 个,其他基因(Other genes)和未知功能(Unknown function)的基因各有4 个,其中未知功能的基因分别为ycf1、ycf2、ycf3、ycf4。不同基因密码子上的GC 含量各不相同,杧果叶绿体基因密码子不同位置上的GC 平均含量为38.77%,其中GC1的平均含量为47.25%,GC2的平均含量为39.74%,GC3的平均含量为29.31%。由表1可以看出,不同位置上分布的GC含量并不均衡,且第3 个位置上的GC 含量明显低于前两个位置,表明杧果叶绿体基因组密码子偏好使用的碱基为A 和T。ENC 的取值范围在35.64~53.49 之间,其平均值为48.14,说明杧果叶绿体基因组密码子的偏好性较弱。
根据杧果叶绿体基因组密码子3 个位置上的GC 含量、有效密码子数和密码子出现次数构建相关性分析,结果见表2。由表2可知,CG1与CG2为极显著相关;GCall与GC1、GC2、GC3的相关性同样达到极显著水平,而CG3与CG1、CG2均不显著相关,表明杧果叶绿体基因组密码子的GC1和GC2碱基组成相似,与GC3的组成有一定的差别。ENC 与CG3表现为极显著相关,但与CG1、CG2、GCall未达到显著相关水平,表明杧果密码子最后一位碱基受到的偏性影响较大。密码子数(CN)与GC2的相关性呈显著水平,但与其他参数无显著或极显著相关性。
表2 密码子数各位置GC 含量、数量与ENC 值的相关性分析†Table 2 Correlation analysis of GC content,quantity and ENC value of different position codon numbers
中性绘图分析结果(图1)显示,GC12的取值范围为0.331 3~0.561 2,GC3的取值在0.210 0~0.369 4 之间,GC12与GC3的相关系数为0.137,可见GC12和GC3这两者的相关性并不显著。回归系数为0.018 9,表明GC12和GC3的相关性微弱,这与表1中关于GC1、GC2和GC3的分析结果相似,说明密码子第3 个位置上的碱基可能与前两个位置上的碱基构成不同,即杧果叶绿体基因组中GC含量非常保守。可见,选择对叶绿体基因组密码子使用的影响更大。
图1 杧果叶绿体基因组中性绘图分析Fig.1 Neutrality plot analysis of chloroplast genes of Mangifera indica
表1 杧果叶绿体基因组不同位置的GC 含量及ENC 值Table 1 GC content and ENC value of different positions of codon in chloroplast genome of Mangifera indica
ENC-plot 绘图分析结果(图2)显示,部分基因位于标准曲线周围,ENC 实际值与ENC 预期值基本一致,说明突变对这些密码子的影响较大;同时大部分基因都离标准曲线有一定距离,表示ENC 实际值与ENC 预期值之间存在一定的区别,说明选择对这些密码子的影响较大。因此,杧果叶绿体密码子偏好性同时受到突变和选择的影响,但更多的是受到选择的作用。
图2 杧果叶绿体基因的ENC-plot 分析Fig.2 ENC-plot analysis of chloroplast genes of Mangifera indica
进一步对ENC 比值频数进行分析,结果见表3。由表3可知,分布在-0.05~0.05 区间的基因有20 个,即这20 个基因距ENC 预期值较近;而分布在-0.05~0.05 区间以外的基因有31 个,即多数基因与ENC 预期值之间有一定距离,说明大部分基因ENC 预期值和ENC 实际值之间存在差异,且差异较大。因此杧果叶绿体基因组密码子的偏好更多受选择的影响。
表3 ENC 比值的频数分布Table 3 Distribution of ENC ratio
若各密码子碱基A、T、C和G的使用频率相同,则PR2-plot 平面图内基因应当均匀分布,但通过图3可见,平面图内杧果密码子基因大部分分布在右下方,说明密码子最后一位碱基的使用具有偏好性,且各碱基使用频率为T 高于A,G 高于C。因此,杧果叶绿体基因组密码子的使用受到选择影响的同时,还受到其他因素的影响。
图3 杧果叶绿体基因的PR2-plot 分析Fig.3 PR2-plot analysis of chloroplast genes of Mangifera indica
计算51 条CDS 序列的RSCU 值,结果(表4)表明,RSCU 大于1.00 的密码子数目为30 个,其中以U 结尾的密码子占比为53.33%(16 个),以A 结尾的密码子占比为43.33%(13 个),以G 结尾的密码子仅有1 个,说明杧果叶绿体基因组偏好的密码子是以U 或A 结尾的密码子,不偏好以G 或C 结尾的密码子。
根据表4的结果,共选出RSCU 值>1 的高频密码子为30 个。
表4 杧果叶绿体基因同义密码子相对使用度分析Table 4 Relative synonymous codon usage analysis of chloroplast gene in Mangifera indica
根据表5的结果,进一步筛选出ΔRSCU ≥0.08 的高表达密码子共有22 个,其中11 个以U结尾,5 个以A 结尾,G 和C 结尾的各有3 个。将满足RSCU 值>1 和ΔRSCU ≥0.08 两者条件的密码子确定为杧果叶绿体基因组的最优密码子,最终筛选出AGU、UUG、CUU、CAA、AUU、GUU、GAU、GAA、UGU、CCA、CGU、AGA、ACU、CAU、GCU、GCA、GGU 这17 个为最优密码子。其中,有11 个以U 结尾,有5 个以A 结尾,仅有1 个以G 结尾。
表5 杧果叶绿体基因组最优密码子分析†Table 5 Optimal codons analysis in the chloroplast genome of Mangifera indica
在生物体核酸和蛋白质的翻译过程中,密码子扮演着重要的角色。研究发现,不同物种中的同义密码子存在不能均衡使用的情况,这种现象是物种自身基因长期进化的结果,同时也是对外界环境压力长期适应的结果[34]。影响密码子使用偏性的原因有很多,但一般认为,密码子的选择和突变才是最主要的因素。由于密码子第3 位上的碱基比第1、2 位上的碱基所受到的选择压力小,因此GC3通常作为衡量密码子使用偏性的指标之一[35]。
以杧果叶绿体基因组51 条CDS 序列为研究对象,对其密码子使用中性绘图分析。结果显示,杧果叶绿体基因组中GC 含量非常保守,可见选择可能对密码子的使用影响更多。这与大花香水月季Rosa odorata[35]、降香黄檀Dalbergia odorifera[28]、酸枣Ziziphus jujuba[36]等植物的密码子偏好性一致;而在王鹏良等[37]对普通油茶Camellia oleifera的中性绘图分析中,支持密码子是受到突变和选择的共同作用。由此可见,不同植物体内密码子受到的影响因素各不相同。通过PR2-plot绘图分析,结果显示杧果密码子不同碱基使用频率为T 高于A,G 高于C,表明这些基因不仅受到选择的影响,还受到其他因素的影响。这与喻凤等[38]对紫花苜蓿Medicago sativa的叶绿体密码子碱基使用频率一致;而赵森等[32]对秋茄Kandelia obovata进行分析时发现,其密码子上的碱基使用频率为C>G,T>A,得出秋茄密码子除了受到突变和选择的影响以外,还有其他因素的影响;在对籽粒苋Amaranthus hypochondriacus[7]叶绿体基因组密码子的碱基分析中同样发现,其密码子碱基使用频率明显不相等(A>T,G>C)。这说明不同植物体内密码子碱基组成有一定的差异,使得密码子偏好性的影响因素是综合性的。进一步通过ENCplot 绘图分析杧果密码子偏好性,结果显示其密码子同时受到突变和选择的影响,但更多的是受到选择的作用。而在巨桉Eucalyptus grandis[39]叶绿体基因组密码子偏好中显示,其密码子偏好的形成起重要作用的为突变因素。因此,可以认为影响植物密码子偏好形成的因素主要为突变和选择。
本研究将同时满足高频和高表达的密码子定义为最优密码子,在杧果叶绿体基因组确定的17个最优密码子中,以U 结尾的就有11 个,以A 结尾的有5 个,可以明显看出其密码子多数以U 和A 结尾,这与杜梨Pyrus betulifolia[40]、葡萄Vitis vinifera[41]、乳油木Vitellaria paradoxa[42]和野生沙枣Elaeagnus angustifolia[43]等植物叶绿体基因组最优密码子的分析结果一致。
本研究只进行了杧果叶绿体基因组密码子使用偏好性分析,未能确定其是否与杧果属其他物种偏好性一致。因此,下一步可对杧果属内其他物种进行密码子偏好性研究,探究其他杧果属物种是否也同时受到突变和选择的影响,以此来确认同一属间造成不同植物密码子偏好性差异的因素是否相同。
1)通过研究杧果叶绿体基因组密码子使用偏好性特征,可以发现杧果密码子同时受到突变和选择的影响,但更多的是受到选择的作用。
2)对杧果基因的密码子进行优化,提高该基因的表达效率,可为改良杧果重要性状奠定理论基础。
3)本研究筛选出的17 个最优密码子揭示了杧果叶绿体基因组表达的重要信息,为今后开展杧果分子育种奠定了理论基础,同时也为杧果基因组水平上的应用和研究提供了一定的数据支持。