郭媛婷 张敏 杨玉洁 胡晓艳 杜淑辉
摘要:为明确翅果油树叶绿体基因组密码子使用偏好性,从GenBank 数据库下载翅果油树叶绿体基因组序列,筛选出合适长度的序列并进行密码子使用偏好及其影响因素分析;使用Codon W 软件分析序列得出A3、T3、C3、G3、GC3、有效密码子数(ENC)、相对同义密码子使用度(RSCU)等重要参数,并进行相关指数分析、中性绘图分析、ENC-plot 绘图分析、PR2-plot 分析及最优密码子的确定。结果表明,翅果油树叶绿体基因组密码子不同位点上GC 含量分布差异较大,其大小表现为GC1(41.08%)>GC2(38.17%)>GC3(36.55%);ENC 平均值为50.95,表明密码子使用偏好性较弱;密码子偏好使用A 或U 结尾,最终选出的20 个最优密码子也均以A 或U 结尾。中性绘图和ENC-plot 绘图分析发现,翅果油树叶绿体基因组密码子内部碱基组成之间不具有显著相关性,选择压力远胜于突变压力;PR2-plot 绘图分析表明,在突变压力之外翅果油树叶绿体基因组密码子使用还受到了强烈外界压力的影响,自然选择是影响翅果油树叶绿体基因组密码子使用模式的最主要因素。
关键词:翅果油树;叶绿体基因组;密码子使用偏性;最优密码子
中图分类号:S565.9 文献标识码:A文章编号:1002?2481(2023)03?0233?08
自然界中,氨基酸的种类只有20 种,而密码子的编码方式多达64 种,这种现象的出现表明密码子简并性的存在,然而同义密码子在编码同一种氨基酸时,并未得到平等的使用概率,这一现象的产生是由于存在密码子使用偏好[1]。密码子偏好性是生物在漫长的进化中不断平衡自然环境和自身生存的结果。吴彦庆等[2]对几种花同一基因进行密码子使用模式进行分析发现,一定程度上密码子使用模式的相似度能够反映出物种间亲缘关系的远近,而不同物种间密码子的使用模式差别明显。另外,在大量基因实验中发现,由于宿主基因密码子偏好的制约,外源基因的表达量受到极大影响。因此,分析密码子使用规律是进行基因工程和物种进化研究的前提[3]。
叶绿体是植物光合作用中心,叶绿体基因组是细胞核外另一个较为独立的遗传体系,其基因组规模小、拷贝数多,进化速率适中,遗传性状稳定,较少发生基因重组,方便测序[4],已被广泛用于植物物种鉴定、系统发育、遗传分析、基因工程等研究中[5-8],其中对叶绿体基因组密码子使用偏好性的研究则是探索叶绿体功能最基础的一步。目前,胡晓艳等[9]已对酸枣叶绿体基因组密码子使用模式进行了深入探索,发现其密码子偏好性存在并非由单一因素造成。李薇等[10]对银杏叶绿体基因组密码子进行筛选,得到11 个最优密码子。类似的研究在秋茄[11]、巨桉[12]、白毛银露梅[13]、金莲花[14]等多种植物中都已进行,结果表明,不同植物叶绿体基因组密码子偏好性差异较大且影响因素也不尽相同。
翅果油树(Elaeagnus mollis)是胡颓子科(Elaeagnaceae)胡颓子属(Elaeagnus)的小乔木或落叶灌木,种仁出油率较高(约30%),富含维生素E。因翅果油树是我国一种珍贵的特有古生物种且野生群落分布较少,1999 年被列为国家二级濒危树种,目前,其仅出现在晋、陕、豫三省[15]。当前,翅果油树的相关研究多集中在生物学特性[16]、栽培育苗[17]及开发利用[18]等方面,关于叶绿体的研究却少之又少。
本研究通过分析翅果油树叶绿体基因组密码子的碱基使用模式及其成因,探索翅果油树叶绿体基因组的内在表达与遗传规律,旨在为后续翅果油树基因改造和选育优良品系提供参考依据。
1材料和方法
1.1 数据来源
从NCBI 公共数据库中下载翅果油树叶绿体基因组序列(NC_036932),共包括85 条蛋白质编码序列(Coding sequence,CDS)[9]。为避免偶然性编码的概率增大,去除长度过短(小于300 bp)和重复的编码序列以降低分析误差,最终得到50 条满足要求的翅果油树叶绿体基因序列用于后续密码子使用偏好性分析。
1.2 研究方法
1.2.1 密码子相关偏性指数分析 使用Codon W软件对已筛选出的合适长度的50 条翅果油树叶绿体CDS 序列进行计算分析,得出密码子末位碱基的A、T、G、C 含量(A3、T3、G3、C3)、有效密码子数(ENC,Effective number of codon)、相对同义密码子使用度(RSCU,Relative synonymous codon usage)。
其中,ENC 的取值范圍为20~61,通常将中间值45作为衡量其密码子偏好性强弱的标准,数值越低偏性则越强,即ENC=20 表示该基因的每个氨基酸都只使用了唯一一个密码子进行编码;当ENC=61 时,每个氨基酸平均使用其每一个同义密码子[19]。RSCU 的取值以1 为临界值,此时该密码子在同义密码子中不具使用偏性,通常此时其同义密码子的RSCU 值也为1,它们被自己所编码的氨基酸平均使用;而RSCU>1 表示在同义密码子中该密码子使用频次相对较多,偏好性更强;RSCU<1则与之相反[20]。
分别计算50 条CDS 序列中密码子3 个位点碱基GC 的含量,分别记为GC1、GC2、GC3,求得GC1、GC2 的均值记为GC12,计算GC1、GC2、GC3 的平均值记为GCall。
1.2.2 中性绘图分析 以GC3为横坐标、GC12为纵坐标绘制散点图,并添加回归线(趋势线)。通过回归系数的值来判断突变及选择压力对密码子使用偏好形成的影响程度。若回归系数趋近1,密码子不同位置碱基组成具有显著相关性,它们之间相互影响作用极大,突变是造成翅果油树叶绿体基因组密码子使用偏好的首要因素;反之,则说明密码子末位碱基种类与前2 位不具明显相关性,密码子内部各碱基具备独立性,某一位点碱基的突变并不会关联影响到其他位点的碱基,外界选择压力对翅果油树叶绿体基因组密码子偏好性的影响更为突出[21]。
1.2.3 ENC-plot 绘图分析 以ENC 值为纵坐标、GC3 为横坐标在平面内绘出基因散点图进行有效密码子数分析,并在图中添加ENC 期望曲线:ENC 期望=2+GC3+29/(GC32+(1-GC3)2)[22]。通过比较各基因的实际散点分布与期望曲线的相对距离,推断翅果油树叶绿体基因组密码子偏好性的成因,若散点落在期望曲线上或附近,则认为密码子使用偏好性仅受到或主要受到碱基突变引起,而自然选择对其影响微乎其微;若散点严重偏离曲线,则表明自然选择对其影响更加深远[23-24]。依据公式ENC 比值=(ENC 期望-ENC 实际)/ENC 期望[25]列出ENC 比值频数分布表,通过比较ENC 比值的大小以及出现频率可进一步确定影响密码子使用偏性的主要因素,若ENC 比值较小且出现频率高,表明密码子使用偏性主要受突变影响,反之,则自然选择效应是主要作用。
1.2.4 PR2-plot 绘图分析 以G3/(G3+C3)为横坐标、A3/(A3+T3)为纵坐标在平面内绘制散点图,并添加网格线,中心位置代表密码子末位碱基使用频率U=A、G=C。如果只受到唯一因素(碱基突变)影响,4 种碱基的使用频率相同,散点会均匀分布在坐标平面内,反之,则说明密码子的使用偏好性同时受到自然选择和突变等多种因素的影响;若散点分布于网格上半部分,该基因密码子末位碱基使用频率为A>T,若分布在网格的左半部分,则C>G[3]。
1.2.5 最优密码子的确定 以有效密码子数值为依据,对50 条翅果油树编码序列进行排序,从ENC值较大和较小的一端各取5 条基因序列,ENC 值较小的一组则密码子偏好性强,定义为高表达基因库;ENC 值较大的一组密码子偏好性弱,定义为低表达基因库,取二者RSCU 值差值,记为△RSCU,满足△RSCU≥0.08 则视其为高表达密码子,满足RSCU>1 则视其为高频密码子,筛选出同时符合上述2 个条件的密码子,定义为最优密码子[9]。由于色氨酸(Trp)和蛋氨酸(Met)都仅有一个编码密码子,分别为UGG、AUG,而3 个终止密码子UAG、UAA、UGA 不编码蛋白,因此在进行RSCU 分析时排除这5 个不具偏好性的密码子[13]。
1.3 数据分析
使用Excle 软件和SPSS 26.0 软件对Codon W得出的相关数据进行表格汇总和绘图分析。
2结果与分析
2.1 翅果油树密码子相关偏性指数分析
翅果油树叶绿体基因组密码子相关偏性指数分析结果如表1 所示,统计筛选得到的50 条基因序列,GC1 平均值为41.08%,GC2 平均值为38.17%,GC3 平均值为36.55%,发现密码子不同位置碱基组成的GC 含量有较大差异,末位碱基的GC 含量少于前2 位碱基的GC 含量,但3 个碱基位点上C、G 均不是优势碱基,且平均GC 含量(GCall)为38.60%,说明翅果油树叶绿体基因编码更偏爱使用A、U 碱基;ENC 值的范围为39.54~61.00,平均值为50.95,50 条翅果油树叶绿体基因序列中,ENC>45 的有41 条,说明其密码子偏好性较弱。
从表2 可以看出,GC1、GC2、GC3 三者之间均未发现明显的相关性,相互独立存在,且ENC 只与GC3 存在极显著相关(P<0.01),因此,判定密码子末位上的碱基组成(GC3)可用于代表整个密码子的使用偏好。图1 通过分析比较各密码子相对同义密码子使用度,得到28 个RSCU>1 的密码子,其中,多达25 个密码子以A 或U 结尾,仅有3 个密码子以G 或C 结尾,表明翅果油树叶绿体基因组密码子更喜好以A 或U 结尾。分别筛选出每种氨基酸编码使用频率最高的优势密码子,共18 个,它们之中仅有1 个以C 结尾,其余皆以A 或U 结尾,再次证明翅果油树叶绿体基因组密码子存在以A 或U 为末位碱基的使用偏好。
2.2 最优密码子分析
通过最优密码子分析得出(表3),有28 个密码子RSCU>1,24 个密码子△ RSCU≥0.08,经筛选发现,同时满足这2 个条件的最优密码子多达20 个,分别为UUU、UUA、CUU、AUU、GUU、AGU、CCU、CCA、ACU、GCU、GCA、UAU、CAU、CAA、AAU、AAA、GAU、GAA、AGA、GGA,其中以U结尾的有12 个,以A 结尾的有8 个。
2.3 中性绘图分析
中性绘图分析结果如图2 所示,GC12 与GC3 的回归系数为-0.144 8,相关系数为-0.288 0,结合表2 结果进行分析,发现密码子第1、2 位碱基和第3 位碱基的组成规律不具明显相关性,可见,其密码子内部某一位点碱基的突变并不会对其他位点造成显著影响,翅果油树叶绿体基因组密码子偏好性的形成更多考虑为自然选择效应的影响作用。
2.4 ENC-plot 绘图分析
ENC-plot 绘图分析结果显示(图3),基因散点分布趋于分散,且大部分距离标准ENC 曲线的位置较远,表明ENC 实际值和ENC 期望值有较大差异。ENC 比值频数分布如表4 所示,有15 个基因ENC 比值在-0.05~0.05 范围内,占比30%,距ENC期望值较近或与期望值一致;其余35 个基因位于此区间外,占比70%,距离期望值较远,这与ENCplot绘图分析结果相符。绝大多数散点的偏离,依然说明翅果油树叶绿体基因组密码子使用偏性主要受到自然选择效应的作用。
2.5 PR2-plot 绘图分析
PR2-plot 分析结果如图4 所示,散点在坐标轴平面内的4 个区域中均有分布,相对而言分布于右上方的散点数量最多,表明翅果油树叶绿体基因组密码子末位堿基使用频次A 大于T、G 大于C。已知若碱基突变影响是密码子偏好形成的唯一因素,则A、T、C、G 这4 种碱基的使用概率应是一致的,散点分布的不均匀再次说明除了突变影响之外,翅果油树叶绿体基因组密码子还受到了较强的外界选择影响。
3結论与讨论
本研究通过分析ENC 值和RASU 值确定了翅果油树叶绿体密码子的20 种最优密码子。ENC 平均值为50.95,不仅说明翅果油树叶绿体基因组密码子使用偏好性较弱,也解释了为何最优密码子会多达20 个,这与白毛银露梅[13]、酸枣[9]等的研究结果一致。同时翅果油树叶绿体基因组中密码子末位碱基存在明显的偏好现象,符合前人得出的双子叶植物密码子末位碱基偏好使用A/U 的规律[26]。
此外研究发现,自然选择和突变是密码子使用偏好性形成的2 个重要因素[9]。本研究通过中性绘图、ENC-plot 和PR2-plot 说明翅果油树叶绿体基因组密码子主要受自然选择的影响,这与白毛银露梅[13]及灰毛浆果楝[27]相似,而秋茄[11]和籽粒苋[28]主要受突变影响,这可能是由于成熟周期较短使得植物体内基因累积变异程度较大,从而增加突变的影响程度。翅果油树由于野生种群分布极少,引得全国各地都在积极地进行人工引种栽培,试图选育优良品种,这也间接加剧了选择压力的影响。野生翅果油树表型丰富,而本研究试验材料单一,并未证实不同表型翅果油树密码子的使用模式是否一致,也未有线索显示翅果油叶绿体中较高的维生素E 含量是否与其密码子的使用模式有关。
本研究通过对叶绿体基因组序列进行分类统计和绘图分析,探索其内部的密码子偏好性与碱基使用规律,旨在为后续提高外源基因的表达效率、系统进化等研究提供重要依据。进一步研究将有望利用基因改造突破翅果油树遗传与育种上的难点,有效降低其濒危程度。
参考文献:
[1] GONZALEZ D L,GIANNERINI S,ROSA R. On the origin of
degeneracy in the genetic code[J]. Interface Focus,2019,9(6):
20190038.
[2] 吴彦庆,李志远,赵大球,等. 几种植物花分生组织决定基因
APETALA1 密码子使用模式比较[J]. 园艺学报,2017,44(3):
504-514.
WU Y Q,LI Z Y,ZHAO D Q,et al. Comparative analysis of
codon usage patterns in APETALA1 gene across several plant
species[J]. Acta Horticulturae Sinica,2017,44(3):504-514.
[3] 杨国锋,苏昆龙,赵怡然,等. 蒺藜苜蓿叶绿体密码子偏好性分
析[J]. 草业学报,2015,24(12):171-179.
YANG G F,SU K L,ZHAO Y R,et al. Analysis of codon usage
in the chloroplast genome of Medicago truncatula[J]. Acta
Prataculturae Sinica,2015,24(12):171-179.
[4] 杨祥燕,蔡元保,谭秦亮,等. 菠萝叶绿体基因组密码子偏好性
分析[J]. 热带作物学报,2022,43(3):439-446.
YANG X Y,CAI Y B,TAN Q L,et al. Analysis of codon usage
bias in the chloroplast genome of Ananas comosus[J]. Chinese
Journal of Tropical Crops,2022,43(3):439-446.
[5] ZHANG Z L,ZHANG Y,SONG M F,et al. Species identification
of Dracaena using the complete chloroplast genome as a
super-barcode[J]. Frontiers in Pharmacology,2019,10:1441.
[6] HUO Y M,GAO L M,LIU B J,et al. Complete chloroplast genome
sequences of four Allium species:comparative and phylogenetic
analyses[J]. Scientific Reports,2019,9:12250.
[7] NGUYEN B V,GIANG V N L,WAMINAL N E,et al. Comprehensive
comparative analysis of chloroplast genomes from
seven Panax species and development of an authentication system
based on species-unique single nucleotide polymorphism
markers[J]. Journal of Ginseng Research,2020,44(1):135-144.
[8] CUI Y X,CHEN X L,NIE L P,et al. Comparison and phylogenetic
analysis of chloroplast genomes of three medicinal and edible
Amomum species[J]. International Journal of Molecular Sciences,
2019,20(16):4040.
[9] 胡晓艳,许艳秋,韩有志,等. 酸枣叶绿体基因组密码子使用偏
性分析[J]. 森林与环境学报,2019,39(6):621-628.
HU X Y,XU Y Q,HAN Y Z,et al. Codon usage bias analysis
of the chloroplast genome of Ziziphus jujuba var. spinosa[J].
Journal of Forest and Environment,2019,39(6):621-628.
[10] 李薇,王倩,胡晓艳,等. 银杏叶绿体基因组密码子使用偏性
分析[J]. 林业调查规划,2021,46(6):28-34.
LI W,WANG Q,HU X Y,et al. Codon usage bias in chloroplast
genome of Ginkgo biloba[J]. Forest Inventory and Planning,
2021,46(6):28-34.
[11] 赵森,邓力华,陈芬. 秋茄叶绿体基因组密码子使用偏好性分
析[J]. 森林与环境学报,2020,40(5):534-541.
ZHAO S,DENG L H,CHEN F. Codon usage bias of chloroplast
genome in Kandelia obovata[J]. Journal of Forest and Environment,
2020,40(5):534-541.
[12] 王鵬良,吴双成,杨利平,等. 巨桉叶绿体基因组密码子偏好
性分析[J]. 广西植物,2019,39(12):1583-1592.
WANG P L,WU S C,YANG L P,et al. Analysis of codon
bias of chloroplast genome in Eucalyptus grandis[J]. Guihaia,
2019,39(12):1583-1592.
[13] 杨蕾,董泽阳,王洋,等. 白毛银露梅叶绿体全基因组密码子
偏好性分析[J]. 分子植物育种,2022,20(4):1095-1103.
YANG L,DONG Z Y,WANG Y,et al. Analysis on codon usage
bias of chloroplast genome in Potentilla glabra var. mandsh?
urica[J]. Molecular Plant Breeding,2022,20(4):1095-1103.
[14] 雷慧,李鸽,王娜玉. 金莲花叶绿体基因组密码子偏好性分析
[J]. 山西农业科学,2019,47(8):1300-1305,1445.
LEI H,LI G,WANG N Y. Analysis of codon usage bias in the
chloroplast genome of Trollius cbinensis Bunge[J]. Journal of
Shanxi Agricultural Sciences,2019,47(8):1300-1305,1445.
[15] 庞晓慧,张华新,刘涛. 我国特有珍稀植物翅果油树开发利用
的探讨[J]. 林业资源管理,2006(3):58-60,67.
PANG X H,ZHANG H X,LIU T. Study on development and
use of Elaeagnus mollis,an endemic species to China[J]. Forest
Resources Management,2006(3):58-60,67.
[16] 冯笑笑,李娟,陈侨侨,等. 翅果油树种仁蛋白氨基酸组成分
析及营养价值评价[J]. 食品科学,2016,37(22):160-165.
FENG X X,LI J,CHEN Q Q,et al. Amino acid composition
and nutritional evaluation of proteins extracted from Elaeagnus
mollis[J]. Food Science,2016,37(22):160-165.
[17] 魏阿沙. 翅果油树栽培技术[J]. 山西林业,2018(4):22-23.
WEI A S. Cultivation techniques of Elaeagnus mollis[J]. Forestry
of Shanxi,2018(4):22-23.
[18] 张华新,庞小慧,刘涛. 我国特有珍稀植物——翅果油树研究
与开发进展[J]. 生物质化学工程,2006,40(S1):303-308.
ZHANG H X,PANG X H,LIU T. Evolvement of research
and exploitation on Elaeagnus molli Diels, an endemic to China
[J]. Biomass Chemical Engineering,2006,40(S1):303-308.
[19] SUN X Y,YANG Q,XIA X H. An improved implementation
of effective number of codons(nc)[J]. Molecular Biology and
Evolution,2013,30(1):191-196.
[20] LI G,ZHANG L,DU N. Relative synonymous codon usage of
ORF1ab in SARS-CoV-2 and SARS-CoV[J]. Genes & Genomics,
2021,43(11):1351-1359.
[21] WANG L Y,XING H X,YUAN Y C,et al. Genome-wide
analysis of codon usage bias in four sequenced cotton species
[J]. PLoS One,2018,13(3):e0194372.
[22] CHEN S Y,ZHANG H,WANG X,et al. Analysis of codon
usage bias in the chloroplast genome of Helianthus annuus J-01
[J]. IOP Conference Series:Earth and Environmental Science,
2021,792(1):012009.
[23] ATA G,WANG H,BAI H X,et al. Edging on mutational
bias,induced natural selection from host and natural reservoirs
predominates codon usage evolution in Hantaan virus[J]. Frontiers
in Microbiology,2021,12:699788.
[24] NYAYANIT D A,YADAV P D,KHARDE R,et al. Natural
selection plays an important role in shaping the codon usage of
structural genes of the viruses belonging to the Coronaviridae
family[J]. Viruses,2020,13(1):3.
[25] 李江飛,李熙颜,王瑜,等. 滇楸叶绿体基因组密码子偏好性
分析[J]. 基因组学与应用生物学,2022,41(4):843-853.
LI J F,LI X Y,WANG Y,et al. Analysis on codon usage bias
of chloroplast genome in Catalpa fargesii[J]. Genomics and Applied
Biology,2022,41(4):843-853.
[26] 赵森,邓力华,陈芬. 不同植物FERONIA 基因密码子使用偏
好性分析[J]. 江苏农业学报,2020,36(5):1073-1081.
ZHAO S,DENG L H,CHEN F. Analysis on codon usage
preference of FERONIA genes in different plants[J]. Jiangsu
Journal of Agricultural Sciences,2020,36(5):1073-1081.
[27] 原晓龙,王毅,张劲峰. 灰毛浆果楝叶绿体基因组密码子使用
特征分析[J]. 森林与环境学报,2020,40(2):195-202.
YUAN X L,WANG Y,ZHANG J F. Characterization of codon
usage in Cipadessa cinerascens chloroplast genome[J]. Journal
of Forest and Environment,2020,40(2):195-202.
[28] 冯瑞云,梅超,王慧杰,等. 籽粒苋叶绿体基因组密码子偏好
性分析[J]. 中国草地学报,2019,41(4):8-15.
FENG R Y,MEI C,WANG H J,et al. Analysis of codon usage
in the chloroplast genome of grain amaranth(Amaranthus
hypochondriacus L.)[J]. Chinese Journal of Grassland,2019,41
(4):8-15.