基于转录组数据的红三叶密码子使用偏好性分析

2024-01-01 00:00:00花梅吕丽娟穆赢通张晓明郝宁王俊杰刘媛
草地学报 2024年6期
关键词:转录组

摘要:研究红三叶(Trifolium pratense L.)叶片的密码子使用偏好性,可为优化密码子组成奠定基础。研究通过CodonW,R,CUSP等软件对红三叶叶片转录组中5 513条编码序列进行密码子使用模式和偏好性分析。研究发现,GC3与GC12相关性较弱,表明选择压力对其密码子偏好性的选择有一定的作用;ENC-plot分析中,大多数密码子偏好性相对较弱,表明选择压力是偏好性的主要来源,少数的基因在期望曲线两侧均衡散布,表明部分基因受突变压力的作用;密码子适应度值(Codon adaptation index,CAI)分析可知,基因表达水平对密码子偏好性产生过程具有一定影响作用,CAI为0.201,表明密码子偏好性比较弱。偏倚性分析进一步证实红三叶叶片密码子偏好性重点受突变压力的影响。最优密码子分析表明,红三叶叶片转录组序列的最优密码子更偏好以G或C结尾。结果有利于红三叶基因工程研究中密码子优化,对红三叶的系统进化研究具有重要意义。

关键词:红三叶叶片;密码子偏好性;转录组;编码序列

中图分类号:S541""" 文献标识码:A"""" 文章编号:1007-0435(2024)06-1752-08

Codon Usage bias Analysis of Trifolium pratense Based on Transcriptome Data

HUA Mei1, LYU Li-juan2, MU Ying-tong1, ZHANG Xiao-ming1, HAO Ning1, WANG Jun-jie1, LIU Yuan1*

(1.Inner Mongolia Autonomous Region Sino-Mongolia Medicinal Materials Breeding Engineering Technology Research Center,

College of Grassland, Resources and Environment, Inner Mongolia Agricultural University, Huhhot, Inner Mongolia 010019, China;

2.Hohhot Forestry and Grassland Bureau, Hohhot, Inner Mongolia 010019, China)

Abstract:This study investigates the codon usage bias in of Trifolium pratense L.,laying the foundation for optimizing codon composition. The codon usage patterns and bias of 5 513 coding sequences of Trifolium pratense leaf transcriptome were analyzed using software such as CodonW,R,and CUSP. The study indicated that there was a weak correlation between GC3 and GC12,indicating that selection pressure plays a certain role in codon usage bias. In the ENC-plot analysis,most codons showed relatively weak usage bias,suggesting that selection pressure was the main driver of bias,while a few genes were evenly distributed on both sides of the expected curve,indicating the influence of mutational pressure on some genes. CAI analysis revealed that gene expression levels had a certain impact on the process of codon usage bias,with a CAI of 0.201 indicating relatively weak bias. Biased analysis further confirmed that codon usage bias in Trifolium pratense was mainly influenced by mutational pressure. Analysis of optimal codons showed that the optimal codons in the transcriptome of Trifolium pratense preferentially end with G or C. These results are beneficial for optimizing codon usage in genetic engineering studies of Trifolium pratense and are of significant importance for the systematic evolution research of Trifolium pratense.

Key words:Trifolium pratense leaves;Codon preference;Transcriptome;Encoding sequence

密码子作为编码所有生物体中mRNA的基本遗传密码,在生物的生长发育过程中具有重要作用[1]。密码子偏好性能够影响生物的蛋白质的表达、结构和功能以及局部翻译的延伸速率[2]。蛋白质对维持生命体的活动具有重要作用,蛋白质的差异性是决定生物体生长发育过程中特异性性状的主要原因。除了色氨酸和甲硫氨酸之外,其他的氨基酸均有2~6个不同的编码密码子[3]。遗传密码具有冗余性,通常多个密码子共同编码同一个氨基酸,这些编码相同氨基酸的密码子被称为同义密码子[4]。编码同一个氨基酸的不同同义密码子的使用频率在不同的物种间甚至在同一物种中均具有明显的差异。同义密码子在同一物种中的使用频率不同,部分密码子的使用频率高于其他密码子,这种现象称为密码子使用偏好性[5]。

红三叶(Trifolium pratense L.)又名红车轴草等[6],为豆科(Leguminosae)车轴草属(Trifolium L.)多年生草本植物。红三叶起源于地中海地区,广泛分布于欧洲、亚洲、非洲、南北美洲的温带地区,是世界上栽培最多的豆科牧草之一[7]。红三叶寿命4~6年,直根系[8],掌状三出复叶,小叶卵状椭圆形至倒卵形[9],叶面上常有深浅不一的V字形白色斑纹;花序球状或卵状[10],花萼筒状,花冠蝶形,淡红色、紫色或淡紫红色偶尔也呈粉白色[11];子房椭圆形,花柱丝状细长;荚果小,肾形[12]。红三叶作为多功能植物,其体内含丰富异黄酮类化合物(Isoflavones),具有营养全面、适口性好、再生性强、根瘤众多、固氮能力强、防止水土流失等特点,在生产中常作为牧草、药用植物、水土保持植物、蜜源植物和间作绿肥[13]等投入使用。

分析红三叶等重要经济作物的密码子偏好性有助于引导植物的适应性改良和遗传改良工作。同时,通过比较不同物种之间的密码子偏好性差异,可以探讨植物进化过程中基因组变化和适应性演化的机制。此外,同一植物不同部位的密码子偏好性可能受到基因表达调控、功能需求、翻译效率以及环境适应性等因素的影响[14]。本研究旨在利用红三叶叶片的转录组数据,系统性地分析其密码子偏好性,并探讨其在生物学功能和进化过程中的意义,以及为后续分析红三叶不同部位密码子偏好性研究做铺垫。深入探究红三叶叶片转录组密码子偏好性,将为植物基因表达调控和生物进化研究提供新的见解,为植物的遗传改良和资源利用提供科学依据。

1 材料与方法

1.1 供试材料

供试红三叶为2020年6月份于呼伦贝尔地区所采集的野生植物,经王俊杰教授鉴定为红三叶植物,其千粒重为1.243 g,采用Trizol法提取样品总RNA,得到红三叶叶片总的RNA后于Agilent 2100检测RNA的质量,质量合格后,用于转录组测序,实验委托给上海欧易生物科技有限公司。

1.2 相对同义密码子使用度

相对同义密码子使用度(Relative synonymous codon usage,RSCU)是用来检测全基因中所有同义密码子使用模式的变化,等于基因样本中某同义密码子在实际中观测到的使用次数值与其在理论中平均使用期望次数的比值。

1.3 密码子相对适应度

密码子适应度值(Codon adaptation index,CAI)是一种普遍使用的几何方法,用于衡量单个密码子的相对适应度值。CAI方法被普遍的用于各个方面生物学的研究中[15]。计算公式为:Wij=RSCUij/RSCUimax。其中,Wij为密码子相对适应度,RSCUimax为第i个氨基酸最多的使用频度的密码子的RSCU值。

1.4 ENC-plot优先密码数绘图分析

有效密码子数(Effective number of codon,ENC)指密码子偏离随机选择的程度,也是衡量同义密码子不均等使用偏好程度的关键性指标。通常对于高表达基因其偏好性比较大,是因为其含有较少种类的稀有密码子,ENC的值就相对比较小;低表达基因的密码子偏好程度较小,会导致了ENC取值比较大[16]。以GC3为横坐标,ENC为纵坐标进行ENC-plot绘图分析构建散点图,同时增加标准曲线:ENC=2+GC3+29/[GC32+(1-GC3)2]。

1.5 PR2-plot绘图分析

PR2-plot绘图分析(PR2-bias plot analysis)主要目的是为了有效避免密码子的第3位碱基腺嘌呤A与胸腺嘧啶T以及胞嘧啶C与鸟嘌呤G之间的线性突变不平衡[17]。以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标进行绘图分析,中点表示A=T且C=G,表示密码子偏好性完全受到突变影响。

1.6 中性绘图分析

以GC12为纵坐标,GC3为横坐标进行绘图,图中每一散点对应一个基因。对于中性绘图的分析方法就是以得到GC12为一条线的纵向坐标,以得到GC3为一条线的横向坐标后再进行作图。通过对密码子第1,2位和第3位碱基组成的相关性进行分析,研究对密码子偏好性产生直接影响的主要因素。当GC12与GC3之间有显著相关时,表示3个不同位置上的碱基组成没有大的区别,应用密码子会被突变所影响。当GC12以及GC3的基因相关性差异不显著时,回归系数非常接近0,表示第1,2位以及第3位的碱基组成不同,应用密码子较多的会被选择因素影响[18]。

1.7 对应性分析

对应关系分析(Correspondence analysis,CA)是用于分析基因间的同义密码子在研究中的使用偏好产生的主要原因的一种方法,这种方法在研究中普遍使用[19]。通过对分离获得的各种基因间的相关关系进行分析,可以精确的发现和判断基因间同义密码子使用偏好性产生的主要原因。

1.8 最优密码子分析

最优密码子使用频率(Frequency of optimal codons,FOP)是指在某物种高表达基因中使用频率最高的密码子。需要通过一组基因序列以及其相对应的表达信息来确定最优密码子[20]。对红三叶编码序列ENC值进行排序,从两端挑选10%基因,构建高低表达数据库,利用CodonW计算RSCU值和△RSCU,将满足△RSCU≥0.08,且RSCUgt;1的密码子确定为最优密码子。

1.9 数据处理

利用密码子分析软件CodonW等软件工具分析密码子以下指标:同义密码子相对使用度、有效密码子数以及使用在线软件CUSP(http://imed.med.ucm.es/EMBOSS/)计算密码子GC含量(GC1,GC2,GC3)、3位碱基的GC平均含量(GC-all)以及密码子第3位碱基的A,T,C,G(A3,T3,C3,G3),用R语言进行密码子偏倚分析和中性绘图分析等,并分析单个基因的密码子使用偏好性。

2 结果与分析

2.1 密码子GC含量组成分析

运用Codon W软件获得红三叶叶片5 513条编码序列中GC比例,结果如图1所示,GC比例范畴分布在27.4%~71.5%之间,主要分布在40%~50%之间,占比50%以上,GC的平均比例为45.60%。GC1的平均比例为51.23%,GC2的平均比例为40.80%,GC3的平均含量为44.76%。经过对比得知,GC2的含量最少,GC1与GC3的值相对比较相近,表明红三叶叶片编码序列更加偏向于使用G,C两种碱基。T3s和A3s远高于G3s和C3s,表明红三叶叶片转录组基因密码子第3位碱基以A/U为主。CAI为0.201,表明红三叶叶片转录组基因密码子偏好性比较弱(表1)。

2.2 中性绘图分析

红三叶叶片编码序列中性图分析的结果如图2所示,其中GC12值的范畴在0.29~0.67之间,GC3值的范畴在0.14~0.95之间。GC3与GC12的关联性系数为0.085,说明选择压力对红三叶叶片基因密码子的使用偏好性具有一定影响。

2.3 ENC-plot绘图分析

ENC的取数范畴在24.76~61之间,平均值为52.84,其中ENC小于等于35的基因有138个(1.30%),ENC等于61的基因有337个(3.18%),说明红三叶叶片转录组的编码序列除了少部分密码子有着很强的偏好性之外,其它所有的基因序列密码子使用偏好性均相对较弱。

对红三叶叶片基因以GC3s为横坐标、ENC为纵坐标绘制散点图(图3),若密码子偏好性是主要由突变造成的,则散点将分布在标准曲线周围;若基因密码子偏好性受自然选择影响更大,则散点将偏离期望曲线。图中每个点表示基因情况的散布,红三叶叶片大多数基因远离期望曲线,说明密码子的偏好性大部分来自于选择压力的影响,小部分基因在期望曲线的两侧平均的分布,说明部分基因受到突变压力的作用。

2.4 对应性和相关性分析

红三叶叶片对应性分析结果如图4A所示,其中,大于60%的GC含量编码序列在坐标系中分散分布,而小于60%的GC含量编码序列则在坐标系中比较集中分布。

另外,选择6个编码序列有关的参数(GC12,GC3,GCall,ENC,CAI和Axis1)进行关联性分析,结果如图4B所示。Axis1与GC3(r=-0.728,Plt;0.01)、GCall(r=-0.418,P<0.01)之间存在显著负相关关系。结合图4A与图4B,说明GC3比例与GC比例高的编码序列倾向于在Axis1的左侧分布。所以,可推断以G/C结尾的密码子于Axis1负轴集中分布而以A/U结尾的密码子于Axis1正轴集中分布。

红三叶叶片编码序列CAI的范围在0.097~0.451之间,且CAI均值为0.201,表明红三叶叶片的转录组基因序列密码子偏好性较弱,并且对CAI与GC3,GC和ENC等其他几个重要的参数进行了相关性分析,结果如图4C所示。CAI与ENC之间表现出明显的负相关(r=-0.07,P<0.05),表明在红三叶叶片转录组中,部分基因的密码子使用偏好性与密码子使用的多样性之间存在一定程度的关联,但这种关联不是非常强烈。基因中GC比例和基因表达程度越高,密码子使用偏好性的水平越高。

2.5 基因表达水平对密码子使用偏好性的影响及偏倚性分析

对红三叶叶片基因PR2偏倚分析如图5所示,红三叶叶片基因位点在图中分布并不均匀,这表明红三叶叶片基因密码子使用偏好性主要受到突变压力的影响。图中下半部分基因明显多于上半部分,表明红三叶叶片基因中的第三位密码子的使用频率是T/Ugt;A,G和C的使用无明显差别。因此,红三叶叶片基因受自然选择效应的影响较大。

2.6 最优密码子分析

红三叶叶片编码序列高、低表达序列的RSCU值如表1所示。得到26个密码子作为红三叶叶片编码序列的最优密码子,分别为:UUC,CUC,CUG,AUC,GUC,UAC,CAC,CAG,AAC,AAG,GAC,GAG,UCC,UCG,CCC,CCG,ACC,ACG,GCC,GCG,UGC,CGU,CGC,CGG,AGC和GGC。当中以C(16个)、G(9个)及U(1个),以G/C结尾的较多,说明红三叶叶片转录组编码序列的最优密码子偏好以G或C结尾。

3 讨论

密码子是生物重要的组成部分,它们在生物进化过程中扮演关键角色。生物体面临着复杂多变的环境,通常会倾向于使用特定的密码子来增强对环境的适应能力。分析物种对密码子的使用模式有助于理解基因的表达调控机制,促进对基因的异源表达。此外,对密码子使用模式的研究还能深入探究生物体的基因表达水平、蛋白质结构以及翻译速率等重要生物学特征,对于揭示生物的遗传特性和功能机制具有重要意义[22-23]。因此,探索药用红三叶叶片基因密码子使用偏好性,可为研究其密码子使用特点,筛选最佳蛋白异源表达载体及密码子优化奠定理论基础。本研究对红三叶叶片转录组数据中5 513条完整编码序列的密码子使用偏好性进行分析表明,红三叶叶片编码序列更偏好使用G/C两种碱基,高梦琦等[24]在对大黄密码子使用偏好性的研究中也发现了相似的规律。

碱基突变和遗传选择也是影响密码子使用偏好性形成的重要因素。ENC-plot分析表明,红三叶叶片的编码序列除了小部分密码子存在相对较强的偏好性之外,其所有的密码子使用偏好性相对较弱,并且红三叶叶片大多数基因远离期望曲线,从而得知选择压力是密码子偏好性的主要影响因素,少数的基因在期望曲线两侧均衡散布,说明一些基因受到突变压力的作用。PR2-plot分析表明红三叶叶片基因密码子第三位点的碱基使用频率具有一定偏好性,且更偏好使用碱基T(U),而非A,这可能与基因的转录和翻译速度以及蛋白质结构的稳定性有关。此外,仅少数基因偏离中心点较远,进一步说明红三叶叶片基因密码子使用偏好性主要受自然选择效应的影响较大,可能反映了红三叶叶片基因在适应环境变化和功能需求方面的演化策略。而在此前对毛茛科与芍药科叶绿体基因组密码子偏好性[25]的研究中也得到了相似的研究结果,此外,这与榕属(Ficus)[26]、金花茶(Theaceae Camellia)[27]和倒提壶(Cynoglossum amabile)[20]等叶绿体基因组密码子偏好性分析的结果基本一致。在构建蛋白表达载体时,不同的基因密码子使用偏好性差异很大,因此分析红三叶叶片的基因密码子使用特点对于载体的密码子优化具有重要意义。

同义密码子使用偏好性是在自然选择、基因突变等因素共同影响下形成的,正向选择和突变压力越大,基因组中形成的最优密码子越多,反之,则最优密码子相对较少。本研究筛选得到UUC,CUC,CUG,AUC等共26个最优密码子。这些最优密码子均为以G/C碱基结尾的密码子,推测红三叶叶片基因密码子使用偏好性在基因突变的范围之内。本研究填补了红三叶叶片密码子研究水平上的空白,也可为红三叶的酮类化合物合成及其合成路径研究提供理论依据。

4 结论

本研究以红三叶叶片为研究对象,进行转录组测序,通过密码子分析软件对其密码子组成及偏好性进行分析,结果表明,红三叶叶片编码序列更倾向于使用G/C碱基,这种偏好性可能反映了红三叶叶片基因在转录和翻译过程中对G/C碱基的偏好选择;同时红三叶叶片转录组基因密码子偏好性受到自然选择和突变的影响;而且其密码子偏好性较弱主要受到自然选择效应影响;红三叶叶片转录组编码序列筛选出26个最优密码子,偏好使用G/C结尾。这些结果为深入理解红三叶叶片转录组的密码子使用特点提供了重要线索,并为后续的基因功能研究和蛋白表达载体的构建提供了理论基础。

参考文献

[1] KOZAK M. Possible role of flanking nucleotides in recognition of the AUG initiator codon by eukaryotic ribosomes[J]. Nucleic Acids Research,1981,9(20):5233-5252

[2] ROBBINSON M,LILEY R,LITTLE S,et al. Codon usage can affect efficiency of translation of genes in Escherichia coli[J]. Nucleic Acids Research,2011,12(17):6663-6671

[3] 刘年方. 遗传密码的简并性和通用性[J]. 生物学教学,1996(10):1-2

[4] 姜艳. 小鲵科线粒体基因组密码子偏好性及进化关系的分析[D]. 西安:陕西师范大学,2016:1-11

[5] 李清,罗永坚,葛蓉,等. 显齿蛇葡萄叶绿体基因组密码子使用偏好性分析[J]. 广东农业科学,2022,49(11):162-169

[6] RADINOVIC I,VASILJEVIC S,BRANKOVIC G. Correlations of morpho-agronomic traits and forage quality properties in diverse red clover (Trifolium pratense L.) collections[J]. Journal of Agricultural Sciences Belgrade,2022,67(2):139-151

[7] DIAS P M B,JULIER B,SAMPOUX J P,et al. Genetic diversity in red clover (Trifolium pratense L.) revealed by morphological and microsatellite (SSR) markers[J]. Euphytica,2008,160:189-205

[8] ZYAZICI M A,ACIKBAS S. The Effect of Seed Priming Applications on Germination Parameters of Red Clover (Trifolium pratense L.)[J]. Journal of the Institute of Science and Technology,2021,11(4):3232-3242

[9] DEMIRKOL G. MicroRNA expression under phosphate deficiency stress in red clover (Trifolium pratense L.):a three-year field experiment[J]. New Zealand Journal of Agricultural Research,2022,65:290-301

[10]CHAO Y,XIE L,YUAN J,et al. Transcriptome analysis of leaf senescence in red clover (Trifolium pratense L.)[J]. Physiology and Molecular Biology of Plants, 2018,24:753-765

[11]ZHANG H,TIAN H,CHEN M,et al. Transcriptome analysis reveals potential genes involved in flower pigmentation in a red-flowered mutant of white clover (Trifolium repens L.)[J]. Genomics,2018,110:191-200

[12]NAYDENOVA G. Genotypic and ecological effects on leafiness of red clover (Trifolium pratense L.)[J]. Biotechnology in Animal Husbandry,2013,29:705-714

[13]ERGON ,BAKKEN A K. Breeding for intercropping:the case of red clover persistence in grasslands[J]. Euphytica,2022,218:98

[14]包国媛,祁乐萍,马娟,等. 蚕豆细胞器基因组密码子的使用情况分析[J]. 天津师范大学学报(自然科学版),2023,43(6):6-14

[15]SHARP P M,LI W H. The codon Adaptation Index—A measure of directional synonymous codon usage bias,and its potential applications[J]. Nucleic Acids Research,1987,15(3):1281-1295

[16]WRIGHT F. The ‘effective number of codons’ used in a gene[J]. Gene,1990,87(1):23-29

[17]SUEOKA N. Near Homogeneity of PR2-Bias Fingerprints in the Human Genome and Their Implications in Phylogenetic Analyses[J]. Journal of Molecular Evolution,2001,53(4-5):469-476

[18]SUEOKA N. Directional mutation pressure and neutral molecular evolution[J]. Proceedings of the National Academy of Sciences,1988,85(8):2653-2657

[19]GRANTHAM R,GAUTIER C,GOUY M,et al. Codon catalog usage is a genome strategy modulated for gene expressivity[J]. Nucleic Acids Research,1981,9(1):43-74

[20]赵振宁,余潇,寸孟人,等. 倒提壶(Cynoglossum amabile Stapf et Drumm.)叶绿体基因组密码子偏好性分析[J/OL]. 分子植物育种,https://kns.cnki.net/kcms/detail/46.1068.s.20220630.1511.008.html,2022-07-01/2023-07-30

[21]杜明川,王伟,鲍海娟,等. 葫芦巴叶绿体基因组密码子偏好性分析[J]. 草地学报,2024,32(2):409-418

[22]田春育,武自念,李贤松,等. 扁蓿豆叶绿体基因组密码子偏好性分析[J]. 草地学报,2021,29(12):2678-2684

[23]洪森荣,林顺来,李盈萍,等. 甜高粱叶绿体基因组特征及密码子偏好性分析[J]. 草地学报,2023,31(12):3636-3650

[24]高梦琦,邹建珍,霍小位,等. 基于转录组数据分析药用大黄的密码子使用偏好性[J]. 中草药,2021,52(20):6344-6349

[25]穆赢通,樊东昌,吕丽娟,等. 毛茛科和芍药科叶绿体基因组密码子特征和系统发育比较[J]. 植物研究,2022,42(6):964-975

[26]夏晞,彭劲谕,王大玮,等. 3种榕属叶绿体基因组密码子偏好性分析[J]. 西北林学院学报,2022,37(5):88-94

[27]丁祥青,陈丝雨,陈佳婷,等. 11种金花茶叶绿体基因组密码子偏好性分析[J]. 福建农林大学学报(自然科学版),2023,52(4):473-479

(责任编辑 闵芝智)

猜你喜欢
转录组
红麻肌醇加氧酶基因的分离及表达分析
红麻肌醇加氧酶基因的分离及表达分析
基于云计算的RNA—seq转录组数据分析流程初探
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的玄参根部转录组学研究及萜类化合物合成相关基因的挖掘
多穗柯转录组分析及黄酮类化合物合成相关基因的挖掘
基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘
金钗石斛转录组SSR位点信息分析
人参属药用植物转录组研究进展