新型冠状病毒(SARS-CoV-2)的密码子偏爱性分析

2021-03-26 03:57尚方建石哲芳
中国人兽共患病学报 2021年1期
关键词:偏性同义密码子

尚方建,石哲芳,王 聪,刘 奇

2019年12月,中国武汉报道了一种由新型冠状病毒(2019-nCoV)导致的肺炎流行,随后该病毒在全球各地陆续发现。国际病毒分类委员会(International Committee on Taxonomy of Viruses,ICTV)将该病毒命名为严重急性呼吸综合征冠状病毒2(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)[1]。同时,世界卫生组织(WHO)将该病毒引起的肺炎命名为COVID-19(Coronavirus Disease 2019)[2]。截止2020年7月,作为第7种能感染人类的冠状病毒,SARS-CoV-2已经导致全世界15 581 009人确诊感染,累计导致635 173人死亡,死亡率4.07%[3]。

在蛋白质编码过程中,某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这种现象被称为同义密码子的使用偏爱性(Synonymous codon csage bias)[4-5]。特异性的核酸偏倚与病毒的致病性有关,可增强其复制能力以及逃避适应性免疫[6]。因此,研究密码子使用模式的差异,有助于提供病毒进化的证据,丰富理解病毒与宿主相互之间的关系[7]。

因此,本研究分析了SARS-CoV-2影响密码子使用偏性的因素,并在密码子偏爱性的基础上,分析来源于全球20多个国家和地区的SARS-CoV-2的进化关系。从而了解SARS-CoV-2的基因动态变化,为其预防和监控提供新的依据。

1 材料与方法

1.1 材料

1.1.1材料序列来源 本研究选用SARS-CoV-2的基因编码序列CDS均来源于NCBI(https://pubmed.ncbi.nlm.nih.gov/)。截止至2020年3月末,共下载931条序列,宿主均来源于人。经过筛选,用于国家和地区分析的分别是:澳大利亚7条、巴西1条、中国95条、哥伦比亚1条、芬兰1条、法国1条、希腊4条、印度4条、伊朗17条、以色列2条、伊拉克1条、秘鲁1条、南非1条、菲律宾1条、韩国4条、西班牙24条、意大利7条、日本3条、马来西亚3条、尼日利亚1条、巴基斯坦3条、泰国2条、土耳其1条、美国722条、越南6条、瑞典1条、中国台湾3条。

1.1.2软件 EMBOSS(http://emboss.toulouse.inra.fr/?tdsourcetag=s_pcqq_aiomsg)子程序CUSP计算各密码子Frequency值,CodonW1.4.2用于计算密码子各位置的GC含量及有效密码子数(Effective number of codons,ENC),使用SigmaPlot14.0绘制ENC-Plot,奇偶规则分析、中性分析,SPSS Statistics 22.0绘制聚类分析。

1.2 方 法

1.2.1有效密码子数ENC(Effective number of codons) ENC[8-9]被用来描述某个基因的密码子偏好程度,ENC的取值在20~61范围之间。20表示极端偏倚,即基因只使用每组同义密码子中的一个,61表示每个密码子均被使用,该值的大小与密码子使用偏性的强弱成负相关。当ENC>35,表示该基因密码子使用偏性弱,反之,则确定密码子偏性强。

1.2.2相对同义密码子使用度RSCU(Relative synonymous codon usage) RSCU[10]是指某一特定的密码子在编码对应氨基酸的同义密码子间的相对使用概率。其计算方法为某一密码子使用频率与其在无偏好性使用时预期频率之间的比值。若某一密码子的RSCU值=1,表示该密码子使用模式无偏好性;反之,提示该密码子使用存在偏好性。当RSCU>1时,表示该密码子为偏爱密码子;当RSCU值≥1.5,说明该密码子的使用频率高,被称为高频密码子。

1.2.3ENC-Plot分析 ENC-Plot关联分析以GC3s为自变量、ENC为因变量构建散点图,分析ENC和GC3s之间的相关性[11]。同时,按照密码子使用偏性在只受突变压力影响而不受选择压力影响的条件下构建标准曲线。若代表该基因的点在标准曲线上及其附近,表明密码子使用偏性主要受突变影响而非选择压力影响;若代表基因的点落在标准曲线下方较远处,表明密码子组成主要受选择压力的影响。

1.2.4中性绘图分析 中性分析是衡量选择对密码子使用偏爱性影响强度的一种分析方法。该方法首先计算基因密码子第1、2位的GC含量的平均值(GC12)与第3位的GC含量(GC3s)[12]。以GC3s为自变量、GC12为因变量绘制散点图。代表基因的点分布于对角线上(斜率为1)或者附近,说明密码子的使用模式受突变的影响大;反之,散点形成曲线斜率越小甚至与横轴平行,表明基因在密码子使用模式受环境选择的影响大。

1.2.5Parity Rule 2分析 Parity Rule 2分析又称奇偶规则分析[13],是研究密码子碱基组成的一种方法。基因在不受突变和环境选择压力时,碱基内部组成是A=T、C=G。而现实中,由于受到基因突变和环境选择压力的影响,基因组编码序列中的GC使用含量常常不均等,尤其密码子的第3位明显偏离链内相等规则。该方法分析由4个同义密码子编码的氨基酸(丙氨酸、精氨酸、甘氨酸、亮氨酸、脯氨酸、丝氨酸、苏氨酸和缬氨酸),将G3/(G3+C3)和A3/(A3+T3)的计算结果绘制成图。坐标(0.5,0.5)代表PR2原则(A=T,C=G)。散点偏离中心的距离与位置表示该基因偏离规则的程度与方向。

1.2.6聚类分析 根据密码子Frequency计算值将来源全球20多个国家和地区的流行株进行分组,相似性较高的数据组归聚在同一组群,相似性较低或无相似性的数据组则单独聚为一类,分析SARS-CoV-2密码子的进化关系。

2 结 果

2.1有效密码子数目分析 SARS-CoV-2基因组是由4个结构蛋白[S蛋白(spike glycoprotein)、E蛋白( envelope)、M蛋白( membrane)、N蛋白(nucleocapsid)]和8个非结构蛋白(ORF1a、ORF1ab、ORF3a、ORF6、ORF7a、ORF7b、ORF8b、ORF10)组成,它们的ENC平均值见图1。SARS-CoV-2的各蛋白的ENC均值分布在26.60~57.81之间(47.93±5.35)。说明SARS-CoV-2的各蛋白CDS的密码子使用均存偏倚现象。其中,ORF7b基因的ENC均值是26.60,低于35接近20,提示该蛋白基因的密码子有极强的偏爱性使用特征,且该蛋白被高度表达[14],推测其在感染过程中发挥重要的功能,应该引起我们的重视。

图1 SARS-CoV-2各蛋白ENC值比较Fig.1 Comparison of ENC values of proteins of SARS-CoV-2

2.2SARS-CoV-2的高频密码子与相对密码子使用度 RSCU可直观的说明密码子使用偏好,结果见表1。SARS-CoV-2的12种蛋白的偏爱使用密码子(RSCU>1)个数依次是27、24、25、16、27、26、24、20、24、12、28、0。SARS-CoV-2的偏好密码子以A/U结尾约占84.98%(215/253)。多数蛋白(至少6种蛋白)共有的高频密码子有ACA、ACU、AGA、AUU、CCU、CUU、GCU、GGU、GUU、UCA、UCU、UUA,在基因工程中有助于提高基因组的表达量。ORF10没有偏爱密码子,表明该基因的密码子没有使用偏性。

表1 SARS-CoV-2各蛋白相对同义密码子使用度(RSCU)Tab.1 SARS-CoV-2 proteins show a preference for synonymous codons

LysAAA1.25 1.14 1.31 1.29 1.26 1.27 1.50 1.71 0.00 2.00 0.00 AAG0.75 0.86 0.69 0.71 0.74 0.73 0.50 0.29 0.00 0.00 0.00 AspGAU1.38 0.33 1.12 1.29 1.26 1.08 1.49 1.00 1.00 1.14 0.00 GAC0.62 1.67 0.88 0.71 0.74 0.92 0.51 1.00 1.00 0.86 0.00 GluGAA1.42 1.71 1.60 1.46 1.47 1.82 0.40 1.00 2.00 1.33 0.00 GAG0.58 0.29 0.40 0.54 0.53 0.18 1.60 1.00 0.00 0.67 0.00 CysUGU1.40 2.00 0.47 1.63 1.64 0.86 0.00 1.00 1.00 1.43 0.07 UGC0.60 0.00 0.62 0.37 0.36 1.14 0.00 1.00 1.00 0.57 0.07 TrpUGG1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 1.00 1.00 0.00 ArgCGU1.282.141.111.451.561.000.00 1.20 0.00 3.000.00 CGC0.14 0.86 1.01 0.61 0.55 1.00 0.00 0.00 0.00 0.00 0.00 CGA0.00 0.43 0.47 0.25 0.320.00 0.00 0.00 0.00 0.00 0.00 CGG0.29 0.00 0.19 0.17 0.14 0.00 0.00 0.00 0.00 0.00 0.00 SerAGU1.03 1.60 1.41 1.57 1.56 1.36 0.00 0.00 0.00 1.28 0.00 AGC0.30 0.80 0.74 0.30 0.23 0.55 0.00 0.86 0.00 0.00 0.00 表1(续)AACodonSMNORF1abORF1aORF3aORF6ORF7aORF7bORF8ORF10ArgAGA2.86 1.29 2.58 2.75 2.52 3.00 0.00 4.80 0.00 3.00 0.00 AGG1.43 1.29 0.64 0.76 0.92 1.00 6.00 0.00 0.00 0.00 0.00 GlyGGU2.30 1.43 1.51 2.55 2.61 2.00 0.00 1.00 0.00 2.40 0.14 GGC0.73 0.86 1.15 0.61 0.64 0.86 0.00 2.00 0.00 0.00 0.14 GGA0.82 1.71 1.17 0.74 0.67 1.14 0.00 1.00 0.00 1.60 0.00 GGG0.15 0.00 0.17 0.10 0.09 0.00 0.00 0.00 0.00 0.00 0.00

2.3ENC-Plot分析 通过ENC-Plot分析可以进一步了解SARS-CoV-2密码子使用偏性的影响因素。如图2所示,SARS-CoV-2的多数蛋白位于标准曲线略下方,说明其密码子偏倚除了受突变因素的影响,选择压力的影响对其也十分重要。值得关注的是,ORF10蛋白的基因位于标准曲线上,概率为99.6%(829/832),表明突变压力对该蛋白的密码子偏爱性的影响更为重要。571个ORF7b蛋白基因全部在距离标准曲线较远的下方,表明自然选择是塑造ORF7b蛋白的密码子使用方式的主要因素,而突变对该蛋白的作用极其微弱。

图2 SARS-CoV-2的各蛋白ENC-Plot分析Fig.2 ENC-Plot analysis of each protein of SARS-CoV-2

2.4中性绘图分析 进一步分析影响SARS-CoV-2密码子偏爱性的因素,如图3所示,S、M、N、E和ORF1ab蛋白的线性回归系数(RC)分别是0.363 0、0.090 0、3.482 8、0.034 8和0.226 7,回归模型均有统计学意义(P<0.05)。从结果中可见,选择压力对S、M、N、E和ORF1ab等蛋白基因的作用强于突变压力。

图3 SARS-CoV-2部分蛋白的中性绘图分析Fig.3 Neutral plot analysis of partial protein coding genes of SARS-CoV-2

2.5PR2分析 为了消除定向突变(排除2或6个同义密码子的氨基酸)对密码子偏倚的影响,绘制了PR2分析,结果见图4。其中,所有CDS密码子的第3位A≠U、C≠G,说明SARS-CoV-2的密码子使用是不平等的。A3/(A3+T3)<0.5的概率是99.9%(8 279/8 282),G3/(G3+C3)<0.5的概率是80.0%(6 625/8 282)。即密码子第3位T的使用频率高于A,C的使用频率高于G。多数点位于y<0.5以下,图中显示左下方有5 212个点,右下方有1 656个点。提示该病毒的第3位密码子C/T的使用频率较高,即嘧啶的使用频率高于嘌呤。在调控SARS-CoV-2密码子偏好性的影响因素中,突变和自然选择对SARS-CoV-2的调控同时起着积极的作用。

图4 SARS-CoV-2的各蛋白编码基因的PR2分析Fig.4 PR2 analysis of each protein coding gene of SARS-CoV-2

2.6聚类分析 基于密码子偏爱性指标中各密码子使用频率(Frequency),将SARS-CoV-2以国家和地区分组做聚类分析,分析来自全球20多个国家和地区的SARS-CoV-2密码子偏爱性进化关系(图5)。S蛋白基因有两个聚集群,在第一个聚集群中,来源美国、以色列和希腊等国家的SARS-CoV-2紧密聚集为一类,紧密聚集表明密码子使用偏爱性具有较高的相似性,而法国和秘鲁则单独聚为一类。ORF1ab蛋白基因中,来源美国的SARS-CoV-2单独聚类。M蛋白基因中,来源越南的单独聚类;N和E蛋白基因中,来源韩国的单独聚类。可见,SARS-CoV-2的各蛋白基因密码子使用偏性在全球20多个国家和地区均有不同程度的聚类,提示SARS-CoV-2的密码子在多个国家和地区的流行中逐步发生改变,这种改变可能与密码子的同义替换和传播路线有关。

图5 SARS-CoV-2的部分蛋白聚类分析Fig.5 Cluster analysis of partial proteins of SARS-CoV-2

3 讨 论

SARS-CoV-2的出现给全球公共卫生带来了严峻的挑战,SARS-CoV-2具有很强的传染性,通过直接接触和气溶胶等途径迅速传播[15]。虽然疫情在中国得到有效控制,但是海外疫情仍十分严峻,研究SARS-CoV-2的密码子偏爱性及其影响因素,对其监控、预防和病毒溯源等有着深远的意义。

密码子偏倚的影响因素诸多,包括突变压力、环境选择、基因长度[16]、tRNA丰富度[17]、器官特异性[18]等。研究表明,密码子使用偏爱性弱的病毒更能适应各种具有不同密码子使用偏好的宿主[19]。ENC结果显示,SARS-CoV-2的密码子偏倚较弱,且密码子使用偏性不稳定,提示其在感染未知宿主方面仍有巨大潜能,这与Mahmoud等[20]研究冠状病毒的论证相似。RSCU值提示SARS-CoV-2的密码子多以A/U结尾。此外,总结各蛋白基因的高频密码子也有助于设计减毒疫苗和优化基因的表达量。

ENC-Plot分析、中性绘图分析和PR2分析显示,SARS-CoV-2的密码子偏爱性同时受突变压力和自然选择的双重影响,且以自然选择为主,与田明明等[21]对人源SARS-CoV的研究结果相似;而与Fernando早期研究认为SARS-CoV-2的密码子使用主要受突变影响的结论不同[22]。我们推测,自然选择成为影响SARS-CoV-2密码子偏爱性的主要因素,这可能与其跨物种传播及近期快速在各地区、各种族人群之间的快速传播有关。

来源全球20多个国家和地区的SARS-CoV-2密码子偏爱性进化关系的聚类分析显示,韩国、越南、法国、秘鲁、美国和西班牙的SARS-CoV-2的部分蛋白基因的密码子使用偏性与其他国家有明显差别,可能与病毒的本土起源及大量传播有关。本研究还发现,美国的SARS-CoV-2毒株与中国地区的流行株密码子偏爱性差异较大,分属不同聚类,而与以色列和希腊等国家来源的SARS-CoV-2密码子偏性有着较高的相似性,该结果提示美国SARS-CoV-2流行毒株来源欧洲及亚洲其他国家。这也与Joseph R等的研究结论符合,即美国COVID-19疫情早期是由欧洲毒株传入所致,并在美国国内传播[23]。

综上所述,环境选择对SARS-CoV-2多数蛋白基因的密码子的偏爱性起主要作用,但突变也具有积极的推动作用。SARS-CoV-2在不同国家和种族之间的传播很可能是加速基因变异的诱因,这提示我们仍不能放松警惕,同时应加强对SARS-CoV-2密码子偏爱性进化的检测和分析。

利益冲突:无

猜你喜欢
偏性同义密码子
独行菜抗逆相关转录因子LaDREB密码子偏性与进化分析
密码子与反密码子的本质与拓展
until用法巩固精练
西夏文《同义》重复字研究
10种藏药材ccmFN基因片段密码子偏好性分析
西夏文《同义》考释三则
看待中药毒性 厘清三大误区
密码子偏性分析方法及茶树中密码子偏性研究进展
茶树CsActin1基因密码子偏性分析
烟草叶绿体密码子的偏好性及聚类分析