杨 兴,刘 西,盛梦诗,刘秋艳,姜丹丹
(大理大学基础医学院,云南大理 671000)
密码子是核酸与蛋白质之间信息传递的基本单位,在生命活动中扮演着重要的角色。密码子有64种,其中3种为终止密码子,不编码氨基酸,其余61种密码子都参与氨基酸的编码,它们共编码20种氨基酸,由此造成了密码子冗余的现象,即一种氨基酸对应多种密码子,这些编码同一种氨基酸的密码子称为同义密码子(synonymous codon)[1]。自20世纪60年代开始,科学家们就对密码子的使用特性进行了深入研究,发现同义密码子的使用频率并不相等,不同物种甚至同一物种不同基因间其同义密码子的使用频率大有不同,具有一定的偏爱性,这种现象称为密码子使用偏性(codon usage bias)[2]。影响密码子使用偏性的因素有很多,包括突变压力[3]、自然选择[3]、基因长度[4]、GC含量[5]、蛋白结构[6]、内含子长度[7]、基因的进化年龄[8]、环境压力[9]、编码蛋白的亲水性与芳香性[10]等。研究物种的密码子偏好性及其影响因素,对于理解生物适应环境的分子机制,探讨近缘物种间的进化关系,发现新基因[11],预测未知基因的功能、预测基因表达水平以及基因的异源表达具有重要的意义。
亚洲带绦虫是人畜共患蠕虫,广泛分布于东南亚,包括韩国、泰国、印度尼西亚等国以及我国的云南、广西、贵州、四川、台湾等省份[12]。先前人们对亚洲带绦虫的研究主要集中在形态学、流行病学、线粒体遗传学、蛋白表达,而基于基因组水平的生物信息学研究却鲜见报道。2016年,中国农业科学院兰州兽医研究所家畜寄生虫病创新团队成功解析了亚洲带绦虫基因组[13],并从中预测出13 323个基因,这为亚洲带绦虫基因表达和密码子偏性研究打下了基础。本研究以亚洲带绦虫基因组数据为材料,通过分析亚洲带绦虫基因密码子组成的各项指标,研究其密码子使用特性及影响密码子使用偏性的因素,以期为亚洲带绦虫重要功能基因的表达、分子进化和物种进化研究提供参考。
从http://www.wormbase.org的亚洲带绦虫基因组数据中获取了13 323条编码序列,从中选择以ATG为起始密码子,TAA、TAG、TGA为终止密码子,且长度大于300 bp的11 203条亚洲带绦虫CDS序列作为分析样本。
通过Perl语言程序对序列进行筛选和处理。
利用CodonW 1.4.4软件(http://codonw.sourceforge.net)计算密码子组成和偏性指标。密码子组成的相关指标:①GC含量;②同义密码子第3位上各碱基含量(A3s、T3s、G3s、C3s);③密码子第1、2、3位的G+C含量(GC1、GC2、GC3);④密码子第1、2位上GC含量的平均值(GC12);⑤同义密码子第3位上的GC含量(GC3s)。密码子使用偏性的相关指标:①同义密码子相对使用度;②有效密码子数的取值范围为20~61之间,值越小表明基因的密码子使用偏性越大;③密码子适应指数等。
中性绘图分析(neutrality plot)是一种衡量密码子偏性形成原因的有效方法。中性绘图分析是以GC12为纵坐标,GC3s为横坐标,通过分析GC12与GC3s之间的相关性来研究密码子偏性的影响因素。若GC12与GC3s显著相关且回归斜率接近1,则表明密码子3个位置的碱基组成无差异,密码子使用受到突变的影响。如果GC12与GC3s不相关且回归线斜率接近0,则表明密码子3个位置的碱基组成存在差异,选择是密码子使用偏性的主要力量[14]。
在DNA的两条互补链之间,如果不存在任何突变或选择压力上的偏性,则碱基A的含量应与T相等,G与C相等。这种方法针对的是有4种同义密码子的氨基酸,包括丝氨酸(TCA、TCG、TCT、TCC)、亮氨酸(CTA、CTG、CTC、CTT)、精氨酸(CGA、CGT、CGC、CGG)、脯氨酸、苏氨酸、缬氨酸、丙氨酸及甘氨酸。以各基因中上述氨基酸对应密码子的A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标制图,以(0.5,0.5)坐标为中心,从这个中心出发的矢量代表了奇偶偏好的方向和程度[15]。
对应性分析(corresponding analysis,COA)一种广泛用于分析不同基因间同义密码子使用偏性主要原因的方法。该方法是将所有基因分布到59维向量空间上,并从这个多维空间中选取影响力最大的2个轴来研究基因向量和基因间的RSCU差异,进而推测影响密码子使用偏好发生的原因[16]。
参照文献[17]方法,以高表达基因(核糖体蛋白基因、翻译延长因子基因和Actin蛋白基因等)的序列作为参考,计算出亚洲带绦虫各基因的CAI值。再根据各基因CAI值的大小进行排序,得到高表达组和低表达组(各占基因总数的5%),计算出各组的RSCU值,最后通过卡方检验确定出最优密码子。
经筛选,共获得11 203条CDS序列用于密码子分析,平均长度为1 386 bp。结果显示,CDS序列的平均GC含量为50.20%,高于整个基因组的GC含量(43.15%),各序列的GC含量分布范围在25.9%~74.1%(图1)。密码子3个位置的平均GC含量分别为GC1(43.90%)、GC2(56.60%)、GC3(50.10%)。GC3s分布范围在10.8%~97.5%,均值为50.11%。
图1 亚洲带绦虫CDS序列的GC含量分布
有效密码子数ENC反映的是一个基因中所有用到密码子种类的多少,其数值范围在20~61。一般情况下,ENC值越小,密码子偏好程度越大,基因表达量越高。亚洲带绦虫基因ENC分布范围为20.64~61,平均值56.08。ENC取值35是区分密码子偏好性强弱的标准[18]。亚洲带绦虫基因中ENC<35的有61条,占总数量的0.54%,ENC>35的有11 142条,占总数的99.45%。结果表明,亚洲带绦虫基因密码子使用偏好程度整体较低,仅有部分基因具有较强的偏好性。
由图2分析结果可以看出,GC12与GC3s呈现出正相关,但差异性不显著(回归系数为0.061 5),说明亚洲带绦虫基因密码子不同位置的碱基组成差异较大,其密码子的使用更多地受到了选择压力的影响。
图2 中性绘图分析结果
以亚洲带绦虫基因组各基因的ENC值为纵坐标,GC3值为横坐标作图(图3)。图中大部分点都分布在远离期望曲线的地方,只有少部分基因点分布在期望曲线周围,说明除了突变压力影响亚洲带绦虫密码子的使用外,选择压力等其他因素也在亚洲带绦虫密码子使用偏性的形成中起到重要作用。
图3 亚洲带绦虫ENC-plot曲线
为了更准确的显示观测ENC与期望ENC之间的差异,进行了(ENCexp-ENCobs)/ENCexp计算。如图4所示,(ENCexp-ENCobs)/ENCexp的比值主要集中在-0.1~0.1之间,说明观测ENC与期望ENC之间存在较小的差异。这一结果说明突变不是影响亚洲带绦虫密码子使用的唯一因素,但确实是一个重要的因素。
图4 ENC比值频率分布
采用PR2-plot分析了亚洲带绦虫各基因密码子中4个碱基组分嘌呤(A和G)与嘧啶(T和C)之间的关系。如图5所示,大部分基因都集中在第3象限,表明密码子的第3位中C和T使用频率高于A和G,4种碱基均不均衡使用,暗示亚洲带绦虫密码子使用模式除了受到突变影响外,还受到了其他因素(如选择)的影响。
图5 PR2分析
本研究基于RSCU对应性分析发现,第一轴存在6.54%的差异,另三轴依次分别为4.91%、4.07%、3.43%,说明第一轴对亚洲带绦虫密码子使用偏性影响最大。为了研究GC含量对密码子偏性的影响,以第一、二轴为纵、横坐标将各基因分布于平面上(图6),可以看出GC含量高于60%和GC含量低于45%的两类基因集中分布在不同的区域,表明GC含量对密码子使用模式起到了重要作用。
图6 基于RSCU的对应性分析
有研究表明,蛋白质的亲水性(Gravy)与芳香度(Aromaticity)影响着密码子使用偏性[19-20]。为此,以亚洲带绦虫基因的ENC值为纵坐标、Gravy和Aromaticity为横坐标作图和相关性分析(图7和图8),结果显示,亚洲带绦虫ENC值分别与Gravy和Aromaticity值显著相关(r=-0.082 5,P<0.01;r=0.055,P<0.01),提示蛋白质的亲水性和芳香度与密码子使用偏性有关。
图7 ENC与蛋白亲水性的关系绘图
图8 ENC与蛋白芳香性的关系绘图
在果蝇[21]、猪带绦虫[19]、棘球绦虫[22]等多种生物基因组中发现,密码子使用偏性与基因的长度有关。为探究这一现象是否也存在于亚洲带绦虫中,以基因的ENC值为纵坐标、蛋白长度(protein length)为横坐标作图并进行相关性分析(图9)。结果显示,亚洲带绦虫基因的ENC值与蛋白质长度呈显著正相关(P<0.01),提示蛋白长度影响着亚洲带绦虫密码子的使用模式,长度越长,其密码子的使用偏性越弱。
图9 ENC与蛋白长度的关系绘图
采用Liu Q的方法对亚洲带绦虫基因组序列进行最优密码子的确定,共筛选出UUC、CUC、CUG、AUC、GUC、GUG、UAC、CAC、CAG、AAC、AAG、GAC、GAG、UCC、UCG、CCC、CCG、ACG、GCG、UGC、CGU、CGA、CGG、GGU、GGC共25个最优密码子,分别编码Phe、Leu、Ile、Val、Tyr、His、Gln、Asn、Lys、Asp、Glu、Ser、Pro、Thr、Ala、Cys、Arg、Gly共18种氨基酸(表1)。这25个最优密码子中以G、C结尾的有22个,以U结尾的2个,以A结尾的1个,表明亚洲带绦虫合成蛋白质时优先使用以G或C结尾的密码子。
表1 亚洲带绦虫基因组中高、低表达样本的密码子用法
生物最本质的特征是进化,而密码子使用模式则是生物进化过程中最重要的证据。研究不同物种基因组中密码子的使用模式以及影响这种模式形成的因素,对于了解基因组特征和分子进化具有重要的启示作用。亚洲带绦虫作为重要的人兽共患寄生虫,由于基因组数据的缺乏,其遗传背景和分子进化研究起步较晚,而国内外对亚洲带绦虫密码子偏好性相关报道更是少之又少。本研究为了了解亚洲带绦虫基因组密码子使用偏好特征及其可能的影响因素,首先对预测的亚洲带绦虫CDS序列进行筛选,去除长度小于300 bp的序列,最后共获得11 203条CDS用于密码子分析。
目前,用于解释密码子使用偏性形成原因的理论主要有两种,一种是中性理论,另一种是“选择-突变-漂变”模型[23]。中性理论认为密码子第3位的突变是中性选择结果,因此,同义密码子使用频率应该是随机的。“选择-突变-漂变”模型认为密码子使用偏性是突变压力、遗传漂变和弱的自然选择的3种力量共同作用的结果。然而,近年来随着越来越多物种的基因组的测序完成,密码子研究的不断深入,发现这两种理论已不足以解释这一现象了,更多影响密码子使用模式的因素被报道出来。在本研究中,影响绦虫密码子使用的因素至少包括以下几种:突变、选择、碱基组成、基因长度、蛋白的亲水性及芳香度。
碱基组成是基因组的一个重要特征,也是影响密码子使用偏性的重要因素[19]。GC含量高的物种如细菌、古细菌、真菌、小麦、大麦和水稻等,其密码子的第3位偏向于以G或C结尾[24-25]。同时,AT含量较高的物种如旋盘尾丝虫、山羊支原体和恶性疟原虫等物种密码子偏向以A或T结尾[26-28]。在本研究中,亚洲带绦虫编码区GC含量为50.20%,理论上密码子第3位会稍偏好以G或C结尾,而本研究实际观察结果与预期结果一致,提示碱基组成是影响亚洲带绦虫密码子使用模式的重要因素。
通常,密码子的使用偏性会受到基因长度的影响[19]。在本文中,基因长度似乎对亚洲带绦虫密码子使用偏性起到了重要的作用(即密码子使用偏性与基因长度呈显著负相关)。相似的结果已在多种生物中发现,如酵母、秀丽线虫、果蝇、拟南芥、白花蝇子草等[20]。Moriyama E N等[29]认为有一种理论可以解释这种现象,即如果长度较长的基因和长度较短的基因行使同样的功能,则那些较长的基因需要消耗更多的能量并且对机体是不利的,因此在选择压力的作用下,高表达基因缩短了长度,最终导致了密码子使用偏性与基因长度呈负相关。
确定最优密码子的首要环节是建立高、低表达样本库,而建立高、低表达样本库的方法有两种,一种是根据ENC值的大小,另一种是根据CAI值的大小。建库方法不同,结果亦略有差异。本研究是在后一种方法的基础上,进一步利用卡方显著性检验来确定最优密码子的。经鉴定,共25种密码子被确定为最优密码子,除CGU、CGA 和GGU外,其余均以G或C结尾。相似的结果已见于绦虫纲的其他物种包括猪带绦虫[19]、牛带绦虫[20]、多房棘球绦虫[22]、细粒棘球绦虫[22]、微小膜壳绦虫[22]等,这可能暗示着这些近缘物种间经历了相似选择进化压。亚洲带绦虫最优密码子的确定对于今后功能基因的外源表达、简并引物的设计及生物学研究具有重要的理论和现实意义。