耿荣庆,王兰萍,洪 键,范忠军,常 洪,冀德君
(1.盐城师范学院 生命科学与技术学院,江苏 盐城 224051;2.扬州大学 动物科学与技术学院,江苏 扬州 225009)
EGLN1(Egl nine homolog 1)又称脯氨酰羟化酶2蛋白(Prolyl hydroxylase domain protein 2,PHD2),是一个关键的氧传感基因[1]。EGLN1基因能够负调控低氧诱导因子1α(hypoxia-inducible factor-1α,HIF-1α),对低氧特别敏感,可调节低氧状态下HIF-1α蛋白的表达,是HIF-1α蛋白降解的关键[2-5]。EGLN1的降低则引起HIF-1α降解的减少,即HIF-1α在组织内的蓄积,使得HIF-1α诱导一系列低氧反应基因的转录对缺氧反应的细胞进行调控,如促红细胞生成素、血管内皮生长因子、血红素氧化酶-1、诱导型一氧化氮合酶、葡萄糖转运因子-1和糖酵解酶类等,提高细胞和组织对缺氧和缺血环境的耐受,使细胞得以适应缺氧环境而生存,从而达到低氧适应对细胞的保护作用。
近年来,在高原人群高海拔低氧适应性机制方面的研究进一步证实,EGLN1基因是低氧适应的重要调控基因之一[6-13]。鉴于EGLN1基因在低氧适应性方面的重要作用,本研究针对哺乳动物的EGLN1基因进行适应性进化和共进化分析,探讨EGLN1基因是否受到正选择作用以及哪些位点受到了正选择,揭示EGLN1基因内部发生的共进化特征,为深入理解EGLN1基因适应低氧环境的分子机制提供资料。
登录NCBI Blast网站(http://blast.ncbi.nlm.nih.gov/),选择Nucleotide Blast程序,采用默认参数,以家牛EGLN1基因序列(NM_001206046)对数据库进行序列同源性比对搜索。对搜索到的EGLN1基因同源序列数据结果进行手工编辑和分析,剔除重复序列和基因编码区含有终止密码子的无效序列,共获得牛(NM_001206046)、兔(XM_002717333)、犬(XM_546089)、野猪(XM_003133025)、人(NM_022051)、苏门答腊猩猩(XM_002809301)、绿狒狒(XM_003893765)、猕猴(XM_001104870)、黑猩猩(XM_525092)、白颊长臂猿(XM_003267372)、小耳大婴猴(XM_003797426)、短尾负鼠(XM_001378950)、小鼠(NM_053207)、非洲象(XM_003410995)、大熊猫(XM_002917103)等15种哺乳动物的EGLN1基因编码区全长序列。
采用Clustalx1.83[14]软件对EGLN1基因编码区序列进行多序列比对。在序列比对的基础上运用MEGA5.1[15]软件以邻接法(Neighbor joining,NJ)构建基因进化树,进化树各分支的置信度采用1000次自展分析(Bootstrap analysis)进行重复检验。
在核苷酸水平上的正选择通常使用ω来估测[16]。ω是同源编码蛋白序列之间非同义核苷酸替换(dN)和同义核苷酸替换(dS)的比值。正选择位点通过ω(即dN/dS)来确定:ω>1表示非同义突变被固定的速率大于同义突变,即位点受到正选择;ω<1表示同义突变被固定的速率大于非同义突变,即位点受到负选择;ω=1非同义突变被固定的速率与同义突变相同,即位点为中性选择。
不同物种EGLN1基因编码区序列的比对结果运用Datamonkey程序[17],核苷酸替换模型采用由程序自动选择的能最优拟合数据集的分析模型。Datamonkey程序提供单一似然祖先计数法(Single-Likelihood Ancestor Counting,SLAC)、随机效应似然法(Random effects likelihood,REL)以及固定效应似然法(Fixed effects likelihood,FEL),通过3种不同的方法分别对位点选择压力进行分析。
蛋白质位点的共进化特征采用CAPS软件包[18]分析,程序中的阈值设定为0.001,随机抽样值设置为1 000 000,尽量减少假阳性产生的影响。CAPS程序通过检测氨基酸位点的变异是否存在关联来揭示位点间在结构和功能上的相关性。
基于EGLN1基因编码区全序列的进化关系如图1所示。15个物种的基因进化树显示,大熊猫、小鼠的EGLN1基因聚为一类,其余物种的EGLN1基因聚为另一类。由此可见,EGLN1基因的进化关系明显不同于动物分类学中的系统进化关系,表明EGLN1基因的进化可能与功能的进化存在着更为密切的关系。
根据SLAC、FEL和REL 3种不同方法分另筛选出EGLN1基因的正选择位点。在P<0.1的水平上,SLAC方法检测到10个正选择位点,分别为9,55,170,185,194,198,202,228,240和270;FEL方法检测到49个正选择位点,分别为9,87,113,134,152,155,159,162,163,168,169,170,172,174,185,188,190,191,193,197,198,202,203,225,228,266,303,307,314,317,319,321,322,330,335,348,357,375,379,380,387,397,398,401,402,403,408和409;REL方法检测到5个正选择位点,分别为193,317,321,348和379。由SLAC法和FEL法共同鉴定出的正选择位点有9,170,185,198,202和228;由FEL法和REL法共同鉴定出的正选择位点有193,317,321,348和379。在氨基酸水平,这些位点都发生了至少2次以上的替换,排除了假阳性的可能性。
在EGLN1基因上共识别出303组共进化位点,涉及到219个氨基酸位点,这些位点组成具有共进化关系的氨基酸残基,共进化位点的空间位置关系如图2所示。CAPS软件在识别位点间共进化关系时,通常将氨基酸位点的共进化方式设置为4类,即与蛋白质的疏水性和分子量都相关、只与蛋白质的疏水性相关、只与蛋白质的分子量相关以及和二者都不相关。本研究中,196组氨基酸位点的共进化方式与蛋白质的疏水性显著相关(P<0.05);150组氨基酸位点的共进化方式与分子量显著相关(P<0.05);55组氨基酸位点的共进化方式与蛋白质的疏水性和分子量均显著相关(P<0.05)。绝大多数是两两位点间发生共进化,少数是3位点或4位点间的共进化。
图1 基于NJ 法构建的EGLN1基因进化树Fig.1 Gene evolutionary tree of the EGLN1 gene constructed based on the NJ method
图2 EGLN1基因位点间的共进化网络图Fig.2 Coevolution network diagram of EGLN1 gene sites
进化生物学研究的重要内容之一是解析基因在进化过程中受到的选择作用。通常认为,基因在进化过程中往往会同时受到中性选择、净化选择(负选择)和正选择(适应性进化)的共同作用[19-21]。非同义替代能直接影响蛋白质的功能,比同义替代更可能改变生物的适应性。在正选择的作用下,适合度较高的非同义替代比同义替代累积得更快。非同义替代率比同义替代率统计上显著偏高被当作蛋白质发生适应性进化的证据。因此,正选择是分子进化的重要动力,它能够加速同源蛋白的分化,是衡量分子适应性进化的重要标准。
在DNA水平上检测正选择作用的方法主要包括距离法、简约法和最大似然法等[21-22]。最大似然法模型允许蛋白质上位点间存在不同的ω比率,相对于早期在所有世系和位点平均两两比较分类单元间dN和dS而言,最大似然法模型具有更多优势,成为适应性进化研究中使用较为广泛、具有较高检测效力的模型[23]。本研究中,运用基于最大似然算法模型的SLAC、FEL和REL方法,通过不同方法检测到的正选择位点数目虽然存在差异,但在EGLN1基因中都检测到正选择位点,而且部分位点可同时由两种方法检测到正选择,表明EGLN1基因在进化过程中受到了正选择作用。由此推断,哺乳动物EGLN1基因编码区部分氨基酸位点承受着较弱的蛋白质结构和功能限制,在进化过程中受到正选择作用,产生适应性进化(例如,低氧环境的适应性等)。
共进化是揭示分子进化机制的重要内容之一。在蛋白质进化过程中,自然选择的约束体现在结构和功能上。为了实现特定功能,蛋白质结构具有一定的保守性,并由一系列氨基酸间的相互作用来维持。当一个位点上发生的氨基酸残基置换可能会影响到与该位点存在相互作用的其他位点上发生残基置换时,引起相关位点间的共进化,蛋白质从结构和功能上仍维持稳定,即某个功能位点的变异可能被另一位点的变异所补偿,经过自然选择被保留下来[18]。本研究中,在EGLN1基因编码区识别出一定数量的共进化位点,这些预测的位点间可能存在直接或间接的相互作用,从而对维持蛋白质的结构和功能有着重要作用。
参考文献:
[1] Kiss J, Kirchberg J, Schneider M. Molecular oxygen sensing: implications for visceral surgery[J]. Langenbecks Arch Surg, 2012,397(4):603-610.
[2] Semenza G L.HIF-1, O(2), and the 3 PHDs: how animal cells signal hypoxia to the nucleus[J]. Cell, 2001, 107(1):1-3.
[3] Appelhoff R J, Tian Y M, Raval R R,et al. Differential function of the prolyl hydroxylases PHD1, PHD2, and PHD3 in the regulation of hypoxia-inducible factor[J]. J Biol Chem,2004,279(37):38 458-38 465.
[4] Hirota K, Semenza G L. Regulation of angiogenesis by hypoxia-inducible factor 1[J].Crit Rev Oncol Hematol,2006,59:15-26.
[5] Semenza G L. Hypoxia-inducible factor 1 (HIF-1) pathway[J]. Sci STKE, 2007, 407:8.
[6] Fong G H, Takeda K. Role and regulation of prolyl hydroxylase domain proteins[J]. Cell Death Differ,2008,15(4):635-641.
[7] Yi X, Liang Y, Huerta-Sanchez E,et al. Sequencing of 50 human exomes reveals adaptation to high altitude[J]. Science, 2010,329:75-78.
[8] Bigham A, Bauchet M, Pinto D,et al. Identifying signatures of natural selection in Tibetan and Andean populations using dense genome scan data[J]. PLOS Genet, 2010,10:6.
[9] Buroker N E, Ning X H, Zhou Z N,et al. Genetic associations with mountain sickness in Han and Tibetan residents at the Qinghau-Tibetan Plateau[J]. Clin Chim Acta, Int J Clin Chem, 2010,411:1 466-1 473.
[10] Simonson T S, Yang Y, Huff C D,et al. Genetic evidence for high-altitude adaptation in Tibet[J]. Science, 2010, 329:72-75.
[11] Aggarwal S, Negi S, Jha P,et al. EGLN1 involvement in high-altitude adaptation revealed through genetic analysis of extreme constitution types defined in Ayurveda[J]. Proc Natl Acad Sci USA, 2010, 107:18 961-18 966.
[12] Peng Y, Yang Z, Zhang H,et al. Genetic variations in Tibetan populations and high-altitude adaptation at the Himalayas[J]. Mol Biol Evol, 2011, 28:1 075-1 081.
[13] Xu S, Li S, Yang Y,et al. A genome-wide search for signals of high-altitude adaptation in Tibetans[J]. Mol Biol Evol, 2011, 28:1 003-1 011.
[14] Thompson J D, Gibson T J, Plewniak F,et al. The CLUSTAL-X windows interface: Flexible strategies for multiple sequence alignment aided by quality analysis tools[J]. Nucleic Acids Res, 1997, 25(24): 4 876-4 882.
[15] Tamura K, Peterson D, Peterson N,et al. MEGA5: Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods[J]. Molecular Biology and Evolution, 2011, 28:2 731-2 739.
[16] Yang Z, Nielsen R, Goldman N,et al. Codon-substitution models for heterogeneous selection pressure at amino acid sites[J]. Genetics, 2000,155(1):431-449.
[17] Pond S K, Frost S D W. Datamonkey: rapid detection of selective pressure on individual sites of codon alignments[J]. Bioinformatics, 2005, 21:2 531-2 533.
[18] Fares M A, McNally D. CAPS: coevolution analysis using protein sequences[J]. Bioinformatics,2006,22(22):2 821-2 822.
[19] Yang Z H, Swanson W J, Vacquier V D. Maximum-likelihood analysis of molecular adaptation in abalone sperm lysin reveals variable selective pressures among lineages and sites[J]. Mol Biol Evol,2000,17(10):1 446-1 455.
[20] Swanson W J, Yang Z, Wolfner M F,et al. Positive darwinian selection in the evolution of mammalian female reproductive proteins[J]. Proc Natl Acad Sci USA,2001,98:2 509-2 514.
[21] Nei M. Selectionism and neutralism in molecular evolution[J]. Mol Biol Evol,2005,22(12):2 318-2 342.
[22] Suzuki Y, Nei M. Reliabilities of parsimony-based and likelihood-based methods for detecting positive selection at single amino acid sites[J]. Mol Biol Evol, 2001, 18 (12):2 179-2 185.
[23] Li H, Stephan W. Maximum-Likelihood methods for detecting recent positive selection and localizing the selected site in the genome[J]. Genetics, 2005, 171(1):377-384.