陈 星,沈永义,张亚平,
(1. 云南大学 生物资源保护与利用实验室,云南 昆明; 2. 中国科学院昆明动物研究所 遗传资源与利用国家重点实验室,云南 昆明)
生物进化论的核心包括适应进化机制(adaptive evolution)和选择作用(selection)。其中适应性进化指生物在分支发展过程中, 局部结构和功能发生变化以适应特殊环境。在 1859年《物种起源》发表后的 100多年里, 自然选择学说不断发展完善, 基本上成为了进化论的主流。物种突变选择可分为正选择和负选择(即纯净化选择)(purifying selection)。正选择(positive selection), 也称达尔文选择, 即当群体中出现能够提高个体生存力及繁衍力的突变时,具有该基因型的个体较其它个体将更可能存活并遗留更多子代, 导致突变基因型最终得以在整个群体中扩散和固定。基因水平的适应性进化的一种重要方式即为基因通过正选择得到积累并保持有利突变, 改变蛋白结构和功能, 进而适应外界变化(Shen, 2010)。线粒体DNA由于其具有进化速度快、母系遗传及易扩增等优点, 已成为分子进化研究中的好材料, 被许多研究所采用(Hebert et al, 2003;Schindel & Miller, 2005)。
线粒体是存在于绝大多数真核细胞内的一种基本而重要的细胞器, 它通过氧化磷酸化为真核细胞提供>95%的能量, 且拥有自身的遗传物质和遗传体系, 但由于基因组大小有限, 线粒体是一种半自主性的细胞器。不同生物线粒体的大小、数量及外观等均不同(Coleman et al, 1991; Nosek et al, 1998;Unseld et al, 1997)。线粒体DNA (mtDNA)编码呼吸链中氧化磷酸化所需的13种蛋白、22种tRNA和2种rRNA(16S和12S)(Gray et al, 1999)。其中, 与呼吸链有关的为复合物I (NADH:泛醌, 氧化还原酶,nad基因编码)、复合物II (琥珀酸氧化还原酶, sdh基因编码)、复合物III (泛醌:细胞色素C还原酶; cob基因编码)、复合物IV (细胞色素C氧化酶; cox基因编码)及复合物V (ATP合成酶, atp基因编码)。线粒体中的蛋白质翻译主要依靠其内部的 mRNA来完成, 通常, 5s rRNA含量非常稀少, 除了mtDNA自身编码的一些重要功能蛋白之外, 核基因(nDNA)也会编码一些特异蛋白并转运至线粒体, 比如一些小RNA(small RNA)及转运RNA(tRNA)。因此, 线粒体正常功能的行使还与核基因组有关 (Tzagoloff& Myers, 1986)。
虽然普遍认为 mtDNA是保守的 (Feagin et al,1988), 但是该基因组在不同生物中的基因数目、重排和表达在结构和大小上均呈现显著变化(Cummings, 1992)。例如, 多数 mtDNA 为环状(Oldenburg & Bendich, 1998), 但也有物种具线性mtDNA (Kayal et al, 2012)。线粒体基因组的大小从<6 kb(恶性疟原虫)到>200 kb (陆生植物)不等, 而拟南芥mtDNA是目前所测的最大的线粒体基因组(Allen, 2003), 为366 924 bp, 距离它较近的普氏立克次氏体真菌的线粒体基因组仅为其大小的 1/3(Andersson et al, 1998)。这种基因组大小的差异主要存在于非编码区, 拟南芥中有>80%的非编码区, 立克次氏体中仅有24%, 而大多数原生生物的线粒体基因组则含有<10%的非编码序列 (Gray, 1998)。
mtDNA的全测序分析显示基因种类变化的相似性 (Paquin et al, 1997)。顶覆虫(变形虫) mtDNA为5 966 bp, 仅编码包括16S rRNA和12S rRNA三个蛋白, 无 5S rRNA或者 tRNA的基因; 人类mtDNA(16 569 bp)无5S rRNA的基因, 但含有13个与呼吸链有关的蛋白和用于转运的最小量tRNA;拟南芥 mtDNA是人类 mtDNA的22倍, 含有5S rRNA的基因, 但所编码的蛋白仅为人类线粒体的2.5倍 (32:13), 事实上, 拟南芥中的两个 tRNA 基因在进化过程中混杂了叶绿体的基因组, 因此, 其线粒体基因组含有1% 的叶绿体基因组 (Unseld et al, 1997)。
线粒体“内共生”起源学说的提出始于 19世纪, 之后随着分子生物学手段的进步, Margulis(1970)又对其进行了进一步阐述。“内共生”学说主要是指线粒体是一个早期共生于一个只含有细胞核的寄主细胞内的真细菌的直系后代 (Andersson et al, 1998; Lang et al, 1999; Gray et al, 1989; Gray&Doolittle, 1982)。应用rRNA序列进行的系统发育重建和线粒体全基因组扫描进一步支持了这一假说(Bonen et al, 1977; Yang et al, 1985)。纵观这十年的研究发现, 线粒体基因组即为细菌基因组的一种形式。基因组测序的数据强有力地支持线粒体起源于α-变形菌门的一个亚群, 且为单系起源 (Andersson& Kurland, 1990)。在过去的几年里, 大多数类似细菌 (原生动物异养鞭毛虫)的线粒体基因组全测序完成和大多数似线粒体的真细菌 (普氏立克次氏体)基因组测序的完成, 成为目前划分线粒体与其近缘真细菌之间界限的标志 (Andersson et al, 1998)。
在线粒体进化过程中, 其大小、编码和非编码基因的比例以及基因顺序的保守性等均呈现不同的进化方向。植物 mtDNA出现扩张, 而动物mtDNA却减少(Fraser et al, 1995, 1997, 1998;Himmelreich et al, 1996; Rivera et al, 1998), 尤其是在氨基酸合成、核苷酸合成、无氧糖酵解及其调控方面均出现大量缺失。通过比较普氏立克次氏体和异养鞭毛虫的线粒体基因组可见, 在普氏立克次氏体中缺失的主要是一些生物合成的辅因子, 如脂肪酸和磷脂代谢的辅因子以及细胞膜合成及细胞分裂的辅因子等 (Rivera et al, 1998), 而这些“消失”的遗传信息很大程度上固定在细胞核中, 并由细胞核进行表达和调控 (Covello & Gray, 1992)。
与核基因组相比较, 线粒体基因组具有其独特的遗传特性, 如母系遗传、缺乏重组及进化速率快等。中性学说和“分子钟”理论的提出奠定了进化生物学中“中性进化”理论的基础 (Kimura, 1968)。很多恒温动物系统发育关系的构建均基于此假说,且利用“标准的线粒体时钟”来完成 (Klicka & Zink 1997; Aleixo, 2004)。同时, 动物的能量代谢绝大部分发生在线粒体, 生物运动能力的进化与线粒体的进化密切相关。利用线粒体基因组的比较从能量代谢的角度研究生物进化是一种有效的手段 (Shen,2010)。另外, mtDNA 的突变会导致某些蛋白功能的改变, 从而影响生物的适应能力, 利用生物信息学手段从分子角度研究mtDNA的突变将为后续的一些与线粒体相关的疾病研究提供基础材料(Wallace, 2010)。
时间估算
在以核苷酸或氨基酸替代率大致恒定的前提下, 通过观察相关物种的核苷酸或氨基酸替代率来确定遗传事件的发生, 称为分子钟假说(Zuckerkandl & Pauling, 1965)。目前, 利用分子钟来估计物种的分歧时间以及重建生物进化的时间尺度被广泛应用。把基因积累比作时钟记录下发生在不同时间的遗传事件的方法, 为我们解决一些遗传学问题提供了新思路。基因时钟有时也会产生随机变化, 且各个事件改变的速率不同, 因此用系统发育学来解释物种的分歧、扩张、迁徙以及新物种形成的时间显得尤为重要(Avise, 2000)。利用mtDNA来重建系统发育关系, 特别那些基于 mtDNA全基因组重建的系统发育关系, 在解决物种起源和分歧问题上已经提供了较好的遗传学证据(Torroni et al,2006; Underhill & Kivisild, 2007; Pereira et al,2009)。在很多恒温动物的系统发育研究中可利用“标准线粒体时钟”作为校对, 即在每百万年里每一个物种的每一个位点的分子进化替换率为 0.01(Klicka & Zink, 1997; Aleixo, 2004)。这个标准的尺度最早是通过研究人类和黑猩猩mtDNA限制性片段长度多态性(RFLP)获得的, 并在后续研究鹅的两个属中得到证实 (Shields & Wilson, 1987)。在一棵进化树中, 某一枝的新产生都是由进化过程中不断积累的突变导致 (Brown et al, 1979; Wilson et al,1979; Shields & Wilson, 1987; Wilson et al, 1985)。值得注意的是, 所谓“新突变的积累”是指DNA在复制或减数分裂过程中出错, 且错误在修复时未得以修正(通常应用于家系研究); 在种群中, 通常研究的是 DNA多态性, 并且在物种内研究这种多态性固定下来的概率(McDonald et al, 2006)。
基于上述原理, Ting (2008)通过对 mtDNA上4000 bp片段进行测序, 利用最大似然法和贝叶斯方法重建了现代疣猴之间的系统发育关系, 包括黑白相间、橄榄色和红色的疣猴类群。建立的基因树与之前基于形态学和化石研究的物种树大致一样。并且提示黑白相间、橄榄色和红色疣猴在第三纪中新世晚期依次分歧, 到上新世形成物种, 证明了疣猴多样性的出现比我们预期的要早, 且估计该多样性是由疣猴的适应辐射所致。随后, Meyer et al(2011)又利用1.8 kb线粒体基因来重建叶猴属内的系统发育。其中包括了细胞色素 b (ctyb)、D-Loop和 tRNA 的中间体, 从分歧时间看, 叶猴属进化过程中至少经过两次适应辐射事件, 这个结果也支持最近一次对于叶猴属分类关系的修改 (Meijaard &Groves, 2004)。随着测序技术的不断进步, 人们在重建系统发育关系时, 不仅采用mtDNA, 也采用核基因(nDNA)来共同构建系统发育树。Wang et al(2012)利用mtDNA全基因组和44个非编码核序列来重现疣猴之间的系统发育关系。在分别用mtDNA和核序列来建系统发育树时, 长叶猴属在进化树上的位置有所不同, 但是在用 mtDNA和核序列共同分析时, 则可以排除之前亚洲叶猴之间的并系关系,并很好的支持亚洲和非洲叶猴的单系起源假说。除了在灵长目中应用mtDNA重建系统发育关系之外,很多通过形态学或化石证据很难鉴定其进化地位的种属也可以利用分子学手段, 通过生物信息学分析, 为形态学方面的缺失提供互补的证据, 而mtDNA即为分子进化分析的一个良好材料。
由于 mtDNA 既有自身编码的基因, 又受到核基因调控, 同时利用mtDNA与nDNA来构建系统发育树将为解决物种分歧时间提供更有力的支持。但是在这个过程中, 由于不同物种 mtDNA的进化速率不同, 选择合适的基因作为遗传标记将成为利用mtDNA分子钟重建系统发育树的一个挑战。
适应(adaptation)是生物进化的核心, 一般认为是生物为了在生存斗争中更好地适应其所在环境而形成一定性状的现象 (Li, 2005)。物种进化的过程中, 适应性表型不仅体现在生理或形态上的变化(如鲸鱼为了适应海洋环境, 身体呈流线型、四肢退化及皮下脂肪层增厚等), 且其最终目的是将遗传信息更有效地传递下去并扩散甚至固定。自然选择对新生变异的作用方式一般包括纯净化选择和正选择 (Shen, 2010)。前者用于淘汰进化中的有害变异, 趋于维持物种稳定, 后者则负责促进有利变异的扩散甚至固定, 与物种的适应性进化及物种形成相关(Swanson & Vacquier, 2002)。相对于负选择和中性进化, 人们更关心的是正选择事件, 因为此类基因往往蕴含有适应性进化, 在功能上产生革新。迄今已发现很多受正选择作用的基因, 例如:ASPM(abnormal spindle-like microcephaly associated)基因被认为是大脑容量大小的决定性因子, 无义突变会导致小脑症的发生(Bond et al, 2002), 该基因在人类进化支系以及人群中都受到正选择 (Evans et al,2004; Kouprina et al, 2004; Mekel-Bobrov et al, 2005;Zhang, 2003)。从分子水平寻找自然选择的靶位点已成为目前探讨适应性进化分子机制的常用策略(Andolfatto, 2005)。
基于其在能量代谢上的重要性, mtDNA在各个现存物种中均受到强烈的纯净化选择压力以去除有害突变(Rand, 2001; Meiklejohn et al, 2007)。然而由于各物种对能量代谢的要求不同, 有些种类(比如能飞翔的鸟, 和跑得快的动物)需要更多的能量,那么它们的线粒体是不是也受到更大的选择压力?Shen et al (2009)通过比较飞行能力强及退化鸟类的 mtDNA后发现, 异义突变(Ka/Ks)值与飞行能力呈负相关, 即飞行能力弱的鸟类的 Ka/Ks值较高。这说明飞行能力弱的鸟类的mtDNA发生异义突变(有害突变)虽然也能影响其产生能量的效率,但是由于其能量需求低, 有害突变对其个体生存的影响相对较小, 因此, 自然选择对此类有害突变的纯净化选择压力也相应较弱。而对于飞行能力强的鸟类, 由于其能耗需求高, 个体 mtDNA的有害突变则很容易影响个体的能量需求, 进而影响其存活,因此, 自然选择对此类有害突变表现高压力纯净化选择。在哺乳动物中也可见类似的规律, 即 Ka/Ks比值与奔跑速度(运动能力)呈现负相关。该结果说明mtDNA的有害突变对需要高能耗物种的不利影响相对更大, 从而使得 mtDNA发生有害突变的个体受到更强烈的纯净化选择压力, 更容易被淘汰(Shen et al, 2009)。Björnerfeldt et al (2006)发现随着人类对狗的驯化, 家犬 mtDNA 相比较其祖先灰狼而言, 所受到的选择压力有所放松, 积累了较多的非同义突变, 相对野生灰狼, 驯化家犬有充足的食物, 在能量代谢上受到的压力较小, 同时较多的突变也为人工选择各种表型提供了更多的可选择性。
以上例子均仅考虑由线粒体编码的能量代谢相关基因在适应性进化过程中所受的选择压力。由于在能量代谢过程中, 氧化磷酸化(OXPHOS)不仅有mtDNA的参与, 还受到近百个核基因(具体数字,不同物种有差异)的协调 (Pagliarini et al, 2008), 在探索生物能量代谢过程中, 应该同时考虑两者在能量代谢过程中的协同作用。随着运动方式的剧变,比如不能飞行的原始哺乳动物进化为蝙蝠的过程中, 蝙蝠飞行的能量代谢率是相似体型陆生哺乳动物的 3~5倍(Thomas & Suthers, 1972; Maina,2000)。为了探索蝙蝠如何满足飞行起源过程中能耗的急剧提升, Shen et al(2010)同时检测了线粒体和核基因基因组, 发现其中 23.8%的 mtDNA和4.90% 的 nDNA共同编码的氧化磷酸化相关基因受到正选择。而由nDNA编码作用于线粒体但并不参与氧化磷酸化的基因或其它nDNA受到正选择的比例则相对较小。该结果提示相比较其他背景基因,能量代谢相关基因 (包括线粒体编码和核基因编码基因)在蝙蝠飞行适应性进化过程中起重要作用。
这一系列的研究揭示线粒体由于提供动物运动所需的绝大部分能量, 与动物运动进化密切相关。然而线粒体除了提供动物运动所需的自由能之外, 还提供保持体温的热能。而不同纬度的生物,由于所处环境的温度不同, 对维持体温热能的需求也不同。那么不同温度(纬度)环境下的物种, 其线粒体的选择压力是否也不同?Eduardo et al (2004)的研究发现mtDNA影响着人类在地球上不同纬度的分布。而Sun et al(2011)也证明不同温度环境的鱼,其线粒体所编码的能量代谢基因受到的选择压力也不同。这些结果均说明线粒体的进化与物种所需求的维持体温的热能相关。
从mtDNA角度分析生物适应运动能力的进化,以及适应环境温度变化的遗传机制, 可为能量相关研究提供分子生物学方面的证据。尽管某些位点的改变仍需要通过蛋白功能实验才能确定, 在基因水平上检测所受到的选择压力仍然具有快捷、直观的特点, 可以直接观察到基因组水平的变异位点。因此, 利用基因水平研究为向导, 从宏观角度去验证基因与功能的关系将会是分子进化研究的新角度。而同时考虑线粒体和核基因编码的能量代谢基因,将为我们了解能量代谢在生物体内的适应性进化提供更为全面的证据。
随着对不同生物的不同细胞器的全基因组测序, 可以发现有充分的证据证实相同遗传密码子并不如我们以前所想的那样在所有生物中均翻译为相同的氨基酸。在mtDNA中有很多例子可以证明(尤其在一些相关物种间)同一密码子在某物种内编码某种氨基酸, 而在另外一个物种内却编码另外一个氨基酸, 从一个终止密码子变成一个编码氨基酸的密码子或从一个可编码的密码子变成一个终止密码子。如果这种情况发生在翻译环节, 那么这个改变了含义的密码子就被称为 “密码子重定义”(codon reassignment)( Knight et al, 2001;Yokobori et al, 2001)。这种新定义的密码子通常出现在之前机体比较偏好的旧的密码子的位置, 通常认为这种新定义的密码子是有害的, 会随着进化过程中的自然选择而被逐渐清除掉。突变贯穿于整个基因组, 当突变发生时, 机体会对新产生的密码子进行调适。目前关注的问题即为在机体尚未调适新密码子时,这些略带有害的新定义密码子是如何在群体内固定下来的。
已有很多机制用于解释这种mtDNA新定义的密码子, 主要有:(1) 密码子消失机制(codon disappearance, CD), 最早由 Osawa & Jukes (1989)提出, 即在获得新定义的密码子之前, 之前处于相同位置的密码子先消失, 然后再由新定义的密码子重新编码; (2) 模糊的中间物机制(ambiguous intermediate, AI) 最早由Schultz & Yarus (1994)提出,即旧的密码子不会消失, 而是在新定义密码子之前出现一个模棱两可的中间状态, 而tRNA可以同时转运这两种不同的氨基酸密码子; (3) 未定义机制(unassigned codon, UC), 由Sengupta & Higgs(2005)提出, 即在新定义的密码子未固定之前, 处于密码子变化位置的密码子不由任何tRNA翻译; (4) 补偿改变机制(compensatory change, CC), 由 Kimura(1985) 提出, 即新定义的密码子单独出现时有害,但和其他密码子共同运用时就变得近中性而利于固定。
以上的机制均基于“获得—丢失”的框架, 获得为tRNA改变自己的互补密码子来适应新的密码子, 丢失则为tRNA从此停止转运之前的旧的密码子。Bender et al (2008)对人类和其他动物中不使用标准密码子的 mtDNA 进行研究, 发现 AUA从在核基因内编码异亮氨酸变化为在mtDNA里重新编码蛋氨酸。实验证实, 在活细胞中蛋氨酸表面的抗氧化结构可以为细胞提供良好的保护, 从而延长细胞寿命。这种在细胞呼吸链中蛋氨酸的重新定义,在进化过程中是一种适应性选择, 在氧化磨损的选择压力下, 重新定义氨基酸从而形成自身的保护机制。除了AUA之外, 还有AAA在半索动物中编码赖氨酸, 而在棘皮动物中则编码天冬氨酸, 从而更利于棘皮动物的生存(Castresana et al, 1998)。
进化过程中, 生活环境不同, 受到的选择压力也不同, 生物会通过对密码子重定义来合成对自身有利的蛋白, mtDNA 为我们研究密码子在进化过程中重定义提供了很好的原料。同时, 研究这些密码子重定义也可以使我们更好地了解线粒体进化历史。
线粒体具有独特的起源进化方式, 同时受到mtDNA 和 nDNA的双重调节, 因此线粒体基因、核基因、以及核-质基因相互作用的异常均会导致线粒体疾病(Bourgeron et al, 1995)。这种在结构和功能上的特殊性使其成为我们在分子进化研究中的天然材料。线粒体是细胞的能量供应站, 对于mtDNA的研究, 为我们研究生物的能量代谢适应性进化的遗传机制及动物的进化与线粒体进化的关系提供了很好的视角。通过对mtDNA突变的实验研究, 结合nDNA的相互作用使得我们对能量代谢特异基因的突变在功能和生理上产生的影响有更深刻的理解, 并为疾病相关治疗提供基础。
线粒体基因组数量在动物进化中基本上趋于减少, 但其基因组进化速率却高于核基因, 这不免会在进化过程中积累很多轻微有害的突变, 而很多mtDNA的功能由nDNA来调控, 甚至部分mtDNA已从线粒体中转移至细胞核。基于此, Osada &Akashi (2012)提出了线粒体与细胞核的互偿进化模式, 即表面看来 mtDNA 快速进化且积累一定的有害突变, 但是mtDNA 只是为nDNA 提供可选择的材料, mtDNA 的有害部分会通过 nDNA 的调控来减少其有害性, 而一旦出现在选择作用下具有适应性的基因, 将会从 mtDNA 转移至 nDNA。因此,mtDNA看似积累有害突变, 其实是生物适应性的更好体现。在今后的分子进化研究中, 应该更多的把 mtDNA 和 nDNA结合起来考虑。在植物体中,由于线粒体基因组还会与叶绿体发生转移, 故应该同时考虑叶绿体。这将会使mtDNA在分子进化研究中提供更多有用的信息。
随着分子技术的进步, 应同时考虑线粒体编码和核基因编码的能量代谢相关基因在能量代谢适应性进化过程中的协调作用。利用基因水平研究为向导, 从宏观的角度去验证基因与功能的关系将为探讨线粒体功能与分子进化的相互作用关系提供一个更为全面的视角。