胡皓夫
关键词:基因组 测序 鸟类 演化
地球上现存的几千种各式各样的美丽可爱的鸟。它们都是如何演化的,之间的亲缘关系又是怎样的。它们适应不同环境的能力背后有什么样的遗传物质基础。科学家利用最新的基因组学技术。从分子层面为人们解开鸟类多样性背后的分子机理。
鸟类在人们心中一直有着重要的地位,在许多古代文明中都是重要的崇拜对象。它的图腾常常出现在出土的陶器、玉器和古代壁画上。像《山海经》中就有“汤谷上有扶木,一日方至,一日方出,皆载于乌”这样的记载,这里的“乌”就是指中国古代神话中栖于太阳中的三足鸟。鸟类在生物科学的发展中也一直扮演着重要的角色。达尔文在加拉帕戈斯群岛上发现的13种相似但又形态各异的鸟是他提出进化论的灵感来源。现在,鸡、斑马雀等鸟类已成为现代生物学研究中重要的模式生物,各种家禽在社会生活中也具有重大的经济价值。因此,鸟类的研究在科学、经济和文化方面都很有意义。但鸟类身上仍有许多未解的谜团:比如说鸟类的演化历史是怎么样的?现存的纷繁复杂的鸟类是如何发展出来的?它们间的亲缘关系怎样?造成这些鸟类多样性背后的分子机理是什么?像南极的企鹅,又是怎么演化出适应各自环境的特征?这些问题都很有趣,但要回答清楚则不容易。
鸟类的演化
人们开始寻找和推测鸟类的祖先是从1861年在德国发现的始祖鸟化石开始的。这个可以追溯到侏罗纪晚期大约1.5亿年前的化石,在双臂和尾巴上出现了羽毛。但与鸟类不一样的是,它有牙齿和由骨头组成的尾巴,这是一种处于爬行动物和鸟类之间的中间状态。随着更多化石的发现,比如中华龙鸟化石,鸟类和爬行动物之间的联系渐渐变得清晰起来。现在普遍认为鸟类起源于恐龙中的一支——兽脚亚目。然而,这些化石并不是现代鸟类的直系祖先。现代鸟类的祖先出现于白垩纪,并且演化出了一些现代鸟类的特征。比如没有牙齿,但出现了喙,尾骨缩短,有由羽毛组成的扇形尾巴等。在白垩纪。所有现代鸟类的祖先发生了第一次分化,出现了一些飞行能力不太强的鸟类祖先,其中包括鸵鸟的祖先。这次分化后形成的另外一支又出现一次分化,成为如今的鸡、鸭、鹅的祖先。这是目前可以比较确定的结果。
之后鸟类的祖先经历了生物演化史上一次重大事件——距今6600万年前的白垩纪末生物大灭绝事件。它使恐龙成为历史,也让幸存的鸟类祖先获得前所未有的生存空间。之后约1500万年内。鸟类和哺乳动物一起迅速占领了地球上的每一个角落。除鸡、鸭、鸵鸟这些已经分化出来的物种外,代表其余95%现代鸟类的物种在这一事件后迅速出现。这是一次鸟类生物多样性爆发式增长,约万余种鸟快速出现,这是鸟类适应地球上各种环境的结果,也给鸟类的演化历史研究提出许多挑战性问题。首先,这些鸟类的亲缘关系怎样?哪些出现早。哪些后出现?由于在极短的时间内分化出众多物种,使得这些问题很难回答。人们在这些问题上做过许多研究,但答案从来就没有统一过。还有,鸟类能适应各种环境的背后,其遗传物质DNA发生了哪些变化?人们仍知之甚少。要从分子水平回答这些问题,获得鸟类基因组序列就显得非常重要。
由来自深圳华大基因研究院和中国国家基因库、美国杜克大学、霍华德·休斯医学研究所、丹麦自然历史博物馆等机构的国际鸟类基因组联盟,提出了一个针对整个鸟类基因组的研究计划,尝试解决这些问题。该研究计划包括对鸟类所有目总计48个物种的基因组研究,比如乌鸦、隼、鹦鹉、企鹅、朱鹛、啄木鸟、鹰、鸭等,囊括了現代鸟类的主要分支。
测序技术的飞跃
庞大的基因组研究计划如果没有新的测序技术的支持,几乎不可能完成。1990年启动2003年完成的人类基因组计划耗时13年、花费30亿美元,旨在解开人类基因组所有30亿个碱基对,当时运用的是第一代测序技术——桑格测序法。桑格测序法成本比较高,而且通量低(可同时进行序列测定的DNA分子较少),不适合进行大规模的基因组分析。鸟类基因组研究要完成基因组测序量是人类基因组计划的十多倍,必须依赖更先进的第二代测序技术,它可以同时对上百万甚至几十亿条DNA片段同时测序。这种高通量的平行测序法可以在短时间内获得大量序列,从而降低成本。按最多的数据产出测算,一台测序仪一天可产出4000亿个碱基序列,相当于完成10个人的基因组测序。这些序列大多是几百个碱基的短片段,在超级计算机的帮助下,可以将它们拼接成基因组序列的草图。
目前,几乎所有的主要生物类群都有其代表性物种的基因组序列结果。但对同一类群物种基因组测序和演化历程的分析还从未有过。鸟类基因组的研究计划是迄今为止对同一类群物种最大规模的基因组演化历程分析,该计划历时4年,由上千名各国科学家参与,于2014年末得以完成。
对鸟类家谱的追本溯源
地质历史时期中每次生物大灭绝事件之后,生物都会经过生态演替而发生一次较大而迅速的适应辐射,形成生物的爆发式的进化分异,从而导致地球上形成新的生物种群类型和群落结构,使全球生物面貌发生巨大变化。在白垩纪末大灭绝之后的地质历史时期,被子植物、哺乳动物、鸟类、真骨鱼类等成为重要的生物门类,空前繁盛,取代了中生代的爬行动物。
鸟类生物多样性呈现爆发式的增长对推断鸟类的演化历史带来很大困难。通常来说,在比较同一祖先物种后代的遗传信息时,它们发生分离的时间愈早,之间的遗传信息差异就愈大,分离较晚,则差异较小。这是利用DNA序列建立物种系统演化树的基础。然而这是一种假设在祖先群体刚刚开始发生分化后,分离的后代群体继承了祖先群体所有的遗传信息,并经历足够长的自然选择下的理想情况。实际上,分离的群体存在没有继承全部祖先群体遗传信息的概率,这在群体遗传学上称为不完全种系分离,它使得DNA序列的差异不能真实反映物种分化的事件。如果物种分化的事件在很短的时间内发生了很多次,那么不完全种系分离发生的概率就很高。鸟类在白垩纪大灭绝之后恰恰经历了这样一个时期,它们的基因组片段应该发生了许多这样的事件。以前只是利用10到20个基因来推断鸟类的演化关系,太少的基因序列无法代表鸟类整体的演化历史。不完全种系分离产生的序列差异在判断亲缘关系时相当于“噪音”,如果选取的序列太少,就没有足够多的能和“噪音”区分开的反映物种演化的序列差异。如果用整个基因组的信息来分析,就可找到足够多的差异来克服这些“噪音”的影响,从而得到更可靠的结果。
用基因组序列来推断物种间的亲缘关系,首先要找出序列上的同源区域。所谓同源区域就是由同一段祖先序列分化而来的分布于各物种基因组中的序列,这些序列的差异代表了物种演化过程中经历的变化。通过这些差异可以推断物种间从开始分化以来,DNA序列经历了多少次碱基的替换,这些序列之间发生碱基替换的概率代表着物种之间的亲缘关系,概率大表示亲缘关系远。通过这些关系,就可以找到最可能的系统演化树。大多数用基因组比较的方法来构建系统演化树的研究,使用的是编码区的序列。但编码区的序列往往变化较少,对鸟类来说,由于物种间分化的过程相对又很短,因此使用编码区序列推断鸟类分化时,由于序列间差异很少,不足以建立可靠的系统演化树。所以需要再比较一些不那么保守的序列,比如内含子和基因间区里相对保守的序列,这样物种间才有足够大的差异用以区分。
通过每种鸟的全基因组数据来构建鸟类系统演化树,这个想法要实现起来并不那么容易。鸟类平均有10亿个碱基对,14000个基因。要处理这样庞大的海量数据,需要更高效的计算方法。研究人员重新设计了算法,使巨大的数据可以在超级计算机上充分利用并行运算来处理。除了蛋白质编码区的基因序列,还要加入内含子、基因间区来增加样本量。这样,计算任务更加庞大。因此,研究人员运用了华大基因、慕尼黑超算中心、得克萨斯高级计算中心和圣地亚哥高级计算中心等几个超级计算中心的计算机进行并行运算才完成任务。有些分析任务甚至需要1万亿字节(TB)内存的超级计算机才能实现。
基于全基因组数据构建的鸟类分子系统演化树是有史以来可信度最高的。这棵新的鸟类系统演化树不但解决了鸟类的早期分化问题,还有一些新的发现。比如说,火烈鸟和白鹭虽然有很相似的在浅滩觅食的习性,但它们却是亲缘关系很远的两支,这是鸟类为适应水生环境独立进化出了类似的特点。还有人们熟悉的鸭子、鹅,它们都有适应水生环境的特征,但亲缘关系很远,是典型的趋同进化。另外,根据演化树,有些物种的传统分类可能需要做出调整。比如虽然鹰和隼都是猛禽属于隼型目,但它们不是近亲,鹰与布谷鸟、啄木鸟比较接近,而隼与鹦鹉、乌鸦比较接近。
全基因组数据不但可以推断现代鸟类的亲缘关系,也可以推测现代鸟类的扩张时间。分析结果表明,现代鸟类的扩张发生在6600万年前的大灭绝事件前后。这次大灭绝事件杀死了地球上绝大多数恐龙,只有部分鸟类存活下来,后来演化出1万多种鸟。之前通过对部分DNA测序推断,现代鸟类的扩张发生在大灭绝之前1000万-8000万年,而基于全基因组DNA分析的结果则否定了这一推断,且与化石证据较吻合。大灭绝事件释放的生存空间也许为鸟类新物种的形成创造了良好条件,它们在不到1500万年的时间里快速繁盛起来。
从基因组中寻找鸟类演化的痕迹
鸟类在经历了漫长的自然选择后成了今天的样子,其中的变化过程一定会在基因组中留下痕迹,通过比较分析基因组的序列就可以看到这些痕迹。鸟类虽然与哺乳动物一样具有各种复杂的生物学特征,但是与哺乳动物相比,它的基因组可以称得上非常简洁。其基因组只有哺乳动物的三分之一大小,像内含子和基因间区这样的非编码序列比哺乳动物的少很多:基因组中转座元件很少,只占基因组的4%-10%,而哺乳动物却有34%-52%。在经历了同样漫长的演化过程后,鸟类之间基因组的差异比哺乳动物基因组之间的差异要少得多。这说明鸟类基因组的结构在演化过程中是很稳定的,且基因组的演化速率也比哺乳动物的慢。
鸟类的特征在基因组中是怎么体现出来的呢?研究人员发现,鸟类祖先从爬行动物中分化出来后丢失了成百上千的基因。这些基因在人类中都有很重要的功能,比如在维持生殖系统,骨骼生成和肺部系统等方面不可或缺。这一发现出人意料,通常认为演化过程中新的遗传物质是生物演化出新性状必不可少的条件。然而鸟类的演化却告诉人们,有些表型却可能是通过基因丢失产生的。这是否是鸟类基因组比较简洁的原因呢?目前还不得而知。
虽然整体上看鸟类的基因组变化得慢,但发现在一些特定区域却有极其快速的演化。比如与骨骼形成相关的基因在鸟类中就发生了快速的变化,这关系到鸟类飞翔所需的轻便而强韧的骨骼的形成。鸟类羽毛的多彩多样与控制羽毛颜色的基因的快速演化是分不开的。更有趣的是,一些具有相似生活习性或表型的鸟类,比如鸣禽、鹦鹉、蜂鸟等具有声音学习能力的鸟,其部分基因组区域同时表现出极其快速的演化速率。这是首次在DNA水平上发现声音学习趋同进化的证据。这些亲缘关系很远的鸟类独立演化出相同表型的分子机制。
鸟类演化的细节
通过对基因組的比较,不但可从整体上对鸟类演化有一定了解,且对于回答很多具体问题也很有帮助。许多人们一直以来感兴趣的课题可通过对一些特定种类的鸟或控制特定性状的基因进行分析来寻找答案。
鸟类的声音学习能力
鸣禽,鹦鹉和蜂鸟是除人、海豚等为数不多的动物之外具有声音学习能力的动物。这些动物不但可以记住听到的声音并且可以学会它。鹦鹉和八哥就是其中的佼佼者。这项动物界少见的特殊技能一直是人们感兴趣的话题。通过研究声音学习能力的鸟类,可以帮助了解大脑是怎么处理学习的过程的,甚至对人们了解人类的语言学习能力有很大帮助。通过对鸟类基因组的研究,发现有声音鸣唱学习能力的鸟类的大脑中,与声音学习相关的基因调控回路和人类大脑中语言相关区域的基因呈相似的表达和演化历史,说明鸟类和人在这方面有不少相似之处。而且这些变化很有可能与神经联结的形成有关。这些区域表达的基因具有加强声乐学习和声带驱动神经的联系功能,能让鸟和人类一样完成更复杂的声带运动,从而发出丰富的声音。鹦鹉更加特殊,它有一套独特的鸣唱学习系统,其中嵌套着另一套声音学习系统。这也许就是它们具模仿人类语言的强大能力的原因。
性染色体的演化人类的性别由X染色体和Y染色体控制,而鸟类的性别则由Z染色体和W染色体来控制。W染色体是雌鸟特有的,好比Y染色体是男性特有的。大多数哺乳动物的Y染色体都经历了相同的演化史,这些Y染色体绝大多数基因都已经退化且失去功能,只有很少一部分与雄性性状相关的功能基因有活性。而鸟类却与哺乳动物截然不同,鸟类基因组中半数以上的W染色体仍包含大量功能基因。
研究人员还发现不同鸟类的性染色体处于不同的演化阶段中。例如,鸵鸟和鸸鹋,都属于鸟类家族中相对古老的一支。其性染色体跟祖先状态非常相似,大部分基因都有功能。然而,一些演化上相对年轻的种类,如家鸡和斑马雀,其性染色体则只包含少量功能基因。这为研究性染色体的进化历程提供了绝好的材料。鸟类的两性差异又是怎么通过性染色体表现出来的呢?比如,为什么雄孔雀和雌孔雀外表差异非常大,而雌雄乌鸦则很难辨别。这些问题有待进一步研究。
鸟没有牙齿 所有的现代鸟类都没有牙齿,说明牙齿在鸟类祖先中就已经没有了。研究人员在基因组中找到了原因。在现存鸟类中,与脊椎动物形成牙釉质、牙本质相关的基因都发生了突变,导致它们失去了作用。
根据DNA序列之间的差异推断,现存鸟类的共同祖先丢失牙齿的时间是在白垩纪末大灭绝之前。牙釉质丢失是在距今1.16亿年前,整个牙齿的丢失不晚于距今1亿年前。综合化石和基因组的证据,推断鸟类先是上颌牙齿丢失和上颌喙的产生,然后形成完全的喙,并丢失全部牙齿。至于牙齿为何丢失,研究认为这与鸟类适应新环境和生活方式有关。鸟类用喙获取并快速吞下食物,同时演化出嗉囊和砂囊来储存和研磨食物。这一消化方式使鸟类可在得到食物后继续飞行以寻找新目标,从而带来生存优势,也导致牙齿逐步退化。牙齿丢失还可起到减重功效,配合骨骼的轻量化,使鸟的身体重心从头部向后下方转移,使飞行更稳定。
从鸟身上寻找恐龙的痕迹
作为从恐龙中发展出来的一支,鸟类或多或少保留着一些恐龙的痕迹。通过鸟类基因序列,还可以一探恐龙的究竟。比如,鳄鱼作为活化石,其基因组是演化速率最慢的基因组之一。比较鸟类和鳄鱼的基因组,可以推断鸟类和鳄鱼的共同祖先的基因组序列。这些序列对研究神秘恐龙提供了一定的基础。
与哺乳动物不同,鸟类具有大量的小染色体,这些小且富含基因的染色体也广泛存在于爬行动物和鱼类中,推测它们也同样存在于恐龙中。研究人员通过分析家鸡、火鸡、北京鸭、斑马雀和虎皮鹦鹉在全基因组上的染色体重组位点,来推断鸟类祖先的染色体结构是怎样的。结果发现,鸡具有和鸟类共同祖先最相似的染色体结构。从而可以看到演化成鸟的那一支恐龙具有怎样的染色体结构。
帮助保护濒危鸟类
鸟类是对环境变化极其敏感的动物,环境的快速变化有时甚至会导致其灭绝。在近代,人类活动所造成的环境变化是许多鸟类灭绝的主要原因。已有150种鸟类因为人类活动而灭绝,目前有差不多10%约1200种鸟类正面临灭绝危险。通过对濒危鸟类的基因组的研究,可以找出这些鸟类在基因组上的变化特点。为濒危物种的保护工作提供理论指导。
朱鹦曾经遍布整个东亚地区,但由于过度捕杀和栖息地的丢失,物种几乎灭绝。现在约2000只朱鹎是从1981年在秦岭发现的仅有的一对可育个体恢复过来的。研究发现,与大熊猫相比,朱鹦免疫系统相关基因多样性很低,说明其免疫系统十分脆弱,导致整个群体对很多疾病和寄生虫的抵抗能力较弱,物种仍处于较危险的状态。有趣的是,在新恢复的朱鹮群体中,与大脑功能和新陈代谢相关基因具有更快的演化速率。这可能是朱鹦在经历灭绝和恢复的过程中适应了新环境,改变了觅食的行为而造成的。也可能是当年重新发现的朱鹦因为改变了习性才得以幸存。
鸟类基因组携带的病毒序列
一些逆转录病毒会在感染后将自己的序列插入到宿主的基因组内。哺乳动物携带有大量的由于病毒感染后插入宿主基因组中的DNA“化石”,这些“化石”被称作内源性病毒元件。人类基因组中约有8%的这种序列。研究人员发现,鸟类的内源性病毒元件数量是哺乳动物的1/13到1/6,这与鸟类基因组比哺乳动物小的事实相符。而这个结果似乎也表明,鸟类要么更不容易被病毒入侵,要么能更好地把病毒清除出基因组序列。
企鹅如何在南极生存
鸟类存在于各种各样的生态系统中,而且每种鸟都有其独特的生存之道。企鹅是最值得一提的例子。企鹅有许多异于其他鸟类的特殊形态结构:不能飞翔,有独特的翅膀结构和光滑且短的羽毛等。了解企鹅如何适应南极的严寒,对了解物种在适应环境的过程中所发生的分子水平上的变化很有帮助。为适应严寒,企鹅拥有厚厚的皮下脂肪,且储存和消耗脂肪的能力出眾,这已反映在与脂肪代谢相关的基因变化上。此外,企鹅的视觉与其他鸟类稍有不同,由于主要在海里觅食,为适应海水里的光线,它们感受绿光的感光蛋白已失去功能。研究人员通过企鹅与其他鸟类的基因组比较分析,发现了与企鹅羽毛、翅膀相关的基因变化。
基因组学研究的重大突破
鸟类基因组研究计划是由全球一百多个研究机构共同协作完成的。世界各地的许多博物馆和机构在过去30年中收集的冻存鸟类组织样本也为获取DNA样品提供了极大便利。这项计划在正式开始前。就已做了大量的前期工作:组织样本的收集和整理,DNA的提取,样本质量检测,测序,以及巨大数据的管理。
鸟类基因组研究计划是第一次对同一类群物种进行全面分析,也是利用比较基因组学揭示生物宏观演化历史的一次重要尝试。此外。相关性状多样性的研究也充分揭示了鸟类演化过程中分子水平上的遗传多样性基础。其研究的全部数据将进入各个数据库,通过大数据的分析和挖掘,为全球的研究人员从分子层面对鸟类进行研究提供方便。
对鸟类的研究计划并不会止步于此。万种鸟类基因组计划是在鸟类基因组计划基础上,针对鸟类基因组更全面的测序计划,会覆盖鸟类中的每一科。针对其他类群动物的全面分析计划也在越来越多地开展,比如已在进行的万种动植物基因组测序计划。随着这些计划的进行,基因组学的研究数据会更多,覆盖的物种会更全面,得到的结果会更可靠,相关的研究会更加深入。基因组学研究的新时代即将来临。