姜德杰 高停停
人类基因组中含有3 0亿个字母,科学家一直都在争论有多少字母具有功能性作用。有些字母对基因进行编码(即人类的遗传信息),有些字母为细胞如何使用基因提供指令。但是与数量巨大的DNA 字母相比,这些已知字母序列的数量有限。长期以来,科学家一直在争论其余的基因有没有作用,如果有作用,其作用究竟有多大;甚至有科学家把那些不能对蛋白质进行编码的基因称作“垃圾DNA”。
现在,冷泉港实验室(CSHL)研究人员已经研发出一种新型的计算方法,用来确定人类基因组中具有重要功能的字母。这个名为fitCons 的计算机程序利用进化力量,对比了相关物种之间以及同一物种多个个体之间DNA 字母的不同。得到的结果令人吃惊:无论是亘古以来的物种,还是较近时期才把个体区别开来的人类自身,大自然“保存下来的基因组少得可怜。
“在模式生物中,比如真菌或苍蝇,为确定某个特定基因发挥作用时需要DNA 序列中的哪些字母,科学家经常会人为制造突变。”CSHL 的亚当·西格尔教授解释说,“对人类我们不能做这样的实验。但当我们仔细一想便会觉得,大自然在物种进化的过程中一直在大规模地做着类似的实验。基因组中的诱变是无序的,但是重要的字母都在自然选择中被保存了下来,其余字母则可以自由改变却不会对生物体产生不利后果。”
这一观点成为他们分析的基础,但仅此一点还不够。西格尔说“在过去的几年中,像‘DNA 元件百科全书’计划(E NC OD E) 这样的大型研究联盟为科学界提供了大量关于基因组功能的宝贵信息。其他团队完成了对大量人类个体和其他灵长类动物基因序列的排序。这些体量巨大的数据集第一次为我们提供了广泛而异常详细的基因图,不仅包括基因组的生化活动,还包括长期以来DNA 序列发生的变化。”
基于生化标记组合,西格尔的团队开始整理ENCODE 联盟的数据。“我们不单单使用ENCODE 为我们提供的序列模式,以及关于基因组中DNA 读取点及DNA 因生化标记而变化的信息。”布拉德·古尔科说。他是康奈尔大学计算机科学专业的博士生,同时也是该篇新论文的主要作者。这些生化标记组合既显示了基因组中数百种点位,也突显了每个点位在基因组活动中所起到的各不相同的潜在作用。
随后,研究人员利用他们之前研发的名为I N S I G H T 的计算方法来分析各类点位的序列在长期或短期进化中发生的变异。西格尔解释说:“通常情况下,这种分析用来对比不同物种,比如人类、狗和老鼠等,这意味着研究人员在观察相对较长时间内序列的变化。”但是,I N S I G H T 模式研究的是几十个人类及其近亲(如黑猩猩)的序列变化,这些变化为我们提供了较短时段内的进化图谱。
科学家发现,人类基因组中最多只有约7%的字母具有重要功能。西格尔说:“比例如此之小,令我们印象深刻。一些仅基于ENCODE 数据的分析辩称,8 0%以上的基因组都具有功能性,但我们的进化分析表明,事实并非如此。其他研究人员做出了类似的估计,认为只有一小部分基因组在长期的进化过程中保存了下来。我们的分析表明,人类世系的功能性序列的新发现也无法解释基于ENCODE 数据的计。我们认为,大多数被ENCODE 认定为‘有生化活性’的序列很可能在人类进化的过程中并不重要。”
据西格尔所言,此项分析能让研究人员更快地分离出引发疾病的序列。大多数全基因组研究涉及面极大,包含了成千上万个与疾病关的字母。“我们的分析有助于精确查明序列中哪些字母有可能起作用,因为它们都具有生化活性并在进化中保存了下来。”西格尔说,“这为科学家了解疾病的基因基础提供了强有力的资源。”