后基因组时代的生命观与科学观

2021-09-06 18:37吴家睿

科学 2021年2期

吴家睿

人类基因组计划是人类文明史在世纪之交的一个重要里程碑，被誉为生命科学的“登月计划”，据此，21世纪被称为后基因组时代。在这样一个新时代，我们显然应该并且可以从一种新的哲学高度去思考生命，思考与之相关的科学。关于生命的哲学思考，始终贯穿着两个永恒的主题，一个是本体论主题，即生命是什么；另一个则是方法论主题，即怎样认识生命。

生命是质料、形式和环境之间的高度统一

纵观整个人类对生命的认识过程，关于生命是什么的问题主要有两种观点：一种观点称为“还原论”（reductionism），认为生物体与非生物体没有本质区别，可以从简单的非生命物质中形成生命；与之相对立的观点则是“活力论”（vitalism）：生命世界与非生命的无机世界存在着截然不同的界线，生命具有非生物体所没有的特殊性质——“活力”（vital force）。

从质料与形式的辩证统一关系看生命

生命有一个别名——有机体（organism），这个术语始于古希腊哲学家亚里士多德，即生命是从具有活力的“种子”或“胚胎”中生长出来的。亚里士多德把在生物体中存在的“活力”用希腊语“隐德来希”来表示，意思是“实现”，即这种特殊性质能够让生命形式实现其自我完善之目的。“隐德来希”后来成了活力论的代名词。

19世纪初期的化学家就认识到，含碳化合物是组成有机体的基本物质，他们把研究含碳化合物的化学称为“有机化学”。在早期的有机化学家眼里，有机化合物与非生命来源的无机化合物有着不可逾越的界限，只有拥有“活力”的生物体才能够合成有机化合物；研究者只能从动植物等有机体中提取出有机化合物，而不能在实验室里用无机化合物合成出有机化合物。1828年，德国化学家维勒（F. Wohler）在实验室中首次将无机化合物“氰酸铵”转化为有机化合物“尿素”。这一实验打破了有机化合物与无机化合物之间的人造“隔墙”，有机化学的原意从此成为历史的传说，而“活力论”也逐渐式微。

20世纪中叶的人工合成胰岛素工作进一步表明，具有生物活性的蛋白质也可以从实验室里产生，因此，复杂的生命物质也不过就是一些简单的小分子化合物按照一定的物理和化学的方式聚集在一起。在后基因组时代，科学家在合成生命方面取得了更多更大的成果。2010年5月20日，美国生物学家文特尔（C. Venter）宣布首个人工生命诞生——研究者采用化学合成方式，人工全合成了一个具有108万个碱基的完整的细菌基因组，进而构成一种只含有这一人造基因组的人工细菌，并通过这个人造基因组控制和实现了自我复制等生命活动[1]；研究者特别强调说：“这个被人造基因組控制的细胞，其性质表现得如同整个细胞都是人工合成的（即该DNA软件制造了它自身的硬件）”[1]。这项具有里程碑意义的实验使得人们认为，生命可以在实验室里被人工合成出来。美国《新闻周刊》（Newsweek）在报道该项工作的同时，在其封面刊登了文特尔的头像，并冠以“扮演上帝”（Playing God）的标题。

这些研究工作很清楚地反映了还原论者关注生命本质的一个特定角度：生命可以还原为其组成物质或构成材料，而且与非生命的材料没有根本上的区别。然而，如果仅仅从构成材料的角度来定义生命，那么活力论的鼻祖亚里士多德也可以被归于还原论者。亚里士多德把当时已经知道的520多种动物，根据它们的生殖方式进行了分类，按照从低等到高等的顺序构建了动物的6个等级，并声称最低等的动物是从泥土中自然产生的[2]。

问题的关键是，生命的构成材料并不等于生命。在亚里士多德看来，包括生命在内的所有物体都是由“形式”和“质料”二者组成的，“形式是被构成的东西，质料是构成成分。形式决定了该物体的本质所在”[2]。换句话说，生命之所以被视为生命，不仅要考虑到其构成质料，还要看到生命拥有了无机体所不具备的特定形式。显然，这种对生命本质的理解超越了还原论和活力论之间的简单争论。过去这二者的争论建立在传统哲学的唯物主义或唯心主义二分法之上，生命的质料和形式之间的关系被割裂：还原论者往往把生命视为构成它们的材料，而活力论者则认为生命拥有独立于构成材料之上非物质性的“活力”。但是，生命实际上应该是由其质料和形式共同构成的，二者相互依存，缺一不可；质料是生命的“潜能”，形式则是潜能的实现；亚里士多德提出的“隐德来希”的本意，正是指生物体中质料和形式之间这种对立统一关系。从这个意义上说，生命是不可分割的一个完整呈现。因此，“活力论”往往又可等同于另一个概念：“整体论”（holism）。

人类基因组计划的完成给研究者从“整体论”角度认识生命提供了强有力的支持。在人类基因组中，编码蛋白质的基因有2万多个，它们之间存在着广泛的相互作用；每一种生命活动不仅依赖于相应的基因或蛋白质等构成元件，而且还取决于这些元件之间形成的相互作用网络。在多细胞生物中，这些生物分子的相互作用网络不仅存在于细胞层面，而且跨越到组织和器官等各种层面。不久前，美国科学家通过系统生物学理论和大数据分析，提出了一个新的模型——“全基因模型”（omnigenic model）来解释基因是如何控制复杂性状：在细胞内不仅存在对某个特定性状有直接作用的核心基因，而且存在着数量更多的与核心基因有相互作用的外围基因，这些外围基因对该性状具有间接的影响。该模型认为，由于各个基因间存在着广泛的关联和相互作用，所以生物体的每个复杂性状都可能受到基因组内每一个基因或多或少的影响[3]。

从质料与环境的辩证统一关系看生命

在后基因组时代，科学家们正在从生命复杂系统的角度来认识生命的本质。美国哈佛大学系统生物学系创始系主任克尔斯勒（M. Kirschner）专门撰文指出：“值得问这样一个问题：当代生物学的‘后基因组观点在多大程度上可以让19世纪的活力论者接受今天人们对生命本质的理解”[4]。他进而从系统生物学角度提出了“分子活力论”（molecular vitalism）的观点，“在21世纪之交，我们对活力论做一次最新的思考：必须指出，我们需要从根本上超越对细胞的RNA和蛋白质组分的基因组分析（这种类型的分析很快就将过时），而转向对分子的、细胞的、机体的功能之‘活力性质的分析”[4]。

不久前，北京大学生物学家白书农教授等人，根据奥地利物理学家薛定谔（E. Schr？dinger）的负熵和比利时化学家普利高津（I. Prigogine）的耗散结构理论，提出了关于生命本质的独特看法，认为生命的特征是指特定的组分在一定环境条件下的特殊相互作用[6]。这种特殊的相互作用源自两个不同化学过程之间的耦合和循环，一个是生物元件通过消耗吉布斯自由能而形成分子复合物的自发组织过程，另一个则是环境提供自由能让这种分子复合物解离的热力学分解过程。由此他们认为，这种耦合和循环过程就是生命不同于非生命体的第一个特征——代谢（metabolism）[5]。

需要指出的是，白书农教授等人明确把特定的提供能量之环境视为生命“活力”的源泉：“这种循环过程可以被定义为‘生命（being）或‘活物（living matter）的第一个标志。人们不应该把物质性的质料单独认定为活的，而应该要认识到这种质料参与到了一个由外部能量驱动的动力学循环之中”[5]。这一观点引出了笔者对生命本质的一个新想法，即把环境作为生命构成中不可或缺的角色。生命的形成、生存、繁殖和演化等各种生命特征都建立在特定的环境之上。

过去的还原论与活力论之争主要集中在生命本身，关于环境对生命的意义考虑得不多。可实际上，离开了环境谈生命的意义是不大的。病毒是生命吗？在没有遇到合适的宿主之前，病毒不过是蛋白质和核酸等生物大分子的聚合体，只有遇到了宿主以后，病毒在宿主提供的特定环境条件下才能够成为“活”的病毒，表现出它的各种特性。换句话说，这正是“隐德来希”的真谛：构成生命的相關质料提供了生命的“潜能”，特定的环境条件让这种潜能得以实现。笔者把这种让生命潜能实现的环境称为“活力环境”。在研究遗传物质与性状关系的遗传学里，有一个著名的公式：

表型=基因型+环境

生命也可以给予类似的定义：

生命=生物材料+活力环境

根据这个公式可以为许多争论不清的问题提供答案。例如，通过诱导蛋白质产生异常构像而引发疯牛病的“朊病毒”（prion）是生命吗？就其构成材料来看，“朊病毒”只不过是单纯的蛋白质，不能称之为生命。但是，一旦它进入哺乳动物大脑这个特定的“活力环境”中，其诱导蛋白质产生异常构像的潜能得以实现，从而成为能导致疾病的一种生命体了。再如，计算机病毒是生命吗？虽然它能够在计算机环境下进行自我复制和“传染”，但它没有核酸或蛋白质等生物体构成材料，因此不能称之为生命。

由以上论点又可以引申出一个重要的哲学命题——“存在”与“本质”的关系。对生命而言，存在先于本质，即作为构成生命的质料，可以在没有生命活动的状态下稳定地存在着，如上文提到的文特尔教授通过化学方法合成了一个完整的细菌基因组核苷酸序列，但是构成这个人造基因组的核酸材料本身并没有表现出生命特征，只有当研究者把它放入一个去除了天然基因组的细菌细胞这样一种“活力环境”中，人造基因组才表现出了自我复制和代谢调控等生命特征[1]。据此还可以进一步推导出：生命的存在可与本质相分离，如保存在低温状态下的细胞或者个体仅仅是一种材料，只有在合适的复苏条件之“活力环境”下才能重新呈现出生命的迹象。换句话说，构成生命的材料仅仅是生命形成的必要条件，而特定的“活力环境”则是生命形成的充分条件，缺一不可。

数据驱动的开放型生命科学研究范式

20世纪中叶诞生的分子生物学建立在还原论的基础上，认为生命活动遵循着基本的物理学和化学规律。正如薛定谔在其名著《生命是什么》中所指出的：对生物体而言，在它内部发生的事件必然遵循严格的物理学定律[6]。也就是说，在分子生物学家看来，生命是一部按照决定论规律运转的“机器”；研究者的任务就是要提出科学假设，进而通过研究去认识和揭示这种规律。然而，后基因时代的研究揭示，生命并非是这样一架简单的决定论“机器”，而人类基因组计划也催生了一种不同于假设驱动的研究范式——数据驱动的研究范式。

研究不确定性的生命科学

基于还原论的生命科学决定论者往往有这样一个潜在信念，只要掌握的知识足够充分、信息足够精确，就可以认识和控制一切生命活动，就能够消灭危害人类的所有疾病。现代生命科学那种研究核酸和蛋白质等生物大分子三维空间结构的热情，正是这种决定论观点的突出体现：人们试图精确到原子水平去解释生物大分子的功能或它们之间的相互作用，进而去发现生物体内确定的分子作用机制。换句话说，分子生物学建立在这样一个观念上——结构决定功能。

然而，生物体内的生物大分子种类繁多、数量巨大，即使是大肠杆菌这样简单的单细胞原核生物所拥有的各种蛋白质分子的总拷贝数就高达250万个左右，其整个细胞容积的30%左右都被生物大分子占据。因此，这些生物大分子在细胞内通常处于极端拥挤环境和无序排列状态下。更重要的是，蛋白质和核酸等各种生物大分子具有不可穿透性，不能像无机小分子那样在溶液中自由扩散和运动，导致任何一个生物大分子的实际可及空间大大减少，被称为“排斥体积效应”。这种拥挤的细胞液态环境和排斥体积效应导致生物大分子之间产生了相当复杂的相互作用，其中有一种相互作用被称为“相分离”（phase separation）。生物体的相分离是指：特定的蛋白质和RNA等生物大分子可以在一定条件下组织起来，形成高浓度的特定分子聚集的“液滴”，就如同油滴从水中分离出来一样[7]。不同于传统意义上的蛋白质相互作用，具有相分离能力的蛋白质往往是依靠一类没有确定三维结构的“内部无序区域”（intrinsic disorder region， IDR）之间的相互作用来实现相分离[7]。

生物大分子不仅具有结构上的无序组织，而且在其合成的过程中也有许多随机波动存在。这种生物大分子具有的随机波动性通常被称为生物学噪声（biological noise），主要表现在基因转录和蛋白质翻译过程中，如基因转录过程中它的启动子被激活和灭活时间响应的快慢差异，或者蛋白质合成反应和降解反应的速率差异等。研究者发现，在原核细胞中，噪声对基因转录的影响不大，主要影响蛋白质的合成水平；而在真核细胞中，噪声不仅影响蛋白质的合成，而且显著地影响基因的表达水平。

生物学噪声导致的一种重要生物学现象就是，基因表达水平与蛋白质合成水平之间数量关系的相关性不高。过去人们认为基因与蛋白质的丰度变化关系是线性的，即基因转录产生的mRNA拷贝数多，则相应的蛋白质数量就高；反之，前者少的时候后者也少。然而，在对酵母细胞和动物细胞等不同种类生物体的转录组和蛋白质组的定量分析中发现，mRNA丰度和相应的蛋白质丰度之间并没有很好的相关性。一项对大肠杆菌的单分子研究发现，在生物学噪声的影响下，基因表达量和相应的蛋白质表达量之间呈现出随机的关系，以至研究者得出这样一个结论：“对任何一个给定的基因而言，在单个细胞内的蛋白质拷贝数和mRNA拷贝数之间没有相关性”[8]。

人们通常认为随机性“噪声”会对生命产生负面影响，例如在基因转录和蛋白质翻译等重要的生命活动中存在的不确定性扰动，由此来看，噪声对生命没有好处，应该被消除。但越来越多的研究表明，生命中的噪声不仅难以消除，而且对生命也有着积极的一面，它常常具有许多重要的生物学功能。例如，生物学噪声在 DNA复制过程中往往引发随机突变的产生，为生命的演化提供原材料；在细胞信号转导过程中，生物学噪声可以利用细胞的正反馈机制来放大信号，帮助细胞做决定。此外，虽然生物学噪声可以由细胞间的差异产生，但生物学噪声同时可以用来维持和加强细胞的个体差异特征，影响个体的发育和生长。2020年发表在《自然·方法》上的一项研究表明，在小鼠骨髓调控血细胞发育的过程中，转录因子的基因表达噪声参与到了细胞状态的转换中，进而影响了这些细胞的命运。

当前，对生物学噪声及其对生命活动影响的研究正在成为一个新的科学热点，有研究者甚至称之为“噪声生物学”。这类研究让我们认识到，生物体作为一个开放的非线性复杂系统，一方面自身具有各種内在的随机噪声，另一方面生存于充满不确定性的外部环境之中。可以这样说，地球上生命的演化过程就是由偶然性推动的，它的存在使得生命能够从最简单的原核细胞形式发展出如此复杂多样的动植物。如果生物世界真的是由确定性所统治的，那么今天地球上存在的生命很可能依然只是大肠杆菌这一类简单的单细胞生物。

还原论者推崇的现代生命科学是一种“假设驱动”的研究范式。对决定论者而言，一切事物的发生发展都是遵循着一定规律的，有因必有果；生命科学研究的主要目标通常就是去证实或证伪对某种因果关系的假设。美国著名的肿瘤生物学家温伯格（R. Weinberg）在一篇题为“假设优先”的文章中就开宗明义地指出：“在20世纪，生物学从传统的描述性科学转变成为一门假设驱动的实验科学。与此紧密联系的是还原论占据了统治地位，即对复杂生命系统的理解可以通过将其拆解为组成的零部件并逐个地拿出来进行研究”[9]。而对生命的决定论世界之否定，使得研究者需要重新审视这种“假设驱动”的研究范式。

数据驱动的生命科学

人类基因组计划的实施催生了一种全新的研究范式——数据驱动的研究。一个人的基因组具有30亿个以上的碱基对，即相当于3 GB以上的数据。目前国际上储存的个体基因组序列的数据量已达到百万人级的规模。与此同时，基因组测序也成为了健康医学研究的基本目标，如美国国立卫生研究院在2006年牵头启动了国际癌症基因组项目——“癌症基因组图集”（The Cancer Genome Atlas， TCGA），到2017年底，该项目分析了3.2万多位患者的肿瘤样本，覆盖60个组织或器官的38个癌种及其亚型，测到311万多个基因变异，积累了超过20 PB（1 PB = 1015 byte）的肿瘤基因组数据。此外，转录组、蛋白质组和代谢组等各种生命组学数据也被大量产生。生物医学大数据正在彻底改变着生命科学和医学的研究范式。正如2011年美国首部关于“精确医学”（precision medicine）的战略报告所指出的：“开展本项研究的动机在于，与人体有关的分子数据正在爆发性地增长，尤其是那些与患者个体相关的分子数据，由此带来了巨大的、尚未被开发的机会，即如何利用这些分子数据改善人类的健康状况”。联合国教科文组织在一份科学报告中也做了这样的预测：到2030年，科学不仅基于数据来开展研究，任何科学发现的基本产出也是数据。换句话说，后基因组时代是一个大数据时代，大数据重塑了生命科学研究，研究者不仅继续能够在假设驱动下开展研究工作，也可以在全新的数据驱动范式下进行研究。

数据驱动的研究范式与假设驱动的研究范式有着本质的区别，首先是研究的“初心”不一样，前者不需要假设，不以解决具体科学问题为己任，其主要研究目的是去获取研究对象的相关信息。人类基因组计划就是数据驱动型研究的典型代表；该计划的初衷是要测定人类基因组拥有的全部核苷酸序列。在传统的生命科学研究中，研究者往往是根据某种假设把研究目标锁定到由一段核苷酸序列组成的一个基因之上，进而深入研究其功能或调控机制；而对人类基因组计划而言，研究者则是通过测定全基因组序列，去发现在这些序列中隐藏着的2万多个基因。因此，数据驱动的研究通常又被称为“发现的科学”（discovery science）。

虽然假设驱动的研究范式在现代生命科学的产生和发展中扮演了重要的角色，并成为科学研究的主流，但是，这种研究范式也带有一种先天缺陷。英国科学哲学家查尔默斯（A. F. Chalmers，）在其名著《科学究竟是什么？》中指出，基于假设驱动的研究范式之科学是“从事实中推导出来的”[10]。在他看来，关键是怎样获得“事实”，“其中的一个困难在于，知觉经验在一定程度上受观察者的背景和期望影响，因而，对一个人看来是可观察的事实，对另一个人未必如此。第二个困难源自对观察命题真假的判断在一定程度上依赖于已知或假设的是什么，这样就使得可观察事实像作为其基础的前提一样。这两种困难都暗示着，科学之可观察的基础，可能并不像人们广泛地和在传统上认为的那样直接和可靠”[10]。

由于数据驱动的研究不依赖于假设，因而可以避免这种对“事实”的主观性选择和判断。美国生物学家戈卢伯（T. Golub）在一篇题为“数据优先”的文章中明确指出：“如果没有获得全面的肿瘤基因组数据，将难以区分信号和噪声。尽管假设驱动的实验科学依然处于研究领域的中心位置，但不带偏好的肿瘤基因组测量将提供前所未有的机会去催生新的想法”[11]。换言之，数据驱动的研究范式不仅能够避免研究者可能的主观偏见，而且可以帮助其发现在假设或者现有理论范围之外的全新知识。我们还可以进一步引申一下——经典的科学哲学认为，科学研究需要在由一系列假设和理论搭建的框架内进行，这种指导研究的“框架”被库恩（T. Kuhn）称为“范式”（paradigm），拉卡托斯（I. Lakatos）称之为“研究纲领”（research program）。而数据驱动研究范式的一个“亮点”就是：可以不受现存研究“框架”的制约。

数据驱动的与假设驱动的研究范式之间还有一个重要的区别，即研究策略不一样，前者往往具有一个明显的特征：即把研究目标分解为若干次要目标，然后开展相应的研究工作，并在前期研究结果的基础上反复地进行完善，通过多次研究逐渐逼近预定的总体目标，每一次重复研究的过程称为一次“迭代”（iterate）。这种“迭代”式研究策略意味着允许每一次研究工作可以不完备，可以接受局部的或非最优的阶段性成果。而假设驱动的研究则追求研究成果的完备性，尽可能通过一次性研究工作，就可以完整地解答科学问题或证明科学假设。

后基因组时代的许多生命科学研究计划明显具有这种“迭代”特征，其中最具代表性的例子依然是人类基因组计划。虽然人类基因组计划的终极目标是揭示人类基因组的所有核苷酸序列，但2001年2月发表的人类基因组测序的里程碑成果，不过只是覆盖了基因组90%核苷酸序列的“草图”；2003年4月国际人类基因组测序联合体，才正式宣布人类基因组全图绘制成功；2004年10月在《自然》周刊上发表的相应论文中，也只给出了常染色质区域内约99%核苷酸序列的测定结果。因此，人类基因组序列中至今仍然存在许多高度重复序列区域（如中心粒）没有被测定。2020年9月，研究者终于在《自然》周刊上发表了第一个完整的、没有测序“缺口”的人类X染色体测序工作（还剩下22条染色体待将来进行补测）。不久前，研究者提出了一个比“人类基因组计划”更为宏大的“人类细胞图谱”（Human Cell Atlas， HCA）研究计划，其基本目标是，通过特定的分子表达谱，来辨识和确定人体拥有的40到60万亿个细胞中所有的细胞类型，采用的主要研究策略同样具有“迭代”特征。

数据驱动的研究范式之“迭代”模式既不属于“观察—归纳—证实” 的“实证性研究”，也不属于“问题—猜想—反驳”的“证伪性研究”，其研究成果既不能被证实，也不能被证伪。在整个数据“迭代”的过程中，每一次研究获得的成果都不是决定性的或完备的，如2004年发表的人类基因组“全图”并不证实或否定2001年发表的“草图”。更重要的是，数据驱动的研究范式作为一种超越理论框架的“发现的科学”，并不采用传统的归纳方法去追求事物之间的因果关系，而是通过算法和模型去探讨数据之间的相关性。可以认为，数据驱动的研究范式克服了假设驱动的研究范式对决定论和因果关系的偏执，进而形成了开放式研究的认识论新体系。

[1]Gibson D G， Glass J I， Lartigue C， et al. Creation of a bacterial cell controlled by a chemically synthesized genome. Science， 2010， 329： 52-56.

[2]加勒特·汤姆森，马歇尔·米斯纳. 亚里士多德. 张晓林，译.北京：中华书局， 2003.

[3]Boyle E， Li Y I， Pritchard J K. An expanded view of complex traits： from polygenic to omnigenic. Cell， 2017， 169： 1177-1186.

[4]Kirschner M， Gerhart J， Mitchison T. Molecular “vitalism”. Cell， 2000， 100： 79-88.

[5]Bai S， Ge H， Qian H. Structure for energy cycle： a unique status of the second law of thermodynamics for living systems. Sci China Life Sci， 2018， 61： 1266-1273.

[6]埃爾温·薛定谔. 生命是什么. 罗来鸥，罗辽复，译. 长沙：湖南科学技术出版社，2003.

[7]Shin Y， Brangwynne C P. Liquid phase condensation in cell physiology and disease. Science， 2018， 357， eaaf4382.

[8]Taniguchi Y， Choi P J， Li G W， et al. Quantifying E. coli proteome and transcriptome with single-molecule sensitivity in single cells. Science， 2010， 329： 533-538.

[9]Weinberg R. Point： hypotheses first. Nature， 2010， 464：678.

[10]查尔默斯A. F. 科学究竟是什么？鲁旭东，译. 北京：商务印书馆， 2011.

[11]Golub T. Counterpoint： data first. Nature， 2010， 464： 679.

关键词：生命生命科学还原论活力论 ■