何 静
群体智能(collective/swarm intelligence)指的是从多个个体的合作和竞争中涌现出来的超越个体智能水平的智能或决策方式。在最新发布的《新一代人工智能发展规划》(2017)中,国务院将“群体智能”作为我国新一代人工智能发展的核心研究领域以及整个信息社会发展的核心驱动力。在智能革命的背景下,如何理解群体所具有的主体性和行动力,成为有待解决的重大理论问题。
对哲学前沿问题的探索有赖于新的研究视角与研究进路的引入。作为新兴的研究进路,预测加工(predictive processing)理论不但将大脑与知觉的关系导向了哥白尼式的革命,而且是一个能够将知觉、行动和环境、自我和他人统一起来的融贯理论。①Clark A., Surfing Uncertainty, Oxford: Oxford University Press, 2016.本文将论证,群体智能无法在认识论上被还原为个体认知的智力成果,它在根本上依赖于个体间的社会性预测、规范性调整以及系统层面的制度化整合。以“层级预测”(hierarchical prediction)和“积极推理”(active inference)为理论内核的预测加工理论,不但与胡塞尔关于知觉流的现象学描述形成呼应,而且能够为群体智能提供一种全新的自然化解释路径。
群体智能是人类合作的基本形态。沃森和克拉克共同发现了DNA 双螺旋结构,解开了人类遗传学之谜;股东大会作出了减少注册资本的决议;法院判决驳回原告的诉讼请求;在第十一届世界杯中,阿根廷队击败了荷兰队夺冠等;这些都是群体智能的事例。群体智能不仅是哲学研究的前沿主题,同时也是社会学、动物学和人工智能领域的核心关切。
20 世纪初,美国著名的昆虫学家惠勒(W. Wheeler)首次提出了“群体智能”的概念。在对蚁群协作进行探究的过程中,惠勒注意到当大量“愚钝”的蚂蚁成群聚集在一起的时候,就好像一个“超级有机体”,可以完成单个蚂蚁所无法完成的洞穴建造、搬家等群体行动。社会学家涂尔干(E.Durkheim)从社会实在论角度,阐发了作为个体共有信仰和情感总和的“群体意识”概念。涂尔干强调,群体意识依赖个体意识而存在,但又不同于个体意识;群体意识弥漫于整个社会空间,在时空上超越了个体意识,具有自身的特性和发展模式。①涂尔干:《宗教生活的基本形式》,渠东、汲喆译,北京:商务印书馆2011 年。
关于群体智能的哲学考察,尽管最早可以追溯到古希腊时期柏拉图在《理想国》中关于群体决策在法律体系中作用的探索,以及亚里士多德对于“共同生存”概念的讨论,然而在以个体理智主义为主导的西方哲学传统中,群体智能始终未能得到哲学家们应有的关注。
近几十年来,这种情形正在发生改变。学术界关于群体智能研究的活跃度不断上升,涌现出了一批重要的研究成果。不同学者提出了不同的概念来探索群体智能的形成机制,例如,塞尔(J. Searle)的“群体意向性”(collective intentionality)、布莱特曼(M. Bratman)的“共享意图”(shared intention)、巴兹利(N. Bardsley)的“群体心智”(collective mind)、吉尔伯特(M. Gilbert)的“联合承诺”(joint commitment)和图梅勒(R. Tuomela)的“我们-模式”(we-mode)等。
这些研究尽管呈现出多元化的视角和理论基础,但都聚焦于“作为参与者的个体,如何在群体中思考和行动”的问题展开。宽泛地说,当前的研究呈现出两种主导性的研究范式:以布莱特曼为代表的个体主义范式与以吉尔伯特为代表的整体主义范式。
个体主义主张:个体是群体和社会最基本的存在。除了个体的意图,不存在群体的意图;除了个体的行动,不存在群体的行动;除了个体的责任,也不存在群体的责任。因此,群体智能从本质上说只能属于参与个体;群体行动是由参与个体按照共享意图行动而构成的事件状态。
当多个个体意图一起做X 的时候,就会形成一种“我意图我们一起做X”的共享意图。参与个体拥有这样一种共享意图,当且仅当:
(1) 我意图我们一起做X,你意图我们一起做X;
(2) 我和你意图做X,且我和你之间有着可互相协调的行动计划;
(3) (1)(2)是群体中的公共知识。②Bratman M., “Shared Intention”, Ethics, 1993, Vol.104, No.1, pp.107-108.
由此,布莱特曼将共享意图作为群体智能和行动的基础。尽管共享意图涉及其他个体的意图,但仍然是参与个体所拥有的心智状态,并且个体相信群体中的其他个体也相应地拥有这种意图。在此意义上,群体智能只能是多个个体智能的集合,但个体的意图和行动无法覆盖其他个体的意图和行动。
整体主义明确反对个体主义的哲学立场,强调群体所拥有的智能和行动力应当具有独立的本体论地位,不能被还原为个体智力成果的累加。吉尔伯特提出,当多个个体按照共享意图展开行动,并以特定的方式互相联结的时候,就形成了一个多元主体。这个多元主体和个体行动者一样具备各种心智状态和行动力,且不能被还原为个体的心智状态和行动。多个个体构成了一个主体,当且仅当:
个体参与者A1、A2…… An 之间形成了联合承诺,并且他们像一个主体(as a body)那样完成X。③Gilbert M., “Concerning Sociality: the Plural Subject Paradigm”, Green J., eds., The Mark of the Social, Rowman & Littlefield,1996, p.268.
进一步地,吉尔伯特认为,这种参与个体间所达成的联合承诺,令每一个个体具有做好分内之事的义务以及督促其他个体遵守承诺的权利。群体中的个体彼此协调、配合,就好像一个身体中的不同器官如大脑、心脏、肝脏、手和腿等各司其职并构成“一个主体”。
我们看到,个体主义否认群体的实在性,将群体智能还原到个体的心智状态和行动;而整体主义则强调群体所拥有的智能和行动力应当具有独立的本体论地位,不能被还原为个体智能成果的累加。事实上,这两种研究范式都是有缺陷的。
个体主义的进路容易导致唯我论并弱化个体间的协调与合作过程,无法说明为什么群体的目标和规范能够极大地影响个体的行动和意图。整体主义的进路往往将群体的目标和信念与个体行动者的选择混淆起来,无法说明离开了个体的意图和行动力,群体智能还剩下什么。更重要的是,无论是个体主义还是整体主义的研究范式,都主要集中在社会认识论的层面,缺乏与认知科学前沿研究的互惠约束,未能为群体智能提供一种有效力的自然化说明。
上述研究的困境导致群体智能沦为哲学研究中的“神秘之物”。在接下来的讨论中,本文将表明:群体智能无法在认识论上被还原为个体认知的智力成果,个体间的社会性预测构成了群体智能的基石。一方面借鉴胡塞尔关于知觉流的现象学考察,另一方面引入预测加工的神经科学模型,本文将从自下而上(bottom-up)和自上而下(top-down)两个解释层次提供一种全新的自然化解释路径,进而为一种非还原的个体主义研究范式进行辩护。
若要转换研究的思路,我们就不得不抛开个体主义与整体主义两大研究范式之争,而回到群体智能现象本身上来。本文以爵士乐队的即兴表演为例。
即兴表演的特点是,在开始演奏前,乐手们并不事先约定乐曲的主题、调号、和弦的长度和序列。甚至在演奏的过程中,乐手们也不知道乐队将最终给观众呈现一首怎样的乐曲。演奏一开始,乐队中的一名乐手通常会给出一个信号,比如在一个高音或长音后,其他乐手自由地在旋律部分切入,共同创作一支完整而和谐的乐曲。在此过程中,任何一个乐手都无法像控制自身节奏那样来控制整个乐队的节奏。但是,作为乐队的组成部分,每一个乐手都必须承担相应的义务——在演奏的同时倾听和感受他人的演奏,将他人的节奏和旋律带回自身并与之形成呼应。如此循环往复,直至曲终……
我们看到,尽管没有哪一个乐手承担着指挥者的角色,但在这个群体中,好像有一只非匀质的、看不见的手,引领着整个乐队的演奏。在演奏过程中,每一个个体乐手通过对其他乐手演奏的感知建立起信息交流的通道,并由此决定自身下一步的行动。这意味着,乐队的演奏并非个体乐手的简单聚合,每一个乐手的演奏体验都会因其他乐手的参与而变得不同。基于个体乐手间的实时动态交互,整个乐队达到了某种整体的连续性与一致性。在此意义上,可以说整首乐曲是在不同乐手间的共同参与、相互调节的过程中涌现出来。
因此,整个乐队的演奏无法被还原为单个乐手的演奏,从根本上说这是多个乐手共同参与、相互调节的结果。沿着这一思路,我们不禁要追问:这种“共同参与、相互调节”到底如何可能?在这个方面,胡塞尔关于知觉流的现象学考察将令我们受益匪浅。
胡塞尔认为,当一个声音响起时,它会在我们的知觉中持续流淌,就好像流星划过星空后留下的一条长线,久久不消逝。这个声音的出现就是这条线的开端,当我们的知觉把握住它的时候,它就成为“原印象”(primal impression) ——即,我们此时此地、在当下存在着的知觉内容E0。①Husserl E., The Phenomenology of Internal Time-Consciousness, trans, Churchill J., The Hague: Martinus Nijhoff, 1966, pp.105-107.E0 在知觉中呈现后并不会立刻消失,而是被“滞留”(retention)在知觉流中,作为E0’、E0’…… E0n在知觉流中不断地后退、减弱,并与E0 一起在知觉中呈现为对象E(比如一个声音)。因此,所有的知觉对象都是原印象及其滞留的连续统一。
如果当一个原印象E0 出现并进入滞留后,新的原印象E1(比如另一个声音)出现了。E1 也具有同样的意识结构,它在出现后,立即进入滞留状态,接着其他原印象E2、E3、E4、E5 相继出现……此时,滞留 E0’、E0’以及 E1’、E1’,E2’、E2’,E3’、E3’并不是以实在的方式呈现在知觉内容中,但“它以体现性的方式参与对现在对象的构造”,②方向红:《时间与存在》,北京:商务印书馆2014 年,第41 页。从而构成一个连续的对象(如一段旋律)。
胡塞尔进一步指出,当E0 作为当下的知觉内容出现的时候,它的前后会同时发生两个事件。一方面,E0 进入滞留成为E0’;另一方面,E0 正预测着E1 以及E2、E3 的到来。胡塞尔将这种预测叫作“前摄”(protention)。前摄就好像是滞留的颠倒,前者将未来的可能事件纳入当下,而后者则是将过去的事件扣留至当下;前者不断向现实靠近,而后者逐渐从现实中消逝。
胡塞尔主张我们所有的知觉内容都具有原印象—滞留—前摄的三重结构。正是这动态延绵、循环往复的三重结构生成了我们当下的知觉体验并赋予对象以意义。在原印象阶段,正在出现的知觉对象得到了简单和直接把握;在滞留阶段,知觉对象已经消退但仍然以非具体的方式被扣留在当下;在前摄阶段,未来的知觉对象以相似物的方式向当下敞开。在此意义上,原印象是绝对的现在,滞留虽不在场但并不缺席,前摄虽未发生但又属于现在。同时在此过程中,原印象已经被滞留塑造并同时受到前摄的限定。胡塞尔由此感叹:这就是我们“奇迹般”(wundersame)的知觉结构!
我们看到,原印象—滞留—前摄中蕴含着的并非是一个简单的时间模态,而是一个相互建构的生成知觉结构。它赋予了我们与外部世界进行生成互动的可能性。在爵士乐队即兴表演的情形中,当乐手听到其他乐手弹奏的音符Do 的同时,另一个音符Re 也流进来。不过先前的音符Do 并没有消逝,而是作为Do’被滞留在知觉中。同样,当第三个音符Mi 流入时,Re 进入Re’,Do’也隐退到Do’的位置。
在所有这些依次发生的同时,乐手依据对音符Do 和Do’对Re 和Mi 以及后续音符的到来进行预测,这些音符因为在预测中即将成为现实而进入当下的知觉内容。也就是说,乐手在知觉到一系列音符的刹那,同时也在预测着下一系列的音符。不过,更重要的是,乐手进一步依据这些预测来决定自己下一个弹奏的音符,与已知觉到的Do、Re、Mi 配合形成旋律。
这意味着,在爵士乐队的即兴演奏中,预测的视域构成了个体乐手进行回应性演奏的主要依据。由此我们可以想到两种可能的情形:一种是新输入的原印象确认了之前的预测;另一种是新输入的原印象否定了之前的预测。在这两种不同的情形中,作为“奇迹”的知觉流如何进一步指导个体间的交互行动?对于这个问题,胡塞尔没有回答。近年来兴起的预测加工理论,不但与胡塞尔关于知觉流的现象学描述形成呼应,解答了胡塞尔遗留下来的问题,而且能够进一步为群体智能提供一种自然化的解释路径。
胡塞尔关于“原印象—滞留—前摄”知觉三重结构的论述,为以“预测”/“前摄”为基本走向的知觉流提供了丰满的现象学描述:对未来发生的事件的知觉受到过去发生以及当下正在发生事件的规定。在此图景下,群体智能的神秘性似乎消失了。正如我们在爵士乐队即兴演奏的例子中所见,群体智能既无法在本体论上被看作某一个融合智能体(one fusion agent)的智力成果,也无法在认识论上被还原为多个个体智力的累加,而在根本上依赖于参与个体间直接、实时的预测性交互。
然而,如果不能为这种预测性的交互过程提供一种有效力的自然化说明,就无法从根本上解决群体智能的研究困境。接下来,本文将通过引入预测加工的神经科学视角,来阐释预测性交互的发生学机制,并据此为群体智能提供一种清晰的自然化哲学理解。
预测加工理论是为了解决知觉问题而提出的——即,依靠感官的输入,大脑如何建构关于外部世界的知觉。尽管预测加工的理论雏形可以追溯到19 世纪物理学家亥姆霍兹(H. Helmholtz)提出的“无意识推理”思想,但其理论内核的形成则受益于统计学中的贝叶斯推理(Bayesian inference)以及神经科学和脑科学的最新研究成果。近十年来,该理论正在试图发展成为解释知觉、行动、注意力的大一统认知研究范式,其代表人物包括:神经科学家弗利斯顿(K. Friston)、弗里斯(C.Frith)以及哲学家克拉克(A. Clark)、侯宜(J. Hohwy)等。
预测加工的基本观点为:大脑就好像一台预测机,持续地将“自上而下”的先验预测结果与“自下而上”的实际知觉输入进行匹配,推断出当下知觉的原因并据此采取行动,以降低先验预测结果与实际状态之间的误差。值得注意的是,这种主张的核心并不在于大脑对知觉信息的直接接收,而在于大脑对知觉来源的主动预测和神经建构。
这种大脑对知觉的神经建构包含了“自上而下”与“自下而上”两种不同的预测加工形式。“自上而下”的预测指的是,大脑利用已有的知觉结构,形成一个独立于认知经验内容的先验预测;“自下而上”的预测指的是,大脑基于当下的知觉输入而进行的预测。这两种预测加工方式同时发生作用,并由此形成了一个复杂的“层级预测”模型。①Friston K., Frith C., “Active Inference, Communication and Hermeneutics”, Cortex, 2015, Vol.68, pp.129-143.一旦输入的感官证据与大脑自上而下的先验预测结果不一致时,预测误差就产生了。这时较低层级的神经环路就会自下而上地将误差提示传入较高层级的神经环路,以修正和更新原来的预测结果并最终形成最佳的预测结果。从这个意义上说,知觉内容并非取决于外部世界的感官刺激,而是大脑通过不同层级的神经环路间彼此刺激而生成的关于外部世界预测的结果。正如弗里斯所说:“我的知觉不是世界本身,而是我大脑中的世界模型。”②Frith C., Making Up the Mind: How the Brain Creates Our Mental Worlds, Oxford: Blackwell, 2007, p.132.
在此基础上,克拉克进一步强调,大脑积极生成层级预测的同时,还通过“积极推理”(如引发身体的行动)获取最新的知觉信息,以协助大脑对引起知觉的远端起因进行调控和解释。③Clark A., “Whatever Next: Predictive Brains, Situated Agents, and the Future of Cognitive Science”, Behavioral and Brain Science,2013,Vol.36, Iss.3, pp.181-204.由此,知觉作为调节预测结果的参数,以及行动作为改变预测对象的手段,在预测加工的解释框架中获得了统一。
假如我面前有一个花瓶,我知觉到了它的高度和瓶口宽度等,尽管我并没有意识到,但事实上,在我还没有将手中的玫瑰插入花瓶之前,大脑就已经对手臂和手的最佳运动轨迹进行了预测。当我拿着玫瑰将手臂伸向花瓶并试图把枝干插入瓶口的时候,这些预测就会得到检验……通过不断调整手臂的位置和方向,我在不断优化已有的关于运动轨迹以及花瓶的预测结果的同时,也积极地改变了外部世界。
不难发现,这种持续进行的自上而下与自下而上的层级预测,不仅与胡塞尔关于朝向过去的滞留与面向未来的前摄之间动力循环的相关论述形成了呼应,而且解释了大脑如何通过多层级神经环路的建构的预测结果(前摄),将个体的注意力导向当下感官输入(原印象)并诱发相应的身体行动,以达到个体与外部世界耦合(coupling)的过程。这种耦合不仅包含了大脑、身体与外部对象之间的耦合,更包含了大脑、身体与他人之间的耦合。可见,关于他人行动和意图的预测误差,使得个体自发地衍生出社会性的交互行动。④Roepstorff A., “Interactively Human: Sharing Time, Constructing Materiality”, Behavioral and Brain Science, 2013, Vol.3, Iss.3,pp.224-225.
而这种社会性交互行动的本质在于双向预测。“双向”意味着,“当我试图理解你的同时,你也试图理解我。这里的感官证据可以是我听到的言语,从这些言语中我推断出你试图传达的观点。我不仅能够通过预测你可能还会说什么别的来检验我的推断,而且还可以通过自己说些什么,然后预测你会如何回应。同时,你将会把相同的策略用于我所说的。当我们之间的预测误差变得足够小时,就会大致达成彼此的理解”。⑤Frith C., Wentzer T. S., “Neural Hermeneutics”, in Kaldis B. eds., Encyclopedia of Philosophy and the Social Sciences, London:Sage, 2013, p.658.因此,在社会交互中,每一个参与个体既是预测者,也是被预测者。
我们看到,这种具有显著“社会性”的预测过程并非慎思或理性推理的结果,而主要依赖于个体间知觉经验的相互建构。那么,我们的预测如何开始呢?在弗里斯看来,它通常始于“偏见”。⑥Frith C.,《心智的建构:脑如何创造我们的精神世界》,杨南昌等译,上海:华东师范大学出版社2012 年,第159 页。这些偏见往往来自个体与其他个体的交往经验、文化理解等。例如北方人豪爽、商人精于算计、疼痛时会尖叫、害羞时会脸红等,这些偏见的准确性到底有多高并不重要,重要的是它们不但开启了社会性预测的循环,而且在大多时候能够帮助个体花费较小的计算成本进行预测。在实际情形中,个体能够根据预测误差及时调整接下来的预测结果,使大脑中关于其他个体和世界的模型变得愈来愈清晰。
因此,社会性的预测是一个自上而下与自下而上之间的预测加工循环(predictive loop)——先验的知觉经验对当下的感官证据进行自上而下的预测,感官证据进一步自下而上地对预测结果作出修正和调整。一方面,预测始于先验的社会交往经验(或者说“偏见”);但另一方面,在社会交互行动中,实时的关于其他个体的感官证据(其他个体的言语、表情、身体行动等)具有优先性,可以及时地对原有的预测结果进行修正。这意味着,社会性预测同时也是一个个体与其他个体之间的解释学循环(hermeneutic loop) ——个体间的交互行动通过其参与个体的行动获得理解,但同时这种理解又在根本上依赖于离开其他个体以及整个群体的行动。
正如我们在爵士乐队即兴演奏的例子中所看到的,乐手们演奏的乐曲并不是事先规定好的,而是从参与个体间的交互过程中涌现出来的。这个涌现过程的实质在于个体乐手与其他个体之间实时的、持续的预测性交互。每一个参与乐手通过倾听和感受其他乐手的音调和节奏,预测他们接下来的音调和节奏,并进一步依据这些预测来引导自己接下来的行动,从而实现整个乐队演奏的连续性与一致性。
在社会生活中,群体是重要的行动主体和社会责任的承担者。近年来,群体所表现出来的超越个体维度的智能类型,受到了动物学家、社会学家和哲学家的高度关注。然而,已有的群体智能研究要么专注于经验研究而无法摆脱还原论的陷阱,要么聚焦于哲学思辨而与经验描述相脱节。
预测加工理论是认知神经科学的一大突破,体现了认知科学研究的最新进展。作为一种凸显个体大脑神经生物动力过程的理论模型,这种全新的研究框架融贯了“自上而下”与“自下而上”两个解释层次,不仅与胡塞尔关于“原印象—滞留—前摄”三重结构的知觉交互现象学的描述形成了呼应,而且为我们更清晰地理解群体智能提供了一种非还原的自然化哲学解释路径。
群体智能并非某个超级有机体的智力成果,从本质上说,它是从个体间持续的社会性预测中涌现出来的结果。在社会性情境中,个体根据以往的社会交往经验或对社会规则及文化的理解形成关于其他个体“接下来会做什么”的先验预测,进而依据当下感官证据的输入,通过调节知觉推理或采取身体行动的方式,来及时修正社会性预测的可能误差。因此,社会性预测不仅仅涉及大脑对他人意图和未来发生事件的概率性推理,还涉及个体为达到与外部世界和其他个体耦合而采取的具身性行动。在此意义上,预测加工的进路有机融合了个体的社会性预测、个体间的规范性调整以及群体层面的文化制度整合三个维度,为我们提供了全新的群体智能解释框架。
同时,这种新的研究范式也能够为未来人工群体智能的研究提供新的问题解决思路。当前的人工智能研究主要以互联网与信息为基础,试图通过大量独立智能体之间的“信息协同”形成具有社会属性的人工智能类型。但是,如果群体智能无法从根本上被还原为单个智能体的智力成果,而依赖于个体间的预测性交互行为,那么对于人工群体智能的实现来说,问题解决的路径就应当分布在单个智能体、智能体间的联结以及情境化的系统之间。因此,如何进一步提升人工智能体的自由度和开放性,模拟智能体间的双向预测机制,以及模拟文化基因的算法,将是未来人工群体智能研究亟待解决的理论难题。