空间认知的计算建模研究现状与展望

2023-07-30 07:07谢祺旭
世界建筑 2023年7期
关键词:大脑建模状态

谢祺旭

0 引言

在城市人因工程学[1]中,空间认知机制研究是理解人的空间体验的基础工作之一。人脑通过学习,能够借助感官实时获取局部信息,并结合自身的记忆和经验建立整体空间关系的抽象认知。这一过程帮助我们在城市和建筑中进行定位与寻路,是支撑我们日常空间使用的基础。

空间认知是一个广阔的交叉研究领域,一直是建筑学、心理学、神经科学、计算机科学等学科的共同话题。1940 年代,心理学研究在行为层面提出了认知地图(cognitive map)概念[2];1960 年代,建筑学研究从城市设计层面提出了城市意象的理论[3];1970 年代到21 世纪初,神经科学研究在神经层面发现认知地图在位置细胞和网格细胞上的编码方式[4-5],相关成果也获得了2014 年诺贝尔生理学或医学奖;到今天,计算机科学研究中空间导航和自主寻路的算法实现仍然是重要的研究话题,以DeepMind 为代表的人工智能研究团队基于深度网络对网格细胞导航功能的实现也是该交叉领域近年来的重要突破之一[6]。随着对神经机制了解的不断深入和不同学习模型的发展,面向复杂现实环境的空间认知过程的计算建模已成为该交叉领域未来的关键科学问题之一。一方面,完整的计算模型能够帮助我们建立对空间认知过程的科学认知,测试我们的理论假设;另一方面,经过实际数据检验的模型能够帮助我们进行空间设计的测试和迭代。因此,本文希望通过综述不同学科在这一问题上的研究进展,为未来的空间认知计算建模提供启发。

1 空间认知计算建模的三个主要难点

空间认知难以被描述和测量。空间认知研究最有趣也是最困难的一点在于:主观方面,我们难以直接报告空间在我们大脑中形成的具体结构和建立这些结构的过程;客观方面,尽管神经影像和颅内脑电等技术已经可以让我们在局部脑区或单个细胞的水平上观测空间认知相关的神经活动,但在短期内,我们依然难以测得空间认知的完整过程及其在脑内的完整表征(representation)。我们无法简单地通过收集证据或测量得到理想的模型。因此,空间认知计算建模最大的挑战来自于如何综合行为和神经层面的局部证据,结合研究者的认识和判断提出整体机制的合理假设。

空间认知具有不同尺度的时间序列属性。一方面,相较于局部信息的感知,空间认知发生在人的持续移动过程中,人脑需要组织时间序列上接收到的不同信息;另一方面,更长时间尺度上的信息,即人过去经历的空间记忆以及形成的空间经验也会极大地影响当前空间的认知过程。因此,空间认知的本质不是对静态信息的反映,而是人脑如何处理和组织时间序列信息[7]。我们需要在空间认知的计算模型中引入时间维度,但同时又要保证引入后的计算复杂度不会过高。这不仅是为了算法的实现和运行,也因为过度复杂的计算模型可能会超出大脑实际所具有的处理能力。

空间认知具有明显的个体差异。既有研究显示,不同成长环境和职业背景都会导致人的空间认知能力差异[8-9]。因此,除了对实际认知过程的建模以外,还需要找到合适的方法来建模人群的个体差异。例如,如何将个体的成长环境记忆纳入模型的框架。否则,在实际工程应用时将难以成立。城市和建筑设计实践都需要计算模型根据所在地域和面向群体的不同来进行相应人群空间认知的模拟。

2 空间认知的理论假设

目前已知存在的有关空间认知的众多理论假设可大致基于和现有计算建模关联归纳为相关性较高的两类:认知地图和预测地图。这两类理论假设分别对应认知科学中关于大脑功能的两种范式[10]:(1)大脑从感官信息中提取知识;(2)大脑主动推理外部环境变化。

2.1 认知地图

认知地图指人借助感官接收的空间局部信息,在大脑内部建立空间不同局部间关系的表征。这一概念最早由Tolman 根据哺乳动物的寻路行为提出[2],其后大脑中海马体的位置细胞、内嗅皮层的网格细胞等特殊神经细胞的发现也支撑了认知地图在大脑中的存在[4-5,11]。

需要注意的是,认知地图不单指每个空间在大脑里存在相应表征,而是其背后有一个结构性的抽象[12]来反映空间的共同模式,支撑人认知不同空间。对每个外部环境都建立特定的完整认知地图的计算复杂度高,对于人脑来说可能是难以实现的理想状态;静态的认知地图也无法解释人在新的环境中快速建立空间认知、找到合适路径的过程。尤其是近年来,海马体—内嗅皮层通路与认知地图相关的机制被扩展到了更一般化的认知过程[13-15],因此需要以一种抽象化的知识结构来理解认知地图机制。人脑构建新空间的认知地图可能更接近于将感官收集的信息组织到大脑中既有的结构上[16]。这种结构既包括像Lynch K.所提出的城市意象元素这类相对具象的组成[3],也包括更抽象的图结构(graph)[16]以及图式(schema)[17]等。

2.2 预测地图

预测地图(predictive map)理论将人脑中的空间认知理解为一个主动推理的模型,即不断依赖当前的信息推测后续状态的概率分布[18-19]。这和认知科学中大脑进行预测编码(predictive coding)的理论相一致[20-22],该理论认为大脑的核心功能是存在一个世界模型,并通过行动和观察不断缩小这个模型对外部环境未来状态的预测误差。预测地图的假设也得到了实验证据的支持,一些针对海马体的观测显示,相较于只表征当前位置,位置细胞的激活更有可能是在表征后续位置出现的概率[23-24]。

预测地图比认知地图具有更少的假设和简洁的框架。认知地图需要有不同的抽象结构假设来支撑不同空间认知任务的实现,而预测地图只用一个统一的主动推理框架来建模不同任务下共通的空间认知机制[19]。这一机制本身不包含空间结构的假设,基于此构建的计算模型如果能够支撑空间任务,会具有更高的说服力。可以说,相较于认知地图显式表达空间认知的结果,预测地图则更像用方程进行隐式表达。尽管牺牲了认知结果表达的直观性,但借助现代的人工神经网络,这个方程可以取得很高的准确度。

3 空间认知计算建模研究现状

3.1 生物启发式模型

人脑中和空间认知最直接相关的部分是内嗅皮层和海马体通路[25]。生物启发式模型尝试对该通路中的神经活动进行计算建模。这类建模关注模型在神经机制上的可解释性。模型除了需要能够基于原始的外部信息进行空间认知以外(行为层面上的相似性),模型内部的表征应该有和相应神经细胞相似的激活模式(生物层面上的合理性),以提升模型的说服力[26]。常采用的神经细胞除了位置细胞、网格细胞,还包括头部朝向细胞[27]、边界细胞[28]、地标细胞[29]等空间认知相关的神经细胞,这些细胞的活动都具有高度的空间规律。

既有的神经科学研究支持网格细胞作为相对底层的细胞,贡献于位置细胞对空间的编码[30-31]。因此,如果模型能够基于外部环境和自身活动输入的信息实现和网格细胞类似的功能,那就有可能从底层向上构建空间认知系统。在2005 年网格细胞被发现后,众多的计算模型被提出用于解释网格细胞活动规律形成的机制[32-34]。Banino 等人[6]进一步将这种建模用来支撑具体的空间导航行为,通过循环神经网络学习哺乳动物依靠自身每个时刻的速度推测所处位置和头部朝向的过程,模型成功地出现了和哺乳动物网格细胞相似的空间激活特征,进一步地,该模型在更大的网络架构中,对智能体的导航起到了重要作用。Whittington 等人[16]提出了更完整的模仿海马体—内嗅皮层通路的计算模型(Tolman-Eichenbaum Machine,TEM)。该模型分模块复现了海马体整合内嗅皮层中感官信息和抽象结构的过程[31],成功观察到与更多类型神经细胞相似的激活模式,并且将任务泛化到了除了空间关系以外的知识关系结构认知。

这类模型复现的更多是在实验室环境下的实验结果。简单的实验环境和近乎完美的神经细胞激活模式是否能够解释复杂现实环境下的人类行为还有待进一步研究。近年来,来自建筑学领域的研究已经开始逐渐缩小这一落差。Bongiorno 等人[35]在大规模的GPS 数据上,发现了人群在城市中基于所处位置和目标间的矢量的导航机制,并构建了行人在城市中路径规划的数学模型,成功解释了人实际路径决策相较于最短路径的偏移现象。这一现实环境下发现的宏观机制已经十分符合神经科学和认知科学上的微观原理[36],展示了在统一的框架下实现计算模型、神经细胞活动和现实环境行为三者一致性的可能。

3.2 任务型的强化学习模型

越来越多的证据表明,人类和动物的大脑可能在执行与强化学习相类似的算法[37-38]。空间认知中所包含的探索、学习、规划等过程都能很好的在强化学习的框架下得到实现。强化学习较早就被用来进行位置细胞和网格细胞支持动物导航过程的计算建模[39-41]。在强化学习中,基于模型的强化学习(model-based reinforcement learning)的环境模型与认知地图理论具有极高的相似性,它包含两部分:(1)动作对状态影响的预期;(2)每个状态或状态—动作对的奖励期望[37]。如果将“状态”理解为我们所处的位置,“动作”理解为我们的路径选择,“奖励”对应实际寻路中找到目标位置,那这两部分就对应我们实际在空间中寻路时,对每个路径选择导致的位置变化预期和每个位置距离我们目的地的距离预期。

但在实际建模中,尤其是面向复杂的现实环境,基于模型的强化学习由于需要对状态空间极大的未来状态建模,仍然受到算力的局限。近年来的研究更多采用的是Dayan 提出的Successor Representation(SR)[42]强化学习算法。这一算法兼具基于模型强化学习的灵活性,和无模型强化学习(model-free reinforcement learning)的较低计算复杂度。Stachenfeld 等人[43]发现SR 算法可以较好地解释预测表征在大脑中建立并支持空间导航任务的过程,并在此基础上以SR 算法作为统一框架复现了海马体和内嗅皮层的多种激活模式[18];Cothi 等人[44]则基于该算法进行了寻路建模,通过实验证明该模型在迷宫中的寻路路径和人、小鼠具有一致性。

除了依赖寻路这样的外在价值驱动,我们认为可能存在更具普遍性的内在价值来加速空间认知的强化学习过程:一方面寻路这样的空间任务存在强化学习领域中的稀疏奖励问题,需要有内在价值来帮助模型更好地学习[45-49];另一方面是因为实际空间中,认知不仅驱动行为,行为的策略(探索哪部分空间)也会反过来影响认知。例如,人在探索一个新环境时,满足自我的好奇心和消除环境里的未知都会是很重要的驱动力[45,50]。如果能合理地量化这种策略,有可能能够加速模型的学习过程。Pathak 等人[48]以下一状态的预测误差作为奖励,鼓励模型对未知环境的探索,并在其后将预测误差修正为寻找预测不确定性最高的后续状态的动作选择策略[51],这与OpenAI 借助信息论建立的信息增益最大化探索策略相近[46]。基于这些策略的模型已经在游戏领域中取得了显著的效果[52],如果能够检验其与人的实际行为策略具有一致性,这类模型可以被应用到空间认知的计算建模中。

3.3 预测型的表征学习模型

借助任务型的强化学习,计算模型在特定任务表现出与人相近的行为,但是如果改变任务,模型往往无法顺利迁移。而在实际的人脑中,空间认知可以支撑我们完成不同的任务。因此,基于特定任务的强化学习可能并未学习到人脑空间认知中对环境真正的表征。基于预测编码和预测地图理论的假设,模型可以完全脱离任务,通过不断预测后续状态,学习到通用的空间表征。

这一假设在其他基于视觉的规划—控制任务的强化学习中也得到支持,通过单独训练一个卷积网络将时间上相邻的观察联系起来就能够有效提升模型的性能[53-54]。针对空间认知,Penny等人[19]通过建立后续状态的概率推断模型,实现了多种空间任务;DeepMind 通过在强化学习的框架中,引入一个预测型的变分自动编码器,有效地表征了空间认知中的长期空间记忆,实现了传统强化学习难以实现的空间任务[55];随后又实现了基于对比学习的表征学习,仅通过让模型区分后续状态和随机抽取的其他状态,模型所学习到的表征就能够完成基本的空间定位和记忆任务[56]。这些研究验证了通过预测学习到的表征能支撑空间认知,但认知结果和支撑的行为是否与人一致同样有待检验。

预测型的表征学习模型还能够解释一些潜在的空间认知过程。重映射(remapping)是外部背景环境变化时海马体内位置细胞和新环境重新建立联系的过程[57]。不同于实验室实验,现实环境中人会连续地体验不同的空间,需要不断地切换大脑中的认知地图。但如何定义和量化判断什么是背景环境变化是其中的难点[58]。前述的两类模型大部分只针对实验室中的单一场景实验,无法反映大脑中认知地图切换的过程,而预测型模型可以直接通过预测误差(predictive error)来量化这个过程的发生。Fuhs 等人[59]将每个背景环境量化为一个隐马尔可夫模型,基于不同模型对后续状态预测准确性的比较,建模大脑判断所处背景环境的过程;在此基础上,Sanders 等人[58]通过建立表征预测模型,以预测误差来衡量重映射出现的概率。与重映射相伴随的是人对不同空间之间边界的认知,预测误差因此也可以被用于建模空间边界的形成过程[60]。

1 探索—预测的空间认知模型框架

4 展望

结合空间认知计算建模既有研究进展,面向未来,有两个方向可能带来新的突破。一个是以自回归模型作为基础模型,习得空间视觉特征通用的表征。在自然语言领域我们已经看到,自回归模型通过扩大参数不断提升学习大规模数据知识的能力,并成功将这些知识迁移到不同任务的实现上[61-62]。已经有研究者利用大语言模型的预测误差来模拟大脑接收文本信息的过程,成功用预测误差建模了人对文本的分段认知[63-64]。文本的上下文补全和空间认知中的后续状态预测都可以纳入预测编码的范畴,看作是模拟大脑进行主动推理的过程。这意味着我们有可能通过与自然语言类似的路径,在大规模的视频数据中训练模型的序列预测能力[65-66],模型所学习到的表征有可能就是空间认知的基础,并能支撑不同空间任务的建模。

另一个是将预测型的表征学习模型与探索型的强化学习相结合(图1)。尽管自回归模型能够以互联网上大规模的现实影像作为训练数据,但其可能面临的问题包括:(1)学习过程中模型被动接收影像,缺乏动作—状态关系的学习,而让模型能够学习到不同动作带来的状态改变是建立不同空间状态间关系的重要步骤;(2)在传统的数据集中能够提供深度这一重要空间信息的深度图、双目视图等数据类型规模很小。基于虚拟环境的强化学习则可以在空间中采取动作、观察环境、自行采样获得大规模的动作—状态数据。未来研究的关键在于构建一条合适的路径生成大规模的三维环境作为训练环境。有趣的是,预测型的表征学习模型是让模型通过学习不断提高对下一状态预测的准确度,而探索型的强化学习则通过策略不断去选择预测不确定性最高的动作,如果能找到稳定的训练框架,两者的相互对抗可能能够较好地加速空间认知的学习过程。

从过去80 年间空间认知研究进展中我们可以看到,一方面,我们在神经细胞上观测到了令人惊讶的规律性激活模式;另一方面,对空间认知背后一个理性的神经机制存在的坚信,推动着我们通过计算模型去理解这一人类自身重要的智力过程。通过不断追问“空间对于大脑来说究竟意味着什么”[7],我们期待未来交叉学科的研究能够借助计算模型来建立一个从神经细胞机制到复杂现实环境中行为规律的统一框架,以更准确地进行设计干预满足我们日常生活的空间需求。

猜你喜欢
大脑建模状态
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
状态联想
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
生命的另一种状态
坚持是成功前的状态
三元组辐射场的建模与仿真