自然场景的识别及其理论模型*

2019-09-03 09:00:30

应用心理学 2019年3期

(浙江大学心理与行为科学系，杭州 310028)

1 前言

自然场景(nature scene)是指由空间分布合理的背景和离散的客体构成的真实环境的连贯图像(Henderson & Hollingworth,1999)。以往研究发现，人类对场景图片的信息提取和处理能力非常出色。我们既能够对快速呈现的自然场景图片中的客体信息进行辨认和命名(Potter,1976;Thorpe,Fize,& Marlot,1996;LoBue & Deloache,2008)，也能够对快速呈现的不同类别的自然场景图片进行分类(Torralbo et al.,2013)，还能够快速探测自然场景中的深度信息、场景功能等社会信息(Gajewski,Philbeck,Pothier,& Chichka,2010;Greene & Oliva,2009)。人类视觉系统如此高效快速的自然场景识别能力引起了相关领域研究学者们的广泛兴趣。

本文首先总结并详细地阐述了人类视觉系统在处理自然场景时的主要特征，然后结合新近的认知神经科学研究，系统地介绍关于自然场景识别的特异性脑区及其简要关系。在此基础上，文章进一步整理了以往研究者针对自然场景识别所提出的认知模型和计算模型，论述各个模型对自然场景识别领域的贡献和不足，以助于未来自然场景识别领域的相关研究。

2 自然场景识别的主要特征

2.1 自然场景识别的快速性

人们能够从复杂的自然场景中准确快速地提取场景的主题(gist)信息。

一方面，人类可以迅速准确地从众多干扰刺激中识别目标刺激。早期研究发现，当场景图像以每秒8张的速度进行快速序列呈现(rapid serial visual presentation,RSVP)时，即使在序列开始呈现之前只给被试有关目标场景主题的简单文字描述，他们也能准确地识别出目标刺激(Potter,1975)。Potter等人(2014)将RSVP的实验条件设置为每张场景图像呈现13～80ms，连续呈现6或12张，然后要求被试判断描述的目标场景是否出现在呈现序列中。结果发现，即使在呈现时间最短的13ms条件下，无论关于目标场景的描述是出现在序列呈现之前还是全部呈现完成之后给出，被试对目标检测的准确率都显著高于随机水平，说明即使刺激只呈现13ms，被试也能够对序列中的所有刺激进行快速加工。

另一方面，人类能够快速地提取自然场景中的有效信息，并做出正确选择。Thorpe等人(1996)采用经典的go/no-go动物分类范式，在场景图像快速闪现20ms的条件下，让被试判断所呈现场景中是否包含动物，同时记录被试的脑电活动。对有动物出现的场景，观察者可能只需对动物出现的区域或动物的一些显著特征进行检测，但对没有动物出现的试次，观察者必须加工整个场景之后才能做出正确的判断。因此，相较于没有动物出现的情况，没有动物的目标场景在150ms左右仍有剧烈的脑电活动，主要表现为额叶区域的负差异波(frontal negativity)。而Kirchner和Thorp(2006)则采用眼动追踪的方法探究这一问题。他们要求被试完成扫视迫选任务(forced-choice saccade task)，判断并列呈现的两个场景图像中哪一个有动物出现，眼动数据的结果显示被试可以在刺激呈现后120ms内做出正确的选择。

除了人类，狒狒、恒河猴甚至是绒猴等灵长类也可以快速完成自然场景的分类任务(Roberts & Mazmanian,1988;Fabre-Thorpe,Richard,& and Thorpe,1998;Martin-Malivel & Fagot,2001;Minamimoto,Saunders,& and Richmond,2010)。在go/no-go动物分类任务条件下，猴子被试的准确率虽然稍微低于人类被试，但反应速度比人类更快。从生物进化的角度来看，人类快速场景识别的能力可能是由于长期处理复杂多变的自然场景而慢慢演化来的。

2.2 自然场景识别的低耗能性

人类的注意资源是有限的(Chun,Golomb,& Turk-Browne,2011)。日常生活经验显示，当将注意资源集中在其它位置时，即使是场景中非常明显的信息或变化，个体也会对其“视而不见”，而只有那些已经达到自动化加工水平的信息才能在注意资源匮乏的条件下被注意到。Greene和Fei-Fei(2014)采用Stroop范式的变式，将文字呈现在场景图片或物体图片之上，文字所描述的含义可能与图片内容相同或相反，要求被试忽略背景图片的内容，判断文字的含义所描述的是场景还是物体。结果发现，当图片内容与文字的含义类别不一致时，文字含义的分类任务受到干扰，从而推断场景识别是自动化加工完成的。这也印证了之前的一些研究结果(Grill-Spector & Kanwisher,2005;Thorpe et al.,1996)。此外，Fei-Fei、VanRullen、Koch和Perona(2002)采用双任务研究范式，要求被试在完成中央视觉的字符分类任务的同时，完成呈现在外周视觉的自然场景分类任务。实验结果表明，自然场景图像的快速视觉分类在双任务条件下与单任务条件下相比并没有显著差异。因此，研究者推断，完成场景识别的过程只需要很少甚至不需要中央视觉注意。然而，对于这一结果，Cohen、Alvarez和Nakayama(2011)认为，在前述研究中，干扰任务(字符分类任务)过于简单，因此仍然有足够的注意资源分配到场景识别任务,因此后者的绩效与单独任务条件相似。他们结合多物体追踪任务(multiple-object tracking,MOT)与RSVP范式，发现双任务条件显著影响了场景识别任务的绩效，从而推断快速场景识别过程仍然依赖于注意参与。为了进一步探讨这一问题，Sun等人(2017)也采用了双任务范式，要求被试首先判断左右呈现的一组词汇是否为同一类别(词汇判断)，然后判断随后出现在同一位置的一组图片中哪张图片中包含动物(快速场景识别)。结果发现，相较于仅需要快速场景识别的情况(单任务)，双任务情况下被试对场景图片的辨别力(d’)显著降低，说明干扰任务对注意资源的占用还是会一定程度上影响场景识别。

总的来说，当场景图片刺激作为干扰刺激时，场景识别能够自动化发生，从而影响实验任务的绩效。研究者通过双任务范式进一步发现，当高难度的干扰任务占用大量注意资源后，场景识别任务的绩效也会受到影响，说明场景识别还是需要一定的注意资源的参与。

3 场景识别的特异性脑区及其神经机制

为了进一步理清人类的大脑是如何如此快速且低能耗地完成自然场景识别，相关领域的学者们展开了一系列认知神经科学研究，以此来了解场景识别的神经基础。研究发现，人类大脑中与自然场景识别有关的特定脑区主要包括旁海马位置区(parahippocampal place area,PPA)、枕叶位置区(occipital place area)和扣带回的压后皮层(retrosplenial complex,RSC)。fMRI研究显示，位于旁海马皮层(parahippocampal cortex,PHC)中的旁海马位置区(PPA)是大脑皮层中对视觉场景信息反应最强烈的区域(Epstein & Ward,2010)，在场景识别过程中有着不可缺少的作用。这一区域的脑区受损，将会干扰病人对简单场景的辨认(Mendez & Cherrier,2003)。Dilks等人(2013)也发现枕叶位置区(occipital place area,OPA)也与场景识别有关(Dilks,Julian,Paunov,& Kanwisher,2013)。他们采用TMS技术分别干扰了被试右侧OPA(rOPA)和负责面孔知觉的右侧枕叶区(right occipital face area,rOFA)，然后要求被试完成场景和面孔图像的分类任务。结果发现，对rOPA进行干扰只会影响场景辨别任务而不会影响面孔识别任务，说明rOPA仅与场景识别过程有关。

在场景识别过程中，特别是针对场景中主要客体的识别，对于两张同时出现的物体图片(如茶壶)，我们能够快速准确地判断它们是否为同一物体。即使两张图片是同一物体的镜像图像，我们也能轻松地判断它们两张图片呈现的是同一物体。研究发现，RSC和OPA两个区域对场景图片的镜像关系非常敏感，而PPA则对这样的场景结构信息并不敏感(Dilks,Julian,Kubilius,Spelke,& Kanwisher,2011)。而且，OPA对于场景信息中的客体信息加工还有更加独特的作用。OPA主要负责某一客体是否存在，以及有多少客体出现在当前场景中，而RSC和OPA则对场景图片中的这些客体信息并不敏感，它们对整个场景的整体布局的敏感性更高(Kamps,Julian,Kubilius,Kanwisher,& Dilks,2016)

我们在现实生活中一直会利用周边的环境信息提取有效的导航线索，从而指导自己的行动。研究表明，PPA、OPA以及RSC一起承担了场景中导航信息的提取和加工(Epstein,2008；Marchette,Vass,Ryan,& Epstein,2014)。为了进一步理清三个区域在导航信息加工过程中的相互关系，Persichetti和Dilks(2016)发现RSC和OPA能够很好地帮助我们处理以自我为中心的距离信息(egocentric distance information)的处理，使得我们对其他物体之间的距离有一个较好的心理预估，而PPA则并不负责这方面的信息加工。PPA更多地与导航信息的动态处理有关系(Kamps,Lall,& Dilks,2016)。研究发现，相较于一组随机排列的场景信息图片，一组按事件发生顺序呈现的图片会使得被试的PPA区域的活动更加强烈，说明PPA区域对场景信息的实时加工有着重要作用。

4 自然场景识别的理论模型

为了更好地理解自然场景识别的机制，加深对自然场景识别的理解，本节分别从认知模型与计算模型两个层面总结了当前场景识别的一些理论和模型。

4.1 自然场景识别的认知模型：前馈模型与反馈模型

由于完成场景识别加工过程中所需的时间非常短，因此很多研究者认为在对自然场景的快速加工时，人类的视觉系统依赖由刺激驱动的前馈加工(feed-forward processing)。为了进一步理清自然场景识别过程中各阶段的加工差异，国内外学者针对自然场景识别的不同阶段进行了一系列研究(Wyatte,Jilk,& O’Reilly,2014)。

视觉场景信息需要经过多层次神经元的加工，每一阶段都需要一定的时间(Serre,Oliva,& Poggio,2007)。生理学研究显示，在场景识别的早期阶段，视觉信号从刺激呈现并投射到视网膜开始，经过40～60ms的时间到达初级视觉区域(V1区)(DiCarlo,Zoccolan,& Rust,2012;Tapia & Beck,2014)，再经由腹侧通路分别通过V2、V4区，在刺激呈现后100ms左右的时间到达下颞叶皮层(inferior temporal cortex,IT)区域(如图1中a～c所示)。研究表明，下颞叶皮质能够完成初步的特征整合(Serre,Oliva，& Poggio，2007)。上文提到的眼动研究显示，在刺激呈现后120ms内，观察者已经可以完成对快速场景的分类(Kirchner & Thorpe,2006)。脑电研究结果也显示，快速的场景识别与判断最早可在刺激呈现后150ms内完成(Thorpe,Fize,& Marlot,1996)。因此，很多研究者认为，在这么短的时间内，自上而下的反馈信息应该还未形成，即刺激呈现之后的最早一波进入视觉系统的前馈(feedforward sweep)信息已经足以完成对场景的快速识别(Fabre-Thorpe,2011;Romeo & Supèr,2014)。Serre、Oliva和Poggio(2007)据此提出前馈模型(feedforward architecture)来解释快速场景识别，该模型认为视觉信号通过腹侧通路中自下而上的前馈过程已足以完成对场景的快速识别。

支持早期场景识别前馈模型的研究者认为，在快速视觉分类任务中存在一个最小反应时(minimal reaction time,MinRT)，即个体刚好能做出正确反应所需要的最短时间(Fabre-Thorpe,2011)。如果早期场景识别受到自上而下的经验和预期等因素的影响，那么通过学习和训练等操作来增加观察者对场景刺激的熟悉度，应该能够缩短MinRT。而实验结果显示，MinRT在不同的刺激类型和不同任务条件下表现非常稳定，即使被试经过反复训练，对刺激材料非常熟悉的情况下，MinRT也没显著减小(Fabre-Thorpe,Delorme,Marlot,& Thorpe,2001)。因此，这一结果支持早期场景识别的前馈模型。

图1 前馈与反馈过程中视觉信息传递的时间进程(Wyatte,Jilk,& O’Reilly,2014)

场景识别的前馈模型也得到了来自神经生理学、计算视觉与行为认知实验等许多研究的支持。相关研究认为，注意和策略等反馈(feedback)信息是从较高级的前额叶(prefrontal cortex,PFC)区域自上而下地影响较低级视觉区域的加工过程的。但是，这一自上而下的信号最早需要在刺激呈现后150～170ms才能传回早期视觉区域(如图1中的f所示)。一些研究甚至认为这一时间需要200～300ms(Wyatte,Jilk,& O’Reilly,2014)。因此，这些研究均表明，自上而下的反馈信息在传递回较低视觉区域之前，被试可能已经完成了早期的场景识别过程，如场景的特征整合。

然而，除了从高级区域发起的反馈传递之外，Dehaene、Changeux、Naccache、Sackur和Sergent(2006)以及Lamme(2006)的研究均发现，在腹侧通路中存在一些局部范围内、距离较短的往复循环加工过程(local recurrent processing，如图1中的d～e所示)，这些局部反馈加工过程无论是在出现的时间还是在功能上，都与后期反馈信号不同(Wyatte et al.,2014)。虽然有许多研究认为快速场景识别可能仅通过刺激驱动的前馈过程就足以完成，但是并不能完全排除局部反馈过程在早期场景识别中的作用。Camprodon、Zohary、Brodbeck和Pascual-Leone(2010)采用TMS技术在不同的时间点干扰枕叶部位(V1)的活动，同时要求被试完成视觉分类任务，结果分别在100ms和220ms两个时间点上对被试产生了显著的影响，研究者当时认为100ms时干扰的是前馈加工过程，而220ms时干扰的是局部反馈过程。随着对局部反馈过程研究的深入，以及结合以往研究者的成果(Corthout,Uttl,Walsh,Hallett,& Cowey,1999;Corthout,Uttl,Ziemann,Cowey,& Hallett,1999)，Wyatte等人(2013)认为，100ms左右刚好是IT加工完成的时间点，这时干扰的可能是自然场景分类的局部反馈过程，而220ms时的反馈干扰则来自于高级皮层。Koivisto、Railo、Revonsuo、Vanni和Salminen-Vaparanta(2011)采用fMRI与TMS相结合的方法，发现在较高层视觉区域被激活之后，V1/V2等较低级视觉区域的活动仍然会对场景分类产生影响，因此V1/V2在完成视觉信号的前馈传递之后，可能还承担了接收反馈信号的功能。另外，在功能上，视觉初级皮层只能完成朝向、颜色等简单特征的处理，而下颞叶皮质能够完成初步的特征整合(Serre,Oliva，& Poggio，2007)。

至于与后期反馈密切相关的前额叶皮质，则还会牵涉到更高级的记忆、经验、期望等自上而下的因素。人类的视觉预期分为两类：结构性预期(structural expectation)和上下文预期(contextual expectation)(Seriès & Seitz,2013)。结构性预期主要反映个体长期处在真实自然场景中所积累下来的知识经验，或者是天生具备的某些倾向性的特质。例如，当观察一幅场景图片时，个体会默认图片中的光线是来自位于上方的光源(Kerrigan & Adams,2013)。上下文预期则反映空间或时间上相邻近的环境信息使个体对其他刺激产生预期。经验与预期对知觉过程主要会影响影响知觉加工的绩效和视觉刺激的主观感知。在非最佳观察条件下，如目标刺激被遮挡(Wyatte,Curran,& O’Reilly,2012)，或目标与观察者之间的距离太远(Serre et al.,2007)，此时对目标场景的快速知觉则需要借助于反馈信息。研究发现，由词汇传递的类别信息能够提升个体对快速呈现的原始自然场景图片的辨别(Stein & Peelen,2015,2017)。进一步的研究发现，即使目标场景图片的低空间频率信息或者高空间频率信息被删除，这一启动效应依然存在(Sun,Zhang,& Wu,2017)。Greene、Botros、Beck和Fei-Fei(2015)让被试主观描述的方法，比较了对“不可能”场景(如一场水底的记者发布会)与正常场景之间主观描述的差异。结果发现，两组图片尽管从低水平的视觉特征上无法被区分，但“不可能”场景图片更难被描述出来，也更难将其分类，同时在有噪音存在的条件下更难被觉察到。这些结果说明，人类快速知觉场景的能力存在一定的限制，早期知觉过程会受先前视觉经验的影响。除此之外，研究还发现，自上而下的反馈信息会导致个体在场景识别过程中由于任务不同产生不同的知觉加工方式(Wu,Wick,& Pomplun,2014)，而那些与任务无关的区域，即使拥有更多突显的特征，也很少受到关注(Borji & Itti,2013)。

4.2 自然场景识别的计算模型

除了从认知和生理学的角度探究场景识别的机制外，以往研究者也提出了许多计算模型(computational model)，试图解释场景识别这一信息加工过程背后的算法(DiCarlo et al.,2012)。

场景识别的计算模型从应用的角度大致可以分为两类：一类用于辅助场景识别的认知与生理学研究，拟合和验证认知模型或者生理学研究的结果，从而模拟人类大脑对场景识别的加工方式和过程；另一类主要是从计算视觉(computational vision)以及实际应用的角度出发，试图用计算的方法理解自然场景，并最终让场景识别的计算模型通过图灵测试(Turing test for scene understanding)。场景识别的图灵测试是指：针对一张描绘自然场景的图片，人类测试者提出关于这一场景的若干问题，由机器(场景识别的计算模型)作出回答，如果测试者无法根据回答的内容区分出回答者是机器还是人类，则认为该机器通过图灵测试(Xiao et al.,2013)。虽然研究者提出各种计算模型的出发点不同，但最终的目的都是为了更好地理解场景识别的原理及机制，而本文则主要阐述自然场景识别的计算模型是如何处理认知模型中所涉及的自上而下和自下而上的信息加工过程。

与自然场景识别的早期认知研究领域类似，研究者最初常根据底层的物理属性和特征来描述视觉过程，并据此建立对视觉场景的表征，然后将其运用到复杂的决策判断(Marr,1982)。因此，一直以来很多研究者提出的计算模型，其本质都是从场景图像中提取有用的特征或属性(描述符，descriptors)，然后据此构建场景识别的计算模型(表征)，后者经过机器学习(machine learning)等训练，最终达到对陌生场景图像识别和分类的目的。

Oliva与Torralba(2001)提出了空间包络模型(spatial envelope)，认为场景图像由五种感知属性构成：自然度(naturalness)、开放度(openness)、粗糙度(roughness)、扩展度(expansion)与平整度(ruggedness)。他们通过对这些全局结构属性(global configuration)的提取与应用，可在不识别场景局部特征及所包含物体的含义的条件下，直接完成对场景的识别。Fei-Fei和Perona(2005)借鉴了自然语言处理(natural language processing,NLP)中用于提取文档主题的词袋模型(bag-of-words model,BoW)，提出了另外一种特征描述符。这种词袋模型将自然场景图像看作是“文档(document)”，而将组成图像的局部色块(local patches)看作是文档中的“词汇(words)”。在进行场景识别时,通过提取场景的“特征词汇(feature words)”，就可以得出场景所描述的内容或主题信息。Walther和Shen(2014)也试图考察人类为何能高效地完成对自然场景的知觉加工，即究竟依赖于场景中的哪些特征信息？他们采用行为实验与计算模型相结合的方法进行研究，提出对自然场景的识别依赖于边缘曲度(curvature)和非偶然结点(nonaccidental junction)等特征属性。通过将计算模型与行为实验的结果相对比，他们发现，当场景图像中的这些属性受到干扰时，人类被试的行为与计算模型表现出相似的错误模式(error pattern)。

然而这些模型主要反映场景信息的物理特征，并没有对自然场景识别过程中一些自上而下的反馈信息进行研究。因此，另一些研究者还从场景的语义(semantic)角度进行考察，认为场景的主题或类别信息是由组成场景的物体所决定的。例如，当场景中同时出现桌子、椅子和黑板时，则该场景属于教室场景的概率就很高。

场景识别的概率推断模型其理论基础可追溯到赫尔姆霍兹所提出视知觉的“无意识推断(unconscious inference)”理论。后者认为，视知觉过程是个体根据过往经验对视网膜传来的信息进行补充，从而做出无意识推断的过程(Westheimer,2008)。许多数学心理学家和计算机科学家都支持这一观点，认为对复杂自然场景图像的理解就是一个基于贝叶斯概率模型进行概率推断的过程(Purves,Monson,Sundararajan,& Wojtach,2014)。

根据贝叶斯理论，后验概率(posterior probability,P(H|D))是在当前视觉输入数据为D的情况下对场景做出假设H的概率。后验概率的大小是个体对场景做出决策的依据。

根据贝叶斯公式，后验概率为:

其中，P(D)是当前场景图像(视觉输入数据)出现的概率，通常为标准化常量；P(H)称为先验概率(prior probability)，代表个体根据以往的知识经验对假设H出现可能性做出的估计；P(D|H)称为相似度(likelihood)，指假设H成立的条件下出现场景图像D的概率。贝叶斯模型指出，个体对当前场景的认知是由以往知识经验和当前场景信息共同决定的。

以往行为研究显示，个体在自然场景中搜索物体时会尽量使用上下文信息，同时场景的语义内容、场景中物体同时出现的统计规律以及任务限制等都会影响个体对自然场景识别和加工的方式。Torralba、Oliva、Castelhano和Henderson(2006)将场景整体特征(global features)与局部特征(local features)纳入到同一个贝叶斯框架，并由此提出了背景引导模型(contextual guidance model)，具体见图2。

图2 背景引导模型示意图

该模型认为，场景信息的加工存在两条信息加工通道，分别加工局部特征和整体特征。其中，局部特征加工通道主要处理颜色和运动方向等容易凸显的视觉优势信息；整体特征加工通路主要提取场景的整体特征以激活已有的知识经验，并由此调节注意与视觉搜索的方向。该模型假设，个体在搜索场景中的目标时，会根据概率P(O,X│I)推断目标是否出现。其中，O=1表示有目标出现，O=0表示目标刺激没有出现；X表示目标刺激出现的位置；I代表场景特征，它由局部特征(L)和整体特征(G)所组成的。因此，目标检测的概率可通过P(O,X|L,G)进行推导。

根据贝叶斯定律，可以将目标检测概率分解为：

Stansbury、Naselaris和Gallant(2013)认为，在场景识别过程中，大脑所加工的是自然场景中所出现物体的统计概率，个体通过场景中同时出现物体的知识对自然场景进行分类。例如，当同时看到水、沙子和晒日光浴的游客时，个体会将其分类为“沙滩”，而这一类别标签又会激活对遮阳伞和沙滩城堡等物体的预期。Stansbury等人首先对场景材料中所有出现的物体进行标注和统计，把这些统计数据应用到一个三层贝叶斯概率模型中(Blei,Ng,& Jordan,2003)，并将所得到的不同类别的概率分布与fMRI所记录的前部视觉区域(anterior visual cortex)的活动水平进行拟合；然后，将这一过程反过来，根据fMRI记录的活动水平推断场景类别。结果发现，大脑确实可以通过捕捉自然场景中物体同时出现的概率信息来对场景进行表征。

5 总结

本文基于以往的行为研究和认知神经科学研究，详细阐述了自然场景识别的主要特征、神经基础及其认知模型和计算模型。其中，认知理论模型方面，本文详细阐述了自下而上的前馈加工和自上而下的反馈加工两种认知加工方式在自然场景识别过程中的作用及其关系，而在计算模型方面，本文则着重阐述了计算模型如何处理人类自上而下和自下而上的信息加工过程，从而更好地与认知模型相比较。然而，虽然目前自然场景识别领域的学者们达成了不少共识，但仍旧存在着很多不足和争议的地方。

首先，由于自然场景所涵盖的范围非常广，研究者所采用的范式也各不相同(王福兴，田宏杰，申继亮，2009)，导致不同研究得到了不同甚至相反的结果。例如，Fei-Fei等人(2002)和Sun等人(2017)都是使用双任务范式，但是在自然场景的快速视觉分类是否需注意参与的问题中出现了分歧。虽然两者都是要求被试对出现在外周视野的自然场景图片做出判断(是否有动物)，但是两者的另一个任务(控制任务)不同。一方面，控制任务的呈现方式不一样，前者的任务刺激呈现在中央，而后者控制任务的刺激则出现在与场景图片一样的位置。另一方面，前者要求被试判断中央呈现的五个字母是否相同，而后者则要求被试判断出现在注视点左右的两个词汇是否为同一类别，两者涉及的认知加工程度、难度均不一样。因此，在未来的研究中，我们要理清在当前实验条件下是否需要消耗注意资源，避免忽视由于不同实验设计带来的差异。

其次，未来的研究仍需要进一步探究自然场景识别过程中自下而上的前馈信息加工方式与各种自上而下的反馈信息加工之间的关系。在场景识别早期，研究者尝试用自上而下和自下而上两种加工方式去解释整个场景识别过程。但随着研究的不断深入，越来越多研究者意识到，场景识别过程包含了多个加工阶段，而多个加工阶段中还会包含多种加工方式。因此很难用单一的理论模型解释场景识别的整个过程，而更应该探究在不同加工阶段中哪种加工方式占有主导地位(王福兴,田宏杰，申继亮，2009)。后续的研究应对不同加工阶段中主导的加工方式与视觉系统整体的加工过程加以兼顾，从而更好地理解场景识别过程中不同加工方式的交互关系。另一方面，如图1中所展示的，按照视觉加工或神经传导的时间进程，可将场景知觉分为早期场景识别和后期的调控(Wyatte et al.,2014)，后者属于由注意、经验以及策略等参与的自上而下加工。另一方面，从发展的角度来看，个体在日常生活中对自然场景进行加工识别的过程同时也是一个不断学习、不断积累经验的过程。根据Seriès和Seitz(2013)对预期的分类，教育文化经验及个体长期积累起来对周围世界的规则性经验，更多属于与长时记忆有关的结构性预期；即使早期的前馈加工过程也会在长期适应和学习种不断发展。在知觉与学习同时进行的过程中，哪些经验知识会保留下来变成个体的结构性预期，而哪些又被当作无关信息遗忘掉；这种外显或内隐的知觉学习过程，是与自下而上反馈加工有关，还是与前馈、反馈之间的交互作用有关；这种调节作用是否影响知觉学习的进程，等等。这些问题仍然需要进一步深入探究。

最后，在本文的计算模型介绍中，虽然心理学家与计算机科学家提出了许多关于场景识别的计算模型，某些模型与算法在特定的任务场景中甚至可能达到比人类被试更高的准确率(Walther & Shen,2014)，但仍然没有哪种计算模型能够真正“理解”场景的含义。一方面，有些模型更多关注将场景描述符应用到分类器中能否得到更高的分类准确率，将其作为判断模型或描述符好坏的重要指标。但是，这类模型的问题往往在于，不够重视或忽略场景识别中自上而下和自下而上两种加工过程的生理机制，同时过度追求分类器的准确率又容易产生过度拟合(over fit)的现象，导致生态效度太低，无法推广到更大的图片库或复杂的现实环境中。另一方面，虽然贝叶斯概率推断模型除了在自然场景识别领域之外，在听觉(Elhilali,2013)、规则学习(Endress,2013)、语法学习(Perfors,Tenenbaum,& Regier,2011)、概念学习与分类(Goodman,Tenenbaum,Feldman,& Griffiths,2008)等许多领域都取得了显著的成果，但是它仍然受到多方面的质疑。例如，概率推断模型认为，个体最终做出的认知决策反映了其对最大概率的理性(rational)或最优(optimal)选择，而对此目前仍然存在较多的质疑(Marcus & Davis,2013)。另外，也有研究者提出，贝叶斯概率模型本身太过灵活，似乎可以解释所有可能出现的不同实验结果(Bowers & Davis,2012)。除此之外，人类除了能够快速识别场景的主题内容和类别信息之外，还可以快速理解场景中的人物关系与情绪状态，推断场景中正在发生的事件，判断场景中物体位置排列的合理性甚至做出审美判断，甚至还能由场景触发情绪和记忆等。对这些复杂的相互关联信息的处理，对于当前的计算模型来说，都还是遥不可及的。当然，这些复杂功能的认知及生理机制大多也都还没有明确的定论，因此未来场景识别研究中无论是认知与生理学研究还是计算视觉模型的发展，都应该更多综合考虑这些方面的因素，而不应该仅仅关注自然场景视觉分类这一简单的结果。