新一代人工智能背景下的拓扑知觉理论与深度学习

2018-05-14 01:10王松伟
神州·中旬刊 2018年10期
关键词:深度学习人工智能

王松伟

摘要:人工智能的核心基础科学问题是认知和计算的关系。拓扑知觉理论是当前极具代表性的一种认知理论,而深度学习是当前人工智能计算实现的主要技术手段。本文对二者的理论和发展历程分别进行了阐述,给出了二者内在联系的一种假设,并提出将深度学习与拓扑知觉理论的结合将有利于人工智能技术和相关认知理论的进一步发展。

关键词:人工智能;拓扑知觉;深度学习

当第一台计算机诞生后,人们就在思考其是否可以拥有类人的智能,进而自主的帮助人们处理常规劳作、自行处理图像语音信息、自动进行医学诊断、实现智能控制以及支持基础科学研究等。在1956年达特茅斯会议上,科学家们首次提出了“人工智能”的术语,距离计算机诞生仅仅才过去十年。自2006年,Geoffrey Hinton提出深度信念网络后,世界各国相关领域研究人员和高科技公司对其高度重视,掀起了以“深度学习”为名的新一代人工智能研究热潮,并成为当前国民经济发展的重要推动力量。

想要成为人工智能领域的真正意义上的科学強国,离不开对人工智能的基础研究。通过总结认知科学研究近四十年来的发展经验,人们逐渐认识到,发展新一代人工智能的核心基础科学问题是:认知和计算的关系。

“大范围首先”的拓扑性质知觉理论[1],是由我国陈霖院士提出的在当前国际上极具代表性的一种认知理论。经过30多年的发展,不仅把这个理论应用到视觉问题,而且成功地应用到注意、记忆、意识乃至情绪等广泛不同认知层次的研究。该理论认为:一、知觉过程是“由大范围性质到局部性质”,在对物体的性质或组成部份进行知觉的分析之前,视觉系统首先取得的是物体的整体性的知觉;只是在随后的阶段,如果需要的话,视觉系统才知觉物体的细节性质。二、所谓整体性的知觉即“知觉组织”,涉及到图形和背景分离、图象分割、分组、伴随出现、相属关系等概念。三、知觉组织应当从变换和变换下的不变性的知觉来理解。一个变换越是一般,这个变换下的不变性质就越是大范围(稳定)。相对于各种几何变换,拓扑变换是最一般的,因此拓扑性质是最稳定、最大范围的不变性质。知觉组织可以用拓扑性质科学描述。四、越是大范围的性质,越早在知觉过程中发生;拓扑性质是最大范围的,因此在知觉过程中“首先”发生。“首先”具有两方面的严格含义:局部几何性质的知觉在因果关系上基于由拓扑性质决定的大范围组织;拓扑性质的知觉在时间先后关系上先于局部几何性质的知觉。

研究任何一种过程,创立任何一种过程的任何科学理论,必须首先回答的一个最基本的问题是:这种过程操作的基本单元是什么?认知科学必须回答的一个最基本的问题是:什么是认知过程操作的基本单元?大量的认知科学实验事实表明,认知基本单元是知觉组织形成的“知觉物体”的表达[1,2,3]。“大范围首先”的拓扑知觉理论提出知觉物体的拓扑学定义,把知觉物体的直觉核心含义,即形状改变下的整体不变性,科学准确地定义为拓扑不变性质,即,拓扑性质。知觉物体拓扑学定义在知觉组织、注意、记忆、学习、数字认知、意识,乃至情绪等各个认知层次得到了广泛的行为实验验证。

早期拓扑知觉对基于局部的计算视觉方法提出了挑战。以连通性这种拓扑性质为例,陈霖院士在《知觉组织的拓扑方法》一文中引用到[1]:“对于二维的R,连通模式的数量会随|R|的增加而指数增加;这意味着对于一定尺寸的R,在一个可接受的训练过程中能使用的训练样本在所有可能样本中所占的比例是很小的。因此,对多层感知机而言,很难想象它能依据相对较少的训练样本进行成功地泛化。”“拓扑计算一直是连接主义所面临的主要困难。”

但也正是早期拓扑知觉对计算视觉方法提出的挑战,导致拓扑性质难以量化、建模,这反过来阻碍了拓扑知觉理论及其相关诸多认知科学理论的进一步深化、丰富。同时,这也是特征捆绑这一计算视觉难题存在的深层原因[4]。

近年来,深度学习算法[5]得到了迅猛的发展。其方法论是:用于描述我们周围世界的概念可以依据其他概念,以一种分层的方式进行定义;由次抽象概念定义的抽象概念位于更高的层次。大致地讲,利用深度学习算法构建不变性特征的过程可以看做是两个步骤的重复。首先提取数据的低级特征,即卷积操作;然后对这些低级特征集进行池化,抛弃细节信息,形成较高级的不变性特征;逐层进行类似的操作,获得不变性不断增强且保持目标身份信息的高级特征。Bengio指出,核方法、流形学习、决策树及早期的神经网络都可以看做是一个浅层的结构,其泛化的能力主要依赖于邻近性;对同一复杂函数进行表征,n-1层结构所需训练的网络连接较n层结构指数增加,因此,深层结构具有更强的泛化能力。而视皮层也是一个深层的结构。

深度学习算法的衍化有两个方面值得注意:其一,深度学习处理的图像正在经历小尺寸到大尺寸的转变,因此很多借鉴视皮层感受野机制的卷积算法得到了广泛应用,例如卷积深度信念网络,具有平移不变性的卷积神经网络,具有平移、旋转和尺度变换下不变性的平铺卷积神经网络等,感受野机制对应的局部连接使并行计算发挥出越来越重要的作用。其二,深度学习提取的特征正在经历从中级特征到高级特征的转化。中级特征是对低级特征的抽象。常见的中级特征包括特征包,空间金字塔,以及卷积网络、深度信念网络和 HMAX网络的高层单元。而高级特征是中级特征的进一步抽象,但其训练所需的时间和空间成本是极其巨大的,很多研究者只能选择降低模型和训练数据库的尺寸,这必然会影响提取到的高级特征的质量。2012年,Stanford大学的Andrew Y.Ng联合Google开展了‘Google Brain项目,使用1000台电脑(每台电脑16个CPU,共计16,000个CPU),依据视皮层信息处理机制,构建了一个当时世界上最大的、共计11亿神经元连接的人工网络。使用1千万张无标记的自然图像(其中随机提取的100,000个Patch中人脸所占的比率不超过3%)对网络进行3天的训练后,从网络高层的神经元中找到了对特定类型目标(人脸、猫脸和人体)敏感的神经元,如图1所示,即,成功模拟了IT区老祖母细胞的响应。将系统在ImageNet这个庞大的数据库上进行20,000类目标的识别,识别精度达到15.8%,比当时最高水平提高了70%。

使用深度網络提取到的特征进行目标识别取得了巨大的成功,这启发我们提出如下观点:模拟视皮层信息处理机制的大型网络提取到的High-Level特征是拓扑性质在某种意义下的近似物。虽然没有严格的证明,但是我们可以为这种观点寻找到理论、神经生理和计算视觉等方面的一些支持:

1.拓扑知觉的核心是知觉组织应该从变换和变换下的不变性的知觉的观点进行理解。如果我们将用于计算识别的数据库中属于某些类别(如狗、鸟、电脑等)的所有图片看做是这些基本类所对应的知觉对象在各种变换下的实现,那么在机器识别上下文中提取到的可以进行不同类辨别的高层特征可看做是拓扑知觉上下文中拓扑性质的近似。因为高层特征可以有效识别的前提是:它是某个知觉对象在各种身份保持变换下的不变量。

2.文献[6]指出:“功能磁共振成像实验揭示,前颞叶区参与拓扑知觉和知觉对象的形成,而这一脑区本来是形式视觉通路的终点。”“行为学上‘大范围优先的结果与视觉通路神经解剖学结果的悖逆,提示我们应该注意对象表征形成的问题和更广泛的意义上,知觉到底在何处发生的基本问题。”对于上句话我们的理解是:视皮层形式视觉通路仅仅涉及感觉信息的处理,而不涉及知觉的形成。(注:一些文献提及了皮层下通路,但与本项目的研究思路不存在矛盾)

3.大量神经生理证据表明[7-10],脑在目标发生各种形状变化的情况下仍能快速识别目标的神经机制是:从视网膜开始,经由外侧膝状体,初级视皮层,形式视觉通路,通过一个层叠的、大量前馈的计算,在IT区达到终点,形成一种强大的神经表征。IT区同样是形式视觉通路的终点。

4.很多在目标识别中获得成功应用的深度学习算法都是基于视皮层层叠、大量前馈的信息处理的机制进行构建。例如HMAX模型、美国银行支票手写数字识别广泛使用的卷积神经网络等。

一些计算视觉任务中表现优异算法的成功原因可以用拓扑知觉理论进行解释。例如人脸识别问题,最好的识别算法都是首先确定诸如眼睛、鼻尖、左右嘴角的配置关系,然后在这些标记点的附近位置提取特征。这种识别策略的成功甚至催生了面部关键点检测,面部分解等计算视觉任务,如图2所示。显然,这种脸、嘴和鼻子伴随出现的整体性配置关系属于知觉组织的概念范畴。首先获取配置关系这种大范围属性,然后在此基础上提取局部特征,这是符合“大范围首先”学说的计算视觉实现,也是这类算法取得成功的原因。

因此,针对拓扑性质对基于局部特征的计算视觉方法提出的挑战,采用大型深度网络对拓扑性质进行模拟计算;考察网络在一些知觉组织相关计算视觉任务中的表现,并借鉴皮层信息处理机制调整网络结构,可以构建更好的认知计算模型,发展新一代的人工智能技术。同时也会对拓扑知觉理论的深化、视皮层神经信息处理机制的探索以及计算视觉研究均具有重要的促进作用。

参考文献:

[1]Chen,L.(2005).The topological approach to perceptual organization.Visual Cognition,12,553-637.

[2]Pylyshyn,Z.W.,&Storm,R.W.(1988).Tracking multiple independent targets:Evidence for parallel tracking mechanism.Spatial Vision,3,179-197.

[3]VanMarle,K.,&Scholl,B.J.(2003).Attentive tracking of objects vs.substance.Psychological Science,14,498-504.

[4]Chen,L.(2001).Perceptual organization:To reverse back the inverted(upside down)down question of feature binding.Visual Cognition,8,287-303.

[5]Hinton,G.E.and Salakhutdinov,R.(2006).Reducing the dimensionality of data with neural networks.Science,313(5786),504–507.

[6]Tiangang Zhou,Jun Zhang,Lin Chen.(2009),Neural Correlation of“Global-first”Topological Perception:Anterior Temporal Lobe.Brain Imaging and Behavior.

[7]Collins,C.E.,Airey,D.C.,Young,N.A.,Leitch,D.B.,and Kaas,J.H.(2010).Neuron densities vary across and within cortical areas in primates.Proc.Natl.Acad.Sci.USA 107,15927–15932.

[8]Brewer,A.A.,Press,W.A.,Logothetis,N.K.,and Wandell,B.A.(2002).Visual areas in macaque cortex measured using functional magnetic resonance imaging.J.Neurosci.22,10416–10426.

[9]Nowak,L.G.,and Bullier,J.(1997).The timing of information transfer in the visual system.In Cerebral Cortex:Extrastriate Cortex in Primate,K.Rockland,J.Kaas,and A.Peters,eds.(New York:Plenum Publishing Corporation),p.870.

[10]DiCarlo,J.,Zoccolan,D.,and Rust,N.(2012).How does the brain solve visual object recognition?Neuron.

猜你喜欢
深度学习人工智能
我校新增“人工智能”本科专业
人工智能与就业
数读人工智能
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望