中华艺术视觉信息数据库建设构想（上）

2009-09-29 03:41韩丛耀

中国教育信息化·高教职教 2009年9期

韩丛耀

摘要:本项构想拟通过对生物视觉信息共轭关系的研究,提取基于生物视觉物理和生理机制的系谱轴(Paradigm)和毗邻轴(Syntagm)特征,用数学语言描述各特征的主要参数,运用遗传程序设计的编码方法和多目标优化算法计算优化这些参数,构建相应的生物视觉信息处理机制模型,并运用到实际的中华艺术视觉信息数据库建设中。

关键词:视觉信息数据库计算机视觉

中图分类号:G203文献标识码:B 文章编号:1673-8454(2009)17-0047-04

一、本项构想的理论依据

现代科学研究表明,信息的产生、获取、储存、传播和处理等都是可以被数学语言描述的,Claude Shannon和Warren Weaver早在1949年出版的著作The Mathematical Theory of Communication中即有论述,生物视觉信息也不例外。近年来在数学语言基础上发展起来的计算机视觉技术为视觉信息的数字化奠定了基础。

计算机视觉是一门充满艰难但又发展迅速的学科。20世纪80年代初Marr等人提出了“视觉是可以计算的”,这一创造性的观点引发了激烈的讨论和全世界计算机视觉研究的热潮。对于人类视觉来说,它是从视网膜感知到的二维图像中提取出有关场景中的三维物体的形状和空间位置等的定量信息;而计算机视觉是研究如何使机器具有类似人类视觉的功能,属于人工智能的重要组成部分,其研究具有双重意义:一方面是为了建立图像理解系统以自动描述真实的图像场景,使计算机等智能系统具有“看”的能力;另一方面也为了进一步理解生物性视觉,运用计算机视觉的计算模拟结果促进对人类自身视觉机理的认识,提升人类视觉认知水平。

计算机视觉技术现在已经被应用到各种智能系统中,如制造业、检验、文档分析、医疗诊断和军事等。一些发达国家,如美国,把计算机视觉的研究列为对经济、科技有着广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。

目前计算机视觉主要在以下几个方面得到应用:

(1)计算机与人之间的交互。正在兴起的语音识别和字符识别使得传统的交互方式正在发生变革;

(2)自动导航。三维计算机视觉获取外界环境的位置、形状和运动速度,可以用于导弹的末端制导;

(3)生产自动化。装配焊接或者其他作业的机器人在配有视觉系统后具有更高的作业精度和对环境的适应能力;

(4)医学应用。计算机辅助外科手术等;

(5)三维场景建模与显示。近年来计算机视觉和图形学的发展产生了基于图像的建模和真实感绘制技术;

(6)空间探测。NASA喷推实验室研制的视觉系统已经成功应用到火星探测机器人等。

在计算机视觉得到应用的同时,目前的发展还面临着一些困难,进展也比较缓慢。与计算机视觉的应用需求相比,计算机视觉的建模和模拟研究尚处在初级阶段,虽然计算机视觉经过30余年的发展已经建立了一套独立的计算理论和算法,但是它离生物视觉系统的仿真要求还有很大的差距。这也大大制约了其应用,反过来也约束了计算机视觉的发展。分析原因有如下几点:

第一,几十年来,虽然神经生物学、心理学和认知科学对生物视觉系统从解剖学、电生理过程和信息处理等不同角度进行了大量的卓有成效的研究,但是对视觉认知过程的认识还远远不够,尤其是对大脑皮层中各层次视觉信息处理的认识还较为肤浅。

第二,研究表明,大脑神经细胞构成一个极其复杂的巨大的互连网络,这种神经网络在体系结构上与当前计算机体系结构有很大差别,要实现大量的人工神经元的互连网络,目前在技术上仍很困难。

第三,在许多应用场合,视觉系统要观察的环境比较简单,如最早的计算机视觉系统实验源于上世纪60年代,其环境被限制在所谓的积木世界,即周围的物体都是一些多面体,需要识别的目标都是简单的点、线、面的组合。在此基础上开展的计算机视觉研究显然不需要复杂的建模,这也导致大量的研究仍被局限在某些特定场合。

基于这样的原因,很多计算机视觉学者认为,只要从信息转换的角度真正理解了视觉信息处理过程并发展出一套信息处理的计算理论,用哪种体系结构去实现它是次要的。绝大多数学者的研究集中于计算机视觉的人工智能符号论方面,从理论计算机科学的角度去理解和研究计算机视觉,研究成果大都体现为某种具体的算法或者某个具体的应用,它们能够对某个特定的图像类型或者某些特定的场合起到良好的识别效果,但是普适性不足。究其原因,主要是绝大多数学者忽略了生物视觉本身的生理和心理特点,仅仅从视觉图像的物理特征去认知计算机视觉,这必然会导致研究的局限性。

我们认为通过几亿年进化来的生物视觉系统必然有其先进性和合理性。从现有的神经生理学、生物学、心理学、脑科学和认知科学对生物视觉系统的研究成果出发,结合计算机等现代科技工具,利用现有的如图像处理和模式识别等理论和算法,找出生物视觉的机理,才是计算机视觉科学发展的真正方向。

脑科学研究表明:眼睛的晶状体将看到的物象聚焦并上下颠倒呈现在眼球后的视网膜上,如图1所示,在视网膜上散布着许多视杆细胞(Rod)和视锥细胞(Cone)将感知到的物象转换成信息进入到视神经,如图2所示。经图像转换(The Switchboard)、知觉视神经传导,如图3所示,初级视皮层(Primary Visual Cortex)和大脑许多其他的视觉区域继续对视觉信息加以细致的分析,颜色(Color)、运动(Motion)、形状(Form)和深度(Depth)的特性被强化分析,如图4所示。但大脑的识别记忆更为简约化,如图5所示,只有两点:颞叶皮层(Temporal Cortex)的神经细胞对形状敏感:是什么;顶壁皮层(Parietal Cortex)的神经细胞对位置敏感:在哪里。我们的理论出发点是遵从生物视觉信息的客观规律,对初级视皮层处的颜色、运动、形状和深度进行仿真,即使用计算机数字语言进行描述。

Marr立足于计算机科学的视觉计算理论,系统地概括了心理生理学和神经生理学等方面取得的重要成果,依然是目前计算机视觉研究中较为完善的理论。它使计算机视觉研究有了一个比较明确的体系,并且大大推动了计算机视觉研究的发展。按照Marr的理论,视觉过程可以分为三个阶段:早期、中期和后期。对应着三个视觉过程,产生了计算机视觉中的三个层次研究内容:

(1)低层次视觉:表示二维图像中的重要信息,主要是图像中的亮度变化、位置及其几何分布和组织结构;

(2)中间层次视觉:以观察者为中心的坐标系中,表示可见表面的方向、深度值和不连续的轮廓;

(3)高层次视觉:以物体为中心的坐标系中,用由体积基元和面积基元构成的模块化多层次表示,描述形状及其空间组织形式。

目前,大量的研究集中在处理输入原始图像的低层次视觉领域,发展了大量的图像处理技术和算法,如图像滤波、图像增强、边缘检测、线条检测、角点检测等,这一过程还包含了各种图像变换、图像纹理检测和图像运动检测等。对中高层次视觉的研究相对要少得多,而对生物视觉处理机制建模更是鲜见。

作为人类感知系统的组成之一,视觉可以被看作是一种元语言(元语言具有言语的自然属性;语言更多地具有人为属性。元语言也可以被看作是一种生物性图像,具有可被量化的表征形态)。对视觉语言的这种“概念”的形成,并不表现在整个的形体上,而只是在某一视觉构成元素上有强烈的暗示性,但组织这种语言的过程基本是视觉的。为容易使用建立的一种视觉语言模式或建立的一种视觉传播模式,对运行的程序要加以诸多的限制或仅限于视觉界面(或称生物性图像)的共轭关系讨论,这种限制越具体,越容易找到这种函数关系。

在对人类视觉元语言的解构中,Marr曾建构过一个三维的模式,从这里我们可以清晰地看到围绕着他建立的轴心转动,是对视觉的和语言的理解,同时又形成概念。概念既存在于头脑中,也凸现于视觉中;既是一种理性的要求,也是一种感性的认识。如图6所示。

图6中的“意识域”类似于我们将要讨论的视觉共轭界面,“意识域”能清晰地剖析视觉语言的结构,它是建构语言的逻辑起点。但是,我们也发现,“意识域”只能够部分说明视觉语言,却无法在此基础上建构视觉语言,因为这个“意识”仍是视觉语言之外的——文字语言的范畴。这里,我们必须强调指出:如果借用其他语言元素作为建构另一种新语言的基础或称逻辑起点,本身就是一个逻辑错误。

Marr这种建构从生物视觉语言的角度来看是有一定不足的,但在“界面”的另一侧确又使我们获得了丰满的理解,因为概念对于观察者来讲是作为一个整体来理解的,这也正应验了Jackendoff的观点:“一切概念性整体,都具有其视觉组成部分”。因此,选择“概念”作为对形式与内容的研究视角是可以成立的,因为概念在某种意义上就是一种视觉构成。研究视觉界面,首先要研究视觉图像的构成,通过这条途径有可能使问题简化,从而约简出最小公分母,使得讨论变得简单。下面就让我们看看构成视觉元语言(生物视觉信息)的视觉诸元。

每一个物理元素都能产生一种或几种心理效能,诸种元素构成了视觉主体,图像中有了视觉主体就可能去表达主题(内容)了,有了这种主题,概念的表达就变得容易了。图7是物理元素、视觉诸元构成视觉图像(画面文本)的效果。

这样一种构成关系似乎变得较为清楚,也容易被人们接受。从这里可以看出,在“物理源”与“心理场”之间确实存在着一个共轭界面,它是物理元素与视觉元素转换的关节点。“物理源”与“心理场”如图8所示。

对于视觉语言来讲,图像的构成形式是极其重要的,构成视觉语言的物理元素都在图像的构成形式上——点、线、色彩、影调等,如图9所示。没有这些物理元素,视觉语言就无从谈起。没有这样的“物理源”,其视觉之后的“心理场”就无法获得,甚至连“视觉”也产生不了,我们试图寻找的视觉共轭界面就只能是假设。

至此,我们可以清晰地感知到视觉界面的存在,但还无力将其用科学的方法从感觉中托举出来。我们好像走入了19世纪艺术批评家约翰·罗斯金的“感情误置”的理论中:任何一种被我们归结为外部事物的性质,但又无法得到科学证明的东西,实际上都只不过是我们内在情感的反映。约翰·罗斯金这句话表明外部事物的性质可以归结为我们“内在情感的反映”,因此,上文所推论的视觉元语言共轭界面就一定实实在在地存在着;既然情感可以被概念化——概念也可以由物理元素构成——构成元素可以引起我们的心理效能,那么,引起视觉语言的“物理源”就一定存在着。如果“心理场”和“物理源”都存在着,就一定会有共轭的反应机制,不管这种反映多么庞大和杂乱,如果用自然科学的方法,有耐心,善于发现,就一定能够从中一点点地剥离,最终逼近视觉界面,将其一一对应的关系建立起来,将其共轭的函数关系建立起来。

视觉界面具有与生俱来的生物特性,又兼备了物理与心理的双重表征特性。视觉界面语言既有指涉性、象征性、类比性特征,又具有痕迹性特征。世界上每一种事物都有其固定不变的物理成分,都有其凸显本质特征的因子。如果将研究的视点锚固在生成生物视觉信息的元素上,通过对视觉界面的量化研究,就可以约简出构成视觉元素的最小公分母。因为任何生物视觉信息都有其共轭的物象,而共轭关系是可以建模讨论的。最严密的科学研究应是任何人都无法对其自身的特征提出异议,而只能考虑其可能性。本研究就是确定可能性和不可能性之极限。人文科学和自然科学的基础都在于感官的认知,通过建立其表述生物视觉特征的颜色(Color)、运动(Motion)、形状(Form)和场深(Depth)等轴向数值,可以将其转换成数字式的分析量值,在定性的前提下取得定量的表征数据,取精用宏、尽微至广。通过建立视觉界面系谱轴和辅助的毗邻轴,我们可以构建一个生物视觉中高层次识别的模型,为计算机视觉应用奠定基础。

具体思路就是:以量化视觉界面系谱轴和毗邻轴为基础,运用遗传程序设计的编码方法和多目标优化算法,计算优化量化目标的各项参数,构建相应的生物视觉信息处理机制模型。

系谱轴和毗邻轴的基本模型如图10所示。