赵 莹, 迟冬祥, 胡 静, 李菁辉
(1.上海电机学院 电子信息学院,上海 200240;2.中国科学院 上海光学精密机械研究所,上海 201100)
视觉是灵长目类动物具有的功能,对其仿生形成了机器视觉的研究[1-3]。机器视觉(machine vision,简称MV)是让机器会看,“通过任何办法对2D数据进行理解”,去获知“什么东西在哪里?”的信息,从而指导行动,完成视觉任务,又称计算机视觉(computer vision,简称CV)或图像分析和理解(image analysis and understanding),它是任何智能系统必不可少的一个信息获取通道[4-5]。根据 Marr的三层视觉计算模型,从原始2D图像到主基元图(primal sketch)是视觉计算的第1层[6]。
在早期视觉理论中,图像表示可分为结构部分(如图像中物体的轮廓)和纹理部分(如图像中物体的草地等[7-9])。从成像过程来看,由于物体离相机的距离远近不同,在近处的物体,形成了图像中的结构部分,在远处的物体,其客观上的结构已经在图像中不再可分辨,就形成了纹理的感觉。主基元图是早期视觉中一种十分重要的图像表示模型,其目的在于统一图像中结构和纹理的表示。在数学上,结构部分属于维度较低的低熵空间,如物体的轮廓可以通过一组边缘(edges)或条(bars)来按照格式塔规则组合表示,它们可以通过显式的构成函数来建模,如稀疏编码模型[10]。而纹理部分,则属于维度较高的高熵空间,没有显式的构成表达式,而是通过隐式的表达,图像的统计特性符合一定的统计规律,通常通过马尔可夫随机场来建模[11]。
为此,主基元图表示要能统一这2种不同的数学模型。文献[6]在其视觉计算模型中提出了主基元表示理论,但是并没有给出一个完备的数学模型和提取算法。文献[12]提出一种灰度图像的主基元图模型和提取算法。但是从视觉感知理论[9]可知,颜色是图像感知中一个十分重要的信息源,特别是对物体轮廓的感知有很重要的影响,从而影响了主基元图的表示。
本文根据灰度主基元图已有的研究,通过改进提出了彩色图像的主基元图,实验结果表明,彩色图像主基元图更加符合感知,能提取被灰度主基元图“漏检”的主基元。主基元图在基于图像内容的图像压缩方面有十分广泛的应用,同时也是对高层物体识别和图像理解的支撑。
主基元图是早期视觉中一种十分重要的图像表达,也是Marr视觉计算模型第1层中的一个核心概念。在表示上,一幅图像可以分为结构部分和纹理部分;在数学上,它们属于不同维度的表示模型空间。结构部分属于低熵空间,由一组过完备视觉表示基元(如边缘和条),通过产生式模型来进行稀疏表达;纹理部分属于高熵空间,由一组统计特性通过描述式模型进行表达。本文介绍灰度图像主基元图的模型和提取算法[12]作为背景知识。
一组图像基元示例图[12]如图1所示,该图对图像中的结构部分进行构建。图1a为图像基元的抽象符号表达,图1b为对应图像基元在图像的示意图。
图像点阵记为Λ,定义在Λ上的图像记为IΛ,可以为灰度图像或彩色图像。在主基元图表示中,Λ被分为结构部分和纹理部分,分别记为Λsk和Λnsk,并满足:
进一步,结构部分Λsk可分为一组K个不相交的图像块。其中每一图像块IΛsk,k通过一种图像基元表达(如边缘段)如下:
其中,k作为图像基元的索引,是一个隐含变量,需要通过提取算法从给定的输入图像中进行推理,k的计算公式为:
其中,θtop为图像基元的类型;θgeo为图像基元的几何位置信息;θpho为图像基元的灰度强度或彩色强度信息。
图像中的结构部分通过(2)式所示的基元形成一个结构图表示,即
其中,Bk为图像基元k对应的图像块;ak为其地址变量,用来表示Bk在结构图Ssk中和其他图像块的连接。
通过类似于稀疏编码的产生式模型的表示,则有:
其中,n为随机高斯噪声。
图1 一组图像基元示例图
类似地,对图像中的纹理部分Λnsk,通常首先通过对一组选定的滤波器响应进行聚类,分为一组M=3~7不相交的同质纹理区域,即
每个同质纹理区域被一组直方图hmi(m=1,…,M;i=1,…,n)隐式表达,则有:
对图像中的纹理区域进行标注,则有:
其中,βmi为纹理区域模型的参数,通过最小最大熵方法求解[11]。
由此可以得出灰度图像主基元图表示的概率数学模型[11],其中,E(Ssk)和E(Snsk)表示结构图和纹理部分的先验能量。该概率模型有效统一了结构和纹理2个部分的表示。
本文的主基元图提取算法通过一种类似匹配追踪(matching pursuit)[13]的算法实现。首先选定一组滤波器,包括不同尺度和不同方向的Gabor滤波器、DoG(difference of Gaussian)、LoG(Laplace of Gaussian)等,对原始输入图像,产生一组“提议图”,作为选取结构图中图像基元的基础,同时对纹理部分先作一个简化处理,使用高斯模型来代替。简化模型为:
根据最大化信息量或最小化描述长度的原则,从“提议图”中逐个选择图像基元(对结构部分)和直方图(对纹理部分)描述,直至收敛。匹配追踪算法每次在待选基元中选择图像编码信息增量最大的基元,添加到结构图Ssk中,Ssk′=Ssk∪Ssk,k+1,Λnsk′=Λnsk-Λsk,k+1,通 过 更 新 模 型 (10)式,并比较,即得当前待选取基元可能带来的信息增量:
经过第1步的匹配跟踪算法后,按照一组预先定义的格式塔规则,使用一组图操作符(graph operators)对所得结构图Ssk进行修整[12]。
从(9)式可知,灰度图像主基元图模型只对灰度强度进行了图像基元拟合建模。而自然图像中,很多物体的边缘需要在彩色空间才能很好地体现出来[14]。
具体例子如图2所示,图2中伞的外轮廓边缘在灰度图像中非常不明显,从而使得在匹配追踪算法中无法进行提取(由于其图像编码信息增量通常小于给定的阈值)。但实际上,在对应的彩色图像中,该轮廓边缘被很好地感知,从而说明要在彩色空间对主基元进行建模。
图2 雨伞图像彩色和灰度主基元图比较
本文提出通过修改灰度主基元图模型来适应彩色图像。首先,将原始RGB图像通过颜色空间变换到Lab颜色空间,这是由于Lab颜色空间的距离度量更加符合人类对颜色的感知[3,7]。然后,改进(9)式可得:
其中,将灰度图像主基元图中对结构部分的建模由(I(u,v)-Bk(u,v))2扩展到Lab彩色空间,并对3个通道最大化操作,即 maxLab(Lab(u,v)-Bk(u,v))2,从而能提取原本在灰度图像中不能体现的基元。而对纹理部分,由于对纹理感知的并过多地依赖于颜色空间的选择,本文采用强度空间,即L通道。
根据 (12)式,本文在主基元图提取算法中,更新基元选取图像编码信息增量计算公式(11)式,从而能提取彩色图像的主基元图。
本文实现了基于(12)式的彩色图像主基元图的提取算法,并和基于(10)式的灰度图像主基元图进行实验结果对比。一个典型的实验结果如图2所示。从图2可看出,彩色图像主基元图能提取灰度主基元图中“漏检”的一些基元,如图2中伞的外轮廓。
室内场景的彩色和灰度主基元的对比实验结果如图3所示。图3左边立柱和房顶交接处的轮廓在灰度主基元图中被“漏检”,而彩色主基元图能很好地提取出来。
图3 室内场景彩色和灰度主基元图比较
本文分析了一种灰度主基元图对图像中结构部分表达的不足并进行了改进,提出了彩色图像主基元图模型和提取算法。实验结果表明,彩色图像主基元图能更好地提取出图像中的结构主基元,使得主基元图更加完整和符合感知。
[1]郑南宁.计算机视觉与模式识别[M].北京:国防工业出版社,1998:22.
[2]马颂德,张正友.计算机视觉:计算理论与算法基础[M].北京:科学出版社,1998:15.
[3]章毓晋.图像工程:图像理解与计算机视觉[M].北京:清华大学出版社,2000:157-158.
[4]高 文,陈熙霖.计算机视觉:算法与系统原理[M].北京:科学出版社,1998:226.
[5]贾云得.机器视觉[M].北京:科学出版社,2000:77.
[6]Marr D.视觉计算理论[M].姚正国,谢 磊,汪云九,等,译.北京:科学出版社,1988:155-157.
[7]Sonka M,Hlavac V,Boyle R,et al.图像处理、分析与机器视觉[M].艾海舟,苏延超,译.北京:人民邮电出版社,2003:222.
[8]Forsyth D A,Ponce J.Computer vision:a modern approach[M].New Jersey:Pearson Education,2002:345-350.
[9]寿天德.视觉信息处理的脑机制[M].上海:上海科技教育出版社,1997:63-65.
[10]Olshausen B A,Field D J.Emergence of simple-cell receptive field properties by learning a sparse code for natural images[J].Nature,1996,381:607-609.
[11]Zhu S C,Wu Y N,Mumford D.Minimax entropy principle and its applications in texture modeling[J].Neural Computation,1997,9(8):1627-1660.
[12]Guo C E,Zhu S C,Wu Y N.Primal sketch:integrating texture and structure[J].Computer Vision and Image Understanding,2007,106(1):5-19.
[13]Mallat S,Zhang Z.Matching pursuit with a time-frequency dictionary[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[14]苏 菱,吴克伟,黄 帅.一种基于DTSVM的遥感图像分割方法[J].合肥工业大学学报:自然科学版,2011,34(3):383-386.