武 薇 韩显修 范影乐
(杭州电子科技大学模式识别与图像处理实验室 杭州 310018)
以轮廓为勾勒的物体边界是视觉感知的重要线索,为场景理解和物体识别等高级视觉行为提供关键的信息。以Sobel算子[1]为代表的传统轮廓检测算法大多基于梯度模板为基础的数字模型,通过计算局部亮度的突变来直接提取边缘。但在复杂的自然场景中,纹理边缘和轮廓的像素亮度突变在数学特性上相似,传统的方法缺乏生物视觉的感知机制,通常难以有效识别出轮廓。
当前,随着对视觉机制不断深入研究,以生物视觉机制为基础的轮廓感知研究受到了广泛关注。例如有研究感受野(Receptive Field, RF)的作用,利用经典感受野(Classical Receptive Field, CRF)边缘位置的方向选择,非经典感受野(Non-Classical Receptive Field, NCRF)侧抑制机制实现了图像纹理抑制[2];还有利用融合调制方向、亮度、对比度3种视觉特征,实现非经典感受野的多特征环绕抑制,进一步提高了轮廓感知算法的纹理抑制能力[3]。上述方法仅关注于感受野的视觉特性,对细轮廓与纹理噪声的辨别能力不足。因此有些研究者进一步关注于视通路的层级传递机制,有依据V1皮层的纹理抑制模型,分别构建推拉抑制模型和环绕抑制模型,并将两者抑制模型相互调制,该方法纹理抑制效果更佳[4]。此外,还有侧重于研究初级视皮层到高级视皮层的信息流层级处理机制,在V1皮层中利用简单细胞和复杂细胞建立稀疏编码模型,在V2, V4皮层中利用末端停止细胞提取轮廓的显著性,提高轮廓检测准确性[5]。上述轮廓提取方法对视觉刺激进行层级递进处理,检测效果进一步提升。但必须要指出的是,上述方法仅考虑了位于皮层上侧的经典视觉通路(后文统称为上通路)的编码方式,忽略了生理中还存在皮层下侧的视觉通路(Subcortical Visual Pathway, Sub VP)[6],以及两条视通路之间的信息流分流处理和交互感知作用。从而上述方法在整体轮廓和显著特征的提取上存在交叉冗余,视觉刺激编码的执行效率较低。
神经生理实验结果表明,在视觉系统中存在一条起自视网膜流经上丘(Superior Colliculus, SC),再经丘脑枕结节(Pulvinar, Pulv)至杏仁核(Amygdala, Amg)的皮层下视通路(后文统称为下通路)[7]。上通路主要负责对外界视觉刺激的细节特征精细加工[8],下通路则倾向于快速提取粗略特征[9],且双视通路之间存在信息交互和协同编码,将有效提升视觉感知的效率,有利于图像轮廓从主体细节到显著特征的有效表达。所以在图像感知研究中考虑两条视通路的分流处理方式,以及探讨两条视通路的信息交互感知作用,将有助于对视觉系统内在机制的理解。因此本文提出一种基于双视通路交互感知的轮廓检测新方法。
位于皮层上的经典视觉通路和位于皮层下的第2视通路都是视觉系统的重要组成部分。在轮廓感知中,上通路与下通路分别着重于不同视觉特征的提取,而更高级的视觉感知,如抑制纹理背景、提取显著性轮廓信息则需要双视通路的协同参与。因此本文模拟两条视通路分流处理和交互感知作用获取轮廓响应的机理,尝试构建双视通路计算模型。首先,将视觉信号进行分流处理,在上通路中提取显著性特征,在下通路中得到初级轮廓响应;接着利用交互感知作用,分别在上通路构建引导性编码模型,提取显著性轮廓;在下通路构建特征调制的侧抑制模型,得到抑制性轮廓;最后融合两条视通路的结果,得到最终轮廓响应,整体检测算法框架如图1所示。
图1 轮廓检测算法框架
视网膜(retina)上分布着大量感光细胞,在受到光信号刺激后,进行光电信号转换工作[10]。本文使用正弦加权的局部窗口计算亮度信息,模拟视网膜对视觉刺激的初步处理,得到亮度特征L(x,y),如式(1)所示
其中,假定输入图像为I(x,y),其宽和高分别为m 和n, (x,y) 表示 图 像 的2 维 坐 标;Sx,y表 示I(x,y)中 ,以(x,y) 为 中心原点,窗长为d的方形局部窗口,设置为7;r=(d-1)/2 为Sx,y的半窗长;(xi,yi)表示局部窗口中自左而右、自上而下排列的第i个像素坐标,i∈[1,d2];ω(xi,yi)为余弦加权函数。
信号在视网膜加工处理后经过视交叉,部分信号经上丘臂传入SC。研究证实,位于下通路的SC具有同心圆拮抗式感受野功能,由于其具有感受野较大[11]、神经元反应潜伏期短[12]等特点,在信息处理上表现出粗略且快速的特性。本文引入2维高斯导函数来模拟SC中经典感受野的边界响应特性,如式(2)所示
最后,对响应结果E(x,y)进行归一化,得到初级轮廓响应。
上通路接受来自视网膜的大部分信息,其对特征信息的加工处理相对于下通路更为复杂精细。上通路中,V1皮层的简单细胞存在对比度自适应的主动调节,且感受野对视觉刺激具有特定方向的敏感特性[13]。因此本文模拟上通路的对比度自适应机制和方向敏感特性,提出一种显著性视觉特征提取方法。
首先,根据视网膜传递的亮度特征,构建亮度对比度计算模型,如式(6)所示
上通路在视觉信息的加工处理中不单取决于自身通路的特性,还会与下通路进行信息交互。有研究发现,部分V1皮层神经元与SC浅层之间存在信息交互,其中SC浅层投射的信息流对V1皮层的神经元放电情况有一定导向作用[14]。考虑到当前神经元编码研究中,大部分方法仅考虑前级神经结构输入的信息流,无法体现多神经环节的信息交互性和视觉刺激深层次的感知机理。基于双视通路的交互性,本文提出一种体现信息流交互引导的脉冲编码方法,有效发挥下通路信息流对上通路神经编码的导向作用,提高神经元的编码效率,编码模型如图2所示。
图2 信息流交互引导的神经编码示意图
首先,选择具备电生理特性的漏积分放电(Leaky Integrate-and-Fire, LIF)模型[15],构建改进的漏放电积分模型作为脉冲编码的神经元模型,神经元模型的具体形式如式(9)所示
其次,初级轮廓响应中还包含一定的纹理冗余。从信息稀疏性角度考虑,轮廓区域往往线条稀少且朝向单一,故其稀疏度较高;而纹理区域一般线条较多且朝向杂乱,稀疏度偏低。为了使轮廓区域的神经元快速达到脉冲发放阈值,对强稀疏性区域降低其漏电导,反之则提高漏电导,从而有效提高编码的准确性。
因此本文利用稀疏编码方法,以局部窗口的窗长作为移动步长,输出窗口内响应的均值,得到稀疏性图像s(x,y);再参考稀疏度量方法[16],得到稀疏度s′(x,y),如式(11)所示
其中, mean 为均值运算函数;Ux,y表示s (x,y)中,以(x,y) 为 中心原点,窗长为s tep的方形局部窗口,step 设置为5;w和h分别表示局部窗口Ux,y内像素的横坐标和纵坐标。
然后,将稀疏度s′(x,y)放大到原图像的尺寸,修正漏放电积分模型的漏电导g1,如式(12)所示
其中, r esize 表示双线性插值放大运算,g1为神经元模型的原始漏电导,g1设置为0.02。
最后,将显著性特征P(x,y)输入对应的神经元模型,统计单位时间内神经元脉冲发放个数作为脉冲编码的输出并归一化,得到显著性轮廓R1(x,y)。
最后,若局部均方差m se(x,y)大于整体均方差MSE,则认为该处可能为纹理冗余,选择两者的最小值;反之,则认为该处可能是轮廓或背景,选择两者的最大值。计算得到最终轮廓响应R(x,y),如式(17)
为验证本文方法的检测效果,使用RuG40图像库测试。实验分析中,利用Grigorescu等人[2]提出的轮廓检测评价指标,定义ED和EGT分别为实验方法得到的轮廓像素集和基准轮廓像素集,算法检测正确的像素集为E=ED∩(EGT⊕T)(⊕为膨胀操作,T为5 ×5的 结构元);误检的像素集为EFP=ED-E;漏检的像素集为EFN=EGT-(EGT∩(ED⊕T))。当轮廓像素出现在基准轮廓像素的T邻域内,则认定该像素检测正确。算法性能评价指标误检率eFP、漏检率eFN和整体性能指标P计算方法,如式(18)所示
定性实验中,选用4种轮廓检测方法和本文方法进行对比。基于非经典感受野抑制的轮廓检测方法(Contour Detection Based On Nonclassical Receptive Field Inhibition, ISO)[2]采用各向同性和各向异性方式构建了纹理抑制模型; 多特征环绕抑制的轮廓检测方法(Multifeature-Based Surround Inhibition Improves Contour Detection, MCI)[3]结合多特征的方式进行纹理抑制;基于主视通路结构分级响应模型的轮廓检测方法(A Contour Detection Method Based On Hierarchical Structure Response Model In Primary Visual Pathway, HDC)[19]则侧重于主视通路的层级效应以及单一节点的多级处理能力提取轮廓响应;最后以本文方法为基础,设置去除信息流交互引导编码的模型,基于单视通路感知的轮廓检测方法(Contour Detection Method Based On Single Visual Pathways, SNC),与其进行比较。通过与前面3种方法比较来体现本文方法的效果性能,通过与SNC的对比来说明引入双视通路交互感知机制后对模型的性能提升效果。
为得到测评所需的二值化轮廓图,对各方法的轮廓检测结果进行非极大值抑制处理和滞后阈值处理。滞后阈值处理中的上限阈值t设置为[ 0.1:0.1:1.0],参数α设置为α= [0.1:0.1:1.0]。基于上述参数的选取方法,本文方法基于每幅图像选取最优参数的情况下,取得最好的结果,结果展示如图3所示。从图3可知,3种方法无法良好的协调突出主体轮廓与纹理抑制的平衡关系,导致部分重要轮廓丢失或者残留大量纹理;SNC方法由于删除下通路对上通路的信息投射部分,缺乏双视通路的关联性,在纹理抑制和轮廓增强之间无法有效结合,造成轮廓表征能力不足;本文方法结合双视通路分别提取显著性轮廓特征和快速轮廓感知,能更加合理地权衡突显主体轮廓和抑制纹理背景之间的作用关系,最终的轮廓图像更接近于基准轮廓图。
图3 RuG40图像库的轮廓检测结果
以上3张图像的定量性能评价结果如表1所示。据表1可数值化分析不同方法在RUG40图像库中的最佳结果,定量计算结果与上述定性分析结果相似,体现出本文方法在综合性能上表现更加优异,证明了双视通路模型的有效性。
表1 图3中不同算法的参数设置与性能评价指标
在对比实验中,为验证多组参数下本文方法的性能表现,参数α=[0.1:0.1:1.0],取10组,参数t=[0.1:0.1:1.0],取10组,总计100 组测试参数。以RUG40中的rino图像为例,利用100组参数对模型效果进行系统的分析,参数α和t对本文方法的影响如图4(a)所示。另外,在整个RUG40图像库上对比验证本文方法的有效性,统计各方法模型在整个图像库中的最优平均P值和单张图片的最优平均P值。对于本文方法,SNC, HDC, MCI和 ISO 5种方法都采取上述的100 组测试参数进行测试,如图4(b)所示。图中,蓝色柱代表在整个图像库中的最优平均P值,黄色柱代表每张图片的最优平均P值。由图4(a)和图4(b)可知,本文方法在鲁棒性和准确性上整体表现更优。
图4 在RUG40中的定量实验测评结果
为了进一步验证本文方法的有效性,在BSDS500的图像库的测试集上测试了本文方法的实验效果。考虑到本文方法没有使用到测试图片的颜色特征,在实验过程中,使用了该图像库中图像的灰度版本,并使用与RuG40图像库实验时同样的参数设置,将各方法检测得到的轮廓,再通过非极大值抑制处理和滞后阈值处理。从BSDS500图像库随机选取3幅图片展示不同方法选取最优参数情况下的最佳结果,如图5所示。
图5中显示的结果和RUG40图像库测评结果相似,图中可以看出本文方法得到的结果轮廓更加完整,纹理噪声抑制更有效,在整体轮廓检测上表现更为优秀。
图5 BSDS500图像数据集部分图像的轮廓检测结果
此外,本文在整个BSDS500图像库中使用数据集尺度上最优(Optimal Dataset Scale, ODS)的F测评标准测量来评估轮廓检测的精度,同时绘制了准确率(Precision)和召回率(Recall)的数据曲线图。实验中使用定量评价指标F作为均衡评价指标[20],如式 (19) 所示
从图6(b)可以总结出,本文提出的方法虽然在性能上比一些基于机器学习的方法(比如RCF[21]和HED[22])要差,但是这些方法往往需要加入更多的视觉特征,还需要额外的训练过程。另外,相对于基于生物视觉的相似方法(如SSC[23], MCI[3]等方法),本文方法的P-R曲线包含下方面积相对更多,在ODS指标上也均高于其他生物视觉方法。综上所述,本文提出的方法相对取得了更为不错的效果。
图6 在BSDS500中的定量实验测评结果
本文研究重点探讨生物视觉系统中,双视通路分流与交互处理信息流的机制,提出了多种视觉信息传递和处理方法。首先利用下通路中多级感受野尺度差异特性,得到轮廓增强的感知结果;接着基于上通路VI皮层的对比度适应机制和方向敏感特性,获取显著性视觉特征;然后在V1皮层中,模拟双视通路信息流的交互感知机制,构建一种信息流交互引导的脉冲编码模型,提升神经元编码的效率和准确性,实现了显著性轮廓的提取;其次在SC浅层提出一种特征调制的非经典感受野侧抑制模型,强化纹理抑制效果;最后根据双视通路的轮廓响应的优势和差异,进行像素级修正融合,提高轮廓的准确度和完整性。在针对RuG40, BSDS500图像数据集的对比实验中,验证了本文所提轮廓检测模型在综合性能上更加优异,为后续轮廓检测方法提供了新思路。