李康群 范影乐 甘海涛 武 薇
(杭州电子科技大学模式识别与图像处理实验室,杭州 310018)
基于视通路多感受野朝向性关联的轮廓检测方法
李康群 范影乐*甘海涛 武 薇
(杭州电子科技大学模式识别与图像处理实验室,杭州 310018)
基于视通路中各层次的感受野特性以及层次间感受野的关联特性,提出一种图像轮廓检测新方法。根据神经元的放射状树突接收特性,构建检测空间差异性信息的视网膜神经元网络,对轮廓信息进行前级编码;建立LGN细胞的非经典感受野调节机制,结合感受野的层次变换特性,对前级编码结果进行全局调节;提出简单细胞的多感受野朝向性关联模型,模拟初级视皮层简单细胞的方向选择特性;融合多个方向上的轮廓响应,经过非极大值抑制和阈值处理,得到轮廓检测结果。以RuG图库40幅图片为实验对象,检测结果与基准轮廓图的平均P指标为0.43,结果显示该方法能够有效凸显主体轮廓,强化轮廓与纹理边缘的区分度。利用多感受野的层次关联特性,实现图像轮廓信息的编码与检测应用,为研究高级视皮层的图像理解和视觉认知提供新的思路。
轮廓检测;多感受野;前级编码;全局调节;朝向性关联
轮廓是图像像素值发生跃变的地方,不同于背景纹理边缘的无序状态,主体目标的轮廓表现出一定的方向性和连续性,包括主体目标与背景、平面与平面的边界。轮廓检测是机器视觉和图像分析的基础内容,图像中主体目标轮廓的准确检测将为后续目标识别以及图像理解等高级视觉行为提供丰富的关键信息[1]。
包括Canny、Sobel等算子在内的传统边缘轮廓检测方法,一般是利用数学模型来刻画局部邻域像素在特定方向上的灰度变化[2-3],具有简洁快速的特点,但并不能有效区分主体轮廓和背景纹理边缘。尽管后续又出现了多尺度信息[4-5]、多局部特征[6]、上下文全局分析[7]等检测方法,一定程度上改善了轮廓检测效果,但是与人类视觉系统在复杂环境下快速准确捕捉主体目标的能力相比,这些方法在生物智能性和计算高效性上均有不足。因此,基于人类视觉感知特性,Grigorescu等利用二维Gabor能量模型,模拟初级视皮层经典感受野的方向选择特性,并且依靠非经典感受野的抑制特性进行轮廓检测,有效减少了背景纹理的影响[8]。在此基础上,又出现了许多改进的方法:桑农等提出了蝶形域抑制方法,在邻域神经元的抑制作用上考虑得更加详尽,较好地去除了背景纹理产生的边缘[9];杜晓凤等提出了基于复合感受野的轮廓检测方法,在减少背景纹理干扰的同时,保护了较弱的轮廓[10];Yang等利用视锥细胞颜色双拮抗机制和空间稀疏特性进行纹理抑制,提取彩色图像轮廓[11]。但是,上述方法大都忽略了视觉神经系统中的电生理活动,即数以千亿计神经元电活动与视觉认知的内在关联性,也没有考虑视觉信息在视觉通路加工和处理过程中的多感受野特性、感受野的层次关联特性,以及这些特性所依赖的生理学结构基础,所以轮廓检测结果与主观的视觉感知存在着一定的差异。
本研究考虑了视通路中各层次的感受野尺度特性以及层次间感受野的相互关联性,模拟视通路中视网膜神经元的脉冲编码过程,以及外侧膝状体(lateral geniculate nucleus, LGN)细胞非经典感受野的全局调节特性,同时有朝向性地将多个LGN细胞感受野进行关联,用于模拟初级视皮层(V1)简单细胞的方向选择特性,提出了一种基于视通路多感受野朝向性关联的轮廓检测方法,充分发挥上述视觉特性在轮廓检测中的重要作用。
1.1 基本原理
1.1.1 视网膜神经元网络的前级编码
视网膜中感光细胞接受外界刺激,触发下游神经元产生动作电位,使刺激信息以脉冲发放的形式传递至后级神经元以及视觉皮层进行处理,直至形成视觉感知或识别。在神经信息编码过程中,神经元的树突接收刺激并将冲动传入细胞体。树突具有多种多样的空间表现形式,是视网膜对外界视觉信息进行精细汇聚的结构基础[12]。
如图1所示,结合神经元的放射状树突结构与感受野特性,将感受野内所有树突接收的外界激励综合作为模型输入,同时用包含轮廓强度信息的脉冲发放频率对外界视觉激励进行编码。
图1 神经元利用放射状树突接收刺激并产生脉冲输出Fig.1 Neurons receive stimuli with radial dendrite and produce spikes
本研究从神经元模型的生物合理性与计算便捷性出发,选取仿真性能相对优越的漏积分放电(leaky integrate-and-fire, LIF)[13]模型来构建神经元网络,对视觉输入的差异性进行检测,并且引入神经元放电过程中的绝对不应期,改进后的LIF模型如下:
(1)
式中:x、y分别是视觉刺激的横纵坐标;v是神经元膜电压;cm是膜电容;gl是漏电导;Ixy是与视觉刺激(x,y)对应的神经元树突激励电流,即输入图像像素值的归一化结果;RF表示神经元的感受野;ωxy,μ是与视觉刺激(x,y)相对应的神经元树突接收权值,下标μ表示感受野的极性,取值为on或off,前者表示兴奋型感受野,后者表示抑制型感受野;vth为脉冲发放阈值;vreset为静态电势;ref为绝对不应期;vg为脉冲发放峰值;max表示取较大值运算,实现对激励电流的非负处理。
当v>vth时,神经元脉冲发放达到vg,同时v又被瞬间重置为vreset,开始进入绝对不应期。
视网膜神经元对外界刺激的前级编码能够充分反映空间的差异性信息[14]。本研究在神经元网络中引入了放射状树突的接收权值,同时为了编码外界输入的空间差异性信息,采用一种基于空间距离变化的双高斯差函数,对接收权值的变化规律进行模拟。感受野内的树突接收权值随着距离增大逐步减小,之后随着距离进一步增大出现负效应(接收权值为负数),最终因距离过大而趋向于零,具体如下:
(2)
式中,σ为双高斯差函数的标准差。
由于神经元感受野会呈现出兴奋或抑制两种状态,以两种类型的树突接收权值表示这种特性,于是有
(3)
在本研究中,统计了在一个响应周期T内每个神经元的脉冲发放次数,并将脉冲发放频率映射为灰度图像,从而得到视网膜神经元网络对图像差异性信息的前级编码结果,如图2所示。显然,视网膜神经元只能对图像的差异性信息进行粗略检测,并不能有效区分主体轮廓和背景纹理边缘,但这一过程将为视通路后续层次的处理提供原始数据。
图2 视网膜神经元网络的编码结果。(a) 原灰度图;(b) on型编码结果;(c) off型编码结果Fig.2 Coding result of retina neuron network.(a) The original gray image;(b) The coding result of on-type;(c) the coding result of off-type
1.1.2LGN神经元感受野的调节机制
在早期视觉通路中,从视网膜到LGN的投射路径包含了超过90%的视神经轴突,并且通过膝状体-皮质投射为皮质提供输入。本节主要讨论视网膜-膝状体通路中感受野的层次特性和调节机制。
LGN细胞的感受野与视网膜神经元的感受野相比,结构相似但却具有更大的空间范围,能够综合处理来自双眼的信息[15]。不同于传统的感受野模型,仅仅关注图像中以像素点为处理单元的局部细节。在视网膜到LGN的信息投影过程中,由于感受野呈现由局部到全局的“点-块”变换特性,因此提出了以图像块为处理单元的LGN细胞感受野模型。将视网膜神经元编码结果做高斯平滑处理后,在空间上以图像块为基本单元做全局分解:以一个目标点(x,y)为中心构建局部窗口,计算窗口覆盖区域的平均值,选取覆盖区域中与平均值相差最大的像素点作为该区域的全局特征点WIμ(x,y),并将其作为LGN细胞的输入。
首先,计算窗口覆盖区域的平均值为
(4)
其次,选取与平均值相差最大的像素点作为全局特征点,有
(5)
(6)
相关研究指出,在经典拮抗型感受野的大外周存在一块特殊的区域,即非经典感受野(non-classicalreceptivefield,nCRF),单独刺激非经典感受野区域并不会引发神经元的放电活动,但其对经典拮抗型感受野的响应具有一种调节效应[16]:对全局特征图进行nCRF调节,不仅可以有效抑制图像中的背景纹理边缘,同时在一定程度上能够增强主体轮廓。具体而言,在亮度差异性较大的主体轮廓区域,采取增强性调节;在亮度差异性较小的背景纹理边缘区域,则是借助全局特征图的空间尺度变化,使背景纹理边缘得到有效剔除。本研究对传统的三高斯差函数进行微调,引入了局部半波整流,有
TDoG(x,y)=gausur(x,y)-
(7)
式中:max表示取较大值运算,用于实现半波整流;gausur(x,y)、gauinh(x,y)、gauexc(x,y)是3个高斯函数,分别表示LGN细胞非经典感受野的大外周区、
周边抑制区与中心兴奋区。
周边抑制区的高斯函数标准差通常为中心兴奋区的4倍,且大外周区高斯函数标准差与中心兴奋区相同[17]。以微调后的三高斯差函数TDoG(x,y)为度量因子,计算全局特征图WIμ(x,y)中的亮度差异性LDμ(x,y),有
TDoG(p,q),0)
(8)
式中,(p,q)表示像素点的坐标增量。
进一步将LDμ(x,y)的负指数归一化结果作为非经典感受野的调节量nCRF_ajμ(x,y),把调节量与全局特征图按权值相融合,再通过双线性插值方法将融合结果调整为原输入图像的大小,将其作为LGN细胞的输出LGNμ(x,y),具体如下:
(9)
(10)
式中:δ是负指数化的强度参数,设置为0.2;resize表示双线性插值放大运算;α是融合权值,反映了全局调节的作用强度。
图3给出了上述LGN细胞感受野调节过程中的on型结果,而off型结果可通过类似的调节过程得到。从部分on型的调节结果中可以看出,LGN非经典感受野的全局调节能够在一定程度上抑制背景纹理,同时对视网膜前级编码结果中的主体轮廓进行增强。
图3 LGN细胞感受野调节过程中的部分结果。(a)on型编码结果的全局特征;(b)on型全局特征的nCRF调节量;(c)经过双线性插值放大的on型调节结果,即LGN细胞的on型输出Fig.3 Some results of adjustment with receptive field of LGN cells. (a) Global feature map of on-type coding result; (b) Adjustment value of on-type global feature map; (c) On-type adjustment result after bilinear interpolation zooming, that is the on-type output of LGN cells
1.1.3V1神经元的多感受野朝向性关联模型
V1简单细胞的方向选择特性是准确捕获目标轮廓信息的关键因素,因此在图像处理领域的相关研究中,大都选择具备方向选择特性的二维Gabor能量函数[18]作为初级视皮层简单细胞的计算模型。尽管Gabor函数看上去十分简洁有效,但实际上用它对简单细胞建模只是一种粗略的黑箱模拟,并没有考虑简单细胞方向选择特性的形成机制。
上面提到,视网膜的视觉信息通过膝状体-皮质投射为皮质提供输入,可见V1简单细胞的感受野特性与上一层LGN细胞的感受野有着千丝万缕的联系。Hubel和Wiesel认为,初级视皮层的简单细胞可以由多个相邻LGN细胞同心圆式感受野的输出相连而成,而简单细胞的方向选择特性与多个LGN细胞感受野的关联方式密切相关[19]。
本研究以外侧膝状体和初级视皮层的层次关联特性为切入点,综合考虑简单细胞方向选择特性的生理学形成机制以及计算模型的简洁高效性,构建如图4所示的V1简单细胞多感受野朝向性关联模型。其中,绿色系图标代表LGN细胞的on型感受野,橘色系图标代表LGN细胞的off型感受野,蓝色系图标代表V1简单细胞的感受野。
图4 多感受野朝向性关联模型的示意图Fig.4 Sketch map of orientative correlation of multiple receptive fields model
以尺寸为w×w的矩形感受野代替LGN细胞的同心圆式感受野,且矩形感受野的响应取自LGN细胞的输出;将相邻的N个on型与N个off型、共2N个矩形感受野的输出有朝向性地关联到同一个V1简单细胞。对矩形感受野的个数N进行如下限定:1≤N≤round(min(m,n)/w),m、n分别是输入图像的宽和高,round为取整运算,min表示取较小值。
用一个三元素的元胞集合RecRFSet表示多个矩形感受野的朝向性分布,具体如下:
(11)
式中,μi为第i个矩形感受野的极性,ri为第i个矩形感受野中心位置到V1简单细胞感受野中心位置的距离,φi为第i个矩形感受野中心位置和V1简单细胞感受野中心位置的连线相对于水平方向的夹角。
显然,极坐标(ri,φi)确定了2N个矩形感受野的相对位置,从而实现多个感受野的朝向性关联。朝向型关联之后,矩形感受野输出为
(12)
式中,Δxi=-ricosφi和Δyi=-risinφi表示极坐标转换到直角坐标后各矩形感受野的位置偏移量。
当且仅当各个矩形感受野全部处于响应状态时,多感受朝向性关联模型才会被激活,因此计算2N个矩形感受野输出的几何平均值,作为V1简单细胞的方向选择结果osθ(x,y),有
(13)
式中,θ表示V1简单细胞的偏好方向,由集合RecRFSet决定。
在初级视皮层中,不同偏好方向的简单细胞的感受野结构相似,而输入来源不同[12]。针对不同偏好方向的简单细胞的多感受野输入,采用不同朝向的关联方式,具体如下:
(14)
式中:θk表示其他偏好方向,k=1,...,24表示不同偏好方向的索引;Δφk为朝向性关联时的角度增量。
调整矩形感受野集合RecRFSet中每个元胞的极坐标方向φi,即可实现其他朝向的关联方式,从而进一步获取其他V1简单细胞在其偏好方向上的方向选择结果。图5给出了多感受野朝向性关联模型的部分方向选择结果。
图5 多感受野朝向性关联模型的部分方向选择结果。(a)LGN细胞on型输出;(b)偏好方向为竖直方向的简单细胞方向选择结果;(c)偏好方向为水平方向的简单细胞方向选择结果Fig.5 some orientation selective results using orientative correlation of multiple receptive fields model.(a) The on-type output of LGN cells; (b) Orientation selective result of simple cells with vertical orientation preferred; (c) Orientation selective result of simple cells with horizontal orientation preferred
1.2 算法流程
按早期视觉通路的信息处理流程,对轮廓检测过程做如下叙述:
1)根据感受野内神经元的放射状树突接收特性,构建检测空间差异性信息的视网膜神经元网络,对轮廓信息进行前级编码;
2)基于感受野的层次变换特性,引入LGN细胞的非经典感受野调节机制,对前级编码结果中的主体轮廓信息和背景纹理边缘进行全局调节;
3)根据LGN与初级视皮层的层次关联特性,以及初级视皮层简单细胞的方向选择特性形成机制,构建简单细胞的多感受野朝向性关联模型,实现对特定方向的轮廓检测;
4)综合全部方向的轮廓响应,经过非极大值抑制和阈值处理,得到轮廓二值图。
算法执行流程如图6所示(见下页)。
图6 轮廓检测算法流程Fig.6 procedure of contour detect algorithm
具体检测流程如下:
步骤1:根据输入灰度图像IG(x,y)(x=1,2,...,m;y=1,2,...,n)大小构建相同尺寸的视网膜神经元网络GN(x,y),神经元接收感受野RF(7×7)内的外界综合刺激,按照式(2)、(3)计算树突接收权值ωxy,μ的大小。
步骤2:网络中的每个神经元都采用式(1)所示的LIF神经元改进模型,将灰度图像的像素归一化为神经元的激励电流,统计一个响应周期内各神经元的脉冲发放频率,作为视网膜神经元对轮廓信息的前级编码结果。
步骤3:视网膜神经元的编码结果经过高斯平滑得到GCμ(x,y),按式(4)~(6)进行全局分解,得到全局特征图WIμ(x,y),将其作为LGN细胞的输入。
步骤4:按照式(7)~(10),模拟LGN神经元非经典感受野对全局亮度的调节机制,对全局特征图WIμ(x,y)的主体轮廓和背景纹理进行调节,得到LGN细胞的输出LGNμ(x,y)。
步骤5:根据式(11)提供的矩形感受野空间位置信息以及式(12)给定的矩形感受野输出值,对各个LGN细胞矩形感受野进行朝向性关联,最后根据式(13)计算各个矩形感受野的几何平均值,作为初级视皮层简单细胞在其偏好方向上的方向选择结果。另外,利用式(14)可以得到其他偏好方向的简单细胞的方向选择结果。
步骤6:融合各偏好方向简单细胞的方向选择结果,计算初级视皮层轮廓响应RV1(x,y;σ)以及与灰度图像尺寸相同的最优方向矩阵BO(x,y),有
(15)
(16)
步骤7:对步骤6的轮廓响应进行非极大值抑制处理和滞后阈值处理,得到轮廓响应的二值图BC(x,y),具体计算如下:
(17)
BC(x,y)=
(18)
式中:(p1,p2)=intpol(BO(x,y),RV1(x,y))表示RV1(x,y)在其8邻域中根据BO(x,y)进行梯度插值,p1、p2为RV1(x,y)在其最优方向BO(x,y)上的插值结果;t为滞后阈值,edge表示已经确定的轮廓点,→表示8邻域相连接。
1.3 算法验证
自然场景图像的轮廓检测是利用图像方法分析和识别主体目标的基础内容,但自然场景图像由于轮廓纹理相似性、噪声干扰等特征,对其进行轮廓检测有较高的难度。为验证本方法对自然场景图像的轮廓检测具备有效性,选取RuG图库中的40幅自然场景图进行轮廓检测实验,图库中每张图片都有一张手工制作的基准轮廓图,用于计算轮廓检测的定量评价指标,选取图库中部分有代表性的图片作为实验对象。
首先,选取直接模拟初级视皮层轮廓响应的数学模型作为对比方法,该模型就是与Gabor能量模型类似的二维高斯导函数模型(DG),体现本方法中V1多感受野朝向关联模型的生物合理性;其次,选取文献[20]提出的仅考虑了LGN细胞排列组合的轮廓检测模型(CORF),证明本方法中视网膜前级编码和LGN感受野调节的有用性;最后,考虑纹理抑制特性,选择文献[11]中去除颜色双拮抗机制并适用于单通道灰度图像的空间稀疏限制方法(SSC)作为对比方法。实验中,选取10个不同的LGN非经典感受野调节强度,对应参数为α=[0.1∶0.1∶1.0]。另外,为了与图像库提供的二值标准轮廓图进行比较,需要对提取的轮廓响应图进行非极大值抑制处理和滞后阈值处理[3,8]。在滞后阈值处理中,取上限阈值t=[0.1∶0.05∶0.8],因此对于本方法和SSC方法可得到150组测试参数,而由于DG、CORF方法并不涉及全局系数α,故只进行15组参数测试。
为客观地对检测结果进行评价,采用文献[8]中的定量指标计算公式对本方法和对比方法做定量分析。显然,最终得到轮廓二值图像BC的轮廓点坐标一般不可能与基准轮廓图GT中的轮廓点坐标完全吻合,相反如果检测结果中的各个轮廓点出现在基准轮廓图对应像素点的某个邻域内,则会显得更加合理。因此,本实验设置了与轮廓检测对比算法相同的邻域参数:若检测到的轮廓点出现在基准轮廓点的5×5邻域内,就认为该轮廓点检测正确。定义EBC和EGT分别为算法检测到的轮廓像素集和基准轮廓像素集,则算法正确检测到的像素集为E=EBC∩(EGT⊕T)(⊕为膨胀操作,T为5×5的结构单元);错误检测到的像素集为EFP=EBC-E,漏检的像素集为EFN=EGT-(EGT∩(EBC⊕T)。算法性能评价指标误检率eFP、漏检率eFN和整体性能指标P可通过如下公式计算得到,有
(19)
(20)
(21)
式中,card(X)代表求集合X中元素的个数。
显然,误检率漏检eFP越小,表明检测结果具有更少的背景纹理;漏检率漏检eFN越小,说明检测结果保留了更多的主体轮廓。因此,当误检率和漏检率趋向于0时,P趋向于1,即P越大则表明算法检测效果更优,检测到的轮廓图更接近于基准轮廓图。
图7给出了部分图片的轮廓检测对比结果(见下页):第1行为测试对象,即自然场景图;第2行为图库提供的基准轮廓图;第3行为DG方法检测结果;第4行为CORF方法检测结果;第5行为SSC方法检测结果;第6行为本方法检测结果。从结果中可以看出,DG方法直接用数学公式模拟初级视皮层的轮廓响应,然后利用阈值化来保留一定强度的轮廓,可检测出了绝大多数的轮廓细节,但阈值处理并不能有效抑制背景纹理,导致结果中出现较多的伪轮廓;CORF方法考虑了LGN感受野的空间组合特性,能一定程度上减少背景纹理干扰,但由于缺乏视通路其他层次的编码与调节,容易因为过抑制和阈值处理不当而造成真实轮廓丢失;SSC方法由于考虑了轮廓的显著性与稀疏特性,同时引入了纹理抑制,在保留主体轮廓和抑制背景纹理上取得了不错的平衡结果,但在主体轮廓的周边区域对纹理边缘的抑制作用不够明显,形成较多的毛刺。综合而言,本方法保留了尽可能多的主体轮廓信息,同时去除了大部分的背景纹理边缘,在图像纯净度上要优于SSC方法。
按上述定量方法,计算图7中各算法最佳结果的定量指标,如表1所示。
表1 图7所示图像对应的参数设置及性能指标Tab.1 Parameter set and performance index ofdetect results in Fig.7
图7 RuG图库中的典型图片及其轮廓检测结果(第1行为用于测试的自然场景,具有轮廓与纹理相似的基本特征; 第2行为图库提供的基准轮廓;第3行为DG方法的检测结果;第4行为CORF方法的检测结果;第5行为SSC方法的检测结果;第6行为本方法的检测结果)。(a) Bear5轮廓细节丰富;(b) Rino目标与背景相似度高;(c) Elephant2远景丰富;(d) Elephant3背景单一;(e) Goat3总体亮度低Fig.7 Some typical images in RuG image library and their contour detect results (The first row is natural images for testing, whose contour is basically similar with texture; The second row is the ground truth; The third row is result of DG; The fourth row is result of CORF; The fifth row is result of SSC; The sixth row is result of proposed method). (a) Bear5 with rich contour details, (b) Rino with high similarity to background, (c) Elephant2 with rich details on deep view, (d) Elephant3 with single background, (e) Goat3 with low overall brightness
不难看出,表中计算结果基本与上文的定性分析结果相吻合。DG方法的漏检率很小,说明目标轮廓非常完整,但误检率eFP很大,整体效果P值不太理想;例如Rino的结果,漏检率仅为0.1,而误检率却达到了1.79,显然较小的漏检率难以弥补极高的误检率所带来的负面影响,导致整体效果不佳。CORF方法则显著减小了误检率,但漏检率控制得不太理想,造成主体轮廓丢失,整体效果P值的改善程度有限,从Rino、Elephant2等的结果看都表明了这一点。SSC方法与本方法在误检率和漏检率上取了不同程度的平衡,例如Elephant2的结果,本方法和SSC的漏检率分别是0.32与0.24,误检率分别是0.23与0.42,而整体效果P值保持一致,均为0.57,总体来说本方法误检率更小,具有较高的图像纯净度,且漏检率也处于一个较优水平。由表1中P值可以看出,本方法的整体检测效果优于对比方法。另外,计算全部40幅图片的检测结果与对应基准轮廓图的平均P指标,DG、CORF、SSC分别为0.36、0.40、0.42,而本方法为0.43,可见本方法在总体上具有更优秀的性能。
从以上实验结果不难看出,本方法具有较强的轮廓提取能力,特别是针对主体轮廓具备丰富细节,并且背景纹理是与主体轮廓相似性很强的自然场景图像,从图7的定性结果以及表1的整体性能指标都可以反推出这一结论。
相对于其他方法,CORF方法虽然与本方法的最终环节具有相似的视觉神经理论基础,即都考虑了LGN感受野的空间组合特性,但CORF方法理论支持的覆盖面有限,仅仅考虑了视觉通路中LGN感受野与初级视皮层感受野的相互关系,并且直接将待检测图像作为LGN感受野组合模型的输入,而忽视了前级视网膜以及LGN非经典感受野的视觉信息处理能力,一定程度上丧失了对早期视觉通路的完整性描述,故而在检测结果中表现为纹理抑制不足或者真实轮廓丢失;而本方法不仅考虑LGN感受野与初级视皮层感受野的层次关联特性,而且引入了视网膜对视觉信息的前级编码以及LGN非经典感受野的调节功能,是对早期视觉通路的完整描述,因此其检测结果可以比较完整地保留主体轮廓,同时抑制背景纹理。另外,SSC方法虽然与本方法有着相近的检测水平,但是SSC方法通过构建数学描述定义空间稀疏特性,用于区分纹理区域和主体轮廓区域,缺乏相应的生理学理论支撑,并且丧失了稀疏编码的神经元脉冲发放的生理基础,故在检测结果中表现为在主体轮廓的周边区域形成较多毛刺;而本方法根据LGN非经典感受野的调节特性,实现背景纹理抑制以及主体轮廓增强,具有更加充分的生物合理性,并且在检测结果中有效区分了背景纹理和主体轮廓,具有较高的图像纯净度。
本研究所做的工作及其创新性如下:
1)提出了一种基于视通路多感受野朝向性关联的视觉轮廓信息处理新方法。研究了视网膜、外侧膝状体以及初级视皮层的神经元感受野特性,分析了不同层次间感受野的空间尺度变换在视觉信息精细汇聚中的作用,论述了感受野的朝向性关联对方向选择形成机制的生理学解释,突出了生物视觉系统的信息处理能力的应用研究。
2)实现了一种模拟视觉通路信息加工机制的图像轮廓检测。根据神经元的放射状树突接收特性,构建检测空间差异性信息的视网膜神经元网络,对轮廓信息进行前级编码;建立LGN细胞的非经典感受野调节机制,结合感受野的层次变换特性,对前级编码结果进行全局调节;提出简单细胞的多感受野朝向性关联模型,模拟初级视皮层简单细胞的方向选择特性;融合多个方向上的轮廓响应,经过非极大值抑制和阈值处理,得到轮廓检测结果。
3)为利用视觉通路多个层次的感受野关联特性进行图像轮廓检测或者是后续的目标识别与分析提供了新思路。以具备轮廓纹理相似性、噪声干扰等特征的自然场景图像为例,突出视觉通路不同层次感受野及其层次间关联特性在轮廓感知过程中的任务分工,利用视网膜感受野的前级编码、外膝体感受野在层次变换中表现出的空间尺度特性、外膝体感受野与初级视皮层感受野的朝向关联特性,构建视通路多感受野朝向性关联的图像轮廓检测模型,不仅能够有效抑制背景纹理边缘,而且也能在一定程度上增强主体目标轮廓。
视通路中神经元感受野在视网膜、外侧膝状体以及初级视皮层这3个逐级层次上呈现出不同的结构组织特性与刺激响应机制,笔者通过探讨不同层次神经元感受野在轮廓提取过程中的具体任务分工,引入视网膜的轮廓信息脉冲编码、外膝体感受野的全局调节特性以及感受野的层次关联特性,摒弃传统上采用单感受野数学模型模拟视觉机制的做法,提出一种基于视通路多感受野朝向性关联的轮廓检测方法。与DG、CORF以及SSC方法进行比较分析,结果表明本方法检测到的自然图像轮廓更加完整且连续,同时抑制了大部分的背景纹理边缘,具有较高的图像纯净度,整体上反映了本方法所具备的生物智能性。本研究提出的基于视通路多感受野朝向性关联的轮廓检测方法,为图像轮廓检测技术提供了新的思路。后续研究可基于视通路更高皮层的视觉特性,探讨本方法提取的轮廓特征如何在高级视皮层的图像理解与视觉认知中发挥作用。
[1]PapariG,PetkovN.Edgeandlineorientedcontourdetection:Stateoftheart[J].ImageandVisionComputing, 2011, 29(2): 79-103.
[2]MartinDR,FowlkesCC,MalikJ.Learningtodetectnaturalimageboundariesusinglocalbrightness,color,andtexturecues[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2004, 26(5): 530-549.
[3]JohnC.Acomputationalapproachtoedgedetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1986, 8(6): 67-69.
[4]IttiL,KochC,NieburE.Amodelofsaliency-basedvisualattentionforrapidsceneanalysis[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 1998, 20(11): 1254-1259.
[5]SunJunxi,GuDongbing,ChenYazhu,etal.AmultiscaleedgedetectionalgorithmbasedonwaveletdomainvectorhiddenMarkovtreemodel[J].PatternRecognition, 2004, 37(7): 1315-1324.
[6]YangKaifu,LiChaoyi,LiYongjie.Multifeature-basedsurroundinhibitionimprovescontourdetectioninnaturalimages[J].IEEETransactionsonImageProcessing, 2014, 23(12): 5020-5032.
[7]ArbelaezP,MaireM,FowlkesC,etal.Contourdetectionandhierarchicalimagesegmentation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2011, 33(5): 898-916.
[8]GrigorescuC,PetkovN,WestenbergM.Contourdetectionbasedonnonclassicalreceptivefieldinhibition[J].IEEETransactionsonImageProcessing,2003, 12(7): 729-739.
[9] 桑农,唐奇伶,张天序. 基于初级视皮层抑制的轮廓检测方法 [J]. 红外与毫米波学报, 2007, 26(1): 47-51.
[10]DuXiaofeng,LiCuihua,LiJing.Contourdetectionbasedoncompoundreceptivefield[J].JournalofElectricsandInformationTechnology, 2009, 31(7): 1630-1634.
[11]YangKaifu,GaoShaobing,GuoCefeng,etal.Boundarydetectionusingdouble-opponencyandspatialsparsenessconstraint[J].IEEETransactionsonImageProcessing, 2015, 24(8): 2565-2578.
[12]MichaelG,RichardB,GeorgeR.CognitiveNeurosciencetheBiologyoftheMind[M]. 3rded.Beijing:ChinaLightIndustryPress, 2010.
[13]ChouhanA.Ananalyticalstudyofleakyintegrate-and-fireneuronmodelusingMATLABsimulation[J].InternationalJournalofEngineeringResearch&Technology, 2013, 2(4): 2242-2245.
[14]SowmyaV,RowlandT.Orientationselectivityinrabbitretinalganglioncellsismediatedbypresynapticinhibition[J].JournalofNeuroscience, 2010, 30(46): 664-676.
[15] 罗四维. 视觉感知系统信息处理理论 [M]. 北京: 电子工业出版社, 2006.
[16]LiChaoyi.Integrationfieldsbeyondtheclassicalreceptivefield:organizationandfunctionalproperties[J].Physiology, 1996, 11(4): 181-186.
[17]XuXiangmin,BondsA,CasagrandeV.Modelingreceptive-fieldstructureofkoniocellular,magnocellular,andparvocellularLGNcellsintheowlmonkey(Aotustrivigatus) [J].VisualNeuroscience, 2002, 19(6): 703-711.
[18]YangYong,TongSong,HuangShuying,etal.Log-GaborenergybasedmultimodalmedicalimagefusioninNSCTdomain[J].Computational&Mat-hematicalMethodsinMedicine, 2014, 2014(1): 481-493.
[19] 杨开富. 基于多视觉特征的非经典感受野模型及应用研究 [D]. 成都:电子科技大学, 2012.
[20]AzzopardiG,PetkovN.ACORFcomputationalmodelofasimplecellthatreliesonLGNinputoutperformstheGaborfunctionmodel[J].BiologicalCybernetics, 2012, 106(3): 177-189.
A Contour Detection Method Based on Correlation of Orientationfor Multiple Receptive Fields in Visual Pathway
Li Kangqun Fan Yingle*Gan Haitao Wu Wei
(LaboratoryofPatternRecognitionandImageProcessing,HangzhouDianZiUniversity,Hangzhou310018)
Based on characteristics of receptive fields on different layers of human visual path and their correlation between every adjacent layer, a new method of image contour detection was proposed in this paper. Using the receptive feature of neurons with radial dendrite, a retina neuron network that has the capability to detect spatial difference was constructed for pre-coding of contour information. Taking the variety between adjacent layers into account, the adjustment mechanism for non-classical receptive field of LGN neurons was built to make a global adjustment on the pre-coding result. Next,a model of simple cell on primary visual cortex named orientation correlation of multiple receptive fields was proposed to realize the orientation selection of simple cells. At last,the fused contour response of all orientations was processed with non-maximum suppression and hysteresis thresholding to acquire the contour detecting result. In this paper, 40 images in the RuG library were taken for processing, and the mean value of measurePbetween detecting result and ground truth was 0.43, indicating that method in this paper could highlight principal contour and enhance the discrimination between contour and textured region. In this study, the correlate characteristics of multiple receptive fields were utilized to code and detect image contour, providing a new idea for the image processing and visual cognition of high-level visual cortex.
contour detection; multiple receptive fields; pre-coding; global adjustment; orientative correlation
10.3969/j.issn.0258-8021. 2017. 01.001
2016-06-08, 录用日期:2016-07-11
国家自然科学基金(61501154)
R318
A
0258-8021(2017) 01-0001-11
*通信作者(Corresponding author), E-mail: fan@hdu.edu.cn