融合形状和运动特征的动作识别计算模型

2013-12-22 08:05刘海华郝丽芳谌先敢
关键词:形状通路性能

刘海华,郝丽芳,谌先敢

(中南民族大学 生物医学工程学院,武汉430074)

人体动作识别在智能监控、高级人机交互和虚拟现实等方面的广泛应用,使得基于视觉的动作识别成为当前计算机视觉领域的研究热点.由于人的视觉系统是一个复杂的系统,深入了解其处理感知信息的方式,以及模拟该方式实现准确而快速的动作分类与识别,是计算机视觉领域研究者共同关注的研究课题.大脑视觉皮层信息加工机制的研究可以追溯到20世纪中期,Wiese和Hubei于1959年根据对猫的视觉皮层研究,提出了一种基于视觉皮层的层次结构模型,该模型为模拟生物视制的对象识别和分类奠定了理论基础[1].在此之后,对视觉皮层信息处理机制的研究取得了很多成果.Poggio提出了基于腹侧通路的层次模型,即称之为HMAX模型并将该模型进行了扩展,用来进行物体识别[2].JHuang根据腹侧通路与背侧通路在组织结构上的相似性,模拟视觉系统的背侧通路,提出了类似HMAX模型的动作识别层次模型[3].该模型的输入是一组包含人体动作的灰度视频序列,输出是一组能表达视频中人体动作的特征向量.该模型通过滤波、局部最大化和全局最大化等操作获取动作特征,取得了较好的识别效果.Schindler 提出了结合采样的光流信息和形状轮廓信息进行动作识别的方法[4].该方法为模拟运动和形状两条通路进行人体动作识别提供了先例验证,但光流的计算所需要的时间较长,识别的时效性不高.

Giese和Poggio对腹侧通路和背侧通路的信息处理在动作识别中的作用进行了论证[5],表明两个通路在动作识别中都能发挥作用,但没有融合两个通路的信息进行动作识别.为此,本文提出了一种融合形状特征和运动特征的动作识别方法,该方法基于HMAX模型的结构,模拟腹侧通路和背侧通路,提取形状特征和运动特征,并采用线性的方式融合两种特征,实现人体动作识别.在该方法中通过限定特征小块的选择区域,提高形状特征和运动特征的有效性,提高动作识别效率和性能[6].

1 特征计算模型结构

在视觉系统双通道理论中,背侧视觉通路主要处理运动信息,而腹侧视觉通路主要处理形状信息,且视觉通路对信息的处理都是从低级到高级分层进行的[7,8].由于视觉皮层的腹侧和背侧通路在组织结构上具有相似性,根据HMAX模型的结构,本文建议的动作特征计算层次模型如图1所示.

图1 特征计算模型结构

该模型分别有运动信息处理通道和形状信息处理通道两条通道,分别进行运动特征和形状特征计算,从而提取人体动作和形状特征.两条特征提取通道主要由交替的简单单元(S)和复杂单元(C)组成,构造成4层的层次结构,如S1、C1和S2、C2单元.其中S单元的处理是为了增加模型的选择性,C单元则主要是通过最大化操作来增加特征的空间不变性[3].在此基础上,将两个通道计算的特征进行融合,从而获取人体动作的特征.

1.1 运动特征提取

由于视觉皮层感知信息加工的背侧通路始于V1,通过V2进入背内侧区和中颞区(MT,亦称V5),然后抵达顶下小叶[9].因此,运动特征提取通道主要模拟V1和MT区域神经元的属性处理视频中丰富的运动信息,从而提取动作特征.其中S1、C1单元主要模拟V1中的简单细胞和复杂细胞对运动信息的加工,而S2、C2模拟MT中的神经元获取运动特征.

1.1.1 S1单元

计算模型的第一阶段是模拟初级视觉皮层中简单细胞对外界刺激的响应计算,因此,模拟背侧通路中的S1单元是计算V1中简单细胞对运动刺激的响应,从而获取运动信息.由于时空滤波器可模拟简单细胞的属性,因此,简单细胞对运动刺激的响应可通过时空滤波器对视频序列的操作得到,即:

S1v,θ(x,y,t)=

(1)

其中,I(x,y,t)为输入的视频序列,而Fv,θ(x,y,t)为时空滤波器(其具体定义在文献[10]中有详细表述);v,θ分别表示滤波器的速度和方向;[▯]+表示半路修正操作.从式(1)可以看出,输入视频图像I(x,y,t)经过滤波器Fv,θ(x,y,t)可获取S1单元的响应,即获取对输入视频感知的运动信息.由于时空滤波器具有多方向多速度属性,每组v,θ对应于S1单元的1个实体.

1.1.2 C1单元

C1单元主要是模拟V1中的复杂细胞,通过对每个 S1单元所获运动信息进行局部最大值的汇聚操作,从而获取对局部空间形变具有容忍能力的特征.最大化操作的具体步骤是:利用n×n的滑动窗口,以间隔为n/2个像素对S1单元获取的运动信息图像进行采样,如图2所示.对每个滑动窗口采样所获取的运动信息子图像根据其强度值进行最大化处理,从而获得该运动信息子图像对应的C1运动特征,其计算为如下:

(2)

因此,运动信息图像C1v,θ(x,y,t)经过式(2)处理后获取大小为原图像2/n倍的特征图.图2给出了KTH动作视频数据库中Boxing动作视频序列经S1,C1单元的响应,其中n=8,时空滤波器选择4个方向,2个速度.

图2 视频图像所对应的S1,C1单元响应

1.1.3 特征模板的提取

C1单元获取了运动特征图是处理的中间特征,在训练阶段,在C1特征图中提取特征模板(小块),为系统下一个阶段的S2特征计算提供运动原型.在JHuang模型中,采取随机采样的方法获取特征小块,即随机选取某视频的某帧,在该帧的C1区域随机选取特征小块.该方法具有较强的随意性,当选取的小块含有较强的运动信息时,则有利于表达动作;相反,当所选小块在背景上时,则不利于动作特征的表达.针对该问题,本文提出限定特征小块选取区域的方法选取特征小块.

在选取特征小块时,选择运动目标轮廓位置的小块更能有效地表达动作.由于这些位置的运动能量并不是整个响应中最大的,而是次最大响应的,因此,对不同方向和速度的C1在响应求平均,选取C1响应为最大响应93%~94%的区域,再从该区域中随机选取特征小块,具体的实现方法如图3所示.

图3 特征小块选取示意图

1.1.4 S2,C2单元

S2、C2单元分别通过模板匹配和最大化操作,逐步增加特征的选择性和不变性.模板匹配的目的是获取对动作原型较敏感的特征,其操作是由S2单元完成,具体的步骤是将C1响应和所有的特征小块进行模板匹配操作,为了获取稀疏特征,利用归一化点积来计算,其计算公式由下列(3)式完成:

(3)

其中,C1(x,y,t)为C1单元所获特征图像,Pp(x′,y′)为所选取的第p个特征小块的特征矢量.如果特征小块大小为n×n,则矢量的维数为NvNθn2.从式(3)可见将视频图像的C1单元响应C1v,θ和Pp进行匹配得到动作敏感特征S2p(x,y,t).

为了增强特征在尺度上和位移上的不变性,须进行全局最大化操作获取有效的特征,即将S2单元在所有方向、尺度和位置上响应取最大值,这样能得到代表C1响应和运动原型之间匹配程度的特征向量,即:

C2p(t)=maxx,yS2p(x,y,t),

(4)

对于P个运动原型模板,可获取P维的特征向量.该向量所包含的元素数值,反应了某帧图像的C1响应和某特征小块的最佳匹配程度.通过S1,C1,S2,C2等一系列操作,最终获得模拟背侧通路的运动特征向量C2p.

1.2 形状特征提取

形状特征提取通道是模拟视觉皮层的腹侧通路完成.视觉皮层的腹部通路也起始于视觉皮层的V1区,依次通过V2,V4,进入下颞叶(IT).根据生理运动识别实验可以发现,除了背侧通路信息加工所获取的运动特征在运动模式识别中发挥重要作用,腹侧通路信息加工所获取的形状特征对运动模式识别也产生影响.因此,在特征计算模型中增加了腹侧通路的信息处理,从而获取运动人体的形状特征,从而提高动作识别的准确性.由图1可知形状特征的提取也由4个单元完成,即S1、C1、S2、C2.S1单元模拟简单细胞对静态刺激的响应,该单元可使用不同方向和尺度的2D Gabor滤波器实现[11].因此,视频序列图像作用于简单细胞的响应可由不同方向和尺度的Gabor滤波器组对序列图像的操作完成,即:

(5)

其中,I(x,y)为某时刻序列图像,Gσ,θ(x,y)为二维Gabor空间滤波器,*为卷积符号.表达为:

(6)

(a)Sf1单元响应 (b)Cf1单元响应

1.3 分类

为了充分利用时空特征进行动作识别,需要对时空特征进行特征融合操作,采用线性加权的方法特进行征融合,即将上述提取的运动特征和形状特征按式(7)构造新的特征向量:

(7)

利用融合运动特征和形状特征所构建的特征向量来表达动作.为了对动作进行识别,需要采用合适的分类器.由于支持向量机(SVM)在模式识别分类中有着广泛的应用,具有较好的鲁棒性,本文选用该分类方法.在测试过程中,对测试视频每帧获得其预测标签,通过对这些预测标签进行投票,测试视频获得能表示其动作类别的标签,从而实现视频序列中动作的识别.

2 实验结果及其分析

2.1 实验数据库和参数设置

为了验证建议方法的有效性,选取公共的KTH标准视频数据库作为实验数据库.KTH数据库含有boxing、hand waving、hand clapping、running、jogging、walking等6类动作,且这些动作由25个人分别在四个不同的环境下完成,从而组成599个视频.S1环境是户外环境,S2环境是伴随有尺度变化的户外环境,S3环境是户外环境,但目标着装不同,S4环境是伴随有光线变化的室内环境.

在测试过程中,采取5倍交叉验证:将25个集合随机均等划分成五组,其中每组分别轮流作为测试集合,剩下的其他组作为训练集,最终的识别结果取5次结果的平均值.

另外,由于信息检测与特征提取过程中各种参数设置将直接影响测试性能和效率,为了测试的统一性,对所涉及的参数进行设置,其中运动通道中时空滤波器的参数设置分别为:速度设置为3和6,方向设置为0°、90°、180°和270°;而在形状通道的2DGabor滤波器的方向参数设置为0°、45°、90°、135°,尺度设置为.在特征小块提取阶段,特征小块的尺寸大小设置分别为,两通道特征小块的提取数目均为70.

2.2 实验结果

2.2.1 不同加权系数的识别性能

为了评估形状特征和运动特征对动作识别性能的影响,利用式(7)对形状特征和运动特征在识别中所占比例不同时的性能进行分析.图5给出了不同加权因子与识别性能的曲线.从图5显示的曲线可知,当形状特征达到合适的比例时,所获得的识别性能较好;而当形状特征的比重过大,运动特征相对减少,则会降低动作识别效果.这表明动作识别的过程中,运动特征信息占主导作用,而加入适当比例的形状特征信息有助于更加准确的进行识别.根据测试数据表明当加权系数λ为0.3时,识别效果达到最佳.

图5 不同加权系数对识别性能的影响

2.2.2 识别性能比较

为了验证建议模型的有效性,将其与JHuang模型、Schindler模型进行比较[3,4].为了保证性能比较的公平性,所选择的视频图像帧数与JHuang模型选取帧数相同,即50帧,且时空滤波器参数设置一致时.表1给出了建议模型与JHuang模型的动作识别性能.从表1显示的数据可以发现,建议模型对KTH数据库中4个条件下的动作识别性能均高于JHuang的模型的性能,这同样表明了加入适当比例的形状特征能更有效地进行动作识别.由表1可以看出本文建议的模型的性能略高于Schindler模型的识别性能.Schindler模型在选取小块的过程中同JHuang模型方法相同,仍采用随机选取的方法,其小块数目是500.在此基础上,运用线性PCA进行筛选,获取有效的特征提取.而本文建议模型是根据时空滤波器提取运动信息,限定特征小块的选取区域,提高特征小块选取的有效性,其在限定区域的特征小块随机选取的特征小块数量为70个,从而减少了计算量,提高了识别的效率.

表1 建议模型与其他模型识别性能对比

2.2.3 帧数对识别性能的影响

在进行动作识别时,大多数的动作识别系统使用整个视频,或较多的视频序列图像提取特征,这不仅增加了特征计算所需要的时间,而且不能满足实际应用的需求.为了提高动作识别效率,满足应用要求需要使用较少帧的视频图像进行快速识别.为此,在本文建议的模型中采用连续7帧图像作为动作识别的输入.表2给出了本文建议的模型与Schindler模型[12]的动作识别性能结果.从表2的实验结果表明,当融合形状特征和运动特征时,运用较少帧数图像的特征提取可达到较好的识别效果.虽然本文建议模型的识别性能在KTH数据库中S3环境下的识别性能比Schindler模型的识别性能低,但从整体的平均识别性能上看,两个模型的识别性能是相当的.由于本文建议模型特征小块选取的数量比Schindler模型的数量少,计算量较少,更适合实际应用.

表2 帧数为7时建议模型与Schindler模型识别行为对比

3 结语

在动作识别中,特征提取是一个关键的步骤.为此,本文提出了融合形状特征和动作特征的方法进行动作识别,并且采用模拟视觉皮层信息处理的方法构建了动作时空特征提取计算模型.该方法通过模拟视觉皮层在空间上相对独立,在组织结构上类似的腹侧通路和背侧通路进行运动人体的形状特征和运动特征提取;同时根据形状特征和运动特征对动作识别的影响,采用线性的方法融合时空特征,以此作为表达动作的特征向量,并采用支持向量机进行动作分类,获得了较好的动作识别效果.在特征计算过程中,为了降低计算负载,采用运动信息较显著的区域中选取特征小块,从而增强了所选特征小块的有效性.

虽然该模型能较好地模拟视觉皮层的信息处理机制,有效提高视频动作的识别性能.但是,如何更有效利用时、空特征之间的关系,在更复杂的场景情况下准确地识别动作,有待进一步的研究.人类视觉系统是一个功能强大的复杂系统,如何搭建更完善的模型去模拟整个视觉系统,实现动作更准确地识别有待进一步深入探索.

[1]Hubel D H,Wiesel T N.Receptive fields of single neurones in the cat's striate cortex[J].The Journal of physiology,1959,148(3): 574-591.

[2]Riesenhuber M,Poggio T.Hierarchical models of object recognition in cortex[J].Nature neuroscience,1999,2(11): 1019-1025.

[3]Jhuang H,Serre T,Wolf L,et al.A biologically inspired system for action recognition [C]// IEEE .Computer Vision,2007.ICCV2007.IEEE 11th International Conference on .Rio de Janeiro:IEEE,2007: 1-8.

[4]Schindler K,Van Gool L.Combining densely sampled form and motion for human action recognition[M].Berlin : Pattern Recognition,2008: 122-131.

[5]Giese M A,Poggio T.Neural mechanisms for the recognition of biological movements[J].Nature Reviews Neuroscience,2003,4(3): 179-192.

[6]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1998,20(11): 1254-1259.

[7]Niebles J C,Fei-Fei L.A hierarchical model of shape and appearance for human action classification[C]// IEEE .Computer Vision and Pattern Recognition,2007.CVPR2007.IEEE Conference on.Minneapolis: IEEE,2007: 1-8.

[8]Riesenhuber M,Poggio T.Hierarchical models of object recognition in cortex[J].Nature neuroscience,1999,2(11): 1019-1025.

[9]汤毓婧.基于人脑视觉感知机理的分类和识别[D].南京:南京理工大学,2009.

[10]Simoncelli E P,Heeger D J.A model of neuronal responses in visual area MT[J].Vision Research,1998,38(5): 743-761.

[11]Jones J P,Palmer L A.An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex[J].Journal of Neurophysiology,1987,58(6): 1233-1258.

[12]Schindler K,Van Gool L.Action snippets: How many frames does human action recognition require?[C]// IEEE.Computer Vision and Pattern Recognition,2008.CVPR 2008.IEEE Conference on.Anchorage: IEEE,2008: 1-8.

猜你喜欢
形状通路性能
氧化槐定碱体内体外通过AKT/mTOR通路调控自噬抑制HBV诱发肝纤维化
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
保暖袜透湿性能测定的不确定度分析
提供将近80 Gbps的带宽性能 DisplayPort 2.0正式发布
苦参碱抑制RPMI8226细胞增殖及对Notch通路的影响
火眼金睛
Al-Se双元置换的基于LGPS的thio-LISICON的制备与性能表征
分一半
通路快建林翰:对重模式应有再认识
RDX/POLY(BAMO-AMMO)基发射药的热分解与燃烧性能