基于目标检测及高密度轨迹的动作识别

2016-09-21 03:42王新宇

复旦学报（自然科学版） 2016年4期

关键词：高密度滤波器轨迹

王新宇，谌　达，冯　辉，杨　涛，胡　波, 2

(1. 复旦大学电子工程系，上海 200433； 2. 复旦大学电磁波信息科学教育部重点实验室，上海 200433)

基于目标检测及高密度轨迹的动作识别

王新宇1，谌达1，冯辉1，杨涛1，胡波1, 2

(1. 复旦大学电子工程系，上海 200433； 2. 复旦大学电磁波信息科学教育部重点实验室，上海 200433)

为了实现准确的动作识别效果，我们通常需要提取能够充分代表运动特征的信息。近年来，基于高密度轨迹的动作识别方法因为能够提供丰富的时空信息而受到研究者们的广泛关注。但高密度轨迹类的动作识别算法通常都要面临背景冗余信息干扰的问题，为了解决这一问题，本文在高密度轨迹的动作识别方法基础上引入了目标检测算法，通过可变形块模型方法检测运动主体位置后计算其周围的高密度轨迹，有效地排除了背景冗余信息的干扰。而目标检测算法通常要面临丢帧问题，为了应对这一情况，本文采用了词袋模型和支持向量机进行动作特征表述和分类，词袋模型根据大量数据词频构建特征描述符的工作原理，使得目标检测偶有丢帧的情况并不影响动作识别的最终效果，结合高密度轨迹算法后有效地提高了传统高密度轨迹算法的效率，也获得了更为准确的识别效果。本文算法在KTH, UCF YouTube和UCF Sports数据集上较当前算法都取得了更高的动作识别准确率，尤其在复杂背景数据集UCF YouTube和UCF Sports上识别准确率分别可达89.2%和90.2%。

目标检测；高密度轨迹；可变形块模型；动作识别

动作识别因广泛应用于视频监控、视频检索、人机交互、虚拟现实、运动分析、智能家居等领域，一直以来都是计算机视觉领域的研究热点。但由于人体动作本身具有较大自由度，同时存在类内和类间差异，也因运动主体速度和频率各异[1]，同时动作识别易受到遮挡和自遮挡、视角和尺度变化、光照变化、复杂背景、相机移动等多重因素影响[2]，致使该领域研究仍然颇具挑战性。

我们研究的动作通常指人在完成某个特定任务时的运动序列，而从计算机视觉角度来看，动作识别就是将输入视频序列赋予正确标签、归入正确分类集的过程[3]。根据文献[1,3-9]对于动作识别研究领域的梳理和分析，依照特征描述方法的特点，动作识别算法主要可以分为以下3类：全局特征方法、局部特征方法和混合特征方法。

全局特征方法一般是指以整帧图像或者整个视频为单位提取特征进行描述的方法。这类特征通常通过人体边界或轮廓检测得到运动主体位置，然后基于全局光流、全局梯度直方图等方式描述特征。整体来讲，基于全局特征的方法通常都包含了丰富的时空信息，但这类方法也都是基于前景和背景有良好分割或者目标能够被稳定跟踪的前提假设，同样也容易受到遮挡或尺度变换的影响。由于对于遮挡具有更好的鲁棒性，基于局部特征的方法也颇受研究者关注。其中最经典的实现框架就是通过时空兴趣点检测获取局部特征，然后构造词袋(Bag of Words, BoW)模型进行动作分类和识别，兴趣点检测通常采用Harris角点、SIFT算子等方法。整体而言，基于局部特征的方法通常能够解决遮挡问题，但这类方法也容易忽略运动过程中的时间信息和结构关系，关键信息的缺失使得基于局部特征的动作识别方法仍然具有局限性。

由于单独采用全局特征或者局部特征描述运动都具有局限性，近年来越来越多的研究人员开始采用基于混合特征的方法进行动作识别。混合特征方法没有一个严格的定义，通常是在全局特征的框架下构建局部特征描述符，或者联合全局和局部特征构建表述二者之间关联性的特征描述符，例如文献[10]将高密度轨迹聚类成为子运动块，然后用图模型刻画运动块之间的关系。高密度轨迹(Dense Trajectory)是混合特征方法的一个典型代表，最初由文献[11]在2011年提出，主要灵感来自于图像分类领域中的高密度采样(dense sampling)。但在文献[11]提出的方法中，相机移动和复杂背景因素带来的影响可能会累积误差甚至导致识别失败。因此文献[12]提出从高密度轨迹中选取部分轨迹，再重构成新的有序轨迹(ordered trajectory)的方法来解决上述问题。文献[13]在无监督条件下识别局部运动，采用多核方法提升动作识别效果。文献[14]基于高密度轨迹提出了一种新的时空不变特征池的方法，并证明了该方法相比于文献[12]提出的有序轨迹方法和文献[13]提出的局部运动方法取得了更好效果。事实上，查阅近几年发表的动作识别领域文章就不难看出，以高密度轨迹为代表的混合特征方法，正在逐渐取代单独采用全局特征或局部特征的方法，成为动作识别研究领域的新趋势。

本文提出了一种基于运动目标检测和高密度轨迹的动作识别方法。这种方法首先通过运动目标检测算法获取每一帧图像中运动主体位置信息，然后针对运动主体计算高密度轨迹，并在轨迹周围采用方向梯度直方图(Histogram of Oriented Gradient, HOG)刻画形状信息，利用光流直方图(Histogram of Optical Flow, HOF)和运动边界直方图(Motion Boundary Histogram, MBH)表征运动信息，用轨迹形状描述运动的时空关系和结构信息。之后采用词袋模型构建完整的特征描述符，利用支持向量机(Support Vector Machines, SVM)进行动作识别。

1　系统框架

提到动作识别，从人类大脑识别动作的角度出发，描述运动最直观的方法就是直接利用运动轨迹表述运动。早在1973年就有研究[15]表明，人类大脑不需要通过观察完整的人体运动，只观察人体重要部位标记的光点移动轨迹，就可以判断和识别动作。受到这一想法的启发，研究者们对基于二维稀疏轨迹[16]表述的动作识别进行了充分的研究。但基于二维稀疏轨迹的动作识别方法都无法很好地解决遮挡和人体自遮挡带来的不能获得连续稳定轨迹的问题，直到2011年文献[11]提出高密度轨迹方法才从根本上解决了稀疏轨迹的固有问题。

本文正是基于高密度轨迹的方法，从最直观的轨迹角度出发进行动作识别。而高密度轨迹方法普遍面临冗余背景信息干扰的问题，为了解决这一问题，本文采用基于可变形块模型(Deformable Part-based Model， DPM)[17]在输入视频序列的每一帧中进行人体目标检测，获得人体边界框(bounding box)，在每一帧人体边界框范围内计算高密度轨迹。

有研究[18]表明，人的大脑视觉皮层存在两个分别用于感知运动与形状的区域，两个区域神经元的共同响应传送到大脑进行协同处理，完成人脑动作识别过程。因此在计算得到人体边界框内高密度轨迹之后，本文对每一个动作序列同时提取表示运动信息的运动描述符和代表形状信息的形状描述符。本文形状描述符采用方向梯度直方图，运动描述符利用光流直方图和运动边界直方图，与此同时还用轨迹形状刻画运动的时空关系和结构信息。

在高密度轨迹基础上引入目标检测算法时同样也要面临目标检测丢帧问题，为了解决这一问题，本文在得到运动描述符和形状描述符后采用词袋模型对运动特征进行总体表示。对于所有训练视频提取的特征描述符采用k-means聚类构建一个400维的码本，再将每一个视频的特征映射到码本上得到最终的特征直方图。词袋模型词频映射的工作原理自然地避免了目标检测偶有丢帧带来的问题，使其完全不影响动作识别的效果。最后利用支持向量机进行动作模型的学习和分类。本文采用的动作识别系统框架如图1(见第444页)所示。

2　动作特征表示与分类

2.1运动目标检测

本文采用文献[17]提出的基于多尺度可变形块混合模型的方法实现人体边界框检测，这一模型适合对于具有极高自由度的人体目标进行检测。该方法主要基于图形结构(pictorial structures)[19]框架，将一个检测目标表示为可变形块的组合，每个块表示目标的一个局部形状特征。可变形块模型在Dalal-Triggs检测子[20]基础上引入了星状块模型结构，该模型由一个类似Dalal-Triggs滤波器的根滤波器加上一系列块滤波器组成。

Dalal-Triggs检测子对HOG特征进行滤波区分物体类别，它采用滑窗方法将滤波器应用于一幅图的所有位置和尺度，可以看作是一个输入为一幅图、图上位置和对应尺度的分类器。因为该模型是一个简单滤波器，所以我们可以计算得到一个得分w·φ(x)，其中w是滤波器，x是在特定位置和尺度下的图像，φ(x)是特征向量。而星状块模型的得分是在给定位置和尺度下，根滤波器得分加上块滤波器相关分数之和，再减去衡量块实际位置与相对于根理想位置偏差的变形代价。

训练只有部分标记数据的模型，采用隐支持向量机(Latent SVM, LSVM)方法。在隐支持向量机中，每一个样本x评分如下：

(1)

其中:w是模型参数向量;z是隐变量;φ(x,z)是特征向量。在星状块模型中，w是根滤波器、块滤波器和变形代价权重的级联，z是目标结构，φ(x,z)是特征金字塔和块变形特征子窗的级联。在混合星状块模型中，某一特定位置和尺度下，混合模型的得分等于其子模型的最高分。

模型中，每个滤波器都可以看作是一个由d维权重向量数组定义的矩形模板，滤波器R在特征图G上(x,y)位置的响应或得分由滤波器与左上角在(x,y)位置的特征图的子窗的点乘定义：

∑x′,y′R[x′,y′]·G[x+x′,y+y′].

(2)

采用特征金字塔方法实现一幅图不同位置和尺度的计算，通过重复平滑和子采样计算特征金字塔，然后在图金字塔每个尺度上计算特征图。

星状模型中根滤波器采用可以覆盖整个目标的滤波器，块滤波器采用2倍根滤波器的分辨率对目标细节进行采样。更精细分辨率的块滤波器对于识别准确率有重要意义，例如想要识别一个人体目标时，根滤波器主要目的是找到人的大体位置和轮廓，而块滤波器可以更加精细地描述人的四肢、躯干、头等局部特征。一个由n个块组成的模型可以由一个n+2维向量(R0,P1,P2,…,Pn,b)表示，其中R0是根滤波器，Pi是第i个块模型，b是一个偏置项。每一个块模型可以表示为(Ri,li,di)，其中Ri是第i个块滤波器，li是一个表示第i块与根相对位置的2维向量，di是一个表示块相对于根每个可能位置对应的二次代价函数系数的4维向量。一个假设的得分表示为每个滤波器在对应位置得分，减去一个取决于每个块与根之间相对位置的可变形代价，再加上一个偏置项：

(3)

其中

(dxi,dyi)=(xi,yi)-(2(x0,y0)+li),

(4)

φd(dx,dy)=(dx,dy,dx2,dy2).

(5)

(4)式表示第i个块相对于根的位置偏差，(5)式是变形特征，M是特征金字塔。

z的得分可以表示为w·ψ(M,z)，即模型参数w向量与ψ(M,z)向量的点乘，其中：

w=(R′0,R′1,…,R′n;d1,d2,…,dn;b),

(6)

ψ(M,z)=(φ(M,p0),φ(M,p1),…,φ(M,pn);-φd(dx1,dy1),

-φd(dx2,dy2),…,-φd(dxn,dyn);1).

(7)

这体现了可变形块模型与线性分类器之间的关联，利用这种关系可以在LSVM框架下学习模型参数。

一个由m个元素组成的混合模型可以表示为M=(M1,M2,…,Mm)，其中Mi表示模型中第i个元素。混合模型的一个目标假设对应混合模型中某个元素i和Mi中每个滤波器位置，即z=(i,p0,p1,…,pni)，其中ni是Mi中块的个数。这个z的得分就是第i个模型元素z′=(p0,p1,…,pni)的得分。当模型是只有1个元素时，混合模型中z的得分就可以表示为模型参数w和向量ψ(M,z)的点乘；而当混合模型中元素多于1个时，向量w是每个模型元素参数向量的级联，向量ψ(M,z)是由稀疏的、非零的元素组成，这些元素由与w中wi的间隔相同的ψ(M,z′)定义：

w=(w1,w2,…,wm),

(8)

ψ(M,z)=(0,0,…,0,ψ(M,z′),0,0,…,0).

(9)

在这个结构中，w·ψ(M,z)=wi·ψ(M,z′)。

用混合模型进行目标检测时采用如上匹配算法，找到每个模型元素独立产生最高得分的目标假设的根位置。可变形块模型进行人体目标检测效果如图2所示：其中(a)列是原始图像；(b)列两幅图中最大的红色框是混合模型根滤波器的效果示意，找到运动主体大致位置，而目标范围内一系列蓝色小框是不同块滤波器的效果示意；(c)列是未加入运动目标检测前高密度轨迹效果，由于相机移动、复杂背景等原因整个画面都有轨迹覆盖；(d)列是本文算法高密度轨迹效果，即加入了可变形块模型运动目标检测过程之后，不难看出轨迹主要覆盖运动目标主体，有效消除了相机移动等因素引入的大面积背景冗余轨迹。

2.2动作特征表示

当输入视频每一帧都经过运动目标检测获得人体边界框后，在此目标区域内采集人体运动的高密度轨迹。采集高密度轨迹时，我们采用文献[11]提出的算法，对于每个特征点都在其周围W×W范围内进行采样，之后在不同尺度下跟踪这些采样点以获得轨迹(通常W=5时就可以获得密度足够大的轨迹)。第t帧的点Pt=(xt,yt)在高密度光流场ω=(ut,vt)中通过中值滤波得到第t+1帧的位置：

(10)

通常在图像同质化严重的区域不可能得到跟踪轨迹，这种情况下我们计算得到采样点自相关矩阵最小的特征值，当它小于某一阈值的时候就舍弃该采样点。与此同时，轨迹有很大位移突变的情况有违牛顿运动物理定律，也舍弃这些异样点。轨迹的形状可以表示局部运动特征，用位移序列S=(ΔPt,ΔPt+1,…,ΔPt+L-1)表示一条长度为L的轨迹，其中ΔPt=(Pt+1-Pt)=(xt+1-xt,yt+1-yt)，得到的结果再进行归一化处理，就可以得到形状描述符当中的轨迹形状描述符。

为了得到完整的形状描述符和运动描述符，我们在轨迹周围构建一个N×N×L的时空体(图3)。在此基础上再将此时空体切成一些nσ×nσ×nτ的子时空体(通常取N=32,nσ=2 nτ=3)。在每个子时空体中，沿着轨迹计算方向梯度直方图HOG作为形状描述符，计算光流直方图HOF作为运动描述符。其中光流计算的是绝对运动，因此必然包含了相机运动，文献[21]提出的MBH特征在光流的水平和垂直两个方向分别求导，可以刻画像素之间的相对运动，消除相机运动等背景运动带来的影响，因此我们在运动描述符当中加入MBH特征。

总结来说，在高密度轨迹周围的子时空体中，采集HOG和轨迹形状作为形状描述符，利用HOF和MBH作为运动描述符。联合运动描述符和形状描述符共同刻画运动特征。

2.3动作分类

在计算得到运动描述符和形状描述符后，本文采用词袋模型和支持向量机进行动作特征的理解和分类。词袋模型非常适合对高密度轨迹采样得到的高维特征描述符进行表述和分类，同时由于词袋模型的特性，对于目标检测算法可能出现的个别帧检测失败的情况也有很好的鲁棒性，不会因此影响识别的准确率。首先，对于每个特征描述符分别单独构建一个码本。综合考量算法效率和准确性，通过实验我们发现，本文使用的特征描述符在码本中单词(visual words)的数量达到400时就可以很好地进行动作分类，因此我们对训练集中所有视频的特征描述符进行k-means聚类(k=400)得到向量维度为400的码本。得到码本后对每个视频的特征描述符进行映射，将特征描述符中每一个元素利用欧氏距离映射到码本中最近的单词上，因此每个视频都可以用一个400维的向量进行重新表示，向量的每一个元素表示了特征描述符的词频。新生成的400维词频直方图就是视频描述符，而对于视频描述符的分类，本文采用了直方图正交核(histogram intersection kernel)的支持向量机[22]方法。

3　结果与分析

3.1动作数据集

为了便于与文献[11]的识别结果进行对比，本文采用了在动作识别领域广为应用的KTH、UCF YouTube和UCF Sports动作数据集进行算法效果的检验。

KTH数据集[23]包含6种不同的人体动作：行走(walking)、慢跑(jogging)、快跑(running)、拳击(boxing)、挥手(waving)和拍手(clapping)。每个动作由25个不同的人分别在室外、室内、室外尺度变化、室外着装变化4种场景下完成，大多数场景下视频背景是同质且静止的。本文与文献[11]采用相同设置，利用编号2、3、5、6、7、8、9、10和22共9个人的视频作为测试集，其余16个人的视频作为训练集，即训练集和测试集视频数量比例近似2： 1。

UCF YouTube数据集[24]包含11种不同的人体动作：投篮(basketball shooting)、骑车(biking)、跳水(diving)、高尔夫(golf swinging)、骑马(horse riding)、颠足球(soccer juggling)、荡秋千(swinging)、打网球(tennis swinging)、跳蹦床(trampoline jumping)、打排球(volleyball spiking)和遛狗(walking with a dog)。由于该数据集视频来自视频网站YouTube，多数为手持设备拍摄，因此具有很大的相机移动。同时在运动目标外观、姿态、尺度、视角、光照条件和复杂背景等因素的干扰下，该数据集十分具有挑战性。相比于文献[11]采用的留一交叉验证法设置，本文采用了与KTH相同的训练集和测试集视频数量比例2∶1的设置，条件更为严苛。

UCF Sports数据集[31]包含10种不同的动作：鞍马(swinging on the pommel horse)、跳水(diving)、踢球(kicking)、举重(weight-lifting)、骑马(horse-riding)、跑步(running)、滑板(skateboarding)、单杠(swinging at the high bar)、高尔夫(golf swinging)和走路(walking)。该数据集由150段具有较大类内差异的视频组成，同时在视角、尺度、背景等方面都颇具挑战性。相比于文献[11]在此数据集上采用的留一交叉验证法设置，本文采取了与UCF YouTube数据集相同的设置，条件更加苛刻。

3.2结果

本文对于轨迹形状描述符(Trajectory)、方向梯度直方图(HOG)、光流直方图(HOF)和运动边界直方图(MBH)四种描述符在KTH、UCF YouTube和UCF Sports 3个数据集上分别进行了识别准确率(η)测试，并与文献[11]测试结果进行了比较。在实验设置上，本文将词袋模型字典的维度设置为400，而文献[11]的对应参数设置为4000。聚类成400个类别比聚类成4000个类别要节省很多时间，而这一部分也是整个算法中比较耗时的部分，因此在构建码本部分本文比文献[11]更为高效。此外，由于本文在高密度轨迹的基础上引入了目标检测算法，高密度轨迹的数目只有文献[11]的5.3%～34.0%(表1)，也在很大程度上提高了算法效率。

表1　本文算法与文献[11]采样轨迹数目比较

对于KTH数据集，本文的训练集和测试集采用了与文献[11]相同的设置，即训练集和测试集视频数量比例近似2∶1。在实验条件完全相同的情况下，本文在Trajectory和HOF两个描述符上较文献[11]取得了更高的准确率，而HOG和MBH两个描述符准确率与文献[11]基本相仿，略低0.1%～0.3%。因为KTH数据集大多数视频背景是同质化且静止的，相对来讲基本没有背景冗余信息的干扰，因此本文引入目标检测算法带来的准确率提升效果并不明显，但在算法识别效率上有明显提升。

对于UCF YouTube和UCF Sports数据集，文献[11]采用了留一交叉验证法的实验设置，即将一个视频作为测试集，其他视频全部作为训练集，如此循环直至所有视频都做过测试集为止。而本文采用了与KTH一样的训练集和测试集视频数量比例2∶1的实验设置，相比于留一交叉验证法，因为训练视频数量更少，这样的设置无疑是更加苛刻的。而就在更为苛刻的条件下，本文在四种描述符上依然全部比文献[11]取得了更高的识别准确率(表2)，UCF YouTube准确率提升达1.3%～14.7%，UCF Sports准确率提升达3.2%～5.4%。由于UCF YouTube和UCF Sports数据集是在复杂背景下拍摄的，而且光照、视角、尺度等条件都更为复杂，因此在高密度轨迹基础上引入目标检测算法十分有效地去除了背景冗余信息带来的干扰，提高了识别准确率，同时也比文献[11]算法识别效率更高。

表2　KTH, UCF YouTube和UCF Sports数据集不同描述符动作识别准确率(η)比较

而在与最近几年发表的动作识别算法文章进行比较时，本文依旧取得了更好的识别效果。

对于KTH数据集，文献[13-14]都采用了高密度轨迹的方法，其中文献[14]在高密度轨迹基础上引入了一种时空不变特征池的方法来提升识别效率，而文献[13]在无监督条件下识别局部运动，采用多核方法提升动作识别效果。文献[26]将体局部二进制模型与光流相结合提出了运动二进制模型的动作识别方法，而文献[25]采用了神经网络的方法进行动作识别。与2013—2015年间发表的这4种具有代表性的典型算法相比较，无论是同样基于高密度轨迹的文献[13-14]，还是基于其他模型的文献[25-26]，本文都在KTH数据集取得了更加准确的识别效果(表3)。

对于UCF YouTube和UCF Sports数据集，本文选取了2011—2015年间发表的8篇文章进行比较。因为UCF YouTube和UCF Sports数据集本身受到运动目标外观、姿态、尺度、视角、光照条件、复杂背景等多重因素的干扰，因此十分具有挑战性。与近几年采用此数据集进行测试的算法进行比较，在训练集与测试集视频数量2∶1的严苛条件下，对于挑战性颇高的UCF YouTube数据集取得了89.2%的识别准确率，而对于UCF Sports数据集取得了90.2%的准确率，均超过现有算法。因此在背景更为复杂，条件更为苛刻的数据集上，本文算法对于动作识别准确率的提升效果更为明显。

表3　KTH, UCF YouTube和UCF Sports数据集动作识别准确率(η)比较

4　总　结

本文提出了一种基于运动目标检测和高密度轨迹的动作识别算法。首先，通过可变形块模型方法对于输入视频每一帧进行运动目标检测，获取运动目标边界框之后在其范围内计算高密度轨迹。之后，在高密度轨迹周围子时空体内分别计算表示形状信息的方向梯度直方图和表示运动信息的光流直方图、运动边界直方图，同时用轨迹形状描述符刻画运动的时空关系和结构信息。接着，采用词袋模型将特征描述符映射到400维的码本上，构成新的视频描述符。最后，用支持向量机进行动作模型的学习和分类。本文算法在简单数据集KTH和复杂数据集UCF YouTube和UCF Sports上都取得了良好的识别效果，实验结果充分证明了基于运动目标检测和高密度轨迹的方法在动作识别领域的出色表现。目前，本文算法已经在工程项目中得到了实际应用(图4)，未来在本文研究基础上，结合高密度轨迹描述符，将进一步探索目标检测和目标跟踪在动作识别领域的应用，融合目标跟踪和动作识别过程，以期获得更好的识别效果。

[1]POPPE R. A survey on vision-based human actionrecognition[J].ImageandVisionComputing,2010,28(6)： 976-990.

[2]SADANAND S, CORSO JJ. Action bank： A high-level representation of activity in video[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE Press, 2012： 1234-1241.

[3]WEINLAND D, RONFARD R, BOYER E. A survey of vision-based methods for action representation, segmentation andrecognition[J].ComputerVisionandImageUnderstanding,2011,115(2)： 224-241.

[4]AGGARWAL J K, CAI Q. Human motion analysis： A review[J].ComputerVisionandImageUnderstanding,1999,73(3)： 428-440.

[5]AGGARWAL J K, PARK S. Human motion： Modeling and recognition of actions and interactions[C]∥Proceedings. 2nd International Symposium on 3D Data Processing, Visualization and Transmission, 2004. Thessaloniki, Greece: IEEE Press, 2004： 640-647.

[6]MOESLUND T B, HILTON A, KRUGER V. A survey of advances in vision-based human motion capture andanalysis[J].ComputerVisionandImageUnderstanding,2006,104(2)： 90-126.

[7]CHENG G, WAN Y, SAUDAGAR A N, et al. Advances in Human Action Recognition： A Survey[J]. arXiv preprint arXiv： 1501.05964, 2015.

[8]RAMANATHAN M, YAU W Y, TEOH E K. Human action recognition with video data： Research and evaluationchallenges[J].IEEETransactionsonHuman-MachineSystems,2014,44(5)： 650-663.

[9]BORGES P V K, CONCI N, CAVALLARO A. Video-based human behavior understanding： A survey[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2013,23(11)： 1993-2008.

[10]RAPTIS M, KOKKINOS I, SOATTO S. Discovering discriminative action parts from mid-level video representations[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE Press, 2012： 1242-1249.

[11]WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]∥2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE Press, 2011： 3169-3176.

[12]MURTHY O V R, GOECKE R. Ordered trajectories for large scale human action recognition[C]∥2013 IEEE International Conference on Computer Vision Workshops (ICCVW). Sydney, Australia: IEEE Press, 2013： 412-419.

[13]CHO J, LEE M, CHANG H J, et al. Robust action recognition using local motion and group sparsity[J].PatternRecognition,2014,47(5)： 1813-1825.

[14]BALLAS N, YANG Y, LAN ZZ, et al. Space-time robust representation for action recognition[C]∥2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE Press, 2013： 2704-2711.

[15]JOHANSSON G. Visual perception of biological motion and a model for itsanalysis[J].Attention,Perception&Psychophysics,1973,14(2)： 201-211.

[16]YILMA A, SHAH M. Recognizing human actions in videos acquired by uncalibrated moving cameras[C]∥Tenth IEEE International Conference on Computer Vision, 2005. Beijing, China: IEEE Press, 2005,1： 150-157.

[17]FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-basedmodels[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(9)： 1627-1645.

[18]GIESE M A, POGGIO T. Neural mechanisms for the recognition of biologicalmovements[J].NatureReviewsNeuroscience,2003,4(3)： 179-192.

[19]FELZENSZWALB P F, HUTTENLOCHER D P. Pictorial structures for objectrecognition[J].InternationalJournalofComputerVision,2005,61(1)： 55-79.

[20]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. San Diego, USA: IEEE Press, 2005,1： 886-893.

[21]DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[M]∥Computer Vision-ECCV 2006. Berlin Heidelberg, Graz, Austria: Springer, 2006： 428-441.

[22]LI P, MA J, GAO S. Actions in still web images： Visualization, detection andretrieval[M]∥Web-Age Information Management. Berlin Heidelberg: Springer, 2011： 302-313.

[23]SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions： a local SVM approach[C]∥Proceedings of the 17th International Conference on Pattern Recognition, 2004. Cambridge, UK: IEEE Press, 2004,3： 32-36.

[24]LIU J, LUO J, SHAH M. Recognizing realistic actions from videos “in the wild”[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2009. Miami, USA: IEEE Press, 2009： 1996-2003.

[25]JI S, XU W, YANG M, et al. 3D convolutional neural networks for human actionrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(1)： 221-231.

[26]BAUMANN F, EHLERS A, ROSENHAHN B, et al. Recognizing human actions using novel space-time volume binary patterns[J].Neurocomputing, 2016,173(1): 54-63.

[27]ZHANG Y, LIU X, CHANG M C, et al.Spatio-temporal phrases for activity recognition[M]∥Computer Vision-ECCV 2012. Berlin Heidelberg, Firenze, Italy: Springer, 2012： 707-721.

[28]CHAKRABORTY B, HOLTE M B, MOESLUND T B, et al. Selective spatio-temporal interest points[J].ComputerVisionandImageUnderstanding,2012,116(3)： 396-410.

[29]WANG Y, TIAN Y, SU L, et al. Detecting Rare Actions and Events from Surveillance Big Data with Bag of Dynamic Trajectories[C]∥2015 IEEE International Conference on Multimedia Big Data (BigMM). Beijing, China: IEEE Press, 2015： 128-135.

[30]ZHANG Z, LIU S, LIU S, et al. Human Action Recognition using Salient Region Detection in Complex Scenes[C]∥The Proceedings of the Third International Conference on Communications, Signal Processing, and Systems. Chengdu, China, Springer International Publishing, 2015： 565-572.

[31]RODRIGUEZ M D, AHMED J, SHAH M. Action mach a spatio-temporal maximum average correlation height filter for action recognition[C]∥Computer Vision and Pattern Recognition, 2008. Anchorage, USA: IEEE Press, 2008： 1-8.

[32]LE Q V, ZOU W Y, YEUNG S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]∥2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE Press, 2011： 3361-3368.

[33]JIANG Z, LIN Z, DAVIS L S. Recognizing human actions by learning and matching shape-motion prototype trees[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(3)： 533-547.

[34]YANG Y, SALEEMI I, SHAH M. Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(7)： 1635-1648.

[35]应锐,王新宇,冯辉,等.基于运动及形状原语的人体动作识别[J].太赫兹科学与电子信息学报，2014，12(4)： 572-578.

Action Recognition Based on Object Detection and Dense Trajectories

WANG Xinyu1, CHEN Da1, FENG Hui1, YANG Tao1, HU Bo1, 2

(1.DepartmentofElectronicEngineering,FudanUniversity,Shanghai200433,China; 2.KeyLaboratoryforInformationScienceofElectromagneticWaves,FudanUniversity,Shanghai200433,China)

For recognizing human actions in video sequences, it is necessary to extract sufficient information that can represent motion features. In recent years, researchers pay more attention on dense trajectories because of its rich spatio-temporal information. However, dense trajectories based action recognition algorithms are all faced with redundant background problem. To solve this problem, we involve object detection in dense trajectories algorithm, detect motion object location through deformable part-based model and calculate dense trajectories around the motion object, which suppresses redundant background effectively. However, object detection algorithms are usually faced with missing frames problem. To solve this problem, human actions are classified by the bag-of-words model and SVM approach. Bag-of-words model constructs feature descriptors with word frequency, which makes few frames missing in object detection not influence action recognition result. Involving object detection improves dense trajectories approach efficiency, which also improves action recognition accuracy. Our algorithm achieves superior results on the KTH, UCF YouTube and UCF Sports datasets compared to the state-of-the-art methods, especially outstanding 89.2% and 90.2% accuracy on complex background dataset UCF YouTube and UCF Sports respectively.

object detection; dense trajectories; deformable part-based model; action recognition

0427-7104(2016)04-0442-10

2015-09-25

教育部博士点基金(20120071110028)

王新宇(1989—)，男，硕士研究生；胡波，男，教授，通讯联系人，E-mail： bohu@fudan.edu.cn.

TP 391.4

基于目标检测及高密度轨迹的动作识别

1 系统框架

2 动作特征表示与分类

3 结果与分析

4 总 结

1　系统框架

2　动作特征表示与分类

3　结果与分析

4　总　结