周风余 尹建芹,2 杨 阳 张海婷 袁宪锋
基于时序深度置信网络的在线人体动作识别
周风余1尹建芹1,2杨阳1张海婷1袁宪锋1
在线人体动作识别是人体动作识别的最终目标,但由于如何分割动作序列是一个待解决的难点问题,因此目前大多数人体动作识别方法仅关注在分割好的动作序列中进行动作识别,未关注在线人体动作识别问题.本文针对这一问题,提出了一种可以完成在线人体动作识别的时序深度置信网络(Temporal deep belief network,TDBN)模型.该模型充分利用动作序列前后帧提供的上下文信息,解决了目前深度置信网络模型仅能识别静态图像的问题,不仅大大提高了动作识别的准确率,而且由于该模型不需要人为对动作序列进行分割,可以从动作进行中的任意时刻开始识别,实现了真正意义上的在线动作识别,为实际应用打下了较好的理论基础.
人体动作识别,时序深度置信网络,条件限制玻尔兹曼机,在线动作识别
引用格式周风余,尹建芹,杨阳,张海婷,袁宪锋.基于时序深度置信网络的在线人体动作识别.自动化学报,2016,42(7): 1030-1039
人体动作识别在人机交互、机器人、智能家居、视频监控和体育运动分析等领域都有着巨大的应用需求[1],已成为机器视觉领域一个重要的研究方向.在过去的几十年中,由于受到技术条件的限制,国内外学者主要基于普通摄像机获取的人体动作视频开展动作识别研究,虽然在相关理论及方法上取得一定进展,但由于普通摄像机获得的是2D信息,且对光照敏感,因此动作识别的准确率并不高.近年来,随着深度摄像机、微软的Kinect等低成本3D运动捕捉设备的出现,很容易获取带有深度信息的3D深度图和骨架图,极大促进了基于3D信息的动作识别研究.
现阶段人体动作识别的研究往往采用分割好的视频片断进行动作识别.Li等[2]利用深度图对动作进行识别,提出了一种3D点袋方法(A bag of 3D points)用于深度序列图中的动作识别,实验证明,深度图中1%的点就可以决定识别准确度的90%以上.Yang等[3]基于文献[2]的工作对MSR Action3D数据库中的深度动作序列图进行了识别,验证了深度动作图的子序列(子序列长度为30~35帧)基本上可以得到比较好的识别结果.Ofli等[4]提出了一种新的动作特征表示方式—最富信息节点序列(Sequences of the most informative joints,SMIJ),即在每一个时间点,自动选取几个关节点代表此时姿态,此方法对特定数据库中的动作进行了有效的区分.Theodorakopoulos等[5]将动作序列在多维特征空间内进行坐标转换以得到鲁棒、便于计算的特征表示方式,并在多个数据库上验证了其方法的有效性.王斌等[6]提出了判别稀疏编码视频表示算法,并有效地提高了动作的识别精度.田国会等[7]引入了动态时间规整(Dynamic time warping,DTW)算法对基于关节点信息的人体行为进行识别,得到了较好的识别效果.
近年来,随着深度神经网络在各方面的成功应用[8],其在动作识别应用领域也取得了良好的效果[9].Liu等[10]采用基于深度学习的超分算法,解决了在视频质量较差情况下的动作识别.Baccouche等[11]提出了LSTM-RNN(Long-short term memory recurrent neural network)用于动作识别,通过将卷积神经网络(Convolutional neural network,CNN)扩充到3D以自动编码动作中的时空信息,用递归神经网络(Recurrent neural network,RNN)来建模序列的时间演化信息.文献[11]所用的LSTM-RNN采用1个隐含层,因此只能建模单向关系,而动作中涉及复杂的双向关系,Lefebvre等[12]则在手势识别中采用前向隐含层和后向隐含层两个隐含层来建模双向关系.文献[11—12]中涉及的RNN仅用于设计分类器,Du等[13]提出了一种建模时序上下文信息的层次RNN结构,自动实现动作特征的提取及动作识别.
上述研究成果表明,基于3D信息的人体动作识别可以获得较高的准确率,是一种较好的动作识别表示方式,但是现阶段的研究成果大多是考虑的离线人体动作识别,即在分割好的动作序列基础上进行人体动作识别.而实际应用中,确定视频动作的分割点隐含了动作的识别,从而大多数应用不可能允许视频按照动作类别预先进行分割.因此,动作识别的在线性同样是衡量人体动作识别效果的一个重要指标,也是制约人体动作识别应用的一个关键问题.由此可见,如何对连续动作序列进行在线识别显得尤为重要.而在线识别时无法对动作序列进行人工分割,大大增加了动作识别的难度.为此,本文提出了一种可以用于在线识别的动作识别方法.
另一方面,深度学习方法在动作识别方面的应用取得了巨大进展,而寻求能够自动完成特征提取及识别的方案已经成为了当前该研究方面的一个主要目标.尽管Du等[13]等提供了一种基于RNN的自动特征提取与识别方法,但需要将序列分割成一系列的子部分,并以此为基础基于RNN自动提取特征.而限制玻尔兹曼机(Restricted Boltzmann machines,RBM)本身具有良好的自动特征提取性能,且Taylor等[14]在RBM的基础上提出了一种可以处理时间序列的模型—条件限制玻尔兹曼机(Conditional restricted Boltzmann machine,CRBM),为解决动作序列识别问题提供了借鉴.为此,本文提出了一种基于条件限制玻尔兹曼机的可以处理时序数据的时序深度置信网络(Temporal deep belief network,TDBN)模型,大量的实验表明该网络模型可以对3D关节点动作序列进行较好的在线识别.
1.1条件限制玻尔兹曼机
限制玻尔兹曼机可以对静态数据进行建模,但是无法处理具有时间关联的数据.Taylor等[14]在RBM的基础上提出了一种可以处理时间序列的模型—条件限制玻尔兹曼机,其结构图如图1所示,其包含两层结构:可观测层与隐含层.图1中虚线框内为RBM.CRBM在RBM基础上增加了两种连接:前n时刻可观测层与当前时刻可观测层之间的自回归连接;前n时刻可观测层与当前时刻隐含层之间的连接.
图1 条件限制玻尔兹曼机结构Fig.1 The structure of conditional restricted Boltzmann machines
CRBM 可以看作是增加了固定额外输入的RBM,其固定额外输入是可观测层的前n时刻数据,由此增加了前n时刻与当前时刻的时间关联.虽然增加了额外输入,但是CRBM可观测层和隐含层的计算并不比RBM更复杂,在给定可观测层和前n时刻可观测层的数据后,隐含层的激活概率是可以确定的;同样,在给定隐含层和前n时刻可观测层的数据后,可观测层的激活状态之间是条件独立的.
1.2时序深度置信网络
本文借鉴CRBM的思想,在深度置信网络(Deep belief network,DBN)的基础上提出了一种时序深度置信网络,在动作识别中加入了前后帧的上下文关系.TDBN的网络结构如图2所示,包括输入层、隐含层和输出层.图2虚线框内部分是典型的DBN结构,TDBN在DBN的基础上,将其中的RBM结构变为CRBM结构,为了易于观察,图2中第一隐含层与第二隐含层增加的连接没有画出来.
图2 时序深度置信网络结构Fig.2 The structure of the temporal deep belief network
为了便于处理人体动作序列中的时间关联信息,TDBN将经典DBN中的RBM结构变为CRBM结构.以图2中的两个隐含层为例,输入层与第一隐含层、第一隐含层与第二隐含层分别加入两类连接:前n时刻可观测层与当前时刻可观测层之间的自回归连接;前n时刻可观测层与当前时刻第一隐含层之间的连接.由加入的连接可以推出,可观测层的激活状态是由当前时刻的隐含层状态及前n时刻的输入层数据决定的;隐含层的激活状态是由当前时刻的输入数据及前n时刻的输入数据决定的,n是可以调整的参数,是模型的阶数.由图2可以看出,通过加入上述前n时刻的连接,以模型阶数为单位,可以建模动作中的时序信息,从而可以方便地实现以模型阶数为单位的在线人体动作识别.
TDBN学习过程包括初始化、预处理、预训练和全局微调4个部分.初始化主要是对算法中的各个参数进行设置,包括隐含层层数、各个隐含层节点数、模型阶数、各个CRBM迭代次数、BP算法迭代次数等.算法的核心部分是预训练和全局微调,预训练采用的是无监督学习方法,很大程度上避免了普通BP算法容易收敛到局部最小值的问题,从而得到更优的初始化参数;全局微调采用的是有监督学习方法,是一个调优过程,采用BP算法对预训练后的参数进行微调.下面给出本文提出的TDBN的学习过程.
2.1预处理
本文实验数据来源于MIT数据库和MSR Action 3D数据库,在进行识别以前,对数据进行了预处理:包括降采样、降维及数据分组.由于所用数据的帧频分别是120fps和15fps,相邻帧数据存在较大冗余.为了提高识别速度,本文在预训练之前,首先对人体动作序列进行了降采样处理:在视频序列中抽取特定的帧进行动作表示.实验表明,MIT数据每8帧保留1帧,MSR Action 3D每4帧保留1帧同样可获得较高的识别准确率.在后续步骤中,采用该方法对所用的视频数据进行降采样处理.
由于待处理的数据属于高维数据,如图3,图中给出的是MIT数据库关节示意图,每帧有18个关节点,每个关节点有6个坐标维度,共计108个维度.由于人体在运动过程中很多关节点的相对位置和角度是一个定值,因此维度存在严重冗余.为提高人体动作的识别效率及识别效果,对MIT数据采用主成分分析进行降维处理,去除动作中保持不变的维度后,维度从108降为49.
图3MIT数据库关节示意图Fig.3 Illustration of the skeleton of MIT
完成数据降维后,进行数据分组,包括两个步骤:1)将每个连续的n+1帧作为一个数据单元存放在一起;按照该方法处理后,除了前n帧和后n帧,中间的每一帧都被使用了n+1次;2)将每一个数据单元与其动作标记随机打乱顺序,并分为一定大小的数据块(本文每个数据块包含了100个数据单元).由于TDBN的学习只与一个数据块中的n+1帧有关,所以将数据打乱不会影响识别的正确性.
2.2预训练
与DBN类似,TDBN的预训练也是为了得到较好的全局微调初始化参数.训练过程中,TDBN可以看作是层叠的CRBM,即将图2中的输入层与第一隐含层、第一隐含层与第二隐含层作为两个CRBM进行预训练.CRBM的学习过程就是权重和偏移的更新过程,CRBM的学习过程流程如图4所示,主要包括初始化、正向计算、反向计算、更新权重和偏移量、迭代次数判断5个部分.初始化是对权重、偏移量、学习率、衰减参数等进行设置;正向计算是由可观测层计算隐含层的过程,在给定可观测层和前n时刻可观测层的数据后,隐含层的激活概率是可以确定的;反向计算是由隐含层计算当前时刻可观测层的过程,在给定隐含层和前n时刻可观测层的数据后,可观测层的激活状态也是可以确定的;完成正向计算和反向计算之后,就可以对权重和偏移量进行更新;最后是迭代次数的判断,如果没有达到设定的迭代次数(epoch)则跳转到正向计算,继续学习,如果达到,学习过程结束.
图4CRBM学习过程流程图Fig.4 Flowchart of the learning of CRBM
CRBM学习过程与RBM的类似,所用方法都是对比散度(Contrastive divergence,CD)算法[15].假设t,t-1,···,t-n时刻输入数据,即可观测层已知,那么隐含层节点状态在t时刻是条件独立的,CRBM的权重学习仍然可以采用CD算法.与RBM学习过程的区别仅在于,更新可观测层和隐含层时,需要将前n时刻的输入数据当作动态偏移,这样可以实现一个直接的连接.RBM的权重学习公式为
其中,vi是可观测单元,hj是隐藏单元,wij是连接可观测单元i和隐藏单元j的权重,〈·〉表示随机变量的期望.根据式(1),可得到隐含层动态偏移的学习公式
2.3全局微调
预训练完成之后,CRBM中的权重和偏移反应了数据结构中包含的信息,为了得到一个更好的结果,还需要对权重和偏移进行全局微调.本文将TDBN作为分类模型,采用BP算法,通过有监督学习对分类模型参数进行微调,其学习流程如图5所示,包括初始化、计算训练误差、计算测试误差、更新权重和偏移、判断迭代次数5个部分.
图5 全局微调流程图Fig.5 Flowchart of the global weights adjustment
初始化参数包括权重、偏移、学习率和全局更新次数等,权重和偏移的初始化包括载入预训练过的参数和对未经预训练的最顶层的权重和偏移进行随机赋值.由于最顶层的权重和偏移是随机数,因此算法初始化阶段,权重及偏移更新只在最顶层进行,全局更新次数是指从第几次开始对全部的参数进行更新.计算误差是一个前向传递过程,计算训练误差是为了更新权重和偏移,计算测试误差是为了得到识别结果.最后是迭代次数的判断,如果达到迭代次数则结束;如果没有则继续运行.
TDBN全局微调与DBN不同之处是增加了与前n时刻输入相关的参数.假设在t时刻,t,t-1,···,t-n时刻的输入数据是已知的,隐含层的激活状态也可以得到.与DBN不同的是,前n时刻的输入作为隐含层的一个动态偏移量,以输入层与第一隐含层为例,其中增加的两类连接的权重学习公式为
其中,ε是权重的学习率.由于模型在更新权重和偏移时,仅与动作序列中当前时刻及其前n时刻的数据有关,因此输入数据时可以把当前帧与前n帧作为整体,每n+1帧为一个数据单元,并且从n+1帧数据开始更新.为了提高TDBN的学习速度,本文预先把数据分成100(n+1)的数据块,训练模型时将数据块逐个输入即可.
3.1基于MIT数据库的动作识别
MIT数据库[18]有7种不同的行走姿势,包括蹲伏行走(Crouch)、慢跑(Jog)、跛行(Limp)、正常行走(Normal)、右侧行走(Sideright)、摇摆行走(Sway)和蹒跚行走(Waddle),每种姿势的行走速度有慢速、正常和快速3种,共计21个动作序列.本文实验选取7个正常行走速度的动作序列,每个序列长度在13344~20384帧之间,其中包含有10~12个动作子序列,共计77个子序列,每个子序列长度在200~1950帧之间.其中一半作为训练集,一半作为测试集.本实验采用的TDBN模型有2个隐含层,网络节点分别为49-150-150-7,阶数n 取3.在识别过程中并不需要显示每1帧的识别结果,而是综合了连续多帧的识别结果.实验中对连续的10帧、20帧、30帧和整个序列的识别结果分别进行统计,统计方法是每1帧结果累计,取次数出现最多的类别作为连续多帧的识别结果.每一组实验均进行了10次,取其平均值为最终识别结果,MIT数据库的识别结果如图6所示,包括1帧、10帧、20帧、30帧和整个序列的识别结果.
图6MIT数据库的识别结果Fig.6 Recognition results on MIT datasets
由图6可以看出,随着连续帧数的增加,识别率不断提高,连续30帧的识别率已达到100%.图7 为MIT数据库1帧识别结果的混淆矩阵,其中右侧行走识别率最高,达到了99.93%;蹒跚行走识别率最低,为94.72%.这是因为右侧行走与其他动作姿态差别明显,而蹒跚行走与其他动作姿态相似度较大的缘故.
图7MIT数据库的混淆矩阵Fig.7 Confusion matrix of MIT dataset
图7中,C代表蹲伏行走,J代表慢跑,L代表跛行,N代表正常行走,SR代表右侧行走,S代表摇摆行走,W代表蹒跚行走.另外,实验还对TDBN中训练得到的权重进行了统计,图8为其中CRBM的权重分布示意图,图8(a)为输入层和第一隐含层组成的第一个CRBM的权重分布示意图,图8(b)为第二个CRBM的权重分布示意图.其中,w为输入层单元和隐含层单元之间的权重,bi为输入层的偏移量,bj为隐含层的偏移量,At-1,At-2,At-3分别为t-1,t-2,t-3时刻输入层单元与t时刻输入层单元连接的自回归权重,Bt-1,Bt-2,Bt-3为t-1,t-2,t-3时刻输入层单元与t时刻隐含层单元连接的权重.
3.2基于MSR Action 3D数据库的动作识别
MSR Action 3D数据库是从文献[2]中得到的,有抬高挥动胳膊(High arm wave)、水平挥动胳膊(Horizontal arm wave)、捶打(Hammer)、冲拳(Forward punch)等20种不同的动作,分别录制于10个不同的人,每一个人每一个动作重复2~3次,共有467个序列,22797帧,动作记录的频率为15Hz.图9为其中抬高挥动胳膊的动作示例,图中取了13帧.
图8CRBM的权重分布示意图Fig.8 Illustration of the distribution of the weights of CRBM
图10为MSR Action 3D数据库中关节示意图,与MIT数据库相比,MSR Action 3D数据库中数据多了左右手和头部节点,肩膀中心用了一个节点表示.动作序列中的一帧是20个节点的x,y,z坐标值,因此每一帧的维度为60.x,y,z坐标值表示方法的优点是直观、易于理解和数据处理,缺点是识别不同人的动作时,由于关节点之间骨骼长度不像MIT数据是一个常量,因此对识别结果会有一定影响.
图9 MSR Action 3D数据库动作示意图Fig.9 Illustration of the action of MSR Action 3D
图10 MSR Action 3D数据库关节示意图Fig.10 Illustration of the Skeleton of MSR Action 3D
实验中,将MSR Action 3D数据库20个不同动作分为三组(AS1,AS2,AS3),每组8个动作[2].为了与现有算法结果进行比较,基于这些数据采用了三种测试方法对算法性能进行评估,测试1(表示为ASi1,i=1,2,3)取1/3数据进行训练,剩余2/3进行测试;测试2(表示为ASi2,i=1,2,3)取2/3数据进行训练,剩余1/3进行测试;测试3采用一半数据训练,一半数据进行测试.本文研究目的是针对家庭环境对人的行为动作的识别,其特点是人物基本固定,学习目标比较单一,因此本文未进行文献[2]中的交叉人物测试.实验采用的TDBN模型有两个隐含层,阶数n=3.MSR Action 3D作为通用的动作数据库,目前绝大部分的识别方法都是基于整个序列的,为此本文首先将TDBN采用测试1和测试2对整个序列的识别效果与文献[2-3,19]的结果进行比较,另外,由于CRBM和TDBN的关系,我们也测试了CRBM在数据库中的结果,相关结果如表1所示.然后,利用测试3的设置与State-of-the-art的结果进行比较,如表2所示.文献[20]探讨了采用不同帧数对识别结果的影响,其中仅使用了前5帧对动作进行识别,本文也将前5帧的识别结果与之进行了比较,如表3所示.
表1 测试1和测试2中整个序列的识别结果(%)Table 1 Results of the sequences(%)
表2 测试3中本文算法与其他算法的比较(%)Table 2 Comparisons between our method and others(%)
表3 前5帧的识别结果(%)Table 3 Recognition results of the first 5 sequences(%)
由表1和表2可以看出,测试2的效果最好,远超过其他方法,测试1的效果接近其他方法.这个结论也正符合了深度学习方法的鲜明特点,训练越充分,其分类效果越好.需要特别说明的是,文献[2-3,19]中的方法均是在动作完全完成后才进行的识别,并没有考虑在线动作识别.文献[20]虽然探讨了识别精度和实时性之间的平衡关系,但在他的实验中有5个动作的识别率并不是特别理想:Hammer(0%)、Hand catch(0%)、High throw (14.3%)、Draw circle(20%)、Draw X(35.7%).图11为本文AS1组测试2的各个动作识别结果,在图中,为了表示方便,采用Haw代表Horizontal arm wave,H代表Hammer,Fp代表Forward punch,Ht代表High throw,Hc代表Hand clap,B代表Bends,Ts代表Tennis serve,Pt代表Pickup and throw,所有动作的总体识别率达到了99.33%.由图11可以看出,虽然对7个动作的识别结果有高有低,但是不会出现文献[19]那样识别率特别低的情况.另外,最重要的是本文提出的方法考虑了在线识别问题,表4给出的是利用TDBN方法得到的1帧、5帧和整个动作序列的识别结果.由表4中可以看出,识别率随着所用帧数和训练数据的增加有明显的提高.
图11MSR Action 3D数据库AS12的混淆矩阵Fig.11 Confusion matrix of MSR Action 3D of AS12
3.3不同阶TDBN动作识别时间及准确率测试
本文提出的时序深度置信网络模型TDBN,由于无需对动作序列进行手工分割,且可以在动作的任意时刻进行识别,克服了目前识别方法只有在动作完成后才能得到识别结果的不足,真正实现了在线动作识别.对于TDBN的运行效率及TDBN性能在不同阶数下的影响进行测试,在MSR Action 3D所有数据上进行了实验.表5给出了不同阶数下的动作识别时间,随着阶次的增加,计算量增加,相应的识别时间也在增加.表5中的识别时间是对n+1帧数据的识别时间,并不是整个动作的识别时间,因为整个动作的实时识别与动作帧频有关系,只要表5中识别时间小于降采样后帧频的倒数就可以实现实时识别,并随时可以得到识别结果.表6为不同阶数TDBN的识别率,由于TDBN加入了前后帧之间的上下文信息,识别率随着阶数的不同而不同,实验表明,当模型阶数为3时,动作识别率相对较高.
表4 全部实验识别结果(%)Table 4 All recognition results(%)
表5 不同阶数的识别时间(ms)Table 5 Recognition time with different orders(ms)
表6 不同阶数的识别率(%)Table 6 Recognition rates with different orders(%)
本文针对传统DBN无法处理时序数据的问题,首次提出了时序深度置信网络(TDBN),该网络模型充分利用动作序列前后帧提供的上下文信息,不仅提高了识别准确率,而且由于TDBN无需对动作序列进行手工分割,可以在动作的任意时刻进行识别,并且每次仅需处理序列中的几帧数据就可得到识别结果,不仅大大提高了动作识别的实时性,同时使得算法可以完成在线的人体动作识别.该方法的提出为人体动作识别的实际应用打下了较好的理论基础.
References
1 Tong Li-Na,Hou Zeng-Guang,Peng Liang,Wang Wei-Qun,Chen Yi-Xiong,Tan Min.Multi-channel sEMG time series analysis based human motion recognition method.Acta Automatica Sinica,2014,40(5):810-821(佟丽娜,侯增广,彭亮,王卫群,陈翼雄,谭民.基于多路sEMG时序分析的人体运动模式识别方法.自动化学报,2014,40(5):810-821)
2 Li W Q,Zhang Z Y,Liu Z C.Action recognition based on a bag of 3D points.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.San Francisco,CA:IEEE,2010. 9-14
3 Yang X D,Zhang C Y,Tian Y L.Recognizing actions using depth motion maps-based histograms of oriented gradients. In:Proceedings of the 20th ACM International Conference on Multimedia.Nara,Japan:ACM,2012.1057-1060
4 Ofli F,Chaudhry R,Kurillo G,Vidal R,Bajcsy R.Sequence of the most informative joints(SMIJ):a new representation for human skeletal action recognition.Journal of Visual Communication&Image Representation,2014,25(1):24-38
5 Theodorakopoulos I,Kastaniotis D,Economou G,Fotopoulos S.Pose-based human action recognition via sparse representation in dissimilarity space.Journal of Visual Communication and Image Representation,2014,25(1):12-23
6 Wang Bin,Wang Yuan-Yuan,Xiao Wen-Hua,Wang Wei,Zhang Mao-Jun.Human action recognition based on discriminative sparse coding video representation.Robot,2012,34(6):745-750(王斌,王媛媛,肖文华,王炜,张茂军.基于判别稀疏编码视频表示的人体动作识别.机器人,2012,34(6):745-750)
7 Tian Guo-Hui,Yin Jian-Qin,Han Xu,Yu Jing.A novel human activity recognition method using joint points information.Robot,2014,34(3):285-292(田国会,尹建芹,韩旭,于静.一种基于关节点信息的人体行为识别新方法.机器人,2014,34(3):285-292)
8 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(乔俊飞,潘广源,韩红桂.一种连续型深度信念网的设计与应用.自动化学报,2015,41(12):2138-2146)
9 ZhaoSC,LiuYB,HanYH,HongRC.Pooling the convolutional layers in deep convnets for action recognition[Online],available:http://120.52.73.77/ arxiv.org/pdf/1511.02126v1.pdf,November 1,2015.
10 Liu C,Xu W S,Wu Q D,Yang G L.Learning motion and content-dependent features with convolutions for action recognition.Multimedia Tools and Applications,2015,http://dx.doi.org/10.1007/s11042-015-2550-4.
11 Baccouche M,Mamalet F,Wolf C,Garcia C,Baskurt A.Sequential deep learning for human action recognition.Human Behavior Understanding.Berlin:Springer,2011.29-39
12 Lefebvre G,Berlemont S,Mamalet F,Garcia C.BLSTMRNN based 3d gesture classification.Artificial Neural Networks and Machine Learning.Berlin: Springer,2013. 381-388
13 Du Y,Wang W,Wang L.Hierarchical recurrent neural network for skeleton based action recognition.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.1110-1118
14 Taylor G W,Hinton G E,Roweis S.Modeling human motion using binary latent variables.In:Proceedings of Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2007.1345-1352
15 Hinton G E,Osindero S.A fast learning algorithm for deep belief nets.Neural Computation,2006,18:1527-1554
16 Bengio Y,Lamblin P,Popovici D,Larochelle H.Personal communications with Will Zou.learning optimization Greedy layerwise training of deep networks.In:Proceedings of Advances in Neural Information Processing Systems. Cambridge,MA:MIT Press,2007.
17 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536
18 Hsu E,Pulli K,Popovi´c J.Style translation for human motion.ACM Transactions on Graphics,2005,24(3):1082-1089
19 Xia L,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints.In:Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence,USA:IEEE,2012.20-27
20 Ellis C,Masood S Z,Tappen M F,LaViola J J Jr,Sukthankar R.Exploring the trade-off between accuracy and observational latency in action recognition.International Journal of Computer Vision,2013,101(3):420-436
21 Chen C,Liu K,Kehtarnavaz N.Real-time human action recognition based on depth motion maps.Journal of Real-Time Image Processing,2016,12(1):155-163
22 Gowayyed M A,Torki M,Hussein M E,El-Saban M.Histogram of oriented displacements(HOD):describing trajectories of human joints for action recognition.In:Proceedings of the 2013 International Joint Conference on Artificial Intelligence.Beijing,China,AAAI Press,2013.1351-1357
23 Vemulapalli R,Arrate F,Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.588-595
周风余山东大学控制科学与工程学院教授.2008年获得天津大学电气与自动化工程学院博士学位.主要研究方向为智能机器人技术.
E-mail:zhoufengyu@sdu.edu.cn
(ZHOUFeng-YuProfessoratthe School of Control Science and Engineering,Shandong University.He received his Ph.D.degree from Tianjin University in 2008.His main research interest is technology of intelligent robot.)
尹建芹济南大学信息科学与工程学院副教授.2013年获得山东大学控制科学与工程学院博士学位.主要研究方向为图像处理与机器学习.本文通信作者.
E-mail:iseyinjq@ujn.edu.cn
(YIN Jian-QinAssociate professor at the School of Information Science and Technology,Jinan University.She received her Ph.D.degree from the School of Control Science and Engineering,Shandong University in 2013. Her research interest covers image processing and machine learning.Corresponding author of this paper.)
杨阳山东大学信息科学与工程学院讲师.2009年获得山东大学信息科学与工程学院博士学位.主要研究方向为图像处理与目标跟踪.
E-mail:yangyang@mail.sdu.edu.cn
(YANGYangLectureratthe SchoolofInformationScienceand Technology,Shandong University.He received his Ph.D.degree from the School of Information Science and Technology,Shandong University in 2009.His research interest covers image processing and object tracking.)张海婷山东大学控制科学与工程学院硕士研究生.2011年获得山东大学工学学士学位.主要研究方向为深度学习与图像处理.E-mail:546597163@qq.com (ZHANG Hai-TingMaster student at the School of Control Science and Engineering,Shandong University. She received her bachelor degree from Shandong University in 2011.Her research interest covers deep learning and image processing.)
袁宪锋山东大学控制科学与工程学院博士研究生.2011年获得山东大学工学学士学位.主要研究方向为机器学习与服务机器人.
E-mail:yuanxianfengsdu@126.com
(YUAN Xian-FengPh.D.candidate at the School of Control Science and Engineering,Shandong University. He received his bachelor degree from Shandong University in 2011.His research interest covers machine learning and service robot.)
Online Recognition of Human Actions Based on Temporal Deep Belief Neural Network
ZHOU Feng-Yu1YIN Jian-Qin1,2YANG Yang1ZHANG Hai-Ting1YUAN Xian-Feng1
Online human action recognition is the ultimate goal of human action recognition.However,how to segment the action sequence is a difficult problem to be solved.So far,most human action recognition algorithms are only concerned with the action recognition within a segmented action sequences.In order to solve this problem,a deep belief network(DBN)model is proposed which can handle sequential time series data.This model makes full use of the action sequences and frames to provide contextual information so that it can handle video data.Moreover,this model not only greatly improves the action recognition accuracy,but also realizes online action recognition.So it lays a good theoretical foundation for practical applications.
Human action recognition,temporal deep belief network(TDBN),conditional restricted Boltzmann machine (CRBM),online action recognition
10.16383/j.aas.2016.c150629
Zhou Feng-Yu,Yin Jian-Qin,Yang Yang,Zhang Hai-Ting,Yuan Xian-Feng.Online recognition of human actions based on temporal deep belief neural network.Acta Automatica Sinica,2016,42(7):1030-1039
2015-10-20录用日期2016-02-14
Manuscript received October 20,2015;accepted February 14,2016
国家自然科学基金(61375084,61203341),山东省自然科学基金重点项目(ZR2015QZ08)资助
Supported by National Natural Science Foundation of China (61375084,61203341),Key Program of Natural Science Foundation of Shandong Province(ZR2015QZ08)
本文责任编委俞栋
Recommended by Associate Editor YU Dong
1.山东大学控制科学与工程学院济南2500612.济南大学信息科学与工程学院山东省网络环境智能计算技术重点实验室济南250022
1.School of Control Science and Engineering,Shandong University,Jinan 2500612.Shandong Provincial Key Laboratory of Network Based Intelligent Computing,School of Information Science and Engineering,University of Jinan,Jinan 250022