华 钢,曹青峰,朱艾春,2,张 赛,唐士宇,崔 冉
1(中国矿业大学信息与控制工程学院,江苏徐州221008)
2(南京工业大学计算机科学与技术学院,南京211816)
人体行为识别作为人体行为预测和跟踪的基础,同时也是计算机视觉领域的重要研究内容,在智能视频监控、人机交互、公共安全、生产安全等各领域具有广泛的应用前景.虽然这些年在计算机视觉领域人体行为识别研究取得了飞速发展,但限于行为表现、环境和时间等各种差异性,人体行为识别仍是一项具有挑战性的任务.Johansson 研究[1,2]表明,人体运动轨迹可以通过骨架关节点序列来表示,骨架数据集通过一定数量的关节点可以简洁的表示出肢体姿态结构,提供关于人体行为的高效特征信息.微软Kinect 人体关节点估计算法可提供准确的关节点位置信息,从而使基于骨架数据行为识别成为可能.一般来说,基于骨架数据的行为识别方法可分为两大类:传统方法(即基于人工设计特征方法)和深度学习方法.基于人工设计特征的方法是行为识别领域的经典传统方法,该方法包括数据预处理、特征提取和特征筛选等过程且必须手动完成,既要积累专业领域的知识又要消耗大量时间去尝试,而且对工作人员来说也是有一定的门槛的,成本高且只能提取有限数量特征,很多信息丢失检测结果不理想.基于深度学习的3D 骨架人体行为识别优于传统的人体行为识别方法[3-5].基于深度学习的骨架数据行为识别方法相比于深度学习RGB 视频图像[6-9]人体行为识别方法,能够有的避免光照、遮挡和背景颜色等物理条件影响,3D 骨架数据通过一组关节点的三维坐标来表示身体姿态结构,具有数据简洁、计算量小、鲁棒性强且具有硬件条件要求低等优点,使得检测结果更加准确稳定.
近年来基于深度学习的3D 骨架行为识别成为行为识别领域的研究热点,并取得了显著成就.目前最具有代表性的深度学习骨架行为识别算法主要有以下几种:1)基于循环神经网络(LSTM)[10-13];2)基于卷积神经网络(CNN)[14-17];3)基于LSTM 和CNN 多种融合网络[18];4)基于图卷积神经网络(GCN)[19].
LSTM(Long Short Term Memory Networks)是一种能够有效解决数据长时依赖问题的特殊循环神经网络.3D 骨架数据可看作行为的时间序列信息,利用LSTM 网络挖掘各肢体行为时域中的上下文依赖关系,提取显著的运动特征解决人体骨架的行为识别问题.但骨架数据既包括时间序列信息同时也包括空间结构信息,过度关注时域中上下文依赖关系却忽略了骨架的空间结构信息,导致信息提取不充分识别结果有待进一步提高.文献[14]提取节点之间的距离和方向,节点与节点连线之间的距离,角度等五种特征信息通过多种方式编码变换为图片送入卷积神经网络.与文献[14]不同,在文献[15]中选取身体四个基本参考点,针对不同的参考点计算骨架节点相对位置形成四个特征矩阵,将其归一化然后再用卷积神经网络进行特征信息学习最后进行行为识别与检测.文献[16]通过RL 算法选取关键帧和所选索引的二元掩码,分别将其并行输入CNN 网络和全链接网络进行特征信息提取最后进行特征融合和检测.文献[17]CNN 和LSTM 的融合考虑到数据编码成图片丢失部分信息,采用CNN 网络与LSTM 网络并行融合.由于CNN 和LSTM 具有互补性,相比之前单独的CNN 网络模型和LSTM 网络模型效果更好.人体骨架行为识别包含着重要的人体动力学知识,文献[18]把图卷积神经网络拓展到时空域提出时空卷积模型,并把输入数据按不同维度分成不同的通道,设计图卷积核使得检测性能大大提高.图卷积网络[18]充分考虑了人体骨架的空间结构和时间连续性特点,特征提取有待进一步优化且网络结构过于复杂,运算量大等缺点.文献[19]利用不同关节之间的相关性,设计一种双流式的框架能获得所有关节的全局响应融合骨架运动特征.
基于以上分析,本文利用NTU_RGB+D 原始骨架数据作为网络模型的输入,针对LSTM 网络过度关注时域中上下文依赖关系忽略骨架的空间结构信息的问题对于时间信息和空间信息特征提取不充分影响识别准确率,本文结合图卷积网络对于人体空间结构的关注和卷积核的设置方法设置卷积神经网络卷积核,有效模拟LSTM 网络时域连贯性信息提取同时也充分提取空间特征信息.从人体动力学角度讲,一个行为具有时空特征信息的共现性同等重要且不可分割,本文提出一种多流卷积网络框架提取时空共现信息特征并进行特征融合,然后Softmax 函数对融合后的运动特征进行分类识别.在NTU_RGB+D 骨架数据集的实验结果表明,本文方法骨架行为识别[20-31]准确率得到显著提升.
人体骨架分为左、右手;左、右脚;左、右臂;左、右腿和躯干等部分.身体各部分明显存在某种依赖关系或相关性,骨架数据可看作相邻关节点存在某种依赖关系的序列.如图1 所示为原始骨架建模,图2 所示为不同方式的骨架动作建模.
图1 原始骨架建模Fig.1 Original skeleton modeling
图2 骨架动作建模Fig.2 Skeleton action modeling
动作的共现性可从本质上体现身体结构之间的依赖关系,例如“洗头”这个行为两手臂之间存在很大的相关性,又比如“坐下”这各行为躯干和两腿存在很大的相关性.图1 建模方式割裂了身体各部分之间的连接,不能充分描述人体的行为.相比于原始骨架建模方式,图2 骨架行为建模方式1:ID[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25],其中[1,2,3,4,5,6,7,8,9,10,11,12,13]表示两手臂之间的建模,[14,15,16,17,18,19,20,21]表示躯干与腿之间的建模,体现了身体各部位之间的相关性.为了更好的体现出四肢与躯干之间联系以及研究不同骨架行为建模方式对于网络准确率的影响,本文又提出骨架行为建模方式 2:ID[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,14,15,16,17,22,23,24,25],对于骨架行为建模方式1 基础之上又稍微改动躯干与右腿之间的关系用[14,15,16,17,18,19,20,21]表示,躯干与左腿之间的关系用[14,15,16,17,22,23,24,25]表示,其他部分与骨架行为建模方式1 相同.行为的发生是由身体的各部分互相协调完成的,合理的选择骨架动作建模方式可以更好的体现身体结构之间的依赖关系或相关性,进而提高识别准确率.
主要功能模块如图3 所示:数据预处理模块、网络训练模块和网络测试模块.网络模块如图3 所示.数据预处理模块:包括训练和测试过程中的数据(把数据集格式转化为网络模型所需的数据格式).网络训练模块:训练数据集加载到网络,经过多个周期的迭代不断自主学习,参数不断得到优化.生成最优网络模型参数,提高识别准确率,降低损失值.网络测试模块:测试数据加载到网络,利用训练过程中生成的最优网络参数对测试数据集进行测试,对网络模型的性能进行检测.
图3 总体设计方案Fig.3 Overall design scheme
图4 网络整体结构Fig.4 Overall network structure
网络整体结构如图4所示,首先选择合理的骨架点遍历顺序进行骨架行为建模,CNN 网络模型对数据进行处理很好的解决了共现信息提取的问题且对于高层信息提取非常出色.提出一种端到端多流卷积网络模型来提取骨架行为特征用于人体骨架行为识别.骨架数据中可能包括多个人,本网络支持多人员行为识别.把原始数据、时间差分和空间差分数据输入多流结构与参数相同的卷积神经子网络,分层提取特征信息最后根据特征图进行多人特征信息融合和分类识别.
骨架序列S 可以表示为五维矩阵N*C*T*V*M 形式,其中N:代表批量样本数,C:通道数,把x,y,z 每一维度作为一个通道.T:样本序列帧数,V:骨架中关节点个数,M:序列中人数.为减小拍摄视角和骨架提取等物理误差等因素对识别结果的影响,针对于人体骨架序列的时空性和共现性等特点,本文采用时域差分和空域差分的方法描述骨架的时空特征,输入CNN(convolution Neural Network)提取骨架的特征信息.时间坐标系下,V 表示骨架集合.一个骨架序列t 时刻的骨架点可以表示为集合Vt,t 时刻的第个i 骨架点表示为原始骨架集合如公式(1)所示:
时域差分集合表示为Mt,如公式(2)所示:
空域差分集合表示为St,如公式(3)所示:
图5 网络模型Fig.5 Network model
骨架数据集V、时间差分数据Mt和空间差分数据St分别输入多流结构与参数相同的卷积神经子网络,第一层卷积的卷积核设为1* 1,第二层卷积核设置为3* 1,对人体骨架点每个三维坐标序列进行特征学习.经过转置变换后通道和关节互换,关节维度变成通道,第三、四层卷积对全部关节点进行特征学习和提取.前四层卷积神经网络并行提取时空特征信息,然后把各子网络特征信息进行合并(采用concat 拼接方法),第五、六层卷积神经网络对合并后的信息进行全局时空特征提取.接着对多人特征信息融合(融合方式有concat/mean/max),经过两个全连接最后进行softmax行为分类识别.网络模型如图5 所示,卷积层:1×1×32 表示卷积核大小1×1,输出通道为32,/2 表示最大池化步幅为2.
实验采用3D 标准骨架行为识别NTU_RGB+D 数据集,NTU_RGB+D 由40 位志愿者三个摄像机在实验室环境下拍摄完成,包括60 种行为5.668 万个样本序列,此数据集有两种评价方式 CS(cross Subject)和 CV(cross View).在 CS 其中20 名人员数据作为训练集剩下的作为测试集,分别包括40320 和16560 个样本.在CV 中摄像机2 和3 拍摄数据作为训练集,摄像机1 拍摄数据作为测试机分别包括37920 和18960 个样本.原始数据、时间差分和空间差分数据输入多流卷积网络模型,研究骨架动作建模方式以及不同的信息融合方式对识别准确率的影响,实验结果如表1 所示.
表1 骨架建模方式以及信息融合方式对识别准确率的影响Table 1 Influence of framework modeling mode and information fusion mode on recognition accuracy
本文对NTU_RGB+D 数据集进行研究,骨架数据可看作相邻关节点存在某种依赖关系的序列.行为的发生是由身体的各个部分互相协调完成,合理的骨架建模方式可有效体现身体各部分依赖关系.如表1 所示,实验数据表明相同信息融合方式的情况下,实验证明骨架动作建模识别相比于原始骨架建模方式识别准确率明显提高.骨架动作建模方式2 略优于骨架动作建模方式1,优于原始骨架建模.信息融合作为网络特征提取的重要部分,合理的信息融合方式可提高识别准确率.由表1 所示,相同骨架动作建模方式下,Max 信息融合方式明显优于Concat 和Mean 信息融合方式.Max 信息融合方式能够有效提取特征信息保持高级特征信息的完整性.
多流卷积神经网络信息融合如表2 所示,网络采用骨架动作建模和Max 信息融合方式.其中原始数据表示为V、时间差分数据表示为M、空间差分数据表示为S.
表2 不同数据的识别准确率Table 2 Recognition accuracy of different data
针对人体骨架序列的时空性和共现性等特点,本文采用时域差分和空域差分的方法描述骨架的时空特征,把原始数据、时间差分和空间差分数据输入多流卷积神经网络分层学习特征信息最后进行时空信息融合并进行检测识别.如表2所示,V+S 相比于原始数据V 在CS 和CV 上准确率分别提高 2.0%和 1.0%,V+M 相比于原始数据 V 在 CS 和 CV 上准确率分别提高了4.8%和5.3%,且V+M 比V+S 准确率分别高2.8%和4.3%,表明时间差分数据相比于空间差分数据包含更多的行为特征信息.V+M+S 准确率相比于V+M在CS 和CV 准确率上分别提升0.6%和0.3%,表明空间差分特征与时间差分特征具有相关性,实验在四种多流网络模型下行为识别的准确率不断提高充分证明了该方法的有效性.
网络采用骨架动作建模和原始数据、时间差分和空间差分信息Max 融合方式,准确率和损失函数值随着训练次数变化曲线图.如图6 和图7 所示,虚线代表训练损失函数值变化和准确率变化曲线,实线代表测试损失函数值变化和准确率变化曲线.当训练次数达到600 时,识别准确率和损失函数值基本保持不变,人体骨架行为识别达到收敛完成识别任务.
图6 损失函数值变化曲线Fig.6 Loss function value
图7 准确率变化曲线Fig.7 Accuracy curve
典型算法性能比较如表3 所示.
表3 经典网络模型比较Table 3 Comparison of classical network models
如表3 所示为NTU_RGB+D 数据集下典型算法实验结果,相比于HCN 网络模型,本文网络在CS 下准确率不相上下,在CV 下准确率提高1.4 个百分点.本文提出的多支流卷积神经网络模型能够有效提取时空共现信息,并进行骨架运动特征融合,对行为识别具有较高的准确率.
本文在原始模型基础上,改变了骨架行为建模方式,增加了空间差分信息和时间差分信息,提出了一种基于多流CNN骨架识别的模型,本识别模型在NTU_RGB+D 数据集上的测试表明该模型的在CS 测试集中的准确率达到86.4%;在CV 测试集中的准确率达到92.5%.
同时也注意到本模型依然存在不足.比如原始数据、空间差分数据和时间差分数据进行融合存在信息冗余现象,且空间差分信息以增加计算量为代价,但对于行为识别准确率提高幅度不大.如何降低信息冗余和进一步挖掘空间差分数据的特征信息,将是我们今后研究的重点.相信随着理论和技术的不断发展成熟,不久的将来一定能得到突破性并在社会中得到广泛应用.