基于关节点数据关注RGB视频的双人交互行为识别

2022-11-08 13:46田晓欧姬晓飞
沈阳航空航天大学学报 2022年3期
关键词:双人关节算法

田晓欧,姬晓飞,王 昱

(沈阳航空航天大学 自动化学院,沈阳 110136)

随着计算机科学技术的发展,基于视频的人体交互行为识别已经成为研究热点[1]。RGB视频包含人体的纹理轮廓信息,关节点数据包含人体的三维骨架位置,二者既相互关联又存在互补特性,这引起了智能监控系统等领域研究者的关注,并将其引入双人交互行为识别的研究中[2]。

基于RGB视频的双人交互行为识别多以提取兴趣点或局部描述符的方法开展[3-4],也有一些研究者引入长短期记忆网络对运动信息进行时序建模[5]。基于RGB视频的双人交互行为识别可以表达出双人交互的外观信息和运动信息,但是由于遮挡等问题,识别算法对于视角的适应性较差。Kinect设备的推广使基于关节点数据的双人交互行为识别算法大量涌现[6]。关节点数据可以记录每个人关节的运动信息和双人关节之间的交互信息[7-9]。针对基于关节点数据的双人交互行为识别的研究,有学者对关节点的时空信息进行图像编码化后再进行学习识别[10-11];也有学者利用长短记忆网络对关节点数据的空间特征进行学习[12-13]。基于关节点数据的双人交互行为识别,能够较好地处理遮挡问题和交互问题,但是由于关节点数据无法表示外观信息,也会导致部分运动信息的缺失。基于RGB和关节点数据融合的双人交互行为识别算法大多针对不同数据源分别提取特征建立模型,再进行决策级融合给出识别结果[14-16]。总的来说,目前基于关节点数据和RGB视频融合的研究方法为提高复杂环境下的双人交互行为识别的准确性提供了可行的解决方案[17-18],但是两种数据源的异构形式导致其融合框架十分单一,决策级的融合方式往往会丢失大量有用信息。

根据以上分析,本文提出一种新的基于关节点数据关注RGB视频的双人交互行为识别框架。该框架利用RGB视频得到RGB运动特征,根据关节点数据得到关节点关注特征,将关节点关注特征与RGB运动特征给合,得到关节点关注运动特征图。该框架设计的关节点关注运动特征图充分利用RGB视频的外观轮廓信息和全局运动特征的表征能力,并利用关节点数据的三维位置信息求得局部运动属性,以补充RGB视频不易获得的深度维度信息问题。两种信息源数据实现了特征级的有效融合,提高了复杂环境下双人交互行为识别的准确性。

1 算法框架设计

基于关节点数据关注RGB视频的双人交互行为识别算法框架如图1所示。

图1 算法识别框架

本文利用RGB视频和关节点数据两种数据源的融合实现双人交互行为识别,该数据源由微软Kinect v2传感器采集得到,其与普通相机相比的独特之处在于其使用TOF(Time of Flying)技术获得景深数据从而生成深度图像,深度图像的每个像素数值都代表Kinect 距离此像素实际对应区域与相机的深度距离,因此 Kinect 能够直接输出三维空间信息,即关节点数据。本文算法具体实施步骤如下:首先通过RGB视频获取RGB运动特征,利用帧差法获得人体外观剪影,得到RGB运动特征图;然后通过关节点数据计算关节点关注特征,根据关节点位置信息计算关节点运动速度方差,较大方差所对应的关节定义为主要运动关节;再对二者得到的特征融合,将主要运动关节在RGB运动特征图上以颜色矩形框的形式关注,得到关节点关注运动特征图,再根据时序关系拼接为基于RGB视频的关节点关注运动特征图,送入CNN网络提取深层特征,并在全连接层得到最终识别结果。

2 基于RGB视频的关节点关注运动特征图构建

关节点数据为三维位置信息,包含人体关节点的X、Y、Z坐标;RGB视频为二维彩色图像信息,包含每个像素点的X、Y坐标和对应的颜色信息。本文通过RGB视频获得RGB运动特征,通过三维关节点数据获取关节点关注特征,提取其主要运动关节,根据主要运动关节对应的X、Y坐标,在RGB运动特征上利用颜色矩形框进行标记,得到关节点关注运动特征图。此矩形框标记的位置由关节点关注特征得到,所以将三维的关节点关注特征和二维的RGB运动特征结合,能够有效改进关节点数据缺乏外观特征和RGB视频缺少三维特征的缺陷,恰好体现了二者特征的互补性。

(1)RGB运动特征获取:通过帧差法获得动作执行者的运动属性,得到RGB运动特征图。如图1c所示,对RGB运动特征图的背景部分进行了较大程度的弱化,前景部分也进行了相应突出。同时,RGB运动特征较完整地保留了双人交互的运动属性,并以颜色深浅度的形式展现。

(2)关节点关注特征获取:利用关节点所在位置计算关节点运动幅度,分析主要运动关节。首先计算关节点运动速度,关节点运动速度是帧间关节点三维位置信息变化的快慢。具体计算公式如式(1)所示

(1)

(2)

(3)

其中:vij为第i个动作执行者的第j个关节的运动速度平均数;sij为第i个动作执行者的第j个关节的运动速度方差。最后,按关节点运动速度方差大小排列,将排在前k(1≤k≤J)个的关节定义为动作执行者i的主要运动关节,其余为非主要运动关节,k为可调参数。

(3)关节点关注运动特征图构建:Kinect v2传感器可以提供几乎同步的RGB视频和关节点数据。首先根据时间关系将关节点数据与RGB视频对齐,得到人体运动的最大矩形框。然后在主要运动关节所在位置画出颜色矩形框,突出主要运动部位。颜色矩形框勾画方式为:依据关节点标记的位置,在其邻域矩形内利用颜色加权的方式对像素逐个进行标记。其中q=0为左右两位动作执行者颜色矩形框的颜色相同;q=1为颜色不同,矩形框边长为l cm。关节点关注运动特征图如图1e所示。

(4)基于RGB视频的关节点关注运动特征图构建:每个视频平均提取9帧作为关键帧,拼接为包含9帧的基于视频的关节点关注RGB特征图,如图1f所示。

图2为不同动作的原始数据、RGB运动特征和关节点关注运动特征的对比图。

图2 不同动作的特征对比图

把图2的原始数据与RGB运动特征图和关节点关注运动特征图进行对比,RGB视频的帧差计算有效表达双人交互运动的全局运动趋势,而主要运动关节的突出表达则由关节点数据关注求得。

3 深层特征提取

由RGB视频和关节点数据得到底层图像特征,该特征反应双人交互行为的运动趋势和主要运动部位。为提高识别的准确率,引入具有局部感知和参数共享特性的卷积神经网络,提取双人交互运动的深层特征,并在全连接层得到识别结果。基本结构框图如图3所示。

图3 CNN基本结构框图

本文选用具有局部感知和参数共享特性的VGG19网络,将基于RGB视频的关节点关注运动特征图送入VGG19网络进行卷积池化操作得到深层特征,并在全连接层得到识别结果。VGG19网络参数设定如下:激活函数为softmax;调整学习率为0.001;在全连接层加入值为0.3的dropout函数防止过拟合;利用回调函数监测模型损失值,当监测值不再改善时,该回调函数将终止训练。

4 实验结果分析

本文提出了一种基于关节点关注RGB视频的双人交互行为识别算法,为了充分证明算法的有效性和合理性,对实验结果进行测试。实验环境为windows系统,显卡版本为NVIDIA GeForce RTX 2070,并使用GPU处理器在Tensorflow平台中的Keras框架下对深度卷积神经网络进行训练和学习,软件平台为python3.7。实验在NTU RGB+D数据库下进行训练与测试,由含有60个动作类别的56 000多个视频样本组成。本数据集有两种评估模式,分别为改变受试者(Cross Subject,CS)模式和改变视角(Cross View,CV)模式。本文选用11种双人交互动作的类别和CS评估模式来进行测试。训练集和测试集按照8∶2的比例进行实验,迭代100次得到识别结果。

4.1 最优参数设定

对关节点关注运动特征图的可调参数主要运动关节个数k、颜色矩形框的颜色q和颜色矩形框边长l进行测定。实验结果如表1所示。

表1 最优参数测定表

根据实验结果可知,实验5取得了较高的识别率,此时关节点关注运动特征图的参数设定为:每个动作执行者的关节点关注个数为2个,双人之间颜色矩形框的颜色为不同颜色,颜色矩形框边长为8 cm。

4.2 实验结果对比分析

为了进一步验证该算法的有效性,将未利用关节点关注的基于RGB视频的运动特征图和利用关节点关注的基于RGB视频的关节点关注运动特征图在NTU RGB+D数据库下做训练测试,对比分析关节点关注对识别结果的影响。二者混淆矩阵如图4所示。

图4 混淆矩阵对比图

分析以上动作可知,VGG19网络下,偷窃、靠近和远离动作达到了100%的准确率,对于未利用关节点数据关注时不能较好分辨的指和拍、传递和握手等相似动作,利用关节点关注都有了不同程度的提升。因此,合理利用关节点数据对RGB运动特征进行关注,可以加强运动特征的表达,从而提高双人交互行为识别的准确率。

4.3 与其他算法对比

为了验证本文提出模型的有效性,将本文实验结果与其他方法在NTU RGB+D数据库下进行实验的结果对比,如表2所示。

表2 本文模型与其他模型算法结果对比

本文提出的算法优于大多数文献的识别方法,包括单独使用关节点特征识别方法[11]、结合关节点数据和RGB视频的双流识别方法[16]及关节点数据引导RGB特征的SGM-Net识别方法[18]。本文提出算法不仅具有有效性,且框架简单,实用性强。

5 结论

本文结合RGB视频和关节点数据的各自特点,利用三维关节点数据加强对RGB运动特征的关注,以突出主要运动部位,RGB视频缺失的三维运动信息由关节点数据补充,关节点数据缺少的外观轮廓信息由RGB视频弥补,恰好形成互补作用。本文提出的基于关节点数据关注RGB视频的双人交互行为识别统一框架,在国际公认的NTU RGB+D数据库进行训练和测试,结果均表明本算法具有较好的迁移性和实时性。

猜你喜欢
双人关节算法
膝盖经常咔咔响,小心“关节鼠”
膝盖有异响 警惕“关节鼠”
中国第一个双人滑冰世界冠军
———申雪、赵宏博
关节才是关键
Travellng thg World Full—time for Rree
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
“双人运球”乐翻天
The Rarest Medal in the Olympies