基于时域分割的人体行为连续性动作预测仿真

2021-11-17 07:09庄庆华

计算机仿真 2021年5期

李丽，庄庆华

(长春工业大学人文信息学院，吉林长春 130000)

1 引言

人体行为连续性动作预测对人们工作生活有着巨大性的影响力，是医学康复、体育健身、VR娱乐等领域的关键技术[1]。人体行为连续性动作预测成为研究的热点话题。

文献[2]基于LSTM的人体姿态检测方法。制作了包含3336条带有人工标注数据的人体姿态数据集，对行走、奔跑、上楼梯、下楼梯和平静五种日常持续性行为姿态与跌倒、起立、坐下和跳跃这四个突发行为姿态进行预测分类。文献[3]提出基于BSCPs-RF的人体关节点信息行为识别与预测方法，采用局部线性回归与单帧关节点归一化法预处理关节点序列，消除抖动噪声、位移和尺度的影响，采用基于随机森林的行为识别与预测方法，并以集成学习方法优化多分类器组合以提高识别精度。文献[4]提出一种基于人体姿态的时空特征的行为识别方法。首先在获取视频中各帧图像的人体关节位置的基础上，在空间维度上提取每帧图像的关节位置关系、时间维度上计算关节空间关系的变化，二者共同构成姿态时空特征描述子，利用Fisher向量模型对不同类型的特征描述子分别进行编码，得到固定维度的Fisher向量。上述方法关键特征映射点包含范围模糊，存在实时处理速度慢，且错位率较高的问题。因此本文提出一种基于时域分割的人体行为连续性动作预测。提取人体骨架关节特征，对动作特征加以LLE映射，在此基础上预测人体行为连续性动作。

2 时域分割下人体行为连续性动作预测

2.1 人体运动捕捉的框架设计

想要获取目标人体准确、实时数据，就必须建立相应的人体骨架模型，例如人体在三维空间行动时，肢体动作会有一个非常典型的特征弱时空相关性与非线性问题，导致该目标关节数据获取困难，创建关节模型存在的挑战，直接建立的模型也很难达到实验要求，会导致接下来的预测结果出现偏差。基于视觉和检测的人体关节位置标记方式，可有效解决特征弱时空相关性与非线性问题，为特征提取环节打下坚实的基础。

采用几何构建方法创建人体骨架模型。利用点数据或者是通过多边形网络进行提取人体关节点，构建骨骼框架。利用网络模型可准确获得人体行为信息，是人体的活动研究领域关键技术，在这其中包含了准确合理的提取骨架数据信息，以及将骨骼进行连接的关节点等。通过三维人体运功捕捉人体动作，获得人体关节骨骼模型如图1所示。

图1 人体运动捕捉的框架

上图中的人体框架包括了15个关节点，在其中的所有关节点都具有三维数据，通过时域分割确定关节点的位置信息，围绕父节点为始点的坐标系内的x、y、z轴所转动的度数。例如其右臂的转动信息是围绕着其父节点的右后臂为原点的坐标系中的x，y、z轴转动系数，通过这种方法，可以捕捉到人体的运动数据，形成一个矩阵，在矩阵中每行对应着一帧，每列代表着一维[5]。

2.2 动作特征LLE映射

LLE算法是相对于非线性数据的一种全新形降维方式，在进行降维以后的数据还能够保持初始拓扑关系，是局部优化的计算方法，其计算方式非常简单，利用LLE把数据映射进二维空间里，就能够得到低维数据在降维之前的邻域特性[6]。

本文通过时域分割技术将任意关节点都视为映射特征点，完成人体的运动数据特征提取[7]。假设一个输入向量采用LLE的计算方法，获得输出向量。那么LLE的计算方式分成3部分：

图2 LLE算法示意图

1)将所有的样本相邻点进行计算，再距所求样本点最近的点视为相邻最近点[8]。

2)将样本点通过局部重建矩阵进行计算，假定一个误差函数，即

(1)

想要求W矩阵，就得建立一个局部的协方差矩阵

(2)

(3)

而实际的应用中，Qi有可能会是一个奇异的矩阵，这时候就必须将Qi正则化，公式如下

Qi=Qi+rl

(4)

上式中：r代表正则化的参数值，l代表k×k的单位矩阵。

3)把每一个样本点映射进降维后的空间中，并满足一个条件：

(5)

式中：ε(Y)代表函数值损失以后的数值；yi则是xi的输出向量；xij(j=1，2，…，k)则是yi的k相邻最近点，并且要满足以下的公式条件

(6)

式中：I代表m×m的单位矩阵。

其损失的函数可以重新写成

(7)

式中：M代表的是N×N对称矩阵，公式为

M=(I-W)T(I-W)

(8)

想要使损失的函数参数值最少，就需要将Y视为M最少m个非零的特征值，而相应的特征向量在之后的处理过程，把M的特征值从小到大进行排列，其中，将近似为零的最小特征值舍掉后，取得2～m+1之间的特征值相对的向量视为输出结果[9]。

3 人体连续性动作预测

使用时域分割将人体骨架简化，获得关节深度特征信息，并通过LLE获得降维之后的流映射，可以分成3个步骤[10]：

1)把人体骨架上的所有关键特征都视为映射点。任何一个关键点都有深度和平面的坐标，假设人体上有N的关键点，Mi代表任意关键点，而三维坐标是(xi，yi，zi)。所以人体的随意动作都可以代表为3N的向量[11]：其公式为

W=(M1，M2，…，MN)

=(x1，y1，z1，x2，y2，z2，…，xN，yN，zN)

(9)

2)收集人体动作，把所有收集的人体动作按照上文方式进行向量转变，建立动作向量库。

3)将所有采集的动作都按照LLE计算方式降维，在降维后会得到一个低维动作流映射值。

在人体做出随意性动作时，其高维动作反映向量用x表示，确定与向量库中动作相似或者是相同时，就能够对人体的动作进行提前预判，其具体的方法如下所示：

流形的降低维度需要训练样本，首先创建一个人体活动向量矩阵，将这个向量矩阵标记为S。通过以上的方式，设定一个m的值，能够使高维的向量向低维向量映射。通过映射以后的向量矩阵应该标记为s。

采用Kernel Ridge Regression(KKR)计算方法中的回归功能函数

f(x)=YT(K+λIn)-1k(x)

(10)

式中：YT=s，K代表的是一个Gram矩阵，K=k(xi，xj)，xi和xj两者数S中随意的两个向量，In代表的是单位矩阵，λ代表的是单位矩阵系数，k(x)代表x和S中全部向量的核变换向量，采用高斯核函数进行表达，其公式为

(11)

以上，能够完成人体连续性动作向量单一降维，从并省去整体的降维过程，以达到减少数据的计算量的目的。

(12)

4 实验分析

4.1 实验环境

计算机选择Intel Core i7 CPU3.40GHz，RAN 16 GB。实验在Matlab的平台上进行，且没有采用其它额外的并行优化方式。本实验所采用的是IXMS数据集，其中包括了50个视频序列，任何一个序列都包含了2个人体的连续性动作。采集的关节点数据可以通过转换映射到图像坐标系内，图中分别为人体关节点在图像平面和三维坐标空间内的显示效果。

图3 人体动作示意图

4.2 人体动作识别与时域分割效果评估

数据以增量的方式输入，因为动作预测所需的特征信息只能通过已有数据提取，一旦分割之后就不可能再修改与回溯，如果发生误差性的时域分割，就很有可能导致接下来的动作没有办法正确识别与提取，甚至是不能识别。在实验中，其识别率公式为

(13)

表1 不同镜头下的人体动作识别率

依据上表能够看出，人体动作相邻之间的互相干扰非常明显的，总体而言，相对于帧数的层面上，其识别率还是很高的，说明它和什么都不做或者相邻动作之间具有很大的相关性，使分割位置很难被正确找到，相对动作幅度特别大的就很容易分割，其正确率很高。

由图4可以看出，对于连续性的手臂动作，本文方法不仅能对人体的连续性动作进行分割识别，还可以对增量式数据进行处理，时域分割效果优秀。主要原因在于本文方法将任意关节点都视为映射特征点，提取人体的运动数据特征，扩大了人体骨架上的所有关键特征映射点包含范围，提高了实时处理速度，使得分割结果更为快速清晰。

图4 连续手部动作分割结果分析

4.3 人体运动预测的实时性评估

在进行动作预测的时间内，从第一帧人体框架的输入开始，到最后一帧提取结束，在这个过程中，所采用的方法是一直沿着关键帧相对的视频序列来进行回溯，其关键帧对人体运动计算的实时性有着非常大的影响，λ是关键帧计算中影响最大的关键因素，因此在λ值不相同的情况以下，其仿真对程序运算所有序列的计算时间均值如图5所示。

图5 不同λ下的平均时间

根据上图中能够看出，随着λ增大，其关键帧数目就会变小，同时相对计算时间也在缩小。在一个段有1200帧数也就是40s时间的视频序列中，对其运算的时间能够保证在1.2s以下，这就可以保证在进行人体动作的识别的HCI系统中其运行的实时性，其文中将固定λ=2，因其在重复性的实验中，λ在这个层面进行取值时，最为关键的帧数目以及其运行的时间较为稳定，与此同时，它也能够确保较为适中的回溯跨度，可以提高人体动作的识别率。

4.4 人体行为连续性动作预测精度评估

获取准确的人体骨架模型可以增强环境抗性，提供三维数据信息，通过LLE映射下获取预测结果与人体动作向量库数据进行对比，其对比结果如图6所示。

图6 本文方法与向量库动作对比图

通过上图证明：计算获得的预测结果与向量库中人体动作几乎吻合，所以本文方法能够有效的对人体连续性动作进行预测，错误率较低。主要原因在于本文方法将任意关节点都视为映射特征点，建立动作数据库更为全面，提高了连续性动作预测精度。

5 结束语

本文提出一种基于时域分割的人类行为连续性动作预测，通过时域分割对人体骨骼模型进行特征提取，并利用LLE方法对人体的行为动作进行识别，建立向量库，当映射结果一旦与向量库中动作相同或者相识，即实现连续性动作预测。最终通过实验证明，本文方法时域分割效果好，实时处理速度快，可有效对人体行为动作进行预测，且错误率较低。