基于视觉的体感交互人体动作识别系统研究

2018-02-02 13:09刘翔宇杨越佳胡令昊李沐鑫张健

电脑知识与技术 2018年1期

刘翔宇+杨越佳+胡令昊+李沐鑫+张健

摘要：基于视觉的体感交互人体动作识别是由图像处理、计算机视觉、模式识别、机器学习、人工智能等多个学科交叉组合而成的研究课题。该文通过采用改进创新的人体检测算法，模板匹配算法，在结合人体目标Meanshift跟踪算法的基础之上，通过模板匹配算法将所提取数据与虚拟环境对应创新人物模型取得关联，从而完成本系统的研究目标，达到人体基本动作识别，人动而虚拟环境模动的效果。

关键词：虚拟环境；体感交互；计算机视觉；人体动作识别

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2018）01-0193-02

随着计算机网络和视频图像采集设备的快速发展和普及，图像已经成为我们日常生活中的重要载体之一，同时图像的数据量呈现爆炸式的增长，时时刻刻都会有数以万计的新内容产生，所以，如何更加准确，更加迅速的获取图像中的各种信息，尤其是人体肢体动作信息以及其他相关领域的研究，就成为了一个亟待解决的关键性问题。

人机交互技术也逐渐从过去以计算机为中心的键盘鼠标交互方式转变为如今以人为中心的新型交互模式，人机交互使得用户自身可以通过肢体动作直接与计算机进行互动，也让我们的计算机能够更加聪明，更加自然地去感知这个世界，本文系统的研究将人机交互技术与计算机视觉领域的图像处理有机结合，通过固定位置的视频图像采集设备，实时获取用户的肢体动作图像数据，通过人体检测，跟踪以及模板匹配相关算法，对所获取数据进行解释分析，以达到人体动作识别基本的功能需要。

1 虚拟环境人体动作识别方法

基于视觉的人体动作识别感应系统相应控制流程如图1所示，分为人体运动目标检测，人体运动目标跟踪，模板匹配以及虚拟环境模拟四个大的部分，目标检测部分采用基于二次连通域处理的人体检测方法，目标跟踪部分采用的是被广泛应用于计算机视觉和模式识别领域的Meanshift算法，图像模板匹配部分本系统采用改进SIFT算法，在虚拟环境交互部分，由虚拟现实引擎，如Denlta3D，Uity3D等对所接收到的人体动作模板匹配数据进行解释，然后发出相应控制命令，实现对虚拟环境的交互控制，达到人动模动，模拟真实用户动作的效果。

2 人体动作感应识别系统原理综述

2.1 图像人体运动目标获取检测

对于图像而言，背景的复杂化会对人体检测产生干扰，如产生图像噪声，图像空洞等，由此本研究应用基于二次连通域处理的人体目标检测算法，整体上先用三帧差法来提取我们研究所需的运动目标，三帧差法公式：

是当前帧对应的像素灰度值大小，满足上式的像素点我们就可以定义为运动的点，其中是算法设定的阈值。

得到二值图像后，对二值图像进行膨胀腐蚀处理，针对腐蚀膨胀而言，转化为集合的运算算法较为简单，在硬件上易于实现的前提下，也更加的适合于并行处理，常常被应用于图像分割，边缘提取以及对二值图像进行细化等，我们不可以忽视的一点是，场合与探针并不一定总是一一对应，同理，结构和运算方法也不尽相同，场合不同，对应的我们设计的结构元素，运算方法也会不同，这也常常是影响待处理图像效果的关键。再就是运用连通域三次扫描标记法等来去除空洞的同时也将断开的区域相应的连接起来，简而言之，三次扫描标记法判断和标记进行的工作就是对各个点进行标记，逐个判断，如果是我们理论意义上的目标点，则查看标记并更新。

那么如何来判断运动目标是我们系统研究所需要的人体，本研究采用的是HOG特征训练分类器，总的来说，它是一种基于梯度，基于边缘的直方图方法，相应的，直方图显示了方块内所有像素方向梯度，考察各个待测窗口，由BLOCK到CELL网格，再将得到的CELL图像梯度投影到各个方向，就能得到我们研究所需的方向直方图，最后将CELL直方图集合起来，再归一化处理，就能得到HOG特征向量。

2.2 图像人体运动目标跟踪

本文系统研究采用的是Mean Shift 跟踪算法，含义也就是我们通常所说的均值偏移向量。时代在进步，Mean Shift也逐渐演变为了一个具体的迭代过程，先通过计算，得到我们当前研究点均值偏移量，以其值大小来变换其位置，再将到达新位置的点作为我们计算中新的基准，继续进行我们的均值偏移的计算。对上述迭代过程进行不断重复，当结果达到我们实验所设定的预设界限时则停止，因为这种方法的核心特性是一种核函数密度估计的无参数估计，所以能够使概率密度沿着相应的梯度方向，高效的收敛。

运用 Mean Shift 算法，首先应当选择适当的目标模型，同时，还要在候选目标区域中，正确的建立起候选模型，再计算上述两种模型的匹配系数，根据结果进行迭代，直到找到新的目标中心为止，达到我们跟踪的目的，流程简述如下：

（1）读入视频，分析得出第一帧中目标模型的直方图和概率密度；

（2）设对象帧的中心为，求它其需要继续深层分析的直方图和模型概率密度；

（3）计算与的相似性系数；

（4）运用迭代算法得到原来目标新的位置中心；

（5）求取（4）获得新点的直方图、和的相似性系数；

（6）当时，令；

（7）若，则循环结束；否則，返回至步骤（2）。

2.3 模板匹配

本系统研究采用的模板匹配算法为改进的SIFT算法，SIFT算法本身包括SIFT特征向量的提取及其匹配两个阶段。

SIFT特征向量的提取包括a.构建尺度空间，检测局部极值点，初步确定特征点的尺度和位置；b.特征点的过滤及精确定位；c.为特征点分配方向值；d.生成特征描述子四大部分。

SIFT 特征向量的匹配：当得到两幅图像的SIFT特征向量之后，以欧氏距离来作为两幅图像的特征点的相似性判定度量，在第一幅图中选择某个特征点，接着遍历搜索第二幅图，找出距离最近的两个特征点，当次近距离除以最近距离达到我们预先设置的阈值要求时，则可认定这是一对成功匹配的点。endprint

当然，为了避免一个特征点与多个特征点匹配的错误情况出现，本研究采用双向匹配算法，提高匹配精度减少错误的发生，这种方法总的来说也是基于SIFT算法的思想，在已经得到的两个特征匹配点集合中，按照与之前方向相反的方式，再次进行一次映射，以此得到基于SIFT的改进算法，相应步骤表述如下：

① 将待匹配的两幅图像特征点全部提出，组成两个特征点集合；

②运用 SIFT 算法，找出待匹配两幅图像之间单方向的匹配点对，并整理成一个匹配点对集合；

③ 同理，按照与之前相反的方式，再进行一次映射，从而找出最终的匹配点对。

3 系统原理检测与结果分析

3.1 人体运动目标检测与跟踪

测试库本系统研究选用的是 Inria 图像库，表1列举了三种方法的前景检出率和误检率，可以看出由于帧间相减会存在干扰的信息，基于单帧差的目标提取在检出率和误检率方面是三种方法效果相对较差的，三帧差法的检出率和误检率由于缺乏后期空洞的再处理，检测结果也相对较差，本文采用的方法在检出率方面明显高于其他两种方法，且误检率在 6%以下，在目标提取检测方法中是相对优秀的。

根据Meanshift 的人体跟踪算法原理流程，本研究选取了室内环境下的视频图像来进行实验测试，相应测试结果如图所示：

根据测试结果显示，对于室内运动目标背景相对简单的情况Meanshift算法表现出了极强的准确性和实用性，与本文所研究系统的功能需求基本符合，视频总帧数与识别出有运动物体的帧数基本一致，在室外运动目标跟踪方面，Meanshift方法也能做到自动选取运动目标跟踪区域，即便出现有部分重合、遮挡的情况，也依旧维持正确稳定的跟踪状态，显示了Meanshift 方法在室外运动目标跟踪应用方面也是一种相对鲁棒的跟踪方法。

3.2 模板匹配

本次实验选取的是具有代表性的图片，如有一定旋转角度的两幅图像，亮度、远近不同的两幅图像，包含与被包含的两幅图像等。

经过实验分析，记录下SIFT及其改进算法总匹配数，错误匹配数以及相应运算所消耗时间（单位：S），具体数据如表2所示：

根据表2数据可以分析出，算法改进后在总匹配数上有一定的减少，但明显降低了图像匹配的误配率，匹配的精度得到了一定程度上的提高，改进后的SIFT算法较原算法而言较长，但总体增加不多，不会影响到实时性要求。

4 结论

本系统在人体动作识别方面具备较好的鲁棒性，同时系统的原理采用的也是在原有技术理论基础之上改进的算法，本身也在性能上有一定的提升，同时也更加满足本系统研究的功能需求，准确性较高，但是实时性有待进一步提高。

参考文献：

[1] 胡琼，秦磊，黄庆明. 基于视觉的人体动作识别综述[J]. 計算机学报， 2013， 36（12）：2512-2524.

[2] 胡琼，秦磊，黄庆明，等.基于特征点轨迹的动作识别[J]. 计算机学报， 2014， 37（6）：1281-1288.

[3] 蔡林沁，张建荣，刘彬彬.基于手势识别的虚拟环境体感交互控制[J]. 华中科技大学学报， 2015， 43（1）：136-139.endprint