王潇齐 刘铭原 孙宜帆 崔钰涵
摘 要:针对机器人视觉领域中的人体行为识别存在的行为识别正确率低的问题,提出一种基于改进稠密轨与 Fisher向量编码的人体行为识别方法。首先利用改进稠密轨对视频中的人体行为特征进行提取,再计算速度特征及方向角,最后基于Fisher向量编码对不同的人体行为轨迹特征进行量化和识别。通过对比实验证明,该方法与传统人体行为识别方法相比,大幅提高了正确识别的目标数量,可有效抑制外界环境因素对识别结果造成的影响。
关键词:改进稠密轨;Fisher向量编码;人体行为识别;特征提取;量化;稠密光流
中图分类号:TP393;P407.8文献标识码:A文章编号:2095-1302(2020)09-00-03
0 引 言
人体行为识别是计算机视觉领域中一项十分重要的内容,被广泛运用在安全防盗、人机交互、视频分析等领域中。互联网技术、移动终端设备技术的快速发展使得人体行为识别在丰富人们日常生活的同时也为人们提供了安全保障[1]。人体行为识别通常是由行为特征的提取和特征量化、分类等部分组成。与传统的二维图像对静止物体进行识别不同,人体行为识别的研究内容更加注重如何获取被识别目标对象在连续视频帧当中时空运动上的变化情况。目前现有的局部提取特征的人体行为识别方法存在一定误差,主要原因在于人体在运动过程中的复杂性,以及拍摄视频的设备抖动、视频分辨率低等外界因素的影响[2]。对此本文提出一种基于改进稠密轨与Fisher向量编码的人体行为识别方法。轨迹是人体行为识别中最常见的时空特征,用于描述同一特征点在某一段时间当中的变化情况。Fisher向量是同一人体行为中不同方向上的分布轨迹特征差异。
1 基于改进稠密轨与Fisher向量编码的人体行为识别方法
1.1 基于改进稠密轨的人体行为特征提取
采用改进稠密轨道提取的方法对人体行为特征信息进行提取,具体步骤:在源视频播放过程中,对视频中的每帧进行随机样本提取,再通过稠密光流场对人体行为的位移信息采样点进行跟踪[3]。通常情况下,稠密轨迹提取分为稠密采样、采样点过滤、稠密光流提取以及特征点跟踪。
稠密采样的目的在于确保人体行为特征点在空间及尺度上符合稠密覆盖,对源视频的每帧图像按照一定比例进行降尺度处理和等间隔采樣,从而获取对应的稠密采样点。采样点过滤操作的目的在于筛选出具有显著特征的采样点,从而进一步降低后续采样点跟踪时的计算难度,采用人体行为特征准则对采集的样本点进行过滤[4]。首先计算出采样点的自相关矩阵和矩阵对应的特征数值,再比较出最小的特征值与事先预设的阈值之间的关系,其表达式如下:
式中:A表示自相关矩阵;T表示设定的阈值;I表示采集的某一特征点;(γ1, γ2)表示特征点I的特征值。通过上述公式计算得出的最小特征值大于阈值,则说明该采样点为显著特征采样点,可保留用于后续追踪;反之,最小特征值小于阈值,则说明该采样点不具备显著特征采样点的要求,应过滤。
根据稠密光流的计算方法,对每个运动视频进行提取稠密光流处理,利用多项式扩展建立源视频帧图像间的运动函数,再将相应参数添加到函数中计算轨迹点的运动位移,其中多项式扩展的表达式如下:
式中:y(d)表示视频第i帧图像上某一像素点的邻域像素值;d表示某一像素点;Pi表示对称矩阵;Mi表示向量;Ni表示标量。通过视频中人体行为的不断位移变化,可依次获取第i+1帧图像对应的多项式,若Pi为非奇异矩阵,则根据二次多项式系数相同的原则,求解相应的位移变化量。重复上述计算,得到源视频中所有人体行为变化对应的像素点的稠密光流。
特征点的跟踪可看作是一个特征点连续配对的过程,在已知特征点坐标的情况下,利用本文上述计算方法提取稠密光流,再计算该点在源视频中后续相应帧的位置,完成对特征点的跟踪[5]。在跟踪过程中可适当添加中值滤波器,用于对边界处的轨迹特征点进行跟踪,从而使其不被重新配对。当完成本文上述的所有环节后,得到一个完整的轨迹点。再将其平滑曲线串联,得到一条具有一定长度的轨迹[6]。在实际计算过程中会出现轨迹点偏离初始位置的问题,因此在形成轨迹前,还需设定一个位置偏移的取值范围,当出现轨迹点跳变时,排除该轨迹上的所有已经获取的轨迹点,并重新对特征点进行跟踪。
1.2 速度特征及方向角计算
在获取了轨迹点坐标的基础上,计算人体行为的速度特征及方向角,之后对每条特征轨迹进行运动方向变化的Fisher向量编码,并将归一化处理后的码字频数生成为对应的轨迹运动方向变化图,最终将速度特征与轨迹运动方向变化图组合得到轨迹形状特征,流程如图1所示。
由于正切函数在区间内单调递增,因此通过斜率的计算可以求出轨迹点瞬时运动的方向和相应的夹角。
1.3 基于Fisher向量编码的不同行为轨迹特征量化
通过对源视频中跑、慢跑、走、弯腰、原地纵跳等多种不同人体运动行为轨迹分析得出,同一种人体行为在不同方向上的运动轨迹具有不同的凹凸性,且稠密轨迹也存在较大的区别[7]。其中,在人走和跑的过程中,稠密轨迹主要沿着与地面水平的方向运动,其轨迹在水平方向上的变化与在其他方向上的变化更加明显;而当人在弯腰和原地纵跳的过程中,稠密轨迹主要沿着垂直于地面的方向运动,其在垂直地面方向上的变化与在其他方向上的变化相比更加明显[8]。因此,在对人体各行为的凹凸性进行识别时,需要将时空当中的轨迹投影到垂直于地面和平行于地面的两个平面上,再分别计算各平面上轨迹的特征,由此得到在不同方向平面上的轨迹运动信息,使得到的轨迹形状特征更具有判别性[9]。同时为了保证在处理过程中尽可能降低人体行为特征信息的丢失,基于Fisher向量编码对不同行为轨迹特征进行量化。具体量化步骤如下:
(1)对训练样本集中的多个不同的源视频分别提取稠密轨迹,并生成对应数量的轨迹;
(2)将时间与空间中的轨迹分别投影到垂直于地面和平行于地面的平面中,得到两个方向上的平面轨迹,再分别计算出各方向上的轨迹特征;
(3)沿多条轨迹搜索,并重复步骤(2),获得在不同方向上的轨迹特征集合;
(4)判断轨迹特征集合是否符合高斯分布,若符合则可建立由高斯单元线性组合成的高斯混合模型,之后再根据高斯混合参数计算得出对应的参数集,若不符合则重复步骤(3);
(5)根据参数集生成源视频中在两个方向上的轨迹Fisher向量;
(6)将步骤(5)的向量联合起来得到源视频中对应的复合向量,再对Fisher向量进行编码,完成对轨迹特征的量化和编码。
本文选用Fisher向量编码的形式对源视频中人体行为的运动趋势进行识别。将上文得到的轨迹点在某一时刻的前后运动方向看作一个整体,通过比较运动方向角之间的大小关系得出在该时刻源视频中人体行为的运动方向变化情况,并用Fisher向量编码表示[10]。本文Fisher向量编码的规则见表1所列。
表1中:αt表示某一时刻t的运动方向夹角;αt-1表示时刻t的前一时刻运动方向夹角;αt+1表示时刻t后一时刻的运动方向夹角。根据表1可知,Fisher向量编码由2位二进制码字组成。其中第1位编码代表某一时刻t与其前一时刻的运动方向角之间的大小比较结果;第2位编码代表某一时刻t与后一时刻的运动方向角之间的大小比较结果。因此,Fisher向量编码共有00,01,10,11四种不同的编码结果,根据编码对应的人体行为完成对源视频中人体行为的识别。
2 实验论证分析
2.1 实验准备及过程
本文对比实验将BNC B20 6400K作为实验硬件平台,其主频为4.8 GHz。实验软件平台为Windows 2019。在实验平台中添加两组5个源视频组成完全相同的视频集,视频集中的数据分别为数据集上慢跑、跑、走和纵向跳跃,四种运动轨迹差异较大的行为多次出现在视频中,并将其作为实验对象。其中5个源视频选用传统人体行为识别方法,并将其设置为对照组;另外5个源视频选用本文提出的基于改进稠密轨与Fisher向量编码的人体行为识别方法,并将其设置为实验组。同时,设置实验组在稠密采样过程中的降尺度比例为1/4,尺度数为16,各层图像中的稠密采样间隔為4;在轨迹跟踪过程中,每帧间的位移不超过2像素或剔除掉超过15像素的轨迹。为了保证实验结果的客观性,实验组严格按照本文提出的各环节的具体步骤操作,对照组严格按照传统人体行为识别方法的操作步骤完成识别。
2.2 实验结果及分析
记录实验结果,包括人体行为源视频编号、正确识别人体行为个数等,并将实验结果绘制成如图2所示的实验组与对照组实验结果对比图。
从图2中的各项数据可以看出,在对5个不同源视频进行人体行为识别过程中,实验组的正确识别个数明显高于对照组的识别个数。因此通过实验可以证明,本文提出的人体行为识别方法将改进稠密轨与Fisher向量编码融入其中,考虑到了在不同时刻轨迹上人体行为局部运动信息之间的关联性问题,可以更好地将轨迹局部的运行趋势利用编码表达出来,体现了不同轨迹之间的凹凸特性,进一步提高了对源视频中人体行为识别的准确率。因此,本文提出的人体行为识别方法更适用于在计算机视觉领域中对视频中的运动行为进行识别。
3 结 语
本文通过对人体行为识别中的轨迹特征描述和轨迹特征量化进行深入研究,基于改进稠密轨与Fisher 向量编码,提出一种提高识别正确率的方法。通过对比实验进一步验证了该方法的有效性。结合本文方法存在的不足之处及当前人体行为识别研究中存在的难点问题,在后续的研究中还将对以下几方面的问题进行研究:影响人体行为识别结果的关键因素;不同相机、不同拍摄角度下的行为轨迹特征融合以及降低行为识别算法的复杂程度等,希望通过更加深入的研究将人体行为识别方法更多的应用于实际生活中。
参考文献
[1]鹿天然,于凤芹,陈莹.一种基于线性序列差异分析降维的人体行为识别方法[J].计算机工程,2019,45(3):237-241.
[2]邹小武,盛蒙蒙,毛家发,等.一种用于人体行为识别的CNN-BLSTM模型[J].小型微型计算机系统,2019,40(11):2313-2317.
[3]谢国亚,刘宇,路永乐,等.基于MEMS惯性传感器时域特征的人体行为识别[J].压电与声光,2019,41(2):221-224.
[4]张烈平,匡贞伍,李昆键,等.基于加速度传感器和神经网络的人体活动行为识别[J].现代电子技术,2019,42(16):71-74.
[5]杨丰嘉.基于Log-Euclidean词袋模型与基于Stein核稀疏编码的人体行为识别算法的优化与改进[J].科技创新与应用,2019,36(35):10-11.
[6]王华华,黄龙,周远文,等.改进的mRmR特征选择方法在人体行为识别中的应用[J].重庆邮电大学学报(自然科学版),2019,31(2):261-269.
[7]莫宇剑,侯振杰,常兴治,等.面向行为识别的人体空间协同运动结构特征表示与融合[J].北京航空航天大学学报,2019,45(12):2495-2505.
[8]石英,孙明军,李之达,等.基于运动历史图像与卷积神经网络的行为识别[J].湘潭大学学报(自然科学版),2019,41(2):109-117.
[9]郭明祥,宋全军,徐湛楠,等.基于三维残差稠密网络的人体行为识别算法[J].计算机应用,2019,39(12):3482-3489.
[10]田联房,吴啟超,杜启亮,等.基于人体骨架序列的手扶电梯乘客异常行为识别[J].华南理工大学学报(自然科学版),2019,47(4):10-19.