李韵 邓晓军 李涛哲 贺迅宇
摘要:目前人体行为识别是视频分析领域的研究热点,准确有效的人体行为识别的关键是动作时序建模和特征表示。该文归纳了人体行为识别常用的数据集,对人体行为识别表示方法进行了全面的回顾,并介绍了人体行为识别研究的最新方法,包括RGB和深度数据中手工设计的动作特征的进展,基于深度学习的时序表示方法的最新进展及当前研究的热点。最后总结了目前待解决的问题,对未来行为识别可能的发展方向进行了论述。
关键词:人体行为识别;深度学习;动作特征表示;数据驱动;视频分析
1引言
人体行为识别具有广泛的应用,例如智能視频监控、视频存储和检索、医疗康复、人机交互等。人体行为识别根据采集到的视频时间序列数据来分析,在计算机视觉和机器学习领域,这也是一个具有挑战性的问题。目前,人体行为识别中有许多关键问题尚未解决。
视频是时域上有序图像的集合,其独有的时域相关性可以缩小很多视觉问题的搜索空间,鲁棒的人体动作建模和特征表示是人体行为识别的关键,也是视频领域和机器学习中的经典问题,图1是动作识别的原理框图。近年来,已经提出了多种时序建模方法,包括基于关键点跟踪的轨迹特征,基于时空变化的局部和全局特征提取,基于深度信息的运动变化等。传统的表示依赖人工设计,通用性差,近年新兴的深度学习则能实现一定程度的自动学习,许多研究人员也将深度学习应用于视频领域人体行为识别。然而视频的特征学习研究刚起步,大部分算法移植自图像领域,尚不能有效利用视频特有的时域相关性先验。丰富的视频数据使得行为分析有更好的扩展性和灵活度,对这些人体行为识别方法进行调查是非常有意义的。
本文从数据集开始介绍,总结了许多近期的工作,将动作分类方法概括为基于手工特征的方法和基于特征学习的方法,这些方法可以应用于不同类型的数据。
2 数据集
在计算机视觉领域中,有许多数据集可用于评估人体行为识别算法性能。最先开始人体行为识别主要是识别一些比较简单的视频,这样的视频称为实验室拍摄的视频,如跑步、拍手等,这类数据的背景都比较干净,代表数据库有KTH,Weizmann等;Hollywood和UCF Sports数据库是基于电影或者电视节目,因为电影都是由专业的设备拍摄的,所以视频质量都比较高;HMDB51、UCF101等数据库是对网络端的视频进行识别,这类数据的差异性非常大,通常是用户根据自己的手持设备拍摄进行上传的,因此这类数据的复杂程度往往是最高的。
基于深度学习的方法比基于手工特征的方法具有更好的识别性能,通过将深度学习方法用于动作特征学习,行为识别精度得到了显著提高。在这些RGB数据集中,HMDB51和UCF 101最常用于评估所提出的方法,几乎所有基于深度学习的最新方法的研究都使用这两个数据集来验证算法的有效性,UCF101数据集的识别精度已超过98%,但是HMDB51尚未达到等效精度,表1列出了人体行为常用二维数据集,注意到Kinetics数据集是用于人体行为识别的新的且更具挑战性的数据集。
二维数据并不能很好地解决人体行为存在的自遮挡等问题,而三维数据对自遮挡的信息得到了补充,但这使得数据集变得复杂,处理也变得相对困难。由于计算机硬件的发展,微软Kinect等设备的出现,使得三维数据更容易采集和处理,表2列出了常用的三维数据集。
与RGB数据集相比,基于深度学习的方法在RGBD和骨架数据集上的应用较少,造成这种情况的主要原因之一是这些数据集规模较小。然而,随着大规模且具有挑战性的RGBD和骨架数据集的发展,例如NTURGB + D数据集,基于深度学习的深度和骨架数据方法已成为人体行为识别领域的主要研究主题。
3传统方法
传统方法主要是人工提取特征,旨在捕获视频中表示动作的人体运动和时空变化,RGB数据和深度数据有各自的特性和优势,不同数据有不同的建模方法。
3.1基于RGB数据
基于时空体积的方法是应用模板匹配技术,这些方法的关键是使用时空模板并基于该模板执行有效的匹配。这是最早的人体行为识别方法,主要方法有二维全局特征提取,MEI(运动能量图像)和MHI(运动历史图像)使用帧差法检查像素点运动并分别通过二值化和灰度化生成,包含有关视频上下文的有用信息。Blank等人提出MEI模板的体积扩展,通过视频序列中的剪影信息得到3D时空体(STV),如图2所示。当相机固定时,这些方法可以使用背景差分得到人体剪影来获取人体轮廓等形状信息,然而在复杂的场景和相机运动的情况下,难以获得准确的剪影和轮廓,并且在人体被遮挡时不能识别出准确的外观信息。而局部特征不依赖底层的人体定位和跟踪,对人体外观变化和遮挡等问题也不是很敏感,因此在行为识别中局部表示方法更多。
基于STIP的方法从视频中提取局部特征点来表示动作,STIP中的“兴趣点”的检测发生在视频运动突变时,所以当人体进行直线或匀速运动时这些特征点就很难被检测出来。Laptev将Harris空间兴趣点扩展到3D Harris,检测时空的局部结构,局部特征提供旋转不变性,在光照变化下保持稳定,并且比其他方法具有更强的遮挡力,但是在背景运动和相机运动的情况下,基于局部时空特征的方法会生成许多背景特征点,并且物体的运动估计会产生较大的误差。
时空特征点在时间延伸下可能并不位于相同的空间位置,因此提取到的特征并不一定描述兴趣区域,而轨迹特征追踪给定坐标图像沿时间的变化,使用人体骨架的关键点的跟踪路径来表示动作。基于轨迹的经典行为识别方法是Wang等人提出的改进的密集轨迹(iDT),运动描述子(主要指HOF和MBH)能更准确的描述动作,使描述子更准确地描述人体运动。这种方法可以克服视角的变化,然而需要精确的二维或三维人体骨架模型及关键点的精确跟踪,同时人体动作建模和跟踪仍然是计算机视觉领域的一个难题。
3.2基于深度图像与骨骼数据
与基于RGB视频的人体行为识别不同,骨骼数据仅包含人体关键点的2D或3D坐标提供了高度抽象的信息,并且没有环境噪声(例如光照、衣着),使得行为识别算法能够专注于动作的鲁棒特征。随着深度传感器在行为识别中的应用,使用深度数据已经展现了良好的行为识别性能。
基于深度序列的方法主要使用人体深度图中的运动变化来描述动作。Yang等人提出的深度运动图(DMM),从正面、侧面和俯视面投影来压缩时空深度结构,形成三个运动历史图,然后用HOG特征表示这些运动历史记录图,并将生成的特征连接起来描述动作。基于骨架的行为识别方法是使用深度数据进行研究的另一个活跃领域,其方法利用视频帧之间人体关节的变化来描述动作。Xia等人从Kinect深度图中提取3D骨骼关节位置,如图3所示,并使用该3D关节点直方图表示人体姿势,从不同角度获得关节点之间的对应关系提取更多的鲁棒特征。基于深度信息的方法比基于RGB的方法能够实现实时的动作识别和更好的识别性能,尽管深度数据可以更准确地描述人体的运动特征,但RGB的数据外观信息丰富,因此一些研究人员还尝试使用多特征融合对人体行为进行建模。
Chaaraoui等人尝试融合关节特征和深度信息特征,降低因遮挡和视角变化而错误提取骨架特征。基于数据融合的方法试图保持多种数据模式间的特性来获得更好的特征表示,大多数基于多模态数据融合的方法可以提供更优的识别结果,但同时这意味着需要处理更大的数据量,使得算法的计算复杂度增加,多模态数据的有效组合仍然是人体行为识别和深度学习中的未解决问题。
4深度学习方法
深度学习在多层神经网络的支持下,逐层地把视频从原始的像素空间变换到高层特征空间,能自动学习视频表示,不需要人工介入,从效果来讲,一般优于传统方法,在人体行为识别领域,深度学习方法已得到广泛应用。
4.1 RGB数据驱动方法
在人体行为识别的研究中,关键且具有挑战性的一个问题是如何表示视频时间维度上的特征,基于RGB视频数据的深度学习方法根据时序建模方式的不同可分为基于双流结构的方法,基于3D卷积的方法和基于LSTM的方法。
Tran等人[7]探讨了一个新的3D CNN结构,直观来讲视频信号与二维图像不同,是一种三维的信号,因此简单的做法就是把二维CNN进行三维的扩展,它从视频中同时学習空间和时间信息,效果优于二维CNN。而大多3D卷积是基于片段的方法,并没有考虑视频级的时空特征变化,Zhang等人提出了视频级四维卷积神经网络(V4D),利用四维卷积来建模长距离的时空变化,同时利用残差结构来保存三维时空特征。
双流网络的输入是单帧图像和多光流帧图像堆叠,在双流网络中光流根据图像序列计算得到,相比之下,3D卷积网络将视频视为三维时空结构,并使用3D卷积方法学习人体行为特征,从结果上来看,双流网络的效果更好一些,然而光流需要消耗大量的计算资源。有许多研究尝试改善这两种网络结构的性能。双流卷积网络的一些代表性扩展包括,Wang等人详细讨论了双流网络的输入、卷积网络结构和训练策略,引入分段和稀疏采样的思想,提出时序分割网络(TSN),如图4所示,进一步改善了双流网络的结果。Feichtenhofer等人提出了SlowFast网络结构,Slow路径以低帧率运行捕获空间语义信息,Fast路径以高时间分辨率捕获快速变化的运动信息,这种快慢结合的双路径通过侧向连接(lateral connection)进行融合,考虑了时间维度上不同速度对时空信息捕捉的影响。
上述基于卷积神经网络的模型一次仅能处理有限少量的视频帧,而LSTM可以很好地对长序列结构建模,基于LSTM的方法则将视频视为帧的有序序列,并通过每个帧的特征变化来表示人体行为。Ng等人用LSTM将卷积网络输出的帧级特征聚合成视频级,获取更全局的视频时序信息。由于3DCNN输入是固定的片段,不能像LSTM一样建模全视频,复杂度也较高,但是却相比单纯CNN与LSTM的组合效果更好,时间卷积很好地捕捉了视频中的时序信息,将3DCNN与LSTM组合也是一个很好的策略。
4.2 深度数据驱动方法
深度学习方法可以从各种形式的数据中学习人体动作特征,传统的RGB数据容易受环境、衣着等无关行为的因素影响,深度数据给行为分析研究带来不少便利。
传统的DMM无法很好地展现三维运动特性且倾向于忽略外观信息,Wang等人使用时间秩池将深度视频中的3D运动信息紧凑地编码为常规体素集(3DV)建模三维空间和运动特征,然后将3DV抽象为一个点集,并端到端地输入点云网络中以进行3D动作识别。人体3D骨架数据是自然的拓扑图,而不是基于RNN或CNN方法处理的序列向量或伪图像,因此最近很多研究将有效表示图形结构数据的图卷积网络(GCN)应用到骨架行为识别任务。Yan等人首次提出了时空图卷积网络 (ST-GCN),使用面向图的卷积网络(GCN)来建模带有图的骨架关节之间的基本关系,如图5所示,其中每个节点对应于人体的一个关节,将人体连通性和时间作为图的边。
然而,深度传感器的准确性和成本意味着基于深度和基于骨架的行为识别方法目前仅适用于有限范围内和特定环境中。如基于结构光和基于TOF的深度传感器很容易受到光线的影响,在室外环境中误差较大且精度较低。此外,还有其他可用于测量深度的传感器,例如激光扫描仪,但是这些设备价格昂贵,不适合用于视频监控和家居监控。
4.3 无监督方法
除了上述数据驱动的监督方法外,还有一些比较优秀的新方法延伸到视频领域,特别是一些无监督方法的出现。无处不在的视频中含有丰富的动态结构信息,很自然想到将视频数据作为强大的无监督学习信号进行视觉表示,然而大规模视频数据的实现仍是人工智能的重大挑战。Zhuang等人提出了视频实例嵌入(VIE)框架,如图6所示,在视频中学习视觉嵌入,使得在嵌入空间相似视频距离近,而无关视频距离远,在大规模视频数据上进行训练时VIE可以为行为识别和图像分类提供强大的表示,他们得出同时具有静态和动态处理路径的两路径模型是最佳的。
视频领域的弱监督/无监督学习才刚刚开始,由于无须人工标注或少量标注,具有很大应用价值,是未来非常值得研究的方向之一。但是由于效果没有标注的监督方法好,未来会有很多新方法延伸到视频分析领域,以解决目前存在的问题。
5 结束语
在行为识别研究中,选择合适的数据来捕获动作至关重要,对于动作特征学习问题,基于深度学习的方法具有出色的性能,但诸如人体姿势的多样性和复杂性、遮挡和背景杂乱之类的混杂因素,意味着真实场景中的人体行为识别仍然具有挑战性,除了要解决以上难题,行为定位和多模态信息融合也是未来发展方向。视频本身有一个很好的特性就是多模态,有图像有运动,乃至于还有一些文本信息,怎样用一些文字信息与RGB结合起来做自监督或者弱监督的学习是发展趋势。同时不同应用场景具体的应用框架都不是很成熟,一个具体的应用场景开发一款比较成熟的框架也是一个比较重要的研究方向。
参考文献
[1] 陈煜平,邱卫根.基于视觉的人体行为识别算法研究综述[J].计算机应用研究,2019,36(7):1927-1934.
[2] Gorelick L,Blank M,Shechtman E,et al.Actions as space-time shapes[J].IEEE transactions on pattern analysis and machine intelligence,2007,29(12):2247-2253.
[3] Laptev I.On space-time interest points[J].International journal of computer vision,2005,64(2-3):107-123.
【通联编辑:朱宝贵】