基于显著性特征的多视角人体动作图像识别研究

2024-12-18 00:00:00廖民玲
现代电子技术 2024年24期
关键词:多视角图像识别

摘" 要: 为了应对多角度、多姿态特点的人体动作图像识别难的问题,研究一种基于显著性特征的多视角人体动作图像识别方法。通过显著性区域检测模块处理多视角人体动作图像,获取显著性区域序列并拼接成多视角显著性区域拼接图;利用VGG⁃Net网络从中提取其卷积特征图,输入到CA(上下注意力)模块中,将有利于人体动作识别的区域予以突出显示,并输出人体动作类别标签的概率值,实现多视角人体动作识别。实验结果表明,所提方法能够有效识别多视角人体动作,同时通过整合显著性区域检测和CA模块,可以显著提升其在多视角人体动作识别方面的应用效果。

关键词: 显著性特征; 多视角; 人体动作; 图像识别; 类别标签; CA模块; LSTM单元

中图分类号: TN911.73⁃34; TP391" " " " " " " "文献标识码: A" " " " " " " " " " " 文章编号: 1004⁃373X(2024)24⁃0143⁃05

Research on multi⁃perspective human action image recognition

based on significant features

LIAO Minling

(Guilin University of Electronic Technology, Guilin 541004, China)

Abstract: In order to address the difficulty of recognizing human motion images with multiple angles and postures, a method of multi⁃perspective human motion image recognition based on salient features is researched. By using salient region detection module to process multi⁃perspective human motion images, a sequence of salient regions is obtained and concatenated into a multi⁃perspective salient region mosaic images. The convolutional feature map is extracted by means of VGG⁃Net network and input into CA (up and down attention) module. The region conducive to human action recognition is highlighted, and the probability value of human action category label is output to realize multi⁃perspective human action recognition. The experimental results show that the proposed method can effectively recognize multi⁃perspective human movements. By integrating salient region detection and CA modules, the application effectiveness of the method in multi⁃perspective human action recognition can be improved significantly.

Keywords: significant features; multi⁃perspective; human action; image recognition; category label; CA module; LSTM unit

0" 引" 言

人体动作识别技术正逐步渗透到人们生活的各个方面,如智能监控、人机交互、体育分析和医疗康复,为智能化生活提供了强有力的技术支撑[1⁃2]。然而,现实场景中的人体动作往往发生在多变的视角和复杂的环境中,使得人体动作图像往往呈现出多角度、多姿态的特点,这对动作识别的准确性和鲁棒性提出了极高的要求[3]。因此,开展多视角人体动作图像识别研究不仅具有重要的理论价值,更在实际应用中展现出巨大的潜力和需求。

当前动作识别技术正快速发展,并且已经在多个方面取得了显著成果,文献[4]通过构建FP⁃Net网络训练人体图像数据集,并通过加入回归模块和特征融合模块,提升了正面姿态估计的准确性。FP⁃Net能够从任意角度的人体图像中有效提取正面姿态,实现对人体动作图像的准确识别。但在人体被其他物体严重遮挡时,FP⁃Net可能无法准确估计出被遮挡部分的关键点位置。文献[5]利用Transformer网络进行时序建模,在单模态和跨模态下以自监督方式区分实例,同时引入雷达组合图来增强数据密度,解决了雷达数据稀疏性问题,实现了对人体动作的有效识别。该方法需要专业的雷达设备来获取数据,但这些设备通常价格昂贵,增加了硬件成本;同时雷达数据需要经过复杂的预处理和特征提取步骤,增加了数据处理的难度和计算资源的消耗,影响方法的实用性。文献[6]采用三维残差网络融合各视角动作序列的时空特征,并利用多层长短期记忆网络学习视频流中的长期活动序列及帧间时序信息,实现多视角人体动作识别。但是该方法通过无差别提取人体动作图像特征的方式来实现人体动作识别的过程中,针对相似度较高人体动作的识别精度较差,难以实现对高度相似动作的有效区分。文献[7]结合多视角人体动作图像骨骼边缘信息及运动特性,通过2D投影子空间实现多视角动作表征,并利用改进卷积神经网络框架综合提取特征,克服了骨骼点模型在物理结构和视角多样性方面的局限性。该方法需要定义和计算骨骼边缘、运动方向与大小等特征,增加了特征提取的复杂性。

在人体动作识别中,显著性特征可以构建出对视角变化具有鲁棒性的动作表示,从而提高识别效果。为此,本文研究一种基于显著性特征的多视角人体动作图像识别方法,以期实现多视角人体动作的高精度识别。

1" 多视角人体动作图像识别

1.1" 多视角人体动作图像识别模型总体结构

构建一种基于VGG⁃Net+CA模型的深度学习网络来实现多视角人体动作图像识别。该模型主要包括三个模块,分别为显著性区域检测模块、基于VGG⁃Net的显著性特征提取模块以及基于CA(上下注意力)的人体动作图像识别模块。多视角人体动作图像识别模型结构如图1所示。

设定多视角人体动作图像识别模型输入、输出单元数量分别为[L]、[M],二者分别对应人体动作图像的[L]个视角以及[M]个人体动作类型。多视角人体动作视频首先通过显著性区域检测模块处理,获取多个视角图像的显著性区域序列,并通过拼接获取多个视角显著性区域拼接图,将其作为基于VGG⁃Net的显著性特征提取模块的输入,自动获取多视角融合特征的卷积图;再将其作为CA模块的输入,自动突出多视角融合特征的卷积图中有助于人体动作识别的区域,输出多个视角显著性区域拼接图对应的人体动作类别标签的概率值,实现多视角人体动作识别。

1.2" 多视角人体动作图像显著性区域检测

采用静态显著性检测来降低背景处非显著区域的显著性,突出多视角人体动作图像中人体目标显著性区域与背景非显著性区域的差异[8⁃9]。

将每个视角人体动作视频图像帧划分成若干像素块,并计算像素块处于颜色空间中的欧氏距离,对比像素块[Pi]与剩余像素块[Pj],组建用于描述颜色空间内[Pi]与其余块之间像素差距大小的[Dcolor(Pi,Pj)],其数值越大,表示[Pi]对应像素块的显著性越优于其余像素块,可被称为显著性像素块。同时考虑到显著性区域的空间距离相对较近,结合[Pi]与[Pj]获取二者的空间距离[Dposition(Pi,Pj)],结合[Dcolor(Pi,Pj)]和[Dposition(Pi,Pj)]获取[D(Pi,Pj)]。

[D(Pi,Pj)=Dcolor(Pi,Pj)1+Dposition(Pi,Pj)] (1)

公式(1)用于表征[Pi]与[Pj]之间的颜色距离越大、位置距离越小,则二者之间的差异性越大[10],那么可以认为[Pi]具备显著性。

计算各个视角人体动作图像帧的显著性区域,将其组建为显著性区域序列,表达式为:

[Rji=(rji,1,rji,2,…,rji,T)] (2)

式中:[T]用于描述人体动作视频的图像帧总数;[rji,T]用于描述人体动作视频第[T]帧的显著性区域。

将多个视角的人体动作显著性区域拼接起来,组建显著性区域拼接图序列,表达式为:

[Ui=(ui,1,ui,2,…,ui,T)ui,t=rji,t, j∈(1,2,…,L)] (3)

式中:[ui,t]用于描述由单一视角人体动作显著性区域序列组建的显著性区域拼接图序列;[Ui]用于描述由多个视角的显著性区域拼接图组建的多视角显著性区域拼接图序列,[Ui∈(1,N)],其中[N]用于描述多视角人体动作图像总数。将[Ui]作为基于VGG⁃Net的显著性特征提取模块的输入,从中提取出用于人体动作识别的显著性特征。

1.3" 基于VGG⁃Net的显著性特征提取

将VGG⁃Net网络作为多视角人体动作图像显著性区域的特征提取网络,从1.2节检测到的多视角人体动作图像显著性区域中有效获取显著性区域的卷积特征图[11]。

VGG⁃Net通过不断堆叠大小为3×3的卷积层和大小为2×2的池化层,组建层数为18层的深度卷积神经网络,完成输入多视角显著性区域拼接图序列的特征提取工作[12]。将提取特征图的大小[Wf×Hf]与输入拼接图大小[W×H]以及卷积层参数之间关系的表达式描述为:

[Wf=1+W-F+2QS] (4)

[Hf=1+H-F+2QS] (5)

式中:[F]、[Q]、[S]分别用于描述卷积核尺寸、网络填充数、卷积步长。

激活层处于卷积层之后,其不会变更输入多视角人体动作图像显著性区域图像的尺寸,因此输入图像在经过卷积以及池化处理后图像尺寸维持恒定。池化层可以降低采样激活层输出的尺寸为2×2的非重叠最大值[13]。因此VGG⁃Net网络提取到的多视角人体动作图像显著性区域特征图尺寸为输入特征的[132],所提取多视角人体动作图像显著性区域卷积特征图的维度为512。

1.4" 基于CA的多视角人体动作图像识别

将1.3节VGG⁃Net网络提取到的多视角人体动作图像卷积特征图作为基于CA的多视角人体动作图像识别模块(CA模块)的输入。用[et]描述1.3节提取到的多视角人体动作图像显著性区域的卷积特征图,CA模块可以从[et]中学习到能够有效凸显出有利于多视角人体动作识别区域的注意力地图[At]。CA模块堆叠了3个神经元数量不同(分别为128、256、100)的LSTM(长短期记忆)单元[14],每个LSTM单元的实现过程为:

[ct=ft·ct-1+it·gt] (6)

[ht=ot·tanh(ct)] (7)

式中:[it]、[ft]、[ot]、[gt]分别用于描述输入门、遗忘门、输出门以及门控状态;[ct]、[ht]分别用于描述细胞状态以及隐含状态。[ct]、[ht]的初始化[c0]、[h0]表达式为:

[c0=finit,c1Tt=1T1K·Lk=1K·Lxt,k] (8)

[h0=finit,h1Tt=1T1K·Lk=1K·Lxt,k] (9)

式中:[finit,c]、[finit,h]均用于描述具备多层次结构的感知器;[T]、[K·L]分别用于描述拼接后显著性区域图像序列长度、卷积特征图中各通道的行数[15];[xt,k]用于描述汇总在各个通道上的位置元素组建的特征切片。

时刻[t]的注意力地图[At]由此时刻位置[k]重要性的预测概率值[at,k]组建,其表达式为:

[at,k=exp(WTkht-1)β=1K·Lexp(WTβht-1)] (10)

式中[Wk]用于描述权值。[at,k]的数值越大,表明该位置在人体动作识别中的重要性越强。

CA模块的输入为依据特征图中全部位置特征切片求解获取的下一时刻期望输入,用[Xt]描述,表达式为:

[Xt=k=1K·Lat,kxt,k] (11)

[t]时刻CA模块以公式(11)为输入,通过softmax分类器输出[t+1]时刻的注意力地图[At+1=at+1,k,k∈(1,K·L)]以及[t]时刻多视角人体动作图像显著性区域在[M]个人体动作类型标签上的概率分布预测结果[yi,t],将概率值最大的[yi,t]对应的人体动作类别作为最终的识别结果。

2" 实验分析

选取MVHumanNet多视角人体动作识别数据集进行实验,MVHumanNet中含有4 500个不同人物的6万个动作序列和6.45亿帧图像。数据集通过多视角捕捉系统获取,具有丰富的注释信息,包括人体遮罩、相机参数、2D和3D关键点、SMPL/SMPLX参数和文本描述,其中包含体育活动图像、日常动作图像等60多种动作类型。

随机选取2张不同视角的体育动作图像,应用本文方法进行动作识别,识别结果如图2和表1所示。图2中:图2a)为从数据集中随机选取的不同视角的人体动作原始图像;图2b)为通过本文方法检测到的多视角图像显著性区域;图2c)为VGG⁃Net⁃CA模块从显著性区域中获取的有利于完成人体动作特征识别的凸显区域。

综合分析图2和表1数据可知,本文方法可以有效识别出不同视角下人体动作图像,并给出正确的动作识别结果。原因在于显著性区域的检测以及VGG⁃Net⁃CA模块能够从检测到的显著性区域中进一步提取出有利于完成人体动作特征识别的凸显区域,这些凸显区域包含了丰富的动作特征信息,二者的结合为动作识别过程提供了有力的支持。

为进一步验证本文方法引入不同模块对于多视角人体动作识别效果的贡献,设计消融实验。其中:实验1为去除显著性区域检测模块和CA模块,直接采用多视角人体动作图像作为VGG⁃Net的输入,完成人体动作识别;实验2为应用显著性区域检测模块,去除CA模块,直接利用VGG⁃Net网络输出识别结果;实验3为应用本文方法,即显著性区域检测模块、VGG⁃Net模块、CA模块均应用。选取Top1、Top5的准确率为衡量指标,分别用于描述人体动作识别概率中排名在第1位、第5位的类别即为正确类别。消融实验结果如表2所示。

通过分析表2中的消融实验结果发现,显著性区域检测模块和CA模块对于提升多视角人体动作识别的准确性具有显著贡献。实验1未使用显著性区域检测模块和CA模块,Top1和Top5准确率相对较低;实验2引入显著性区域检测模块后,Top1和Top5准确率均有明显提升;而实验3在应用显著性区域检测模块的基础上,进一步添加了CA模块,使得Top1和Top5准确率达到了最高值,分别为0.91和0.95。这表明本文方法通过整合显著性区域检测模块和CA模块,有效地提高了多视角人体动作识别的准确性。

3" 结" 论

本文在公开数据集MVHumanNet上进行了所提多视角人体动作识别方法的应用效果测试,实验结果展示了该方法能够准确识别出不同视角下的人体动作。同时通过设计的消融实验验证,显著性区域检测模块和CA模块在提高多视角人体动作识别的准确性方面发挥了重要作用,特别是当这两个模块同时应用时,Top1和Top5准确率分别达到了0.91和0.95。这充分证明了本文方法通过整合显著性区域检测模块和CA模块,有效地提升了多视角人体动作识别的性能。因此,本文所提出的方法在多视角人体动作识别领域具有较高的应用价值和研究意义。

参考文献

[1] 白忠玉,丁其川,徐红丽,等.融合显著性图像语义特征的人体相似动作识别[J].中国图象图形学报,2023,28(9):2872⁃2886.

[2] 孙琪翔,何宁,张聪聪,等.基于轻量级图卷积的人体骨架动作识别方法[J].计算机工程,2022,48(5):306⁃313.

[3] 吴子依,陈泯融.融合时空域注意力模块的多流卷积人体动作识别[J].华南师范大学学报(自然科学版),2023,55(3):119⁃128.

[4] 陈路飞,张勇,唐永正,等.FP⁃Net:基于任意角度单幅人体图像的正面姿态估计[J].计算机辅助设计与图形学学报,2022,34(10):1604⁃1612.

[5] CHEN Y S, CHENG K H. BiCLR: radar⁃camera⁃based cross⁃modal bi⁃contrastive learning for human motion recognition [J]. IEEE sensors journal, 2024, 24(3): 4102⁃4119.

[6] 杨思佳,辛山,刘悦,等.基于3D ResNet⁃LSTM的多视角人体动作识别方法[J].电讯技术,2023,63(6):903⁃910.

[7] 苏本跃,张鹏,朱邦国,等.投影子空间下基于骨骼边信息的人体动作识别[J].系统仿真学报,2024,36(3):555⁃563.

[8] 谢一博,刘卫国,周顺,等.基于显著性的双鉴别器GAN图像融合算法[J].应用光学,2024,45(1):107⁃117.

[9] 赵卫东,王辉,柳先辉.边缘信息增强的显著性目标检测网络[J].同济大学学报(自然科学版),2024,52(2):293⁃302.

[10] 王子威,郭苗苗.多视角手部肌肉疲劳动作智能识别方法仿真[J].计算机仿真,2024,41(1):238⁃242.

[11] 李晶晶,黄章进,邹露.基于运动引导图卷积网络的人体动作识别[J].计算机辅助设计与图形学学报,2024,36(7):1077⁃1086.

[12] 刘宽,奚小冰,周明东.基于自适应多尺度图卷积网络的骨架动作识别[J].计算机工程,2023,49(10):264⁃271.

[13] 杜启亮,向照夷,田联房,等.用于动作识别的双流自适应注意力图卷积网络[J].华南理工大学学报(自然科学版),2022,50(12):20⁃29.

[14] 杨世强,李卓,王金华,等.基于新分区策略的ST⁃GCN人体动作识别[J].计算机集成制造系统,2023,29(12):4040⁃4050.

[15] 解宇,杨瑞玲,刘公绪,等.基于动态拓扑图的人体骨架动作识别算法[J].计算机科学,2022,49(2):62⁃68.

作者简介:廖民玲(1979—),女,广西北海人,副教授,研究方向为图像处理。

猜你喜欢
多视角图像识别
基于Resnet-50的猫狗图像识别
电子制作(2019年16期)2019-09-27 09:34:50
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
电子制作(2018年19期)2018-11-14 02:37:04
图像识别在水质检测中的应用
电子制作(2018年14期)2018-08-21 01:38:16
浅谈模式识别在图像识别中的应用
电子测试(2017年23期)2017-04-04 05:06:50
浅论莫言的小说创作特色
东方教育(2016年21期)2017-01-17 19:09:44
会计准则变革对企业理念与行为影响的多视角研究
中国经贸(2016年22期)2017-01-16 18:35:44
论女性声乐的艺术研究
东方教育(2016年12期)2017-01-12 16:39:45
会计准则变革对企业理念与行为影响的多视角探讨
会计准则变革对企业理念与行为影响的多视角分析
财税月刊(2016年4期)2016-07-04 23:00:06