摘" 要: 为了精确捕捉人体在各种复杂动作中的姿态变化,并减少动作轮廓捕捉的误判和漏判情况,研究一种基于条件GAN的人体复杂动作轮廓智能捕捉方法。构建人体复杂动作图像前景模型,利用该前景模型去除人体复杂动作图像内的干扰背景,获得其前景图像。将人体复杂动作前景图像输入到条件GAN模型内,该模型使用生成器,依据叠加条件提取人体复杂动作前景图像特征,并生成人体复杂动作轮廓图像,将该轮廓图像输入到判别器内,判别器对生成器生成的人体复杂动作轮廓图像进行判别,输出其判别值;同时,生成器依据该判别值对人体复杂动作轮廓图像进行调整和优化。生成器和判别器不断对抗,当条件GAN模型的损失函数达到最小时,生成器输出最终人体复杂动作轮廓图像,实现人体复杂动作轮廓智能捕捉。实验结果表明,所提方法可有效捕捉人体复杂动作轮廓,且智能捕捉的人体复杂动作轮廓周长与其实际轮廓周长差异较小。
关键词: 条件GAN; 人体复杂动作; 轮廓图像; 智能捕捉; 前景模型; 生成器; 判别器
中图分类号: TN915⁃34; TP183" " " " " " " " " 文献标识码: A" " " " " " " " " " " "文章编号: 1004⁃373X(2024)24⁃0172⁃05
Research on conditional based GAN intelligent capture of complex
human motion contours
WANG Pengbo, LIU Han
(Yunnan Minzu University, Kunming 650500, China)
Abstract: In order to accurately capture the posture changes of the human body in various complex movements and reduce the misjudgment and omission of motion contour capture, a conditional GAN based intelligent capture of complex human motion contour is studied. A foreground model for complex human motion images is constructed, and the foreground model is used to remove interfering backgrounds within the complex human motion images, to obtain their foreground images. The complex human motion foreground image is input into the conditional GAN model. This model can use the generator to extract the features of the complex human motion foreground image according to the superposition conditions, and generate the complex human motion contour image. The contour image is input into the discriminator, which can judge the complex human motion contour image generated by the generator and output its discrimination value. The generator can adjust and optimize the complex human motion contour image according to the discrimination value. The generator and discriminator constantly compete, and when the loss function of the conditional GAN model reaches its minimum, the generator can output the final complex human motion contour image, achieving the intelligent capture of complex human motion contours. The experimental results show that the proposed" method can effectively capture complex human motion contours, and the difference between the circumference of the intelligently captured complex human motion contour and its actual contour circumference is small.
Keywords: conditional GAN; complex human motion; contour image; intelligent capture; prospect model; generator; discriminator
0" 引" 言
在科技飞速发展背景下,人体动作捕捉被应用在运动分析、医疗康复等多个领域,其重要性日益凸显[1⁃2]。然而,由于人体动作的多样性和复杂性,实现高精度、高效率的人体复杂动作轮廓捕捉仍然面临诸多挑战。当前在相关领域内有很多国内外学者研究人体动作捕捉方法,如文献[3]中先建立人物姿态模型,在该模型的基础上使用BEMD⁃MTS算法来提取人体姿态特征,根据特征提取结果使用边缘轮廓提取方法获得人体姿态轮廓。如果人物姿态模型的构建不够精细或准确,会无法完全反映真实人体的复杂性和多样性,这可能导致在提取人体姿态特征时出现偏差,影响轮廓捕捉的准确性。文献[4]使用尺度不变点特征变换方法来提取人体动作特征,然后建立人体外观模型,通过该模型获得人体动作帧的轮廓线。在使用人体外观模型进行轮廓提取时,需要将提取的特征与模型进行匹配;然而,由于人体动作的复杂性和多样性,匹配过程中可能产生误差,导致提取的轮廓线不准确。文献[5]将人体图像输入到卷积神经网络模型中,并在该模型中引入特征注意力机制,通过选择人体轮廓特征并迭代后输出人体轮廓提取结果。但该方法注意力分配过于集中在某些非关键区域,导致轮廓提取结果出现偏差。文献[6]在提取人体动作的骨骼关节点后,使用改进LM算法对人体动作骨骼关节点进行动态调整,以此获取人体骨骼关节点轮廓捕捉结果。骨骼关节点的提取精度受到图像处理技术和算法的限制,如果提取算法不够精确,可能导致关节点位置存在偏差,影响后续的动作捕捉和轮廓生成效果。
条件GAN是一种GAN(生成对抗网络)的变体,它在原有的基础上加入了额外的输入,这些输入被称为条件变量。这些条件变量可以是分类标签、文本描述或其他辅助性信息[7]。生成器可以根据这些条件生成具有特定特征或属于特定类别的样本,而判别器则能够根据这些条件更准确地判断样本的真实性。通过这种方式,GAN实现了对生成样本的更细致调控,使得生成的样本能够满足特定的需求或属性。本文以条件GAN作为基础,提出一种人体复杂动作轮廓智能捕捉方法,以深入了解人体的运动规律和特点,为体育训练、康复治疗等领域提供科学依据。
1" 人体复杂动作轮廓智能捕捉
1.1" 人体复杂动作图像前景模型构建
在对人体复杂动作轮廓捕捉之前,需要先提取出人体复杂动作的前景图像,避免人体复杂动作背景对该动作轮廓捕捉的干扰。人体复杂动作图像前景模型构建流程如下。
令[p(x,y)]表示人体复杂动作图像背景中的像素,颜色标准差由[τ(x,y)]表示,则人体复杂动作图像的背景图像[O]表达公式如下:
[O=I(x,y)·N(S(x,y),τ2(x,y))] (1)
式中:[N(⋅)]为高斯正态分布函数;[I(x,y)]为颜色分量;[S(x,y)]为颜色均值。
由公式(1)可知,人体复杂动作图像的背景图像中每个颜色分布在某个时间段内均呈正态分布状态,其可描述人体复杂动作图像背景受摄像机拍摄过程中的白噪声引起的变化特征[8],当人体复杂动作前景图像进入到背景图像内后,背景图像内的某些像素点颜色变化范围会明显增加,因此可获取到当前人体复杂动作图像中的前景对象。选取连续[n]帧人体复杂动作图像,则人体复杂动作图像内像素点[p(x,y)]的所有样本值[Qn(x,y)]的计算公式为:
[Qn(x,y)=Ii(x,y)i=1,2,…,n] (2)
人体复杂动作图像内像素点[p(x,y)]的样本均值[Qn(x,y)]和样本标准差[Bn(x,y)]的计算公式分别为:
[Qn(x,y)=1ni=1nIi(x,y)] (3)
[Bn(x,y)=i=1n1n-1(Ii(x,y)-Qn(x,y))2] (4)
像素点[p(x,y)]的样本均值和标准差是当前人体复杂动作图像总体均值和总体标准差的无偏估计[9],利用二者描述人体复杂动作图像颜色分量整体分布的均值[S(x,y)]和标准差[τ(x,y)]。
在上述公式基础上,使用假设检验方法对人体复杂动作图像的前景和背景图像进行分类,获得人体复杂动作图像的前景图像。计算与人体复杂动作图像相邻帧数为[E]的图像在像素点[p(x,y)]位置处的颜色分量均值,由[SE(x,y)]表示,假设该颜色分量均值为:
1) [SE(x,y)=S(x,y)];
2) [SE(x,y)≠S(x,y)]。
该颜色分量均值的检验统计量[J]为:
[J=O-SE(x,y)-S(x,y)] (5)
设在条件1)为真时,拒绝条件1)的最大概率为[α],则其拒绝域为[J≥Jτ2],此时拒绝条件1)接受条件2)。依据上述条件验证过程,若当前人体复杂动作图像的像素在所有颜色分量上任一假设检验被拒绝,则判断该像素属于前景对象;反之,判断像素仍为背景图像。
经过上述推断,判断当前人体复杂动作图像的前景和背景后,输出前景图像,为后续人体复杂动作轮廓智能捕捉提供基础。
以1幅体操运动员人体复杂动作图像作为对象,使用本文方法获取该人体复杂动作的前景图像,结果如图1所示。
分析图1结果,本文所提方法在体操人体复杂动作图像的前景提取上表现出色,能够精准地去除背景像素的干扰,从而凸显出体操人体的动作细节。这一特性不仅提升了图像处理的清晰度,还显著降低了人体复杂动作图像轮廓智能捕捉的运算量,使得处理过程更加高效。此外,该方法的成功应用也进一步证明了其在智能捕捉人体复杂动作过程中的可靠性和实用性。
1.2" 条件GAN动作轮廓智能捕捉模型构建
条件GAN是在生成对抗网络的基础上引入条件信息后的改进网络,由生成器和判别器组成。在其损失函数内引入条件信息对生成器和判别器损失进行约束,可以使条件GAN输出的结果更为准确。在此利用条件GAN对1.1节得到的人体复杂动作图像的前景图像进行生成和判别,实现对人体复杂动作轮廓的智能提取。
1.2.1" 生成器构建
条件GAN的生成器作用是接收1.1节输入的人体复杂动作前景图像和随机噪声,然后生成与输入的人体复杂动作前景图像对应的目标轮廓图像。该生成器以卷积神经网络作为基础,由3个卷积层、6个残差网络、6个密集连接层、1个采样层和1个卷积注意力机制层组成。其中卷积层负责提取人体复杂动作前景图像特征[10],利用残差网络直接传播生成器梯度,使生成器快速收敛;然后使用密集网络连接融合卷积层输出的人体复杂动作前景图像特征后,通过采样层采集人体复杂动作前景图像特征;最后使用卷积注意力机制层进一步提取人体复杂动作的前景图像特征。生成器的卷积注意力机制层内包括通道注意力模块和空间注意力模块,通道维度上的人体复杂动作前景图像特征[Oc1(F)]公式为:
[Oc1(F)=σ(κ(AvgPool(F))+κ(MaxPool(F)))] (6)
式中:[σ(⋅)]表示Sigmoid激活函数;[κ(⋅)]表示多层感知器;[F]表示人体复杂动作前景图像;[AvgPool(⋅)]、[MaxPool(⋅)]表示平均池化和最大池化操作;[c1]表示通道维度。
空间维度上的人体复杂动作前景图像特征[Oc2(F)]表达公式为:
[Oc2(F)=σ(Cat(Oc1(F)))] (7)
式中:[Cat(⋅)]表示多重特征融合处理结果;[c2]表示空间维度。
经过上述公式后,再次对公式(7)得到的人体复杂动作前景图像特征进行卷积操作,生成器输出生成的人体复杂动作前景图像的轮廓图像[F]。
1.2.2" 判别器构建
条件GAN的判别器是对生成器生成的人体复杂动作前景图像的轮廓图像[F]进行判别,其输出数值区间[11⁃12]为0~1,其输出的数值越接近1,表明生成器生成的人体复杂动作前景图像的轮廓图像越真实有效,且判别器对生成器的判别值尽可能趋近于0,使生成器不断对生成的人体复杂动作前景图像的轮廓图像进行调整和优化。判别器的训练过程如下。
条件GAN的判别器通过Fisher判别方法实现判别,令[ηTj]表示第[j]个判别系数,其中[T]表示正态分布,则Fisher判别函数表达公式为:
[f(x)=ηTjδ] (8)
式中:[f(x)]表示Fisher判别函数;[δ]为判别叠加条件。
判别器的逻辑回归函数为[softmax]函数,在公式(8)的基础上,令[Φ1]、[Φ2]表示判别器隐含层和输出层激活函数,判别器的判别输出结果[ƛ]表达公式如下:
[ƛ=fΦ2(μmj⋅Φ1(μjn⋅F))] (9)
式中:[μmj]、[μjn]表示判别器内第[j]个神经元与隐含层第[m]个和输出层第[n]个神经元之间的连接权重。
1.2.3" 损失函数
条件GAN的损失函数是由生成器损失函数和判别器损失函数组成的,生成器和判别器均在其叠加条件的基础上生成人体复杂动作前景图像的轮廓图像和对该轮廓图像的判别。因此,条件GAN的损失函数在传统GAN生成器和判别器损失函数的基础上添加一个叠加条件[13]即可。条件GAN的总损失函数公式如下:
[minGmaxDV(D,G)=ϕF~P(F)[ƛlogD(L)]+" " " " " " " " "ϕz~P(z)[ƛlog(1-D(G(L)))]] (10)
式中:[G]、[D]分别表示生成器和判别器;[V(D,G)]为条件GAN目标函数;[ϕF~P(F)[⋅]]、[ϕz~P(z)[⋅]]分别表示从人体复杂动作前景图像内采集的特征和在噪声[z]的影响下对人体复杂动作前景图像的轮廓图像进行判别;[D(L)]、[G(L)]分别表示判别器和生成器的损失函数。
利用该损失函数使生成器和判别器进行对抗,能够使整个条件GAN输出的人体复杂动作前景图像的轮廓图像损失最小,且得到的结果最为真实,从而实现对人体复杂动作轮廓的智能捕捉。
2" 实验分析
以公开图像库内人体复杂动作作为实验对象,在深度学习云环境中对本文方法进行模拟训练和测试。其中条件GAN模型在Ubuntu 22.04环境下,使用Python编写代码,条件GAN模型训练过程中,设置训练步数为100步。以1幅网球人体复杂动作图像作为实验对象,使用本文方法智能捕捉其轮廓,捕捉结果如图2所示。
分析图2结果,本文提出的方法展现出卓越的人体复杂动作轮廓捕捉能力。智能捕捉的轮廓与实际图像中的轮廓高度吻合,验证了该方法的高效性和准确性,也进一步表明本文方法在实际应用中具备强大的智能捕捉性能。
本文方法使用条件GAN实现人体复杂动作智能捕捉,条件GAN内的生成器和判别器通过互相对抗,得到最终的人体复杂动作智能捕捉结果。以1幅跳高运动员人体复杂动作图像作为实验对象,输出生成器和判别器互相对抗时对人体复杂动作智能捕捉的过程,结果如图3所示。通过分析图3所展示的条件GAN在迭代过程中的表现,可以清晰地看到其在生成人体复杂动作轮廓方面的能力逐步增强。在初始的30步迭代时,生成器产生的轮廓较为模糊,难以准确辨识。然而,随着判别器对生成结果的反馈,生成器不断调整其内部参数,进而优化生成效果。当迭代步数达到60步时,生成的人体复杂动作轮廓已经变得相对清晰,这表明网络模型正在逐步学习和掌握人体动作的复杂特征。最终,在迭代100步时,条件GAN模型成功收敛,能够稳定地输出清晰、准确的人体复杂动作轮廓。这一结果充分证明了本文所提方法的有效性,即运用条件GAN模型可以智能地捕捉和生成人体复杂动作轮廓,为其在不同领域应用提供基础。
再进一步验证本文方法对人体复杂动作轮廓智能捕捉能力,以10幅人体复杂动作图像作为实验对象,使用本文方法对这10幅图像的人体复杂动作轮廓进行智能捕捉,以人体复杂动作轮廓的周长作为衡量该方法提取人体复杂动作轮廓能力的指标,验证其应用效果,测试结果如表1所示。分析表1数据发现,不同人体复杂动作在图像中的动作轮廓周长存在显著差异,这直接反映了图像内人体动作的复杂性。而采用本文提出的方法智能捕捉人体复杂动作轮廓后,所得轮廓的周长与实际动作轮廓周长之间的最小差值达到了0 mm,最大差值也仅为0.03 mm,这一极小的差异值充分说明了本文方法在捕捉人体复杂动作轮廓方面的高精度。该方法不仅能够有效识别并捕捉复杂的人体动作,还能确保捕捉到的轮廓与实际动作轮廓高度一致,为后续的图像处理和分析提供了可靠的基础。
3" 结" 论
本文基于条件GAN对人体复杂动作轮廓智能捕捉技术进行了深入探索。通过精心设计的实验和模型优化,证明了本文方法在精确捕捉人体动作轮廓方面表现出色,为动作识别、虚拟现实、动画制作等领域提供了高效且可靠的解决方案。本文研究亮点在于,通过条件GAN的结构成功实现了对动作轮廓的高保真度提取,且模型能够有效地学习到动作的时空特征,即使在高速运动和复杂动作场景中,也能保持较高的捕捉精度。此外,本文方法在处理连续动作序列时,展现出了良好的连贯性和稳定性,为后续的动作分析提供了坚实的基础。
注:本文通讯作者为刘菡。
参考文献
[1] 马骁,闫育东.基于多尺度时空特征的篮球场景中人体姿态估计[J].中南民族大学学报(自然科学版),2023,42(1):95⁃102.
[2] 吉晨钟,次旺晋美,张伟,等.改进2D CNN时空特征提取的动作识别研究[J].小型微型计算机系统,2024,45(1):168⁃176.
[3] 马璿,张会庆.基于BEMD⁃MTS算法的肢体动作轮廓智能捕捉方法[J].计算机仿真,2023,40(10):224⁃227.
[4] POKHREL S R, KUA J, SATISH D, et al. Deakin RF⁃sensing: experiments on correlated knowledge distillation for monitoring human postures with radios [J]. IEEE sensors journal, 2023, 23(22): 28399⁃28410.
[5] 杨红,张贺,靳少宁.融合卷积与多头注意力的人体姿态迁移模型[J].计算机应用,2023,43(11):3403⁃3410.
[6] 张欣宇,邱国鹏.融合改进LM算法及动态时间规整算法的人体动作捕捉研究[J].西南大学学报(自然科学版),2024,46(5):175⁃185.
[7] 苟先太,陶明江,李欣,等.基于宽接收域的实时人体姿态估计网络[J].计算机工程与设计,2023,44(1):247⁃254.
[8] 刘星,王宇晶.基于双循环Transformer的三维人体姿态估计[J].传感技术学报,2024,37(7):1236⁃1243.
[9] 方益,石守东,方靖森,等.基于空间交叉卷积的轻量级人体姿态估计算法[J].传感技术学报,2024,37(3):439⁃445.
[10] 高坤,李汪根,束阳,等.融入密集连接的多尺度轻量级人体姿态估计[J].计算机工程与应用,2022,58(24):196⁃204.
[11] 吉斌,潘烨,金小刚,等.用于视频流人体姿态估计的时空信息感知网络[J].计算机辅助设计与图形学学报,2022,34(2):189⁃197.
[12] 陈路飞,张勇,唐永正,等.FP⁃Net:基于任意角度单幅人体图像的正面姿态估计[J].计算机辅助设计与图形学学报,2022,34(10):1604⁃1612.
[13] 黄程远,宋晓宁,冯振华.ARGP⁃Pose:基于关键点间关系分析与分组预测的3D人体姿态估计[J].计算机应用研究,2022,39(7):2178⁃2182.
作者简介:王鹏博(1999—),男,河南沈丘人,在读硕士研究生,研究方向为计算机算法、动作识别。
刘" 菡(1989—),女,河南周口人,在读博士研究生,助理研究员,研究方向为运动图像处理。