基于加权DTW的多特征分级融合动态手势识别

2024-09-16 00:00:00陈潘华杭波孔明梁晓瑜
现代电子技术 2024年10期
关键词:关节点

摘" 要: AR设备以第一视角获取的动态手势往往存在手掌角度偏转问题,各关节点位移轨迹相较正视角度发生变化,现有的手掌关节点位移特征无法有效识别,并且受限于AR设备性能,部分神经网络模型无法取得良好表现。针对该应用场景,提出一种使用多特征分级融合的手势识别方法。该方法构造位移、长度、角度三个特征对手势进行描述,并进行向量编码与归一化以消除抖动干扰。根据关节点与标准手势的相似度距离,仿照sigmoid函数分配关节点权重,以加权的动态时间规整(DTW)距离进行KNN匹配,并根据最佳的KNN置信度与特征优先级筛选出最可信的特征识别结果。实验结果表明:该方法能有效识别9种存在角度偏转的动态手势;相较于传统的位移特征方法,该方法的平均准确率提高了4%,能有效应对手掌偏转情况下的动态手势识别问题。

关键词: 动态手势识别; 多特征融合; DTW算法; 关节点; 位移特征;" KNN分类

中图分类号: TN911.73⁃34; TP391.4" " " " " " " " " "文献标识码: A" " " " " " " " 文章编号: 1004⁃373X(2024)10⁃0079⁃07

Multi⁃feature hierarchical fusion for dynamic gesture recognition based on DTW

Abstract: Hand angle variation in dynamic motions captured from a first⁃person perspective is a common problem for augmented reality (AR) systems. Existing palm key point displacement features are ineffective for recognition because different key points' displacement trajectories differ from the frontal perspective. AR device limits also impose performance limitations for some neural network models. A gesture recognition method using multi feature hierarchical fusion is proposed for this application scenario. In this method, the displacement, length, and angle features are constructed to describe gestures, and vector encoding and normalization are conformed to eliminate jitter interference. Based on the similarity distance between the joint points and the standard gesture, the joint weights are assigned by means of the sigmoid function, and KNN matching is performed by means of the weighted dynamic time warming (DTW) distance. The most reliable feature recognition result is selected based on the best KNN confidence and feature priority. The experimental results show that this method can effectively recognize 9 dynamic gestures with angle deviation; in comparison with the traditional displacement feature methods, this method has an average accuracy improvement of 4% and can effectively address the dynamic gesture recognition problem under palm deflection.

Keywords: dynamic gesture recognition; multi feature fusion; DTW algorithm; joint points; displacement characteristics; KNN classification

0" 引" 言

动态手势识别作为AR系统的重要组成部分之一,广泛应用于虚拟现实、智能交互以及人机界面等领域[1]。按手部数据的获取方式,动态手势识别可大致分为基于硬件与基于视觉两种。

基于硬件的动态手势识别依赖于一些特殊的设备,如电容传感阵列[2]等,使用不便;基于视觉的方法则使用方便,有许多研究人员使用视觉方法进行手势识别。A. Mujahid等提出一种基于YOLOv3和 DarkNet⁃53卷积神经网络的手势识别模型[3]。罗标等将DarkNet网络与TCN网络结合,提高了动态手势识别的鲁棒性[4]。上述方法是通过深度神经网络对手势特征进行自主学习,对设备性能有较高要求,不适用于常规的AR设备。

动态时间规整(DTW)算法[5]与隐马尔可夫(HMM)模型[6]是动态手势识别的常用方法。魏秋月等使用Kinect获取指尖的移动轨迹并按八个方向进行向量编码,使用改进的DTW算法进行匹配识别[7]。王剑波将轨迹向量转换为向量角,将静态手势特征识别结果与手部运动轨迹特征识别结果相结合,实现对动态手势的识别[8]。上述方法的局限性在于只用位移特征对手势进行描述,当手势存在角度偏转的情况时,由于原有的位移轨迹发生了偏转,仅凭位移特征无法有效进行识别。

针对这一问题,本文在位移特征的基础上,提出一种结合位移、长度和角度的多特征分级融合动态手势识别方法。该方法构建3个特征来对手势进行描述,根据关节点与标准模板的相似度分配权重,通过KNN最佳置信度与特征优先级来筛选出可信结果。

1" 特征描述

1.1" 手势数据提取

MediaPipe[9]是谷歌开发的多媒体机器学习应用框架,它可以从一张图片中快速提取21个手掌关节点,如图1所示。

21个关节点示意图

为解决金手指[10]问题,即从连续的视频帧中截取属于有效动态手势的部分,可以使用双滑动窗口阈值方法来对有效的动作帧进行提取,步骤如下:

1) 设定X帧的起始窗口、Y帧的结束窗口;

2) 当检测到连续X帧中手掌各关节点最大变化幅度均大于起始阈值,则判定手势开始;

3) 当检测到连续Y帧中手掌各关节点最大变化幅度均小于结束阈值,则判定手势结束。

1.2" 特征描述

手势的位移特征可以使用八方向编码来进行描述。该方法的原则是将关节点帧间位移近似编码为八个方向中相近的向量,Z字形轨迹与八向量表示如图2所示。其中Z字形移动轨迹的向量编码为(0,0,3,3,3,3,0,0),该编码即为位移特征。

在手掌发生角度偏转时,close手势如图3所示。

各关节点的轨迹相较于手掌正对面时发生变化,从而导致位移特征无法有效识别。针对这一问题,可以使用关节点相对掌心的距离与倾角变化对该偏转的手势重新进行描述。

手部关节点的极坐标表示如图4所示,其中长度D与角度θ分别表示关节点相对掌心的距离与倾角,公式如下:

同时考虑到手掌大小差异、相机距离不同、手部自然抖动等因素都会导致坐标数据发生变化,因此还需要对数据进行阈值滤波处理。

2" 加权DTW算法

2.1" 经典DTW方法

每个动态手势的时间序列长度不一定相同,要比较不同帧长度的手势之间的相似度,可以使用DTW算法。DTW算法能够计算出两个长度不同的序列之间的相似度距离,且无需大量数据进行训练,相对于其他机器学习算法,简单快速。DTW的计算过程如下:

对于序列[A={a1,a2,…,aN}]与序列[B={b1,b2,…,bM}],要计算A、B序列的相似度距离,需要构建大小为N×M的距离矩阵D,矩阵中各元素值为A、B序列对应位置上各元素距离。对于一维元素,可以取绝对值之差作为该距离。位移特征的距离计算公式为:

[D(i,j)=min(xi-yj,8-xi-yj)] (3)

随后根据动态规划构建累计距离矩阵[D1],矩阵右上角元素[D1 N,M]即为序列A、B的距离:

对于两个需要进行DTW匹配的手势X、Y,需要遍历21个关节点,并累加总距离,选取距离最小的手势作为识别结果。总距离公式如下:

2.2" 加权DTW方法

传统DTW方法在计算手势相似度时,认为各关节点同等重要,然而在实际手势中,不同关节点在其中的重要性是不同的。文献[11]以关节点的位移量大小作为权重的评判标准;文献[12]以关节点活动剧烈程度即序列方差来计算权重。在一个手势中,运动较小的关节点也可能占据一定的权重,因此本文设计了一种根据关节点运动与标准模板的相似程度来分配权重的方法。

同种手势的样本并不完全一致,因此需要统一每个手势类的标准模板。标准模板应尽可能与同种手势的各样本相似,即与各样本之间的DTW距离和最小,从而转化为目标函数优化问题。优化算法使用序贯最小二乘规划(SLSQP)算法[13],该算法的性能良好,是带有约束条件优化问题的默认算法,公式如下:

式中:N表示该种手势的样本总数;[Ti]为标准模板中关节点i的运动序列;[Xni]为第n个样本中关节点i的运动序列;[DTWXni,Ti]表示标准手势与第n个样本的DTW距离。

手势样本中各关节点相对于标准模板的DTW距离表示该关节点与标准模板的相似程度,显然,该关节点的距离值越小,其与标准模板越相似,因此重要性越高。21个关节点与标准模板的DTW距离数组[R=[r1,r2,…,r21]],可以通过以下公式计算:

为防止[R]中个别数据过大或过小,从而影响权重分配,还需要对其进行处理,公式如下:

式中:[ra]表示R中最小值;[rb]表示R中最大值;[T1]、[T2]表示双阈值。根据处理后的R数组,仿照sigmoid函数对关节点权重进行分配:

式中:[Wi]表示关节点i的权重;[β]为优化参数,其作用是避免[sigmoid(-β·ri)]值过大或过小。

3" 多特征分级融合

3.1" KNN置信度

在计算出样本之间的相似度距离的基础上,进行多特征分类。一种常用的分类方法是KNN,其原理可以描述为:在离待检测样本最近的K个样本中,寻找出现次数最多的类别,然后判定检测样本为该类别;若有多个类别占比相同,则可以考虑平均距离最小的类别[14]。KNN分类示意图如图5所示。

某待测样本的K邻域中,类别A所占比例最多,因此将该待测样本判定为类别A。根据KNN原理可知,在分类过程中影响分类结果的主要有两个因素:一是待检测样本的K近邻样本中某分类的占比;二是待检测样本对于该分类的平均距离。因此对于KNN方法得到的分类结果,其置信度可以由这两个因素来计算。

若待检测样本为X,其属于分类T的置信度为C,则有:

3.2" 多特征识别流程

多特征会得到多个KNN分类结果,但需要对KNN分类结果进行取舍,筛选其中更为可信的结果。因此结合KNN分类置信度,设计了一种多特征分级融合的识别方法。该方法首先需要计算特征识别优先级和对应的最佳置信度。

选取不同的置信度阈值[TC]对KNN分类的结果进行筛选,仅保留置信度大于阈值的识别结果,计算筛选后的查准率结果如图6所示。

特征优先级即为最高查准率降序排序,以图6为例,长度特征曲线查准率最高值为0.96,位移、角度特征最高值分别为0.77与0.95。可知对于该手势的识别,长度特征具有更高的可信度,其特征优先级依次是:长度、角度、位移。最佳置信度为是否保留识别结果的主要依据,故以查准率作为关键词,对置信度阈值进行排序,可以得到最佳置信度。仍以图6为例,当[TC]大于0.55时,得到的长度查准率为最值。因此认为,长度特征在[TC]等于0.55时有最好的识别效果,最佳置信度为0.55。即待检测样本若在长度特征中被识别为该手势,且置信度大于0.55,则认为该结果是可信的。同理可得其他两个特征的最佳置信度分别为0.45和0.75。

多特征分级融合的识别流程如图7所示。

首先依次使用三个特征独立对样本进行KNN分类,得到结果与置信度集合记为{(A1,C1),(A2,C2),(A3,C3)};随后遍历结果集合,若识别结果A的对应特征为第一优先级且识别置信度C值大于对应的最佳置信度,则说明该结果A可信,可提前终止识别流程。

单凭第一优先级的特征无法识别所有样本,为此再加入重复性和唯一最高优先级检测。即若A1、A2、A3中存在重复的结果,也可认为该重复的值为识别结果;查询A1、A2、A3对应特征的优先级,若存在唯一的最高优先级,则说明相对于另外两个结果,该结果更可信,也可认为该最高优先级的手势为识别结果。

相较于传统的位移特征识别,多特征的优势是在不影响原有的位移特征识别基础上,增加长度与角度特征检测偏转手势。当手部正面朝向时,位移特征可以对其进行识别;当手部发生偏转,长度与角度特征也能对其进行补充,从而有效提升识别效果。

4" 实验数据分析

4.1" 数据集

第一人称的动态手势数据集主要有EgoGesture[15]、FPHA[16]等,大多是含有深度图像的手势数据集,与本文使用的普通RGB相机不符,且其中没有针对手势偏转情况作特殊处理,因此本文选择自建数据集。为模拟日常使用情况,设计了9种一般软件交互的常用手势,如左右滑动、打开关闭等,每个手势均在不同的偏转角度下采集了不同帧长度的样本。手势定义具体内容如表1所示。

4.2" 实验分析

本文在自建数据集上采用预训练方法进行实验,即选取一部分手势样本进行关节权重、特征识别优先级与最佳置信度等参数训练。特征识别优先级与最佳置信度结果如表2所示。置信度阈值[TC]取值为0~1,间隔0.05,各手势查准率随[TC]变化情况如图8所示。大部分手势的查准率随阈值[TC]变化较为明显,如up、open等,因此可以快速计算出对应的最佳置信度。但也有一些例外,如rotation手势虽然数据表现良好,各特征查准率都接近1,但其随[TC]增加,数值变化不明显,这说明数据集里该手势的样本量不足。

为衡量本文方法改进的效果,定义手势的识别率[Precision(x)]、平均准确率[Accuracy]为:

式中:x为手势类型;[TPx]为x手势被正确分类的样本数;[FPx]为错误识别为手势x的样本数;[TP+TN]表示所有样本中被正确分类的样本数;[TP+FP+TN+FN]表示所有样本数。

本文方法的实验结果混淆矩阵如图9所示,表3给出了本文提出的多特征分级融合方法与其他方法在自建数据集上的对比结果。

由表3可以看出:本文方法相比传统的单特征方法在识别率上有一定提升,最大提升了7.91%,平均准确率提升了4%;所提出的权重计算方法相比较其他权重计算方法也有一定改善,这说明多特征能补充识别位移特征不能有效识别的手势样本,证明了本文方法的优越性。

5" 结" 论

本文在传统的位移特征基础上,增加了长度与角度特征对动态手势进行描述,提出了关节点与标准模板的相似度分配权重的方法;并结合KNN置信度,设计了一种多特征分级融合识别方法。

实验数据证明,所提出的权重计算方法能对手势关节点权重进行有效分配,设计的多特征识别方法能够通过多特征对手势进行有效识别。相较于传统的单特征与其他文献的改进方法,本文方法在手势偏转情况下有着更高的识别率,能有效地识别日常使用频率较高的9种交互手势,为高准确率动态手势识别在人机交互上的应用提供了一种新的解决方法。

参考文献

[1] 王立军,李争平,李颖,等.元宇宙终端:虚拟(增强)现实关键硬科技发展趋势[J].科技导报,2023,41(15):46⁃60.

[2] 王子懿,沈三民,佘硕铖.基于平面电容传感器阵列的动态手势识别技术[J].测试技术学报,2023,37(1):54⁃59.

[3] MUJAHID A, AWAN M J, YASIN A, et al. Real⁃time hand gesture recognition based on deep learning YOLOv3 model [J]. Applied sciences, 2021, 11(9): 4164.

[4] 罗标,陈勇.融合TCN的时空域双流动态手势识别方法[J].现代电子技术,2022,45(1):50⁃55.

[5] HANG C, RUI Z, CHEN Z, et al. Dynamic gesture recognition method based on improved DTW algorithm [C]// International Conference on Industrial Informatics⁃computing Technology. Nanjing: IEEE, 2017: 1041⁃1052.

[6] 毛瑞瑛.虚拟实验中的手交互关键技术研究与实现[D].西安:西安理工大学,2022.

[7] 魏秋月,刘雨帆.基于Kinect和改进DTW算法的动态手势识别[J].传感器与微系统,2021,40(11):127⁃130.

[8] 王剑波.基于Kinect的动态手势交互控制技术研究[D].西安:西安工程大学,2021.

[9] LUGARESI C, TANG J, NASH H, et al. MediaPipe: a framework for building perception pipelines [EB/OL]. [2023⁃08⁃20]. https://arxiv.org/pdf/1906.08172.pdf.

[10] 张维,林泽一,程坚,等.动态手势理解与交互综述[J].软件学报,2021,32(10):3051⁃3067.

[11] 高晨.基于静态和动态手势控制移动机器人研究[D].北京:北京化工大学,2017.

[12] 汪成峰.基于自适应关节权重和插值小波的体感动作评价方法研究[D].北京:中国农业大学,2016.

[13] KRAFT D. A software package for sequential quadratic programming [J]. DFVLR Forschungsber, 1988, 28: 33.

[14] 童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115⁃117.

[15] ZHANG Y, CAO C, CHENG J, et al. EgoGesture: a new dataset and benchmark for egocentric hand gesture recognition [J]. IEEE transactions on multimedia, 2018, 20(5): 1038⁃1050.

[16] GARCIA⁃HERNANDO G, YUAN S, BAEK S, et al. First⁃person hand action benchmark with RGB⁃D videos and 3D hand pose annotations [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 409⁃419.

[17] GALVÁN⁃RUIZ J, TRAVIESO⁃GONZÁLEZ C M, PINAN⁃ROESCHER A, et al. Robust identification system for spanish sign language based on three⁃dimensional frame information [J]. Sensors, 2023, 23(1): 481.

[18] LU Chenghong, AMINO Shingo, JING Lei. Data glove with bending sensor and inertial sensor based on weighted DTW fusion for sign language recognition [J]. Electronics, 2023, 12(3): 13.

猜你喜欢
关节点
矛盾转化关节点视角下的新时代发展特质与方向
学习月刊(2022年6期)2022-12-18 19:05:35
基于关节点数据关注RGB视频的双人交互行为识别
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
重载机车网络重联TCN 故障节点识别方法研究*
关节点连接历史图与卷积神经网络结合的双人交互动作识别
基于人体行为模型的跌倒行为检测方法①
论“度”与“临界值”
科技风(2020年5期)2020-02-22 12:21:45
搞好新形势下军营美术活动需把握的关节点
RGBD人体行为识别中的自适应特征选择方法
论科学发展观“三进”工作的几个关节点
学理论·中(2009年12期)2009-01-14 08:11:22