AirG:一种基于信道状态信息的空中手语手势识别方法*

2022-04-20 08:51陈红红冯丹阳党小超郝占军乔志强牛
传感技术学报 2022年2期
关键词:识别率手语手势

陈红红冯丹阳党小超郝占军乔志强牛 娟

(1.西北师范大学计算机科学与工程学院,甘肃 兰州 730070;2.甘肃省物联网工程研究中心,甘肃 兰州 730070)

无线通讯技术发展至今,有不少学者关注手势识别,并致力于现实生活中的应用。 目前,无线通讯技术对其在特殊教育领域的应用加以关注[1]。 据统计,全球约有15.7 亿人听力受损[2]。 在中国,聋哑人群数量超2080 万,占全国总人口的1.69%。 手语作为聋哑人的通用语言,对听力障碍者和语言障碍者来说是交流和学习的一种必要手段。 特殊教育中,通过拼音学得汉字,最终达到手语学习的目的。同时,手语作为一种特殊语言,若能将其转化为对应的字符,将很大程度方便聋哑人群和正常听力人群的交流。 由此可见,通过无线通讯技术进行手势识别并将其应用到特殊人群如聋哑人的手语教学中,是一种极为有效的教学方式。

本文提出了一种基于信道状态信息(Channel State Information,CSI)的手语手势识别方法——AirG,该方法可有效识别中国聋哑人汉语拼音手语手势,汉语拼音手语手势如图1 所示。 经验证,该方法实现了对汉语拼音手语手势的感知与识别且具备良好的鲁棒性。

图1 汉语拼音手语手势图

主要贡献总结如下:

①本文提出基于CSI 的AirG 系统可以有效识别不同环境下的汉语拼音手语手势。 通过理论和实验验证利用CSI 进行手语手势识别的可行性。

②本文通过自适应算法训练生成新的隐马尔可夫模型(Hidden Markov Model,HMM)将其作为强分类器,避免了对正确样本反复识别,有效地降低了整体的计算开销。

③经过实验验证AirG 适用于多种环境。 实验结果表明,AirG 在汉语拼音手语手势识别方面较其他系统而言性能更好。

1 相关工作

目前,研究人员提出各种用于人类手势活动的感知技术,主要基于传感器、计算机视觉、以及无线设备。

其中,第一类通过传感器识别手势,如文献[3-6]均提出使用配备传感器的配饰作为数据采集设备捕获手势动作,识别结果均达到90%以上。 但基于可穿戴设备的识别方法用户需佩戴专用设备,影响动作描述,且极大地降低了用户的舒适感。

第二类通过计算机视觉识别手势。 文献[7-8]的手势识别通过微软Kinect 传感器,其中文献[8]采用双重和十倍交叉验证方式,对阿拉伯数字(0 ~9)和英文字母(A ~Z)的识别率达91%以上。 但视觉识别通常对照明条件有要求且涉及个人隐私问题,实际使用中存在局限性。

第三类通过无线设备的手势识别方法,可通过超宽带雷达[9]、射频识别技术[10]、接收信号强度指示或CSI 信号[11]。 其中射频识别技术和超带宽雷达需专用设备且部署复杂度高,目前多用接收信号强度指示或CSI 进行手势识别。 如,文献[12]提出基于信号接收强度指示的手势识别方法通过信号相位差与频率自带选择可识别25 种手势动作。 信号接收强度一定程度上无法接收来自不同路径的电磁波信号,不适用于室内人员手势识识别;CSI 是电磁波信号的细粒度描述,可获取子载波的幅值、相位等信息,更适用于手势识别,文献[13-15]均通过CSI进行手势识别。

Li[13]等人提出的WiFinger 系统用于手势识别,通过k-最近邻算法并且结合动态时间规整算法,准确率可达到90.4%。 Zhang[14]等人提出的Mudra 系统通过干扰消除技术,实现与位置方向无关的手势动作识别,准确率达到96%。 Jiang[15]等人提出的WiGAN 系统,使用生成对抗网络来提取和生成手势特征,将手势动作的特征融合后通过支持向量机(support vector machines,SVM)对活动分类,平均识别准确率达95%以上。 但手势数据达到一定量级时使用支持向量机进行特征提取、手势识别需较大开销。

为了解决计算开销大,手势识别精度低等问题,本文提出基于CSI 的聋哑人手语手势识别方法——AirG。 为了将手势数据中的突兀值去除采用局部离群因子(Local Outlier Factor,LOF)检测算法。 又因手语手势动作属于低频信息,通过离散小波变换(Discrete Wavelet Transform,DWT)可有效去除环境中的高频信息且不丢失数据细节,经预处理后的波形数据通过主成分分析法(Principal Component Analysis,PCA)筛选最能代表手语手势的子载波。 采用数学统计的方法进行特征提取,最终将手势数据输入Adaboost-HMM 模型得到手势识别结果。

2 AirG 手势识别方法概述

通过AirG 进行手语手势识别需经四个步骤:手语手势数据感知、噪声移除、特征提取和手语手势识别,工作流程如图2 所示。

图2 AirG 工作流程图

2.1 数据采集与预处理

我们使用配置Intel 5300 NIC 的两台笔记本电脑进行数据采集,其中在IEEE 802.11n Monitor 模式下工作的作为发射器,另一台作为接收器。

多条天线提供了充足的CSI 信息,但不同天线对手势动作的敏感程度不同,可通过方差选取敏感程度高的天线。 经筛选得出的天线受多径效应与固有噪声的影响,数据波形中存在尖峰毛刺,为将异常值滤除并保留原来的信号,选用LOF 异常检测算法去除异常值,如图3(b)所示。 可表示为式(1):

式中:Nk(X)是点X的k距离邻域内点的总数,lrdk(X)为点X的局部可达密度,Y为点X的k距离邻域内的任意一点。

LOFk(X)趋近1 时,被测点的邻域点密度几乎相等,属同簇;LOFk(X)越大于1 时,被认为是异常点;若LOFk(X)远小于1,则视为密集点。

当环境中存在较多干扰时,选用DWT 进行多径效应移除如图3(c)。 离散小波变换对细粒度的动作进行多尺度分析,移除高频噪声的同时,保留了手势波形的大致特征与数据细节。 我们采用Symlet5 进行信号分解成近似系数和多个细节系数,其中细节系数描述了设备中随机噪声和CSI 数据细节。 两种系数可表示为式(2):

图3 手语手势与处理图

式中:为近似系数,本文采用Symlet5 因此J=5,为细节系数,X(n)为手势数据样本点,n-2 表示二倍降采样,g为低通滤波器,可滤除高频信息;h为高通滤波器,保留高频部分。 对细节参数采用软阈值算法,并用逆离散小波变换对去噪后手势波形X′(n)重构,表示为式(3):

将噪声移除后的30 条子载波内包含与手势动作相关性较小的子载波,因此采用主成分分析算法进行降维,选择出与降维前相似度高的子载波。 首先对手势样本集X={x1,x2,…,xm}求其均值向量其中xi为CSI 的列向量,¯x表示为式(4):

Y={y1,y2,…,ym}为样本归一化处理后的样本集,其中yi=xi-。 求得重构的样本Y的协方差矩阵C,可表示为式(5),其中cov(Xi,Xj)表示样本协方差。

该协方差矩阵C的特征值矩阵为λ=[λ1,λ2,…,λn],降序排列后取前k个特征值,Q={q1,q2,…,qk}为特征值所对应向量组成的特征向量矩阵。将特征向量矩阵与原样本集相乘,得到降维后的矩阵R=QTX。 最终保留第一主成分将其作为手势识别的CSI 波形,经过PCA 提取子载波结果如图4所示。

图4 主成分分析算法提取子载波

2.2 特征提取

手势动作描述方式与速度因人而异,此外,某人执行同一手势动作也很难保证波形完全相同。 不同人员执行不同手势如图5 所示。 手势波形的最大值、最小值易受实验人员动作幅度影响较为明显,为达到同一手势波形一致性因此不宜作为特征值。 且为了突出不同手势之间的差别,需选取多个特征值,但是过多的特征值易出现拟合问题。 因此本文最终选取特征值:偏度、峰度、标准差、峰峰值。

图5 不同人员执行不同手势

偏度,可以描述手语手势波形的偏斜程度,且可以表明数据的非对称程度,同时可度量数据分布的偏斜方向,表示为式(6):

式中:xi为样本中的数据点,表示数据点的平均值,n表示数据点个数。

峰度,可以描述不同手势数据波形的概率密度分布曲线在平均值处峰值高低的特征数的描述,表示为式(7):

标准差,是数据偏离均值的平方和平均后的方根。 手势数据集的离散程度可通过标准差得出,即标准偏差越大,数据离散程度大;反之亦然。 可表示为式(8):

峰峰值,可以描述一个周期内手势动作所产生信号的波峰与波谷差,表示为式(9):

2.3 识别模型

Adaboost 是由Freund[16]提出一种迭代方法,即,当样本输入弱分类器后,分类结果呈现出错误分类样本与正确分类样本。 因此,将样本权值重置,按照正样本权值降低,负样本权值增大的原则;对所有样本权值更新。 每一轮更新后的样本作为下一轮分类器的输入,用于训练下一个弱分类器。 当迭代次数达到最大,亦或错误率足够小,则形成最终的强分类器。 Adaboost-HMM 模型原理图如图6 所示。

图6 Adaboost-HMM 模型原理

具体过程如下:

Step 1:对样本X=(x1,x2,…,xn)中的每一个样本点遵循均匀分布原则,初始化权重为(n=1,2,…,N);

Step 2:设置轮询数值为K,对HMMθ模型进行Adaboost 训练;

Step 3:对HMMθ产生的概率进行二值化处理,即hk(xn)→{-1,+1},(n=1,2,…,N)。 分类器错误率由此计算为样本点总数,wk为权重。 当错误率ek<0.5 时,新模型有效,否则返回上一步;

Step 4:更新样本点的权值分布,表示为式(10):

式中:hx(xn)为二值化结果,Zk规范化因子,可将wk的值规范到(0,1),αk表示该轮学习所得的模型在最终模型中的权重,ek表示该轮错误率。

Step 5:经过K次轮询,最终的分类器由K个HMM 组合而成的。

观测状态序列为O=(o1,o2,…,oT),隐藏状态序列为Q=(q1,q2,…,qT)。 三部分可组成HMMθ(A,B,π),模型原理如图7 所示。

图7 HMM 模型原理

①π={πi}=(P(q1=si)) (1≤i≤N)是初始状态概率;

②A={aij} (1 ≤i,j≤N)为状态转移概率矩阵;

③B={bj(k)} (1≤j≤N,1≤k≤M)为观测值概率矩阵。

对模型初始化θ(0)=(A(0),B(0),π(0))方便训练,使用鲍勃-韦尔奇算法使参数向训练样本所在的概率最大化方向调整,通过式(11)、式(12)求得参数模型θ(n+1)=(A(n+1),B(n+1),π(n+1))。

式中:γt(i)表示t时刻模型处于状态θi的概率。ξt(i,j)表示由状态θi到状态θj的状态概率,当πi,aij,bj(k)达到收敛时,整个迭代过程结束,由更新的模型参数组成新的HMM。

识别阶段采用前向算法对样本分类,将待测样本通过训练后的HMM 模型,产生待测样本的概率,记做P(O|θ),当达到最大值时即为所识别的手势。

式中:αt(i)表示前t时刻观测序列对应的状态概率。

3 实验结果与分析

3.1 实验设计

两台内含Intel 5300 NIC 的笔记本电脑作为一对收发器,接收端有一根天线,发射端为三根。 发包率为1 000 包/s,设备距地面的垂直高度为1.3 m。实验环境分别为办公楼大厅、会议室、教室,场景示意图如图8 所示。

图8 不同实验场景

为减小动作完成时间对整体识别率的影响,设定数据采集时间为10 s。 其中0~3 s 静止,第4 s 实验人员进行手势动作描述,动作描述需要2 s 左右,第7 s 时动作收回,每个动作重复10 次。 实验数据70%用于Adaboost-HMM 模型的训练,15%为交叉验证集,15%用作测试集测试模型。 实验人员随机选取十名,志愿者的身高体重信息如图9 所示,斜线表示身体质量指数。

图9 实验人员身高体重信息

3.2 不同距离的影响

实验设备选用了一对收发器。 随着收发器之间距离的增加,信号对手势动作的敏感程度降低,当间隔距离达到一定限度时,手语动作对CSI 流的影响几乎消失。 手语手势的识别精度随着接收器距离的增加而降低,因为较弱的信号很难响应手部的移动,导致信号灵敏度降低。 不同距离的识别率如图10所示。

由图10 可见,x轴表示识别错误率,累积分布函数由y轴表示。 当设备间距为1 m 时识别性能最佳,且随着距离的增加手势识别性能表现越差。 结合现实生活中的教学场景,本文选择实验设备间距为2 m。

图10 不同距离的识别率

3.4 不同实验环境的影响

为了验证AirG 的健壮性,我们在已有的三个实验环境增加了静态干扰和动态干扰。 其中静态干扰设定为:在距离发射端和接收端水平距离0.5 m 的地方分别放置一把椅子;动态干扰设定为:在平行于视距路径距1 m 的地方让一名实验人员匀速行走。不同环境的识别率如图11 所示。

图11 不同环境的识别率

实验结果显示,静态干扰对三个环境的影响相对较小,但由于教室内已经布置较多家具因此识别精度会有所下降。 当环境中增加了动态干扰后,由于步态动作幅度较大对CSI 干扰较为明显,因此三个环境中的手势识别率均有明显下降但都在可接受范围内。

3.5 不同实验人员的影响

由于不同人员在完成手语手势动作时,动作描述方法与用时有所差异。 为了让AirG 能够充分识别不同人员的手势动作,我们分别在每个实验场景下采集不同人员的手势数据。 不同实验人员的识别率如图12,可见不同实验人员的手势识别率有一定的差异,并且通过实验得出男女生由于存在固有体型差异,因此女生的识别结果相较男生更优。

图12 不同实验人员的识别率

具体表现为:身材稍胖的人和手势动作描述过快的人手势样本识别率相对较低,对于身材匀称且手势动作描述过程匀速的人员识别率较高,不同实验人员的数据采集与识别结果见表1。 总样本量共计18 000次,包括有效采样与无效采样:有效采样为17 447 次,无效采样为553 次。 且对比试验选用有效样本数的15%来做交叉验证集,验证集个数即识别次数,最终的识别率为不同场景下的平均识别率。 整体来说,不同人员的平均手势识别率都可以达到85%以上,这表明AirG 对不同的人员有很强的适应能力。

表1 不同人员数据采集与识别结果统计表

3.6 不同用手习惯对手势识别的影响

由于受遗传、环境等多种因素影响,不同人在用手习惯方面有所差异,为了测试手势识别方法的鲁棒性,我们随机选取5 个手势动作在三个场景中完成左利手和右利手的对比试验。 在三个不同的实验场景中,空旷环境下表现结果最为良好,其不同用手习惯的平均识别率如图13 所示。

由图13 可知,AirG 对随机选取的手语手势动作通过不同习惯用手进行动作描述均取得良好的识别率。 由此证明系统鲁棒性较好。 但由于左手在完成某些动作时,如手势“k”,手掌会遮挡手指动作,因此整体而言左手的识别率较低。

图13 不同用手习惯的识别率

3.7 不同算法的影响

近年来,针对手势识别有学者WiFi 提出了多种识别方式。 为了充分展示AirG 的高性能,本文就现有的较为先进的手势识别方式WiMU[17]、和WiGeR[18]、WiReader[19]进行对比。

WiMU 将各种可能的手势组合生成虚拟样本,任何给定姿势提取幅度信息和相位信息,通过二进制矩阵进行识别。 WiGeR 提出了一种基于小波分析和短时能量的分割方法和开窗算法提取手势特征,并结合动态时间规划算法来识别手势。

数据集由十名实验人员在大厅完成的两组不同距离下的右手手势数据组成。 本文选用准确率对上述三种方法性能进行评估结果如表2 所示。

表2 不同算法识别率表

由表2 可以看出AirG 方法的手势识别准确率高于其他三种手势识别方法,因此AirG 对手势识别整体性能更优。

3.8 系统性能评估

我们使用从10 名实验人员在三个不同环境内采集到的数据集进行多组对比试验进行评估。 空旷大厅的准确率可以高达93.6%,会议室的准确率可以高达88.3%,教室的准确率可以达到85%。 为了充分描述本文所提手语手势识别方法的准确率,我们选用对比实验结果中最优条件来评估该方法对30 个手语手势的综合识别率。 图14 通过混淆矩阵描述了30 个手语手势的综合识别结果。 总体来说,各个手势的识别结果都良好,但由于手语手势存在相似手势,如“m”和“n”,又或者“h”和“x”,对此类相似手势的误判率相对较高。

图14 不同手语手势下的混淆矩阵

4 结束语

本文提出基于CSI 的手语手势识别方法AirG,结合现实生活中的应用与环境因素对人员手势特征的影响,使用LOF 算法进行离群值去除,并通过离散小波变换与PCA 对采集的手势数据进行降噪与筛选,通过时域信息提取不同手势的特征。 最终将手势数据放入Adaboost-HMM 模型进行识别。 经过多种对比试验验证,并结合多组对比试验验证结果表明AirG对汉语拼音手语手势的平均识别率为88.98%,其中平均识别率为各对比试验下的识别率平均值。

本文的后续工作集中在以下几个方面:①提高AirG 模型的鲁棒性,将其适用于不同环境中连续手语手势的识别;②在现有基础上增加频域信息的手势特征,尽可能全面的描述人员的手势特征。

猜你喜欢
识别率手语手势
挑战!神秘手势
无声的世界里,怎样唱一首歌?
胜利的手势
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
奇怪的手语图
认手势说数字