基于CSI的空中手写数字识别方法*

2022-09-08 05:55党小超郝占军乔志强

传感器与微系统 2022年9期

党小超, 殷杰, 郝占军, 乔志强

(1.西北师范大学计算机科学与工程学院,甘肃兰州 730070; 2.甘肃省物联网工程研究中心,甘肃兰州 730070)

0 引言

随着人工智能与虚拟现实技术的快速发展，人们的生活逐渐变得智能化，因而各类人机交互的需求也在不断增加。相比于传统的鼠标、键盘等通过硬件建立的人机交互模式相比，手势识别显得更加便捷与自然。目前对手势识别的研究方法主要包括有三种：1)基于传感器的方法[1～4]，有便携性差、硬件设备昂贵等缺点；2)基于计算机视觉的方法[5～7]受环境影响及视距情况影响较大；3)基于WiFi信号的识别方法已成为人机交互领域重要的研究方向。

在以往基于WiFi信号的方法中大多使用接收信号强度(received signal strength,RSS) 进行研究，但由于RSS受多径效应和窄带干扰的影响较大导致实验效果不佳。与之相比，信道状态信息(channel state information,CSI)信号则具有稳定性高，受多径效应影响小，对室内环境变化敏感等优势[8]，文献[9]提出的WiFall系统通过CSI信号对人员进行跌倒检测；文献[10]提出的WiHear系统可使用WiFi信号检测人员口语；文献[11]研究了CSI与人体运动速度的关系。

收稿日期：2020—09—02

*基金项目：国家自然科学基金资助项目(61662070，61762079)；甘肃省科技重点研发资助项目(1604FKCA097，17YF1GA015)；甘肃省科技创新项目(17CX2JA037，17CX2JA039)

与手势的识别相比,数字的多样性与复杂性使得对其的识别更具有挑战性。文献[12]提出的WiKey方法通过CSI信号用户手部输入动作;文献[13]使用到达角度(AOA)算法测量CSI信号的到达角识别手势动作，但动作轨迹较相似时精度有明显下降；文献[14]提出的WiG方法设计识别前、后、左、右4种挥手手势，选取4种统计特征进行区分，但SVM方法在多分类问题中效果较差且特征选取较为复杂；文献[15]中WiGest模型通过离散小波变换(DTW)算法进行手势识别。WiG方法与WiGest方法均只识别4种手势且较为简单。

本文提出一种空中手写数字识别AirNum方法，研究数字0～9的空中书写。实验表明本文方法有效提高了空中手写数字的识别率。

1 AirNum方法

本文方法首先采集受试者的手写动作的CSI原始信号，使用巴特沃斯低通滤波器和主成分分析算法对采集到的数据进行降噪处理后提取出基于时序信息的两种特征值，将每个样本的特征值重新排序，按照3︰1︰1的比例将所有样本分为训练集、测试集、交叉验证集输入引入注意力机制的双向循环神经网络(bidirectional recurrent neural network,BRNN)模型进行训练。

1.1 数据预处理

1.1.1 巴特沃斯低通滤波器

巴特沃斯低通滤波器表达式如式(1)

(1)

式中G0为直流增益，ωf为截止频率，N为滤波层级，其中，ωf=2π×f/F，f为信号频率，F为采样频率，本文设置采样频率F为1 024 Hz，滤波层级N为5。

1.1.2 PCA

1)数据归一化处理:将3条链路中每条链路的30条子载波的CSI数据组合成为一个90×N矩阵如式(2)所示，N为发送数据包的数量，设矩阵为C。使用式(3)对数据进行归一化处理

(2)

Ci,j=(Ci,j-μi)/Si

(3)

式中Si为矩阵第i行的标准差,μi为矩阵第i行的均值。

2)计算协方差矩阵:协方差矩阵计算式(4)如下

(4)

由取得的CSI数据计算得出的协方差矩阵(5)如下

(5)

3)特征分解:对协方差矩阵H进行特征值分解，得到相关性由大到小排列的特征向量矩阵Q，Q中的特征向量互不相关。

4)矩阵重构:将归一化后的CSI矩阵C与Q矩阵的前q列进行矩阵相乘得到矩阵C{1︰q}，此时的矩阵C{1︰q}即为C的主成分矩阵。图1(a)为CSI原始波形，图1(b)为降噪后的CSI波形。

图1 CSI波形

1.2 特征提取

本文从包含写入动作的去噪CSI时间序列中提取特征。每个手写动作数据采集时间为5 s，受试人员静止1 s后开始手写动作,书写完成后保持动作不变至时间结束，图2、图3为两个受试人员书写数字8和4时的CSI波形图。从图中易看出不同人员书写相同数字时波形较为相像，同一人员书写不同数字时波形有较大差别。故本文选用2个代表CSI波形形状与趋势的特征值:1)峰值因子，一个滑动窗口内的峰值与均方根值之比；2)自相关系数，描述波形前一时刻与后一时刻之间的关系，其变换反映波形的起伏状态。

图2 2名人员手写数字8的CSI波形

图3 2名人员手写数字4的CSI波形

将预处理后的CSI数据以200 ms窗口大小的滑动窗口分割计算每个窗口的2个特征值，重新排列后组成新的特征值序列X={x1,x2,…,xn}。

1.3 基于注意力机制的BRNN

图4 引入注意力机制的 BRNN模型

计算分类概率识别过程如下：

(6)

Step2 反向传播

计算Step1中算出的输出层值o与实际的输出值O的误差，损失函数为J(o,O)

(7)

(8)

(9)

(10)

(11)

最后使用梯度下降方法更新权重U,V,U′和V′。

Step3 将两个隐状态的值拼接为一个隐状态向量st

(12)

(13)

(14)

(15)

(16)

Step6 计算分类概率yt，Ws为注意力的隐含层变量的参数

(17)

2 实验与评估

2.1 实验设计

实验所用设备包括1对收发天线，2台装有Inter5300网卡的台式电脑分别作为接收端和发射端，天线选择1根发射天线和3根接收天线共3条传输链路，工作频段选择5 GHz以采集细粒度信息，收发天线相距1.5 m离地高度为1 m，采样频率设置为1 024 Hz。由于不同环境、不同人员以及不同收发端视距都会对手势信息的采集造成影响，故本文设置了多组对照实验验证。在保持天线距离与离地高度不变的前提下，4名受试人员分别在实验室与空旷教室采集30组数据，每组包含10个数字。图5为实验场景图，图6为实验场景平面图，图5(a)为实验室场景，实验室大小为7 m×8 m，图5(b)为空旷教室场景图，空旷教室大小为7 m×6 m。

图5 实验场景

图6 实验场景平面

2.2 不同人员对实验影响

为验证不同人员对实验的影响，实验挑选了4名受试人员(2男2女)分别在两个场景，以离接收端和发射端0.5 m的视距距离，每个场景采集30组数据，训练样本为120组。表1是4名受试人员位于空旷教室、实验室的手写数字识别率。

由表1知空旷教室中手写数字识别率明显高于实验室中的手写数字识别率，这是由于多径效应的影响，实验室环境复杂,识别效果相比环境较简单的空旷教室差。从表1中看出不同人员对同一数字的识别率有着较大差异，这是由于男女生间体态差异较大，且不同人员在空中手写数字时书写速度有差异。空旷教室中4名受试人员的识别率均在90 %以上，实验室中识别率保持在84 %以上，对单个数字的识别率最高达到96.2 %。

表1 空旷教室和实验室中不同人员识别率 %

2.3 不同收发端视距对实验影响

4名受试人员分别在视距路径为0.5，1，1.5，2 m处采集CSI数据，每个数字采集30组。图7为不同视距链路下的平均识别率。

图7 不同距离下的平均识别率

由图7可知，当距离为0.5 m时，图7(a)中平均识别率达到了93 %，图7(b)中平均识别率达到了87 %，由于手写动作较为细微，对WiFi信号的扰动会随着与收发端视距距离增加而减弱，因此，AirNum方法的识别效果会随着收发端视距距离的增大而变差，故在2 m时空旷教室中的平均识别率降至77 %，实验室中的平均识别率降至69 %，得出实验最佳的收发端视距距离为0.5 m。且由于实验室中多径效应影响大于空旷教室，实验室中手写数字识别效果相比空旷教室较差。

2.4 不同训练集参与人数对实验的影响

实验选择6名受试人员在离接收端和发射端0.5 m的视距距离、收发端间距1.5 m条件下，空旷教室中每人采集的30组CSI数据作为数据集，输入AirNum方法进行识别，图8为不同训练集参与人数的平均识别率。

图8 不同训练集参与人数的平均识别率

从图8中看出，随着训练集人数的增加AirNum方法的识别率在不断上升，在人数达到4人时上升幅度趋于平缓，且在空旷教室中4人时的识别率达到93 %，实验室中达到87 %。这是由于当训练集人数较少时，深度学习模型的拟合效果并不好，在人数增加至4～6人时识别效果达到93 %以上。但随着训练集人数的上升训练集的数据量会大大增加，AirNum方法的训练时长也会随之增加，而训练效果并未有更大的提升，故本文选择4名受试人员进行其他组实验。

2.5 性能分析

图9为本文方法的混淆矩阵，显示每个动作识别的结果均高于90 %，平均识别率达到93.7 %，证明AirNum方法对空中手写数字0～9的识别有较好的效果且具有较强的鲁棒性。

图9 识别结果综合混淆矩阵

本文选择AirNum方法、CNN、决策树与SVM方法进行交叉验证，通过准确率和F1值来比较几种方法的性能。准确率由真正率TP和假正率FP计算得出，是一种对方法稳定性的评估指标。F1值由精确率与召回率计算得出，是对系统整体性能的评估指标。表2中看出本文方法的准确率与F1值均高于另三种方法，证明本文具有较好的整体性能和识别效果。

表2 不同算法性能对比

本文选择WiG方法与WiGest方法做了多组交叉验证，数据集选择多径效应弱的空旷教室场景0.5 m视距距离4名人员采集的CSI数据。WiG模型使用SVM对CSI数据进行分类，WiGest模型通过离散小波变换降噪后用DTW算法进行手势识别, WiGeR[16]模型通过小波变换提取CSI特征，后用动态时间规整算法手势进行分类。本文选用准确率和F1值对三种方法性能进行评估结果如表3所示。

表3 不同模型性能对比

从表3可以看出:AirNum方法准确率与F1值均高于另三种方法，证明AirNum方法可有效提高空中手写数字识别的精度，且相比于其他方法AirNum方法整体性能更好。

3 结论

本文提出一种基于CSI的空中手写数字识别AirNum方法，在实验人员采集CSI手写数据后通过巴特沃斯低通滤波器过滤高频信号、PCA对数据降维，后提取特征值放入基于注意力机制的BRNN模型中训练，训练完成后导入测试集进行测试并给出识别概率。结果表明:本文方法具有较好的整体性能与识别效果。在后续工作中需要对本文方法进行进一步改进，以实现在通用环境下的良好识别效果。