基于弯曲可变电阻的手语识别系统设计

2020-05-15 15:00马洁

无线互联科技 2020年7期

马洁

摘要：文章结合陀螺仪（GYRO）、加速度计（ACC）、弯曲可变电阻三者收集到的手势动作信息，提出一种融合多传感器信息的手势识别方法，以提高训练及识别的速度。首先执行运动窗口检测，然后平滑滤波，将手势加速信号预处理为帧，最后构建离散隐马尔可夫模型以实现手势识别。

关键词：手势识别;隐马尔可夫;多传感器融合

1 国内外研究发展状况

手语是一种相对稳定的表达系统，由符号、手势、表情和手势补充。手势语言源自象形语言，对应人类手势中的对象或行为。手语是日常生活中常用的交流语言，为了确保日常生活的实用性，本系统主要设计用于手语。

一般来说，手语识别系统可以通过视觉或数据采集手套得到的数据来作为输入。与视觉手势结合的人机交互界面正成为计算机与人机交互领域的热点[1]。然而，对视频手势，尤其是复杂的动态手势识别问题的分析和理解仍然亟待解决。

本文的研究对象是具有时空并发性的手语，其具有时间不确定性和空间不确定性。此外，考虑到每个手指的变化（例如手指的弯曲和伸展、手指之间的距离的变化等），应使用数据手套作为输入设备。

从识别技术的角度来看，以前的手语识别系统主要使用神经网络和隐马尔可夫模型（Hidden Markov Model，HMM）。神经网络方法由于处理时间序列的能力较弱，目前被广泛用于静态手势识别。即便是HMM简单架构，也可以很好地描述手语信号的时空变化[2]，因而在动态手势识别领域占有重要地位。Liang等[3]、Starner等[4]、Vogler等[5]研究的描述的系统正是融合了HMM的识别技能。然而，针对在连续HMM中计算状态概率密度时需要估计的参数数量很大而造成的训练和识别速度慢的问题，提出了一种手势识别方法，该方法将陀螺仪（Gyroscope，GYRO）、加速度计（Accelerometer，ACC）、弯曲可变电阻三者收集到的手势动作信息结合成了多传感器信息，从而改善了训练效果，识别速度大为提高。

2 系统模型（算法模型）

在连续手势序列中，检测到上一个手势的终点到下一个手势的起点之间，手的过渡通常被认为是连续手势识别中最重要的困难之一。针对这一问题，本研究采用多流HMMs。HMMs是一种适合非平稳随机序列的学习模型，其具有概率统计特征。此模型有3个基本问题要解决：

（1）概率计算问题，一般采用前向（Forward）与后向（Back Forward）算法。

（2）学习问题，通常采用Baum-Welch算法，也就是最大期望算法（Expectation-Maximization Algorithm，EM）。

（3）解码问题，其实现通常与维特比算法有关。隐马尔可夫模型λ可以用3个元素表示：λ=（A，B，π）。

其中，A代表状态转移概率矩阵，B代表观察概率矩阵，并且π代表初始状态概率向量。HMM的优点是算法成熟、效率高且易于训练，具有很强的建模功能，尤其在强大的时间序列方面，比如可以很好地处理单个时间序列特征向量。

本研究提出的方法信号更为复杂，包含基本的手形和运动轨迹信息，使用多流HMM对手势进行训练和分类。

假设表示待识别手势的观察序列O由N个观察数据流组成，即：O={On|n=1，2，...，N}。

然后，每个手势类别模型λ由与N个观察数据流相关的子模型λn组成，即λ={λn|n=1，2，...，N}。

假设每个数据流彼此独立，对每个数据流进行建模。对于手势模型λ，观察序列O，其似然计算如下：

P（O|λ）=P（On|λn）υn （1）

以降低计算复杂度的目的简化上式，将式（1）转化如下：

lgP（O|λ）=υnlgP（On|λn）（2）

其中，υn是每个数据流的流权重，并且满足υn=1，0≤υn≤1，表示每个数据流与最终识别结果的比例。具有最高可能性的模型类别是未知动态手势动作特征序列的识别结果[6]。

ACC特征提取三轴加速度计可在执行动态手势时测量3个轴（x，y，z）上的速度变化率。变化率的序列值正是運动轨迹的直接描述。为了减小相同手势之间的幅度和速度差异的影响，需要对ACC信号进行归一化和下采样，以简化识别过程并降低识别难度。对收集到的ACC信号执行以下两步处理：首先，将活动段3中导联ACC信号的幅度绝对值归一化，将其最大最小比例转换到-1和1之间，以消除对此信号在幅值方面因执行动作的速度而造成的影响;其次，对归一化的数据在时间轴上平均采样N个数据点，研究发现，当N=64时，可以获得良好的结果。

3 实验结果

实验方案和数据收集静态手势仅涉及手指运动，这是使静态手指配置和手臂保持在特定位置的静态手势。在执行动态手势的过程中，手指的构造取决于手势的运动轨迹、手掌的方向以及运动前后的手指构造的变化。为了验证所提方法的有效性，本研究定义了一个包含10个动态手势的完整集合。这些手势由5个平面轨迹、6个静态手形和两个手势方向组成。动态手势的平面轨迹包括简单的向上（UP）、水平移动（TRS）、支腿（CRK）和弯曲臂（STR）运动以及更复杂的波形（WAV）运动。用于动态手势的静态手形包括拳头形（H）、确定手形（O）、拳头形（F）、四指手形（S）和食指、大拇指手形（E）和伸拇指手形（T）。手势方向包括手掌向上（PD）和手掌向下（PD）。

本次试验需要收集并研究分析30 000个动态的手势样本。将研究对象放置在自然环境中，让其自然站立，然后严格按照本研究定义的30个手势在一周的时间里收集5次执行数据信息。为了验证多传感器如何在手势识别中如何发挥作用，首先就是要对单个的传感器进行手势识别试验，之后再进行多手势识别的组合试验。

设计实验以研究3种传感器信号融合的效果，以证实其在手势识别中的作用，实验将受试者分成两组，一组作为训练样本，一组作为测试样本。在实验中，根据不同的实验阶段分为不同的测试内容，在训练阶段随机从每个训练动作中挑选30个样本进行模型训练，在测试阶段，将剩下的20个样本用作模式识别试验。使用交叉验证的方式来验证7个数据结果之间的差别。

多传感器的组合使用能够极大程度地提高手势识别的准确性。本研究定义了手势识别的类型，能够保障传感器融合使用以改进系统的推理能力，由此得到的结果是：多个传感器获得的信息传输不论是在准确性还是在质量的可靠性方面，显然都超越单个传感器结果。另外，通过对不同情况下的数据进行标准偏差对比可以发现：传感器类型的增加与手势识别的结果标准偏差呈现反比趋势。通过实验验证，本研究提出的多种传感器方法可以极大程度地减少手势识别的差异结果，有效消除不同动态手势模型所带来的可分离差异。

4 结语

本研究设计并实现了基于加速度传感器的实时手势识别方案。可穿戴运动采集模块使用加速度传感器收集手势加速度信号，首先执行运动窗口检测，自动定位可能的手势运动序列，然后平滑滤波，归一化处理和信号窗口重采样以消除手势运动幅度和速度影响差异。将手势加速信号预处理为帧，并提取每个帧的三维平均值作为关键特征，最后构建离散隐马尔可夫模型以实现手势识别。实验表明，使用手势加速处理方案可以自动定位手势，有效地提高了训练和识别的速度，并且该系统方案适用于可穿戴设备的实时交互。

[参考文献]

[1]中国聋人协会.中国手语[M]北京：北京华夏出版社，1991.

[2]RABINER L R，JUANG B H.An introduction to Hidden Markov models[J].IEEE ASSP Magazine，1986（1）：4-16.

[3]LIANG R，OUHYOUNG M.A sign language recognition system using Hidden Markov model and context sensitive search[C].Hong Kong：Processing of the ACM Symposium on VR Software and Technology，1996.

[4]STARNER T，PENTLAND A.Real-time American sign language recognition from video using hidden Markov models：US，TR2375[P].1996-07-15.

[5]VOGLER C，METAXAS D.A SL recognition based on a coupling between HMMs and 3D motion analysis[J].Intl Confon Computer Vision，1998（1）：363-369.

[6]李云，陳香，张旭，等.基于加速计与表面肌电传感器信息融合的手语识别方法[J].航天医学与医学工程，2010（6）：419-424.

Design of sign language recognition system based on curved variable resistor

Ma Jie

（School of Physics and Technology， Central China Normal University， Wuhan 430079， China）

Abstract：This article combines gesture motion information monitored by three low-cost sensors including gyroscope（GYRO）， accelerometer（ACC）， and curved variable resistor， and proposes a gesture recognition method for multiple sensor information to improve training and training speed. Firstly， detect the motion window， then smooth filter， preprocess the acceleration signal into frames， and finally construct the discrete Hidden Markov model to realize gesture recognition.

Key words：gesture recognition; Hidden Markov; fusion of multiple sensor