基于自编码的中国手语识别研究

2017-08-09 01:34林鹏程林培杰程树英
网络安全与数据管理 2017年13期
关键词:手语手套分类器

林鹏程,林培杰,程树英

(1.福州大学 物理与信息工程学院,福建 福州 350116; 2.福州大学 微纳器件与太阳能电池研究所,福建 福州 350116)



基于自编码的中国手语识别研究

林鹏程1,2,林培杰1,2,程树英1,2

(1.福州大学 物理与信息工程学院,福建 福州 350116; 2.福州大学 微纳器件与太阳能电池研究所,福建 福州 350116)

针对动态手语上下文联系强的特点,采用LSTM(Long Short-Term Memory)循环神经网络用于识别,同时,利用自编码实现动态手语的无监督学习。该方法将数据手套作为采集设备,在获取手语信息后,通过编码器、解码器生成手语的重构矢量。在实验过程中,将采集的数据集进行模型的训练,并与监督学习的结果进行比较。实验结果表明,该方法能够有效进行手语识别的无监督学习。

长短期记忆;自编码;数据手套;手语识别

0 引言

手势的发展过程中,逐渐形成手语作为聋哑人之间的主要交流方式。同时,可穿戴设备和便携式设备的出现,急需新的人机交互来代替键鼠,让设备更加人性化,手语具有直接、方便、快速的特点,成为了这类设备的首选。因此,手语识别技术具有很强的社会意义和工程意义。

中国是具有听障人士最多的国家[1],中国手语作为他们最主要的交流方式,对中国手语的识别研究具有很大的应用价值。《中国手语》[2]中目前收录了5 000多个词汇,分为手指语和手势语两种[3],手指语即字母,这与键盘没有本质上的区别,因此研究的重点在于手势语的识别上。手势语都是由手势和手形共同组成,为了获取这些特征,目前研究包括了两类:(1)基于机器视觉;(2)基于数据手套。机器视觉的方式目前稳定性差,受到了环境、系统响应速度、识别率低的影响,很难在近期进入市场。另一方面,随着传感器价格不断下降,数据手套的方式在保证数据精确度的同时,价格更加亲民化,使得该方法很适合普及应用,是目前手语识别的研究重点。

手语识别的研究上,分静态手语和动态手语,两者区别在于时间序列中动作是否有变化,如今的研究重点在于动态手语的识别。Mohandes[4]利用支持向量机对数据手套采集的100个手语进行分类,准确率达到99.6%,但是这些手语都是静态的;Lichtenauer[5]结合动态时间规划(DTW)和二次分类进行分类,平均识别率为92.3%,但DTW需要事先建立模板,工作量巨大。为了解决模板问题,后人对隐马尔可夫模型进行改进并用于手语识别。曹翔[6]使用分帧隐马尔可夫模型(Hidden Markov Model, HMM)对30个中国手语进行识别,准确率达到了97.1%左右;Antwarg[7]用具有HMM结构的决策树来进行动作序列的预测,并在两个数据集上进行验证,相比HMM算法准确率提高了5%;Tzuu-Hseng[8]结合HMM、K-means、蚁群算法用于台湾手语识别,平均识别率达到91.3%,但数据集只有11个词汇。HMM虽然能解决连续手语的问题,但目前大多应用在小数据集的手语识别上,并且它有只与上一状态有关的缺点,使其离应用仍有很长的路要走,而且上述的研究模型是采用监督学习的方式,需要对数据集进行标注,带来了附加的工作量。

本文针对上述研究的主要缺点,构建了一种用于中国手语识别的无监督模型。模型使用LSTM型循环神经网络进行中国手语的识别,同时,利用自编码的结构实现数据的无监督学习。

1 基于自编码的中国手语识别

1.1 自编码框架

为了实现中国手语的无监督学习从而进行识别,本文构建了基于LSTM循环神经网络自编码来达到这一效果。其基本思想是通过将手语的数据进行重构,生成连续手语数据的向量。图1为无监督学习手语的框架流程,采集的手语向量通过输入层,再通过利用LSTM层所组成的编码器进行编码,进而获得手语数据的重构向量。为了实现无监督学习,需要将这些重构的向量再转化成与输入序列相应的向量,并比较获得的误差,再将误差回传,不断改善参数。因此,将重构所得的向量再经过3层LSTM神经网络组成的解码器进行解码,获得与输入数据相同维度的数据,与其进行比较获得误差,并将误差回传,不断更新模型参数,最终实现手语数据的无监督学习。

图1 无监督手语识别框架

图3 特征向量

1.2 LSTM循环神经网络

LSTM型循环神经网络由于在进行识别时无需了解数据,能有效地区别出输入数据之间的差异,并能针对时间序列提供强大的互联网络,在语义分析、情感分析、语音识别[9-10]等诸多领域取得很好的效果。其核心在于能通过基本单元操作内存对数据进行存储,再根据数据之间的关系来形成相应的关系网络。LSTM的基本单元中包括了输入层、隐藏层、输出层,并通过输入门、输出门、遗忘门来控制其与其他基本单元之间的联系。当输入的序列为I=(I1,I2,…,IT)时(其中T为输入序列的长度,IT为T时刻的输入),基本单元通过式(1)控制信息的流动。

(1)

其中,W为权重矩阵,b为偏置矩阵,I、F、c、O、m分别代表输入门、遗忘门、状态单元、输出门以及LSTM结构的输出[11];σ为控制门的激励函数,h为状态激励函数,如式(2):

(2)

2 数据集说明

图2 数据手套

为了评价所构建的框架,并让其他研究者可以进行比较,本文中采用了自行设计的数据手套进行采集,数据手套包括了用于采集加速度的加速度传感器、采集角速度的陀螺仪、测量地磁的磁力计和用于获取手指弯曲程度的弯曲度传感器,共有两只分别用于采集左右手信息。图 2展示了数据手套的结构。

采集过程中,分别让5个不同的志愿者佩戴手套,采集了12 000组数据,囊括120个手语词汇,每组数据包括28个特征,部分特征可视化效果如图3所示。

数据集中包括的手语词汇都是日常常用的手语,部分词汇如表1所示。

表1 手语词汇

3 模型训练

3.1 数据预处理

为了验证本文所提出模型的有效性,将两个数据集分别用于无监督学习,同时为了验证模型有效性,将部分数据集进行相应的标注,用于监督学习,与无监督学习的效果进行比较,最后在测试集上进行准确率的比较。数据集具体用途如表2所示。

表2 数据用途

3.2 数据训练

首先,利用数据训练本文所采用的无监督模型,训练完成得到编码器和解码器的权重和偏置参数。无监督所使用的数据,即采集的数据,输入的数据也是相应的标签数据,解码产生的输出将与输入数据进行比较,计算损失函数,计算方法如式(3)所示,其中OT为T时刻的解码器输出。

(3)

接着将解码器部分移除,并添加相应的LSTM分类器,用于将重构后的手语向量识别成相应的手语词汇,其结构如图4所示。

图4 编码-分类器

4 实验结果与分析

为了说明本文构建的模型在无监督学习方面的有效性,与刘涛[12]所采用的LSTM型分类器用于手语识别的结果进行比较。

本文采用损失和准确度两个参数进行比较。

模型在训练过程中,从图5可以看出,本文使用的算法损失函数更低,并且损失函数下降速度更快,不需要大量的迭代计算。从图6可以看出,本文所使用的方法有很大的改进,准确率相比LSTM分类器有很大的提高,并且准确率上升速度快,大大减小了迭代的计算次数。

图5 算法损失函数结果比较

图6 算法准确率结果比较

为了进一步说明算法的有效性,分别在测试集上进行算法的验证,测试集由2 000个手语数据组成,模型是由上述训练数据经过10个周期的迭代计算所生成。两种算法在测试集上的验证结果如表3所示,可以看出本文所使用的方法在训练阶段和识别阶段,识别率都比LSTM分类器好。

表3 算法测试集结果比较

综上可知,本文中基于自编码的中国手语识别方法具有一定的先进性。

5 结论

本文针对中国手语识别中数据难获取、标注量大的特点,构建基于自编码的识别方式比较实现无监督学习。通过与监督学习的方式来定量评价所设计的模型的有效性。实验结果表明,与LSTM型分类器识别中国手语的方式相比,自编码的识别方式能有效地识别中国手语,在提高识别率的同时,训练速度大大提高,为实际中中国手语识别的研究设计提供有效的支持。

[1] 冯永, 刘亚兰. 从遗传性聋基因筛查到基因诊断——我们的路还有多远[J]. 中国耳鼻咽喉头颈外科,2015,22(2):55-56.

[2] 中国残疾人联合会教育就业部中国聋人协会. 中国手语(上下修订版)[M]. 北京: 华夏出版社, 2003.

[3] 杨全, 彭进业. 采用SIFT-BoW和深度图像信息的中国手语识别研究[J]. 计算机科学, 2014,41(2):302-307.

[4] MOHANDES M A. Recognition of two-handed arabic signs using the cyberGlove[J]. Arabian Journal for Science and Engineering, 2012,38(3):669-677.

[5] LICHTENAUER J F, HENDRIKS E A, REINDERS M J. Sign language recognition by combining statistical DTW and independent classification[J]. IEEE Transactions on Pattern Analysis and Machline Intelligence, 2008,30(11):2040-2046.

[6] 曹翔. 可穿戴手语翻译器研制[D]. 合肥:中国科学与技术大学,2015.

[7] ANTWARG L, ROKACH L, SHAPIRA B. Attribute-driven hidden markov model trees for intention prediction[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012,42(6):1103-1119.

[8] LI T H S, KAO M C, KUO P H. Recognition system for home-service-related sign language using entropy-based K-Means algorithm and ABC-Based HMM[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2016,46(1):150-162.

[9] WENINGER F, GEIGER J, WÖLLMER M, et al. Feature enhancement by deep LSTM networks for ASR in reverberant multisource environments [J]. Computer Speech & Language, 2014,28(4):888-902.

[10] 梁军, 柴玉梅, 原慧斌,等. 基于极性转移和LSTM递归网络的情感分析[J]. 中文信息学报, 2015,29(5):152-159.

[11] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997,9(8):1735-1780.

[12] LIU T, ZHOU W, LI H. Sign language recognition with long short-term memory[C]. IEEE International Conference on Image Processing. IEEE, 2016: 2871-2875.

Chinese sign language recognition research based on auto-encoder

Lin Pengcheng1,2, Lin Peijie1,2, Cheng Shuying1,2

(1. College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116, China;2. Institute of Micro/Nano Devices & Solar Cells, Fuzhou University,Fuzhou 350116, China)

Because dynamic sign language has strong context-sensitive feature,we use recurrent neural networks based on LSTM to recognise it. At the same time, auto-encoder is used to realize unsupervised learning with data glove as the collecting device.After obtaining the information of sign language,the data is used to reconstruct vector of sign language through encoder and decoder.During the experiment,the collected data is used to train the model and compare with the result of supervised learning. Experimental results demonstrate the effectiveness of the proposed auto-encoder on unsupervised learning sign language.

long short-term memory; auto-encoder; data glove; sign language recognition

TP391.4

A

10.19358/j.issn.1674- 7720.2017.13.018

林鹏程,林培杰,程树英.基于自编码的中国手语识别研究[J].微型机与应用,2017,36(13):59-61,65.

2017-02-14)

林鹏程(1992-),男,硕士,主要研究方向:嵌入式系统、模式识别。

林培杰(1982-),男,硕士,讲师,主要研究方向:图像处理、嵌入式系统。

程树英(1966-),女,博士,教授,主要研究方向:图像处理、光伏电池及其应用系统。

猜你喜欢
手语手套分类器
棉手套
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
做只手套好过冬
神秘的白手套
基于差异性测度的遥感自适应分类器选择
棉手套
基于实例的强分类器快速集成方法
科学认识中国手语,努力提高应用水平
奇怪的手语图
基于层次化分类器的遥感图像飞机目标检测