听障教学中手语识别技术的研究进展

2022-12-22 15:05马春华邵俊倩
绥化学院学报 2022年10期
关键词:手语手势卷积

马春华 邵俊倩 秦 兵

(绥化学院 黑龙江绥化 152061)

作为人口大国的我国,聋哑学生不在少数,听障学生的教育更是备受瞩目,近些年得到国家及全社会的高度重视。黑龙江省拥有听障基础教育加高等教育的完整听障生教育体系,为听障生高质量的课堂教学提供了有力保障。手语是听障生课堂教学中的主要交流手段,但以健听人为主的手语识别越来越不能满足听障生课堂教学的需求。究其原因,主要有两个方面:(1)不同课程都存在大量的特有非通用手语,且存在变种表达,不同的听障生对同一复杂抽象概念的表达存在很大差异,这加大了健听人对手语识别的难度。首先是词汇方面的原因。因为现有手语构成元素主要来自视觉化元素,包含少量的非视觉和抽象概念元素,其对抽象概念的表述还无法像自然语言那样丰富有力。当涉及抽象概念的课程教学时,标准手语的现有词汇有时也不能充分自如地表达这些复杂的抽象概念,甚至这些专业课中涉及的很多概念在现有《中国手语》手册和专有词汇手语手册里根本没有对应手语。然后是手语词汇组合方面的原因。因为手语表达比自然发音要慢很多,当表达一个句子时,听障生会自然的省略一些非关键词以加快速度,同时会有一些词语顺序及组合规则的变形。不同的听障生对这种词语组合规则存在强烈的个性化特征,所以课堂教学中存在大量的非通用手语表达,这进一步加大了健听人对手语识别的难度。(2)不同地域听障生的手语表达习惯差别很大,加之不同课程都有自己特定概念的手语,这导致教师和学生需要记忆并练习大量的非标准手语,进一步导致健听人手语识别的困难。鉴于健听人手语识别存在的困境,部分研究者很早就旨在通过技术手段对手语实现机器识别,如,数据手套、Kinect体感摄像机等,但因为其中的软件对手语的识别准确率太低,从而无法大规模应用在听障生课堂教学中。

近年来,基于神经网络(Neural Network,NN)的深度学习在很多领域都实现了技术突破,其中,图深度学习的发展尤其引人注目,有望使手语识别精度大幅度提高从而达到实用水平。目前,已有部分研究者进行了基于深度学习技术的手语识别研究,但鉴于技术难度,还远未达到实用化水平。下面将对国内外手语识别的纯技术研究做出梳理,其中重点关注基于深度学习的手语识别技术。

一、传统的手语识别技术

有效的手语识别(Sign Language Recognition,SLR)系统可以通过手势识别促进与听力障碍者之间的交流。与区域口语相似,不同地区也发展了各自的手势表征(如美国手语(ASL)、德国手语(GSL)、印度手语(ISL)等)。中国手语(Chinese Sign Language,CSL)是我国听力障碍人群的主要交际手段,它可以缩短听障者与健康人之间的距离,帮助他们更好地学习并融入社会。由于手部形状和动作的变化为识别过程增加了许多难度与挑战,使得SLR成为手语应用研究的重点之一。传统用于SLR的方法主要有:模板匹配方法(template matching)、隐马尔可夫模型(Hidden Markov Model,HMM)及NN等方法。其中,模板匹配方法是最简单的手势识别方法,该方法的优点是易于模板的建立与改进,且能有效地识别,对于小词汇表孤立词识别系统十分适用。HMM是概率统计方法中最具有代表性的方法,与HMM结合最为紧密的算法当属Viterbi算法。NN方法具有很强的分类特性及抗干扰特性,但由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。

传统的SLR方法都有其各自的局限性,随着科学技术不断地发展与进步,给一些专家学者提供了新的思路。考虑将传统方法相融合以弥补各自的不足,如将HMM与动态时间规整算法(Dynamic Time Warping,DTW)相结合[1],HMM与支持向量机(Support Vector Machine,SVM)相结合[2]、HMM与NN相结合[3-4]及模糊逻辑与NN相结合[5-6]的手语识别技术。

(一)HMM与DTW相结合的手语识别技术。DTW算法是SLR的经典算法,其最显著的优点是识别精度高,系统的复杂度低。该算法的缺点是需要对大量路径及其中的所有节点进行匹配计算,导致计算量太大,所以需要通过全局路径约束和端点限制方法对其改进,使之满足SLR的需要。为提高大词汇量SLR速度,姚等人[1]提出了一种将DTW和HMM相结合的多层次大词汇量SLR方法。该方法的思想是先进行全局粗略搜索,将要识别的手势词归入某一组范围较小的词表中,然后通过更加精确的HMM局部搜索将词识别出来。实验结果表明,相对于仅用HMM单层识别而言,识别速度和识别准确率都有所提高。

(二)HMM与SVM相结合的手语识别技术。SVM是一种较为成功的统计学习方法,在模式识别领域尤其是图像处理领域应用较为广泛。针对HMM与SVM各自的优势,赵[2]提出了基于HMM的CSL方法,通过应用Sugeno模糊积分,计算机图形学识别的图像处理技术,采用直方图的特征可以将手型的区域从背景中分离出来,进一步通过降维处理,将得到的手部图像去除手部以外的区域,从而得到手的轮廓,使得不携带其他相关手套工具,达到静态简单手语识别,其正确率达到了85%以上,证明这种方法在CSL识别上的可行性。

(三)HMM与NN相结合的手语识别技术。一般结构下的HMM方法能够有效地处理手势信号的时间特性,因而在SLR领域一直占有主导地位。然而HMM拓扑结构的一般性致使该模型在分析手语信号时过于复杂,特别是对于连续的或半连续的HMM,需要计算大量的状态概率密度和估计大量的参数,因而一般SLR系统均采用离散的HMM。对于标准的HMM,它的一个主要局限在于要求对应于每个状态手势段的手势向量是独立的,并且缺少分类特性。因此,早在1999年,吴等人[3]就给出了NN与HMM相结合的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。其实验结果表明将NNHMM混合方法应用于有18个传感器的Cyber Glove型号数据手套的CSL识别系统中是有效和可行的。2018年,M.Suresh Anand等人[4]开发了ISL识别系统。该系统对输入图像进行预处理后,采用离散小波变换(DWT)提取手势特征。使用HMM和ANN进行分类,该系统提高了识别的准确性。

(四)模糊逻辑与NN相结合的手语识别技术。现在的一些识别方法是将传统的模型与NN模型进行串联或者嵌入,以同时利用两类模型的优势。将模糊逻辑理论运用到手语识别技术当中,早在2003年,Zou等人利用数据手套CAS Glove作为输入设备,提出了一种基于模糊神经网络(FNN)的中国手语单手静态词汇的识别方法[5]。同年,Zou等人[6]又结合汉语手语中手势的特点,采用人手的三维空间位置信息作为观测向量,将模糊理论与HMM理论有机结合,提出了一种基于FSMM的CSL手势识别方法。

二、基于深度学习的手语识别技术

经典的手语识别方法,由于信息冗余、人的手指遮挡、运动模糊、不同人的签名风格多样等,识别精度不够高。为了克服传统方法的缺点,国内外研究者投入了大量的经历,致力于SLR新方法新技术的研究,近几年涌现了大量的SLR新方法。深度学习技术的蓬勃发展为更准确和实时的SLR带来了新的机会。目前出现的基于深度学习的手语识别技术主要包括基于卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、图神经网络(Graph Neural Network,GNN)及多种方法融合的手语识别技术。

(一)基于CNN的手语识别技术。CNN是深度学习的一种重要形式,CNN致力于处理具有相似网络结构的数据,如时间序列和图像数据。此外,CNN的自学习和自组织能力,在许多应用领域,特别是图像分类和辅助临床诊断,具有良好的应用前景。由于二维CNN模型善于提取图像特征,根特大学手语团队很早就提出了一个包含双二维CNN的SLR系统来提取手部和上半身特征。但常用的二维CNN在处理连续视频帧的时候会丢失在时间维度上的特征信息,因此降低了识别准确率。于是,Ji等人[7]针对该缺陷提出利用三维CNN网络来进行视频动作的识别,其核心思想是通过3D卷积操作,从时间维度和空间维度构建视频特征,取得了良好的结果。目前,利用CNN进行SLR的方法仍然是国内外专家学者热衷的行之有效的方法之一。

在国外,Pariwat等[8]开发了一个具有深度学习功能的多笔画泰国SLR系统。该系统使用CNN进行学习特征和分类。Barbhuiya等人[9]将CNN应用于手语识别背景下静态符号的鲁棒建模。Rahaf等人[10]引入了一种基于区域的卷积神经网络(R-CNN)阿拉伯SLR系统,该系统能够更快地定位和识别阿拉伯手语的字母表。Daniels等人[11]采用YOLO方法进行印尼手语识别,开发一种能够实时使用只看一次(YOLO)处理视频输入的SLR系统。YOLO是一种基于CNN的目标检测方法,具有准确、快速的特点。Marwa等人[12]提出了一种基于CNN作为分类算法的手势识别系统的框架。通过将该模型与其他深度学习方法的识别准确性进行比较,验证了该模型所提出框架的有效性超过了其他模型。

在我国,CNN在汉语手语分类中发挥着非常重要的作用。Lee等人[13]提出了一种新的双输出双流CNN。它不仅结合了空间流网络和运动流网络,而且有效地缓解了双流CNN的反向传播问题,提高了其识别精度。赵等人[14]为了提高3D-CNN在进行动态手语识别任务时的准确率,参考Resnet50网络提出了一种双通道的时空特征提取网络。该网络包含一个高采样频率分支和一个低采样频率分支,分别关注图像中的运动信息和语义信息,最终融合两个分支提取到的特征完成分类识别。Gao等人[15]提出一种用于汉语手语分类的九层CNN。

(二)基于RNN的手语识别技术。SLR通常被表述为序列比对问题,其中连接主义时态分类(CTC)在构建视频序列与句子级标签之间的有效比对中起着重要作用。但是,如果输出标签序列比输入视频序列长,基于CTC的SLR方法往往会失效。由于RNN能够对时间序列的长期上下文信息建模,因此适合于分析这种类型的集合。Gao等人[16]提出了一种新的基于RNN传感器的SLR框架,即视觉层次到词汇序列比对网络(visual hierarchy to lexical sequence alignment network-H2SNet),在该框架中,设计了一个视觉层次转录网络,在多个层次上捕捉符号视频的空间外观和时间运动线索。同时,利用词汇预测网络从输出预测中提取有效的语境信息。RNN-Transducer用于学习序列视频特征与句子级标签之间的映射。大量实验验证了该方法相对于现有方法的有效性和优越性。Avola等人[17]利用人手指骨形成的角度作为特征,对RNN进行训练,识别的准确率达到96%以上。

(三)基于GNN的手语识别技术。面对结构复杂并且形状不规则的图数据时,传统的CNN无法对其直接进行处理。GNN的诞生,很好地解决了直接对图数据建模的问题。GNN的出现,使得图数据可直接应用于学习过程,从而避免了由于数据预处理而丢失结构信息的问题。在惊叹于CNN的强大性能之时,研究人员也开始考虑如何将卷积应用到GNN中。图卷积神经网络(GCN)研究在一定意义上弥补了传统CNN的不足。受益于卷积滤波的高效性,图卷积模型在多项图数据相关任务上均取得了令人瞩目的成绩;同时,基于时空域图卷积的NN模型[18-21]开始涌现。Meng等人[22]提出了一种基于GCN的多尺度双手语识别网络。给出了三种不同的注意机制:多尺度注意机制、时空注意机制和时间注意机制,以进一步提高其鲁棒性和准确性。

(四)基于深度学习的混合手语识别技术。

1.CNN与SVM相结合的手语识别技术。Vanita等人[23]利用CNN和SVM对ASL进行识别,并计算了单层和双层CNN的最优滤波大小。第一阶段从数据集中提取特征,并应用了多种预处理技术后,在训练数据集上分别应用了4种不同核的SVM,以及单层和双层CNN对模型进行训练,最后对两种技术的精度进行了计算与比较。

2.CNN与HMM相结合的手语识别技术。目前,手势和SLR领域的大多数方法都忽视了处理训练和评价序列数据的必要性。Oscar等人[24]构建的混合CNN-HMM模型结合了CNN强大的识别能力和HMM的序列建模能力。通过提出的端到端嵌入,能够在3个具有挑战性的基准连续手语识别任务上比目前的先进水平提高15%~38%的错误率,并达到20%的绝对量。分析了CNN结构、网络预训练和隐藏状态数的影响,并将混合建模方法与串联建模方法进行了比较。

3.CNN与RNN相结合的手语识别技术。JO等人[25]利用具有预处理和重叠窗口的卷积递归神经网络(CRNN)实时鲁棒的识别手势。CRNN是一种深度学习模型,它结合了用于时间序列信息分类的长短时记忆(LSTM)和用于特征提取的CNN。用于手势检测的传感器采用Myo-armband,对6个手势进行识别和分类,包括2个握手、3个手征、1个休息。作为肌电信号数据特征的必要预处理,现有的短时傅里叶变换(STFT)、连续时间小波变换(CWT)和新提出的尺度平均小波变换(SAWT)均被采用。因此,SAWT在静止环境试验中表现出较高的精度。无论是静态测试还是实时测试,采用SAWT和重叠窗口的CRNN都表现出比其他方法更好的性能。

三、结语

本文针对国内外SLR的纯技术研究做出梳理。首先,对传统的SLR方法进行归纳,包括模板匹配方法、HMM、NN及多种方法融合的手语识别技术;其次,研究基于深度学习的手语识别技术,主要包括基于CNN、RNN、GNN及多种方法融合的手语识别技术。由于SLR尚处在技术研究阶段,其识别精度暂时尚难以支持流畅的交流,目前针对SLR的教改活动主要集中在一流聋人本科院校中,包括美国的罗切斯特理工学院国家聋人工学院[26]、俄罗斯鲍曼技术大学聋人中心[27]、日本的筑波技术大学[28]都有相应的教学应用探索。在我国,历史上中国的聋人教育并未体现出很强的技术导向,主要侧重教学方法的改进,目前还没见到中国聋人院校关于SLR设备应用于课堂教学的公开报道。所以,如何将手语识别技术真正用于听障教学,将是值得研究与探索的。未来从事SLR技术研究人员应为SLR设备制造商提供相应技术支持,国家和地方政府应加大资金的投入,为SLR设备制造商给予一定的政策支持,并鼓励中国聋人院校积极运用SLR设备进行教学试点。总之,需要社会各界人士一起努力,多方合作,为听障人士创造更加便捷的沟通渠道。

猜你喜欢
手语手势卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
挑战!神秘手势
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
从滤波器理解卷积
无声的世界里,怎样唱一首歌?
基于傅里叶域卷积表示的目标跟踪算法
胜利的手势
奇怪的手语图
认手势说数字