辅助听障人士的一种手语转情感语音工具的设计

2022-07-02 12:23顾颖许琪毛贝思林巧民
电脑知识与技术 2022年15期
关键词:机器视觉

顾颖 许琪 毛贝思 林巧民

摘要:手语是听障人士与外界沟通交流的桥梁,如何帮助听障人士带有情感地与健听人正常交流,是当下社会需要解决的问题。辅助听障人士的一种手语转情感语音的交流工具,涉及手语识别、表情情感计算、语音情感合成等技术领域,基于机器视觉、动态贝叶斯网络、共振峰合成法等知识,能够实现手语同传、双向交互、情感表达等目的。文章研究能够应用在手机上的软件,方便用户随身携带,实现由手语转换成情感语音,改善听障人士与正常人直接的沟通交流方式。

关键词:情感计算;机器视觉;表情情感识别;语音情感合成;听障人士

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2022)15-0072-03

1 引言

随着现代人机交互系统的迅速发展,关于“情感计算”的研究也日益引起了人们的兴趣关注[1],并且已经在面部表情、姿势改变、语言理解等方面取得了相当的进步[2]。听障人士作为社会特殊群体在语言表达方面存在缺憾,不能够准确地表达出其及时的想法和情感,而现在市面上的手语翻译仅仅以中性的语调,将手语翻译成语言,不能够充分地表达出听障人士的情绪变化。

项目旨在研究辅助听障人士的一种手语转情感语音交流工具的设计,将该模型集成在手机App上,方便用户随身携带。利用机器视觉、表情情感计算、语音情感合成等技术,帮助其更加快捷、高效地与正常人搭建友好的沟通平台。

2 手语识别技术

手语识别技术是把听障人士的手语通过电脑装置辨识,并翻译成汉语,它涉及图像识别、语言分析等多个领域。在视频中,听障人士挥手的速度、频率和幅度、手形的变化和其他相关信息,这些信息的处理和识别对计算机硬件设备有着严苛的要求。因此电脑视觉[3]也是手语识别技术中相当主要而且重要的技术手段之一。伴随近些年来人工智能和计算机科学的蓬勃兴起,其也随之蒸蒸日上。而与此同时,手语识别技术也获得了来自国外更多的重视。手语图像识别技术,按照其对识别听障人士手语的特点处理,可以分成两种:其一是基于传统方法的手语识别技术;其二是基于深度学习的手语识别技术[4]。这里采用第一种方法。

1)相机标定:空间中的对象由摄像设备所拍摄的图片还原而成。假设线性关系存在于三维空间中的实体对象与图像之间,存在着:[像]=M[物],矩阵M也可认为是摄像机成像的几何模式,M中的基本参数也就是摄像机基本参数[5]。它利用摄像机标定原理,大大提高了计算机视觉的鲁棒性。

2)手势图像分割:在处理图像的过程中,要将目标图像分割开来,提取其中有价值的那一部分,提供给系统,进行后面的操作。

3)特征提取:在这个阶段,数据量通常很小,利用合适的算法对图片进行二值化处理,从而得到一个仅突出手语信息的单一图片。

4)手势估计:采用水平集算法及其改进的分割图像,以合适的模型提取和跟踪手部轮廓,采用mean-shift算法跟踪轮廓内外的图像特征分布。

5)手势行为识别:在现有的手语数据库中,运用适合的分类器对听障人士的手势进行识别,以提高识别程度[6]。

3 动态表情计算技术

世界名著《人与动物情感的表达》中有述,人类脸部表情可以使人形成不同于其他哺乳动物的更高等生物,也成为人们之间可以更有情感地交流沟通的最主要介质[7],在情感计算中,表情识别是一个人机交互研究中重要的方法,是情感计算研究中的基础。于是,大批研究者都投入到面部表情情感认知研究的队伍当中。当对人们的情感加以研究时,表情始终是人类情感识别中最主要的特点之一。

简单的动作表情情感辨识过程,通常包括三部分:数据预处理、情感特征提取、动作表情信息辨识。

1)表情数据预处理、情感提取及情感分類器

对表情数据的预处理是进行情感识别的首要步骤,由于图像中有太多不相关的背景或物体噪声,这种干扰条件会直接影响情感识别的有效性。当提供情感特征时,并不能提供有用的情感信息,可能会产生负面影响。如果只想获得人脸表情的特点或掩盖背景信息,那么需要检查每一帧图片中的人脸信息,并在这些人脸信息中获得特点。结合人脸对齐操作、高斯模糊、图像纹理合成与高维隐空间向特征编码等技术操作,对所采集的表情数据,进行去噪、去除敏感信号等工作处理[8],去掉多余的信息从而关注于最关键的特征。

特征提取的目的是获得能够表示图像特征的属性信息。人脸对表情有关的特征主要来源于人的五官肌肉变化。例如当一个人处于比较开心的时候,就会产生眉宇舒展、卧蚕突显、嘴角上扬等一系列的动作;当一个人愤怒的时候,会产生眼睛瞪大、眉毛有竖纹等一系列特征。

目前常见的表情特征提取方式主要有三类:基于图像几何特性的方法、基于整体统计特性的方法以及基于频域特性的方式方法[9]。这里,选取了基于图像或几何特性的方式:通过定位并检测人眼、眉毛、嘴巴等器官,比较它们的大小、距离、形状等表情元素特征,从而识别人脸表情。

人脸表情分类器的主要功用,是通过人脸特征把图片分类到相应的表情分类中去,利用适当的分类算法识别表情,对其归类。动态建模依赖于整体像素序列,人们能够利用研究脸部肌肉的时间变化动态,并运用动态贝叶斯网络。

2)贝叶斯网络及结构

每个人表情情绪的表现,都是由一段时间内面部肌肉运动改变所形成的,也因为这种不同的变化运动会形成不同的表情。所以,在动态表情计算中,对面部肌肉之间的运动变化关系识别是很重要的。

贝叶斯网络也就是贝叶斯公式为基本的,贝叶斯公式还包括:

[P(A|B)=P(B|A)P(A)P(B)]

为了识别N种人的表情,在这里创建了N个区间的代数贝叶斯网络,使每一种情绪表情对应一种贝叶斯网络,在这里,每一种实体节点都代表着一种最基本的情绪运动。关于一个采样x,[My]就是指情绪表情y的贝叶斯网络模型,这样情绪表情可以由以下公式来运算得到[10]。因为不同的贝叶斯网络可能会有不同的结构,因此需要除以模型的复杂度来加以平衡。因此,可以将模型的连线数量视为模型的复杂性,并最终选出了相似量最大的贝叶斯网络模型[11]。

[y*=arg maxMylog(P(x|My)+1)Co(My)]

在这里,运用一种特殊的贝叶斯网(区间代数贝叶斯网络)可以进行人脸表情建模,这样可以把贝叶斯网的概括语义与区间代数的时序性组合起来,能够捕捉脸部的复杂多变运动变化关系,通过这个方式可以利用基于跟踪的特性,可提高识别的速度[12]。

4 语音情感合成技术

如果机器的语言不再生硬晦涩难懂,毫无情感语调,而是富有人的语调跟情感,这会是一个巨大的进步在语音交互的领域,这项非常重要的技术应用在日常生活中,代表这项技术不断发展与进步,人们对情感语音的合成的期待与要求也越来越严苛,App基于这些技术更好地将文字与语音相结合。

1)情感语音合成

情感语音合成这个技术在很多领域都是非常重要的,比如语音识别、语音合成等,语音合成顾名思义就是将现有的文字通过语音合成技术变成语音输出即声音的形式,通过语音合成技术把文字變成另一种载体:声音。语音的合成的历史是从1980年到现在这个阶段,技术由简到繁,更新数据也极快,但是在初期由于技术的限制,在技术合成的方面不会有太高的要求,大多以稳定为标准,这也是语音合成偏向机器语调的原因,并且情感表达的功能也不太完善,所以希望出现一款App能与人类的交流可以自然流畅,它具有人类的情感可以与帮助听障人士用开心的语调、生气的语调、疑惑的语调等等,并且富有人类情感程度的复杂性。这样就可以通过情感语音合成技术让听障人士能够自由并富有感情地跟正常人交流。

2)文字信息与语音信息的转换

语音合成顾名思义是人为制作的声音,由手语识别技术得到听障人士表达中的文字内容,声音的合成是人机交互中最重要的一个关键点,声音合成技术就是对文本内容的语音描述。

信息转换过程:

①通过手语识别技术来建模:语言模型,使手语视频翻译成文字,可以利用机器视觉将已识别的手势库与相符合的图像,再跟语音库中对应的情感相结合。

②使用编码器与译码器搭建交互的平台,可利用FPGA等平台进行搭建。

③在交互平台完成手势识别后,应用递归与二分等算法(GRAM)将二维信号矩阵传入语音系统,并实现输出的结果。

④语音识别输出,利用交互平台,由编码器与译码器转化的二进制的代码,通过单片机等设备,对手语识别得到的文本内容实现语音的输出。

3)情感语音合成的技术实现

情感语音技术的实现其一是通过将情感信息编码到语言中去,这样App在合成机器语音时就可以同时识别出语言载体的信息与情感的信息;其二就是先合成一个中性的语调,然后利用声音的转换技术,得到情感表达的需求。这里采用共振峰合成法。

共振峰合成法拥有另一个名称亦基于规则的合成,这个方法主要是依据自然的语音及语调及声学中与之相对应的规则,在这两个方面的基础上合成的,在语音合成的过程中是完全没有采用真人的语音,利用共振峰合成法可以让语音输出的结果更像真人的语音语调,更加流畅与自然,而且共振峰合成法有一个特点就是其具备高度的可控性,它可以极为方便地调控,可以人为控制参数。利用这个方法合成了著名的语音情感合成器——Affect Editor情感语音合成器。

声源模式的选择,浊擦声源使用了经时间脉冲机制处理后产生的噪音,但浊音声源模式选择使用了KLGOTT88。浊齿音声源的波浪状信号[Ugt]是由下面的函数得到(Te表示声门处开相位时长,a决定声援波峰,OQ是声门信号开相位宽度)[13]。

[Ugt=t2-t3OQ100×Te]

考虑到辐射的特性,通过集成于声源模型,使用了声源门波谱的极微分形式,如下式所示:

[U'g=2atFs-3bt2F2s     0≤t≤T0×OQ×FS0                                         T0×OQ×Fs≤T0×Fs]

[a=27×AV4×OQ2×T0=27×Ugmax4XT2e]

最大的过程为流Ugmax可由下式计算(Fs是采样率,AV是幅度参数,T0是基音周期)就是通过参数来判断的源信号波形。

[b=27×AV4×OQ3×T0=aTe]

在声道模型中,扬声器模拟的声道模拟,是用共振峰合成技术将扬声器分解成谐振腔,谐振腔拥有无数个谐振频率。不同频率的共鸣峰的模式分别代表着两种不同类型的音色音调,可以分别利用其共鸣峰频谱长度及频谱宽度来作为判断依据来建立共鸣峰过滤器。再用若干个这种滤波器串联起来以改善模拟声道信号的传输特性。对于每个共振峰可以用另一种二阶滤波器来进行滤波,如下式所示[14] (Fi为共振峰中心频率,Bi为共振峰带宽,T为采样周期,幅度L=Fi∕Bi L) 。

[Ci=-exp-2πBiT]

[bi=2×exp-πBiTcos2πFⅈT]

[Gi=1-bi-Ci]

[Viz=Gi1-biz-1-c1z-2]

5 App设计模型构建

模型的构建主要基于机器视觉而行。利用贝叶斯网络捕捉脸部的复杂多变运动变化关系,进而提高识别的速度;再运用共振峰合成法,使得语音合成后输出的结果更加接近真人的语音语调,流畅自然。建立听障人士不同情绪和合成语音的关系,通过一系列计算,完成信息输出载体的转换:由手语转换成情感语音,实现语音输出。

用户界面模块主要用于个人信息的设置,包括消息区、视频区、个人中心、资料编辑和一些简单功能的介绍,方便用户上手操作。

6 总结与展望

目前,我国有听力残疾人口大约为二千零五十四万人,占全球人口总数的百分之一点四六[15]。近年来,国家不断推进助老助残项目的发展,在我国的政策支持和社会大规模投入资金的大背景下,中国国内助老助残创新服务项目大批出现,但目前市面上真正针对听障人士适用的App几乎很少。

辅助听障人士的手语转语音工具是基于iOS平台,主要以服务听障人士实现正常情感交流为基础,为他们提供即时摄像,手语转情感语音的服务。随着互联网和信息技术向着更加宽带化的目标的进展,移动终端设备普及很快,逐渐地深入到人们日常生活的方方面面[16],人们对情感交流需求的日益增长,听障人士对于手语翻译的需求已经不仅仅是简单的中性语调输出,还需要加以更多的情感表达。而本文的科研方向恰恰弥补了听障人士手语识别的部分市场缺口,发展前景巨大,值得深入研究。

参考文献:

[1] 潘玉春,徐明星,贾培发.面向情感语音识别的建模方法研究[J].计算机科学,2007,34(1):163-165.

[2] 杨瑞请.基于BPSO的生理信号的情感状态识别[D].重庆:西南大学,2008.

[3] 李杰,劉子龙.基于计算机视觉的无人机物体识别追踪[J].软件导刊,2020,19(1):21-24.

[4] 李云伟.基于深度学习的手语识别关键技术研究[D].徐州:中国矿业大学,2019.

[5] 杨文峰.光学定标算法抗噪性研究及改进[D].开封:河南大学,2017.

[6] 秦梦现.手语识别研究综述[J].软件导刊,2021,20(2):250-252.

[7] 马银蓉.基于表情、文本和语音的多模态情感识别[D].南京:南京邮电大学,2021.

[8] 王婧瑶,范飞,刘豪宇,等.基于机器视觉的聋哑人手语识别——语音交互系统[J].物联网技术,2021,11(12):3-5.

[9] 王志良,陈锋军,薛为民.人脸表情识别方法综述[J].计算机应用与软件,2003,20(12):63-66.

[10] 邱玉,赵杰煜,汪燕芳.结合运动时序性的人脸表情识别方法[J].电子学报,2016,44(6):1307-1313.

[11] 邱玉.基于动态表情识别的情感计算技术[D].宁波:宁波大学,2015.

[12] 王琳琳,刘敬浩,付晓梅.融合局部特征与深度置信网络的人脸表情识别[J].激光与光电子学进展,2018,55(1):204-212.

[13] 汪成亮,张玉维.基于共振峰合成和韵律调整的语音验证码方法研究[J].计算机应用研究,2011,28(7):2458-2461.

[14] 周自斌.基于互联网的智能英语听写系统设计[J].安徽科技学院学报,2013,27(5):60-62.

[15] 郑璇.加快推进中国手语翻译的职业化——基于新型冠状病毒肺炎疫情的思考[J].残疾人研究,2020(1):24-32.

[16] 潘浩.基于微信小程序的智能配送系统的设计与实现[J].微型电脑应用,2019,35(7):31-33.

【通联编辑:谢媛媛】

猜你喜欢
机器视觉
基于芯片点胶系统的视觉检测技术研究
全自动模拟目标搜救系统的设计与实现
基于机器视觉的自动浇注机控制系统的研究
大场景三维激光扫描仪在研究生实践教学培养中的应用
基于机器视觉技术的动态“白带”常规检测系统的开发
对激光切割机的改进
人工智能在高校图书馆的预期
基于车牌识别的机器视觉课程研究
机器视觉技术在烟支钢印检测中的应用