基于Kinect和Faceshift的语言康复训练方法

2018-03-07 06:15车娜赵剑史丽娟王柳范秦寅

无线互联科技 2018年21期

车娜赵剑史丽娟王柳范秦寅

摘要：文章提出一种基于Kinect和Faceshift技术的听障儿童言语康复训练方法。通过Kinect和Faceshift技术实时采集说话人面部信息，在利用视频驱动方式与面部三维模型相融合生成面部三维模型动画，实现能够实时显示说话人面部动画的面部表情、唇部动作，舌头运动状态的面部三维动画效果。本方法将面部三维模型动画和语音反馈结合起来从而真正意义上达到音视听结合的言语康复训练方法。试验结果表明，使用本言语康复训练系统对提高听障儿童言语康复训练的效率，缩短康复训练时间有显著效果。

关键词：Kinect；Faceshift；言语康复训练；面部三维模型；语音识别反馈

据中国残疾人联合会抽样调查统计数字表明，中国拥有听力及言语残疾人口数目约为2 057万，7岁以下聋儿近百万，每年新产生聋儿3万余名[1]。在聋儿7岁以前，尤其是在3岁左右时，如果能及时地进行康复治疗，极有可能帮助他们走出无声世界融入社会。因此，如何通过科学技术帮助聋儿缩短言语康复训练时间，提高效率尤为重要。

随着时代的进步和科学技术的发展，聋儿语言康复训练设备及方法已被广泛应用到聋儿语言功能康复训练中。如IBM Speech Viewer系统[2]，是一种高性能的实时语音治疗设备，但它要求使用者的语音学和传统临床疗法理解程度有很高的要求。在国内，影响力较大的是天津市聋儿语言康复中心开发的《聪聪学话》多媒体聋儿语训系统[3]，但该系统无法直接显示说话人面部表情状态。针对现有的系统缺陷，本文提出基于Kinect和Faceshift的语言康复训练方法，根据Kincet和Faceshift技术实时捕捉说话时人的面部表情、唇部动作、舌头的状态等，在将捕捉到的动态人脸与三维人物头像模型相融合，从而解决动态三维头像的驱动问题。

1 基于Kinect和Faceshft的语言康复训练方法

该方法利用特殊人机交互技术、传感器技术建立听障儿童语言康复训练系统，通过音频数据和视频数据采集装置获取听障儿童发声训练中的音频视频数据信息，在显示器上根据获取的信息反馈出音频图像对比结果以及语音识别反馈信息，从而指导受训者正确发声。

1.1 系统总体方案

其具体流程为：利用Kinect和Faceshft技术将音、视频数据采集器采集到的面部运动特征和发音信息，与三维人物头像模型相互融合，形成实时说话人三维人物头像模型，并将融合后的三维人物头像模型存入数据存储和处理设备。数据存储和处理设备对数据同步处理后，将数据与标准信息比对做语音识别反馈。最后由视频显示装置将面部三维人物头像、语音识别反馈结果、音频图像对比反馈结果同步显示。系统总体方案如图1所示。

1.2 面部三维头像模型

在使用Kinect和Faceshft技术实时捕捉人脸数据后，还需要建立人面部三维头像模型，本系统采用的是Autodesk公司开发的3DS Max软件创建头像基本模型，再利用zbrush进行仿真建模，对面部三维头像模型进行相似性调整和细节刻画，并调整颜色贴图以及调整高光。

1.3 Kinect和Faceshft技术与面部三维头像模型的动画合成

本文采用Kinect和Faceshft技术提取言语康复训练中听障儿童的音视频信息，捕捉说话人的面部动作、表情和语音信息，然后套入建好的人物面部三维头像模型，从而生成动画序列[4]。其框图如图2所示。

2 系统评价及分析

为验证基于Kinect和Faceshft的语言康复训练方法的实用性，我们对该方法进行了试验。试验过程为：选取20名3～7岁康复训练学生，实验组10人为5名男生，5名女生，使用本方法进行康复训练，对照组10人为5名男生，5名女生使用传统的训练模式进行康复训练。对实验组和对照组分别进行言语康复训练的单字、词语、语句发音，在相同的言语康复训练内容下，对比实验组、对照组的康复训练时间。试验严格控制其他无关变量，保证实验组和对照组的发音准确性[5]。

图3为言语康复训练对比实验结果，从对比曲线上，我们能够看出使用基于Kinect和Faceshft的语言康复训练方法进行康复训练的时间基本上都能够小于传统康复训练所需时间，能够提高听障儿童言语康复训练效率[6]。

3 结语

本文提出一种基于Kinect和Faceshft的语言康复训练方法。根据Kincet和Faceshift技术的特点实时捕捉说话时人的面部表情、唇部动作，舌头运动状态，并将视频驱动面部三维头像动画，生成发音的面部三维动画。在对20名听障儿童的系统测试结果表明，本语言康复训练方法能够帮助听障儿童更好地完成言语康复训练，缩短训练时间。

[参考文献]

[1]黄昭鸣.我国言语—语言障碍康复现状及发展策略[J].中国听力语言康复科学杂志，2016（2）：84-87.

[2]DESTOMBES F.The development and application of the IBM speech viewer[J].Journal of Medical Sciences，1994（2）：187-196.

[3]王慧芳，朱思俞，张立安，等.《聪聪学话》—多媒体聋儿语训系统[C].大连：全国计算机辅助教育学会学术会议，2001.

[4]张金成.基于Kinect的健身游戏的设计与实现[D].武汉：华中师范大学，2017.

[5]陈思.基于视频驱动的面部表情实时模拟研究与实现[D].成都：电子科技大学，2017.

[6]普波.基于視频的三维人脸动画驱动的设计与实现[D].成都：电子科技大学，2010.

无线互联科技2018年21期

无线互联科技的其它文章: 电子信息技术在通信指挥中的应用; 加强电力通信运行管理水平的措施研究; 基于调制传递函数测量的卫星遥感影像图像修复技术研究; 基于华为EPON设备的光接入系统研究; 基于网络特性的NB—IoT覆盖能力评估研究; 1553B总线分析及国产化研究