□黄冠程 陆 越 张晓颖
口吃,英文名:stuttering,世界卫生组织定义为“一种言语障碍现象,即个人知道自己想说什么,但由于无法控制的重复、停顿或延伸而无法表达自己。”新奥尔良图兰大学发表的一项神经研究发现,严重或长期口吃的人会导致大脑左额叶或右额叶形状不规则,相应的区域是负责空值语言表达的中枢,在后续对正常人与口吃患者说话时的头部扫描影像中发现,相比之下,口吃患者在右半球有更多的兴奋点,这也干扰了本应由左脑完成的语言表达功能,加剧脑部额叶形状的变化,进而影响额叶控制听力的相关部位,使口吃患者在讲话、尤其是在面对公众发言时,听力功能受到一定影响导致语言表达不流畅,这些神经系统的异常反应可能将错误的表达信息传递到主导发音的肌肉:嘴唇、舌头和声带,从而加重口吃患者的病情。下文通过分析口吃人群的实际需求,探索使用科技手段来帮助口吃患者矫正。
(一)沉浸式VR与口吃矫正。VR(虚拟现实)又称“灵境”,它是通过对现实场景的数据采集,结合3D建模、构图,实现在计算机中重现现实场景的技术,并通过各种传感器设备为用户提供各种感官,它能让用户有身临其境的真实操控感,并能为用户模拟触觉、视觉等感官体验,使虚拟环境更加贴近真实,非常具有代入感。
目前市面上的口吃康复训练方法,大多是将患者集中,面对逐渐增加的听众,进行不同时长的演讲,利用系统脱敏法,使患者逐渐摆脱讲话时的心理障碍。希望利用VR的沉浸感、交互性和便捷性,实现专业性更高、效果更好的口吃远程治疗,使口吃患者克服心理障碍,提高口吃患者的生活质量,既能达到改善口吃的目的,也为口吃治疗领域提供更优质的治疗手段,拓宽了虚拟现实技术在医学领域的使用。
关于沉浸式VR技术在口吃治疗领域的研究,曹留进研究了其专利装置对口吃患者的治疗效果,通过实际治疗结果数据,对本系统改进及提升患者实用性具有参考价值;严磊2016年研究了口吃矫正治疗与VR技术结合的必要、优势及应用,实现了实际应用理论基础雏形,对后续的研究具有较大帮助。
(二)VR在口吃矫正中的优势及特点。
1.代入感。口吃患者可以通过VR相关外设,置身于虚拟训练环境中,让口吃患者从被动的接受训练内容,转为更倾向于实际练习操作,口吃患者在练习演讲的过程中可以观察到每位观众的神态表情动作,如果口吃患者演讲流畅,无吞音等良好表现,观众会产生相应反馈,微笑、叫好、部分起身鼓掌等反馈;相反若达到观众应激阈值,则会激起观众失望表情、走神、玩手机等反馈。患者需通过反复训练测试,采用系统脱敏法使患者在面对现实生活中人群讲话时克服恐惧害羞等心理障碍。
2.长效性。线下的言语康复机构或多或少不便于患者随时练习,所以导致超过70%的参与矫正患者在结束后出现复发甚至更严重的口吃情况,VR的虚拟现实技术使病人不受康复机构的限制,在家里就可以完成发音训练。利用移动端设备下载响应程序,就能不受时间、空间和教师资源等条件约束,更适合患者随时巩固练习,达到训练自由。
3.直观性。传统的口吃矫正方法主要是基于简单插图的书籍,结合言语矫正师现场发声动作教学,但因为患者数量多且不能直观地看到口腔内部活动,它不能及时准确地显示每个器官的结构,直观的呼吸和发声也很复杂,导致很多口吃患者在练习发音时不知道如何调动发音单元肌肉,或者发音不当导致发音错误。而在VR训练场景中,对于每个音节是如何发声的都有对应的三维口腔动作剖析图,使患者更直观地看到发声单元工作状态,提高矫正的效率。
使用3Dsmax构建虚拟演讲环境,通过制作全景图来模仿演讲环境,包括观众及观众的表情、动作,给演讲者制造紧张的氛围,关键技术在于VR场景的创建以及语音分析,目前计划可以通过拍摄全景图或制作3D动画来实现场景及人物的创建,而语音分析模块预计达到的效果是可以通过演讲者的演讲情况,在合适的时间引起观众对应的反应。图1是VR场景图的创建流程图。
图1 场景图创建流程
核心技术在于语音分析,通过患者的演讲情况,包括:语言流畅度,字节重复频率,字节间的时间停顿等信息来得到台下观众的反馈,包括:语言、动作、神态,在规定的时间内口吃患者需要完成自我介绍、工作汇报、主题讲话等任务,同时屏幕上设置计时器,对口吃患者施加一定的压力,有助于推进康复进度,在交互上,通过语音分析,在患者开口讲话时,所有观众注视演讲者,当患者口吃率超过阈值时,台下观众会表现失望不耐烦的表情,反之观众会微笑鼓掌。
在实际语音采集过程中,由于环境音及患者口吃间摩擦产生的噪音会不利于特征向量的提取,所以先对采集的语音数字信号进行预处理,预处理流程图如图2所示。
图2 语音信号预处理
为了提高准确率,通过语音活动检测(VAD)从患者输入的语音数字信号流中识别并消除长时间的静音期。通过中值滤波消除采集器的电冲激信号、患者口齿摩擦等外界噪声,通过取分段数字信号中间向量的方法提高整体平滑度,便于提取特征值。
x(i)=Median[x(i-1),x(i),x(i+1)]
(1)
将中值滤波后的数字信号进行归一化处理,把数字信号映射到同一区间[-1,1],以消除声音音幅大小不同对特征向量提取的影响。
x(i)=x(i)/max(x(0),x(1)…x(i))
(2)
为了对语音进行分析,需要对声音进行分帧,因为声音音节与音节之间具有很强过渡性,因此不能简单地削减它。在这里用移动窗函数来实现它,帧之间通常有重叠,如图3所示。每帧的长为20ms,两帧之间20-10=15ms的重叠称为移帧。
图3 音频信号分帧
为了使分帧之后的数字信号更加平滑,使用海明窗口,余弦窗口之一,在这里使用与其他窗函数相比,海明窗的加权系数可以使旁瓣更小,使处理后的数字信号更加平滑。海明窗函数如下:
(3)
为了准确地提取梅尔倒谱系数(MFCC),通过快速傅里叶变换得到语音信号的DFT为:
(4)
为消除谐波的影响,在三角带通滤波器对热量谱进行平滑处理,并算每一个滤波器输出的对数能量s(m),通过离散余弦变换得到MFCC系数:
(5)
口吃作为一种患者数量庞大、治疗周期长且易复发、影响患者正常生活的语言类障碍,因患者口吃程度差异性较大,重视程度不同导致的治疗不当,致使口吃矫正领域的治疗手段长时间没有突破性进展,这也是口吃患者数量与治疗矫正机构数量严重失衡的主要原因之一。但随着社会口吃患者数量的不断增多,亟需一种口吃矫正手段可以便捷且高效地帮助口吃患者矫正口吃。在当今社会科技迅速发展的前提下,利用沉浸式VR技术可以通过建立虚拟训练场景帮助患者训练,利用系统脱敏法,即把患者暴露在恐惧的事物之下,从轻微到重度刺激逐级递增,最终使刺激失效。这既可以帮助患者达到矫正口吃的目的,也推动了言语治疗领域新兴治疗手段的发展,使医疗领域与现代科技巧妙融合,不但让患者摆脱了治疗场地的限制,也可以通过VR设备实现不同场景的切换,满足患者不同环境训练的需求,这种新兴的治疗手段也会吸引更多的口吃患者参与治疗,帮助更多的口吃患者解决困扰生活的口吃难题,对口吃治疗与言语治疗领域的推动具有深远意义。