雷涛,许兆坤,王昭昳,李钊,张林媛,路国华
空军军医大学 a. 军事生物医学工程学系;b. 基础医学院,陕西 西安 710032
失语群体是指言语功能丧失群体,其主要包括出生缺陷、声带损伤等导致的失语群体[1-2]以及脑卒中、脊柱损伤等退行性疾病导致的失语群体[3-5]。该类群体基数大,由于无法像正常人一样交流沟通,严重影响其正常工作、学习、娱乐、就医、维权等,甚至一些低文化言语残障人士面临生存危机,对家庭和社会造成了一定的负担[6]。因此如何消除失语群体社会参与障碍,尊重和保护残障人士的自主权、生命权和人格完整权,推动残障人士共享经济社会发展成果,增强全社会扶残助残意识,是目前需要重点解决的问题[7-8]。本研究通过设计并制作一个可穿戴的智能“眼-语”解决装置,旨在帮助失语群体实现基本的交流,提升该类人群社会生活的能力。
系统整体架构如图1 所示,主要元件及其作用包括:4 个反射率传感器(Pololu-2459 QTR-1RC,用于捕捉右眼球运动方向)、USB3.0A 电缆(为传感器供电以及将传感器输出信号传输至Aduino Nano模块)、Aduino Nano模块(用于处理传感器输出信号和系统控制)、文本转语音模块(Parallax Emic 2,主要将患者5 s 内2 个眼球运动方向所对应的预定义文本短语转换为语音输出、移动电源(+5 V,为系统供电)、抗掉电模块(防止系统低功耗造成移动电源无法检测到耗电设备)、音频插座(为外部扬声器提供输出接口)、基板(将Arduino 模块、文本转语音模块、抗掉电模块、音频插座及内部扬声器的电气连接整合到一个电路板上)、普通眼镜(为4 个反射率传感器提供一个支架,方便传感器捕捉眼球运动方向)、系统外壳及传感器支架(为确保设备的便携性,设计了一个3D 打印的外壳,将除传感器及眼镜外的硬件电路封装在一个外壳中;同时,为了将传感器固定在眼镜上,为4 个传感器也3D 打印了一个传感器支架,传感器支架可用双面胶固定在眼镜上,见图2。
图1 系统整体架构
图2 系统外壳及传感器支架
整个解决方案是基于Arduino 平台,该平台是一个开放源代码的单芯片微控制器,其使用了Atmel AVR 单片机,采用了基于开放源代码的软硬件平台。使用连接到普通眼镜上的4 个红外反射率传感器,实现对右眼球运动状态(向上、向下、向左、向右及闭眼)的识别。每识别2 个连续的眼球运动动作(上、下、左、右)的组合,文本转语音模块即输出该组合所对应的预定义短语,如患者右眼球先向上看,然后向右看,“眼-语”助手可以解释这个动作(上+右),文本到语音模块将输出其对应的预定义短语。同时整个系统的控制采用Arduino Nano 模块实现,其即可满足失语群体对相关功能的需求,并且其体积较小,易于携带。整个系统硬件PCB 基板大小为64 mm×55 mm;同时,根据硬件系统尺寸大小,设计了一个3D 打印的外壳,可便于穿戴。
主设备需要一个微处理器,作为设备的“大脑”,协调输入、计算和产生的输出,同时保持对顺序任务的跟踪等,本研究选择Arduino Nano 完成这项任务。首先为实现音频输出功能,使用了Parallax Emic 2 这一高质量的文本转语音控制器;然后添加一个连接眼镜上红外反射率传感器传输信号的USB 3.0 A 型母头连接器,一个用于外部扬声器的3.5 mm AUX 音频插座,该音频插座额外引出一个2 针头连接器,可实现选择使用内部扬声器的功能。此外,除了音频输出外,还添加了一个状态LED,为患者提供反馈。现代大多数电源设备供电时,会因其供电的硬件系统功耗低及电流太小,无法检测到该硬件为其正常供电。为了防止出现这种情况,本研究增加了一个额外的电路用于“故意”地浪费一点能量,确保移动电源为系统正常供电。主设备电路原理图如图3 所示,PCB 图如图4 所示。
图3 主设备原理图
图4 主设备PBC图
软件设计采用Arduino IDE(V1.8.14)平台。为了使本系统能尽可能多地应用于不同的沟通情景,软件设计利用5 s 内2 个右眼球运动方向作为一个组合,并且只允许两个方向的组合,然后输出一个预定义短语。根据这一规则,2 个右眼球运动方向可生成16 种组合。
利用4 个传感器检测闭眼,当右眼闭眼2 s,可以实现对系统功能的主控,进入主控功能模式后,利用16 种眼球运动方向的组合,可现实16 种不同的主控功能,包括4 种系统功能控制、4 种基本应答和8 种可设定情景。各主控功能对应的患者右眼球运动组合控制方式如图5 所示。
图5 16种不同的主控功能对应的患者右眼球运动组合控制方式
右眼闭眼2 s,进入主控功能模式后,可选择8 种情景模式用于不同的沟通场景,每种情景模式均可由患者右眼球2 个运动方向的组合控制进入。在本研究中预定了4 种情景模式,分别是情景1(居家)、情景2(朋友)、情景3(护理)及情景4(就医);另外4 种情景模式为患者可根据不同的沟通环境自己定制。
系统集成展示如图6 所示,关键元器件供电电压测试结果为+4.7~4.8V,供电正常。各传感器输出、USB 引脚、Arduino 引脚连接均导通。红外外反射率传感器对单眼球运动方向最佳感应距离为3~4 mm,最大感应距离为9~10 mm。
图6 系统集成展示
为了测试系统功能,招募20 名受试者测试主控功能模式与4 种预定义情景模式下,测试系统语音输出是否正常。每名受试者测试3 次,统计主控功能模式与4 种预定义情景模式下语音输出的正常率,数据以(±s)表示。在60 次的功能测试中,系统主控功能模式与4 种预定义情景模式下语音输出的正常率在93%以上(图7),可满足实际使用需求。
图7 系统功能测试结果
据2006 年第二次全国残疾人抽样调查数据,中国现有残疾人8300 多万,涉及7000 多万个家庭、2.6 亿人口[9]。2006 年我国残疾人占2005 年第三次全国总人口13.09 亿人的6.34%。其中言语残疾的人数为127 万,其占残疾人总人数的1.53%。虽尚无最新的言语残疾人数的权威数据,但根据2021 年第七次全国人口普查最新人口总量14.11 亿这一数据[10],在残疾人占比保持不变的前提下,可以保守推算出中国现有残疾人约8900 多万,其中言语残疾的人数约为137 万[11]。因此,如何使失语群体实现基本交流已成为社会普遍关注的问题[12]。
手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定含义或词语,其是听力障碍或者无法言语的人互相交流的一种手的语言,是该类人群的主要的交际工具[13]。但是,手语具有一定的局限性,首先学会手语并不容易,要达到正常交流的水平需要一定的时间,且每个国家或地区间手语存在一定差异,日常生活中的推广度不高。
语音合成(Text to Speech,TTS)技术是将人类语音用人工的方式产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴[14],其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,其主要将文字信息转化为可听的声音信息,使机器像人一样开口说话。在线TTS 利用供Android/iOS 在线语音合成软件开发工具包(Software Development Kit,SDK),适用于网络环境稳定场景下的手机等智能硬件设备快速集成。但是,该项技术需要患者打字,仅适用于手功能健康的失语群体。脑卒中、脊柱损伤或其他缓慢失去对身体功能控制的退行性疾病的患者[15-17]常伴随手功能障碍,无法使用手语或者在线TTS技术实现交流。
与在线TTS 技术相比,TTS 芯片虽然功能较为简单,但其具有体积小,功能稳定可靠,可满足特定沟通环境下的交流需求,支持任意中文文本的合成,对常见的数值、电话号码、时间日期、度量衡符号等格式的文本具有智能分析处理功能,且抗噪能力强(在嘈杂的噪音环境下也可听懂),内置功放,可以直接驱动喇叭等优点。非常适合可穿戴智能产品的设计;同时,结合红外眼球运动方向捕捉技术,可以利用眼球运动方向的控制实现让TTS 芯片语音输出预定义好的文本短语,不需要手的参与,也可以让机器发声,满足两类失语人群实现基本交流。本研究将眼球运动方向捕捉技术与文本转语音技术结合,探究利用眼球运动方向的控制让机器发声的关键技术,并利用该机器研发一种可穿戴的装置,使失语群体能在不同沟通情景下实现基本交流,以满足患者的实际生活需要。
本研究旨在解决如何消除失语群体社会参与障碍并实现基本交流这一问题,该问题是社会发展特定人群需求的一个实际问题,具有较好的应用价值。本研究提出的“眼-语”解决方案和装置,可以为失语群体提供8 种沟通情景下的128 个高质量语音输出,且这些语音均可定制,该系统具有较广的应用性和较好的扩充性。