面向聋哑人群的无障碍交流辅助系统设计研究

2022-11-22 05:59吴玉蓉

物联网技术 2022年11期

李帅，吴玉蓉

（南京理工大学，江苏南京 210000）

0 引言

由于生理上的障碍，很多情况下聋哑人很难表达自己的想法和情感，而聋哑人在工作和生活中经常需要与正常人交流，因此聋哑人与正常人的交流障碍问题亟待解决。随着科技的进步，很多新兴技术逐渐走进人们的生活、惠及民生。手势识别技术、情感识别技术和增强现实技术的出现能够为解决聋哑人的交流问题提供新的方法。本文基于这三种技术构建出一套无障碍交流辅助系统，并提出终端设备的设计策略，以帮助聋哑人更好地融入社会。

1 课题背景

1.1 我国聋哑人现状

全国人口普查和残疾人抽样调查结果显示，我国言语残疾人数有130万，听力残疾人数更是达到了2 054万[1]。聋哑分为先天性聋哑与后天性聋哑。先天性聋哑人大多完全丧失听力与语言能力，后天性聋哑人可能具有语言能力或通过佩戴助听器能够恢复听力。由于聋哑人与他人交流困难，且容易遭受异样眼光，因此大多数聋哑人存在自卑、抑郁倾向，严重的甚至会产生自残或犯罪行为。

1.2 手势识别技术

手势识别技术[2]基于将人类运动识别为输入形式的基本原理，在终端设备上设置有摄像头或传感器，可以识别用户的手势动作或肢体移动。当设备检测到与指令相对应的运动时，会按照要求进行响应。手势识别技术在人机交互方面极为重要，目前已应用到智能监控、手语识别、虚拟现实等各个领域[3]。

1.3 增强现实技术

增强现实技术[4]是将虚拟信息叠加到用户所在真实世界的一种新兴技术。利用摄像头等输入设备采集当前的真实场景，通过对当前真实场景的信息处理和移动互联网来触发虚拟信息，并将虚拟信息在真实场景中进行显示。

1.4 情感识别技术

情感识别技术[5]指计算机通过观察人的表情、行为和情感产生的前提环境来推断人的情感状态，基本目的在于使计算机能够与人进行情感交流，从而构造出友好的人机界面。

1.5 情感化设计

情感化设计[6]是将用户的情感作为设计的中心点，情感化设计三要素包括本能层、行为层、反思层。运用情感化设计的产品往往更能抓住用户的心、理解用户的感受、缓解用户的负面情绪，更加注重用户的情感体验。

2 课题调研

2.1 现有产品调研

目前，市面上出现了一些针对聋哑人与正常人无障碍交流的技术和产品。例如国外有团队开发出了名为“Enable Talk”的手语手套，通过手套内置的传感器感应手语信号，通过蓝牙连接麦克风传出声音信号；国内的学者也设计出双向交流手语翻译器[7]，利用传感手套与手机APP连接，将手语转换为文字和声音信号，并将声音信号转换为手势动画在APP上播放。这些设计在很大程度上帮助了聋哑人，使其能与他人进行简单地交流，但仍存在体积大、效率低、使用体验差等缺点。因此要求无障碍交流辅助系统和终端设备的设计更加便携、效率更高、使用体验更好。

2.2 正常人与聋哑人的交流情况调研

由于涉及伦理等方面的原因，不适合对聋哑人群体直接进行调研，因此本文从正常人角度入手，通过问卷的方式对曾与聋哑人有过接触的50位正常人进行调研，得到表1所列的数据。

表1 与聋哑人交流情况统计

从曾与聋哑人有过接触的50位正常人的调研数据中可以发现，正常人中手语的普及率很低，聋哑人几乎无法通过手语与正常人进行交流；有一半的正常人在与聋哑人交流时通过手势比划表达自己的想法，另一半则借助手机等设备通过打字等方式与其进行交流。在交流过程中，由于聋哑人无法通过语调语气表达自己的情绪，因此绝大多数的正常人无法准确感受到聋哑人在交流时的个人情绪。此外，对于绝大多数正常人来说，他们非常愿意或者说至少不反感通过某种翻译设备与聋哑人进行交流。

通过以上调研，可以发现聋哑人无障碍交流辅助系统的研究非常必要。无障碍交流辅助系统不仅需要将聋哑人的手语转换为正常人可以理解的形式，也需要能将正常人的语音转换为聋哑人可以理解的形式。除了这种双向的交流需要顺畅外，聋哑人的情绪情感也需要通过该系统进行强化传递。只有这样，才有利于聋哑人更好地融入社会生活和被人们所接受。

3 课题研究

3.1 研究问题

研究主要围绕“如何解决聋哑人与正常人的交流障碍”这一问题进行，其中包含了四个方面：交流过程中聋哑人如何表达自己的想法、聋哑人如何表达自己的情感、聋哑人如何理解对方想法、通过怎样的终端设备进行交流。

研究通过构建一种聋哑人无障碍交流辅助系统解决主要问题，该系统主要针对完全丧失听力和语言能力的聋哑人群体。对于只丧失听力仍具有语言能力或只丧失语言能力仍具有听力的后天性聋哑人来说，该系统只能发挥部分功能，但仍然有效。

3.2 研究内容

3.2.1 聋哑人的语言表达问题

聋哑人的语言表达问题的实质就是如何将表达聋哑人想法的手语转换为正常人能理解的语音或文字。解决这一问题的关键是如何识别手语，这就需要利用手势识别技术构建手语识别系统[8]。

基于视觉的手势识别通常包含数据处理、手势分析、识别分类三个过程。将其原理应用于手语识别系统的设计中，可以得到以下手语识别流程：（1）数据处理：首先对摄像头采集来的聋哑人手势视频图像进行数据处理，将手势图像从视频中一帧一帧分离出来，并对图像进行平滑、锐化、背景分离等预处理；（2）手势分析：对手部节点的空间三维坐标、手指的方向矢量以及运动趋势等信息进行特征参数的提取，并在这个过程中不断通过手势建模，估算出相应的模型参数[9]；（3）识别分类：将得到的特征参数和模型参数进行分类，然后与建立的手语特征库进行比对，最终得到手语含义进行输出。手语识别系统流程如图1所示。

图1 手语识别系统流程

手语识别系统的建立能够将聋哑人的手语转换为可以被正常人理解的语音或文字。整个手语转换过程由视频图像采集设备、手语识别系统、语音模块和显示模块共同完成。视频图像采集设备采集手势动作，手语识别系统对其进行分析处理，最终结果由语音模块和显示模块进行输出，聋哑人的手势即可被他人理解，如图2所示。

图2 手语转换过程

3.2.2 聋哑人的语言理解问题

聋哑人的语言理解问题的实质就是如何将正常人的语音转换成聋哑人可以接收的通道信号。情感化设计理论中的本能层指人的认知感官体系，包括视觉、触觉、听觉、嗅觉、味觉，处于支配地位，负责对外界进行感知。但由于聋哑人听觉通道受损，因此辅助系统需要将听觉信号转换为其他通道的物理信号，需要利用聋哑人完好的视觉通道、触觉通道等代偿听觉通道。出于效率、准确率和可实现性的考虑，视觉通道是最佳的补偿通道。因此，将正常人的语音转换为可视化的文字或手语动画，是解决聋哑人语言理解问题的关键。

在语音转换过程中，语音识别环节是其中的重点。语音信息首先转换为文字信息，再将文字信息与手语特征库中的手势进行比对，然后将含义匹配的手势进行提取，最后将文字和手势进行输出。语音转换过程分为语音输入、设备采集、识别分析、终端输出四个步骤，如图3、图4所示。

图3 语音识别流程

图4 语音转换过程

语音转换过程的终端输出方式对聋哑人与正常人的交流过程的效率和体验会产生很大影响。现有的产品多通过手持翻译器或手机APP对文字和手势动画进行显示。但在实际使用中，这种输出方式经常需要聋哑人低头看屏幕，虽然也能达到交流的目的，但效率大大降低，不仅影响聋哑人的使用体验，还会使交谈的双方感到不自在。此外，由于需要经常低头，眼神和表情交流会大大减少，这就使本就无法通过语音表达情感的聋哑人更难将自己的情感传递给对方。为了优化语音转换过程的终端输出方式，采用增强现实技术将手势动画与文字信息通过穿戴式显示器进行实时显示[10]。

3.2.3 聋哑人的情感表达问题

聋哑人的情感表达问题的实质就是如何将聋哑人在交流时流露的情绪进行增强。由于聋哑人无法通过语音语调表达情感，而且在使用手语时可能会遮挡面部表情，因此准确表达情感非常困难。然而一个良好的无障碍交流过程不仅需要双方能够顺畅地交换信息，情感的交流也极其重要。此研究目的就是帮助聋哑人将交流时产生的情绪实时传递给对方。

为了解决这一问题，可以运用情感识别技术。情感识别技术有多种不同的手段和方式，而考虑到需要应用于聋哑人这类非常特殊的群体，通过反复调查研究，最终决定采用多模态特征融合的非接触手段的情感识别技术[11]。情感识别技术的准确率很大程度上依赖于人们说话时语音语调的状态，但是聋哑人无法发声讲话，因此为了提高情感识别的准确率，采用多模态特征融合的方式。将基于视频数据的面部表情神态、肢体动作和基于毫米波的心率信号相融合，从多方面多特征对聋哑人进行情感识别。同时，采用非接触式手段，不仅具有测量方式简易方便、测量过程对使用者无干扰等优势，还能使终端设备更便于携带和使用[12]。

在情感识别过程中，利用设备采集聋哑人的面部变化和肢体运动，然后对运动进行预处理和特征提取；通过心率传感器采集心率信号，根据毫米波数据分析得到基本情感分类，并将以上数据与情感数据库进行比对，从而得出情感结果，情感识别流程如图5所示。最后，将情感信息加工融入到语音输出中，使与聋哑人交流的正常人可以更加准确快速地识别聋哑人的情感状态，使聋哑人也能够通过语音来表达自己的情感。

图5 情感识别流程

3.2.4 终端设备的设计要求

在终端设备的设计中，需要运用到情感化设计理论。本能层方面，由于聋哑人大多心理敏感自卑，因此辅助设备的物理特征设计需要使聋哑人“无异于常人”，避免造型突兀并因此招致异样目光。行为层方面，以功能为主，以聋哑人为中心，要切实满足聋哑人在与他人交流过程中的需求。反思层方面，要安全可靠，增加聋哑人在使用辅助设备时的信心，带来踏实愉悦的使用体验，满足精神层面需求。

终端设备可以采用穿戴设备如AR眼镜的方式进行设计。设备需要具有以下模块：三个可调节模块化摄像头，分别用来采集手势和肢体动作、面部表情和真实场景；语音输出模块和语音接收模块，用于双向交流；心率传感器，用于辅助情感识别；显示器，用于实现AR显示。此外设备还需要具有电池、触控模块、通信模块等。

3.3 研究结论

通过以上研究构建出一种聋哑人无障碍交流辅助系统。在聋哑人有表达需求时，设备将采集其手势动作、肢体动作、心率信号和面部表情，利用手势识别技术和情感识别技术将其转换为具有情感的语音进行输出，让沟通对方了解聋哑人语意的同时更加准确地感受到他们的情感。同时，对方的语音也会被设备接收，通过语音识别技术转换为聋哑人可以看到的文字和手势动画，并利用增强现实技术显示在设备的屏幕上，实现了聋哑人与正常人之间的无障碍交流。此外，研究还运用情感化设计理论得出无障碍交流辅助系统终端设备的设计要求，对该辅助系统的落地有一定的指导意义。

4 结语

文章从聋哑人群体与正常人交流的需求出发，利用手势识别技术、增强现实技术和情感识别技术构建了一种聋哑人无障碍交流辅助系统，并在情感化设计理论的指导下提出了该系统终端设备的设计要求，体现了对聋哑人群体的人文关怀。但是研究也存在一些问题，比如该系统的技术实现问题、手语特征库和情感数据库的建立问题、可穿戴设备的体积和续航问题等，都有待进一步研究和解决。