基于虚拟现实技术的人机交互式盲人阅读器

2018-12-22 06:42万心媛宋萌赵渴欣王绎然刘千

现代计算机 2018年9期

关键词：多语种阅读器盲人

万心媛，宋萌，赵渴欣，王绎然，刘千

（哈尔滨商业大学金融学院，哈尔滨 150028）

1 虚拟现实技术与盲人仿真视觉环境的创建

1.1 虚拟现实技术概述

虚拟现实（VR）融合了计算机图形、数字多媒体、模拟仿真技术等多种技术，包括模拟环境、感知等以达到用户无法区分这究竟是现实环境还是计算机模拟出来的环境［1］。

（1）虚拟现实技术特点

虚拟现实技术具有3I的特征，分别是沉浸感（Im⁃mersion）、交互性（Interaction）和想象性（Imagination）：

沉浸性，通过计算机的三维建模技术创造出仿真虚拟环境，使体验者感受到强大且震撼的真实感，仿佛身临其境。

交互性，在计算机创建的模拟环境中，用户可以通过一些可穿戴设备进行人机交互。例如：在虚拟环境中佩戴可穿戴手套去触摸虚拟环境中的物体时，会真实地感受到物体的触感与粗糙程度，并且当抓取此物体时，会切实地感觉到物体的重量。

想象性，虚拟现实环境可以让受众用户沉浸其中，通过体验计算机创造出的各种虚拟环境，在短时间内、高效率地体会多种不同的人机交互环境。并且可以通过计算机的交互设备，将自己的动作与触感信息录入计算机，在计算机收到这些信息后，通过传感设备进行数据的处理，从而更好地为用户创造更加真实的环境。用户在根据自己需要向计算机发出指令，从而体验虚拟环境，在此过程中，用户激发了自身想象力，并且在人机交互的过程中，不断会将自身新的想法与感知输入到计算机内，从而通过与计算机进一步的人机交互中，激发创造力、触发灵感。

1.2 盲人仿真视觉环境的创建

我们团队的新型盲人阅读器利用虚拟现实技术，通过计算机捕捉盲人用户头部等身体部位的运动轨迹、利用特制的虚拟现实手套将盲人的触感放大，并且通过声源的捕捉，利用人机交互的技术，为盲人用户创建一个仿真的视觉环境。三维建模是其中的一项核心技术，通过3D Max和VRML语言编写，主要包括模式识别技术、支持向量计算技术、传感器技术、通讯技术等[2]。虚拟仿真环境的创建也是基于三维建模技术的重要支持。

（1）头部运动追踪创建盲人模拟视觉环境

我们团队的新型盲人阅读器即是利用虚拟现实技术，将产品设计为一个虚拟现实的眼镜，盲人由于自身视力障碍的特殊性，通过佩戴本产品眼镜时，产品上有感知盲人头部运动轨迹的接触点，通过这些接触点可以实时感知到盲人头部的运动轨迹，从而可以利用盲人的头部跟踪来改变图像的视角，而出于针对盲人用户群体特殊性的考虑。当盲人用户头部在发生运动时，本产品眼镜的接触点感知后，就会自动智能追踪盲人用户运动的轨迹，实时给出相关语音的播报。创造出一种盲人用户仿佛是视力正常者的虚拟环境，为盲人用户提供无障碍出行的环境，从此解决了盲人视力障碍的问题，使盲人用户能够和明眼人一样正常出行，而不再受到诸多局限。这也就是，利用虚拟现实技术，使盲人用户可以用另一套系统来观察环境，也就是头部的运动。

（2）判定声源方向创建盲人模拟视觉环境

人类具有判定声音方向的能力，人类的双耳可以根据声音的强度、来源的方向来判定位置，并且声音在传到两个耳朵时的时间和强弱也会有细微的差别，这就是双耳效应。而作为盲人这一特殊群体来说，由于视觉方面的障碍，导致他们的听觉感知更加灵敏，他们对于利用声音来判别方向这一技能更为突出。他们可以更加快速地对于声源方向进行识别，并且能够更加灵敏通过双耳效应辨别出左右耳在听到声音时细微的差别，从而对于声源来源的方向有一个更加清晰的把控。

盲人足球这一运动地快速传播就为本阅读器利用判定声源方向创建盲人模拟视觉环境的这一技术提供了现实依据。盲人足球19世纪80年代在西班牙出现，这种新兴的运动模式激发了全世界各地爱好足球运动的盲人朋友的兴趣。之前由于自身视力方面的障碍，盲人运球运动几乎是一件不可能实现的事情，但盲人足球这种运动方式却将盲人也能够出色地进行一次足球比赛带来了可能。由于这项运动开启了盲人群体进行足球运动的新世界，这项运动迅速普及，在巴西、英国、阿根廷、德国等世界足球强国非常普遍。2004年，在雅典，五人制盲人足球运动项目首次进入残奥会。2006年，中国正式组建了第一支盲人足球队，而广东省盲人足球队则是其中非常出色的盲人足球队之一。与普通的足球比赛不同，盲人足球比赛一开始，观众席就必须寂静无声，任何与足球比赛无关的噪音都可能会影响盲人运动员对于足球方向辨别的准确度。因为，比赛时，盲人队员只能通过声音来辨别方向，完全是在利用“耳朵”在踢球，他们通过声音的辨别来判断足球的方向，队友的位置，自己的位置。5人制盲人足球赛制规定，除守门员以外的4名选手的视力伤残程度应是B1级，即完全丧失视力并无光感。并且为了保证比赛公平防止作弊，场上除守门员以外的队员均需佩戴眼罩。这样就完全避免了盲人队员可能通过微弱的光感来辨别方向，从而保证场上除守门员以外的所有队员都是通过声音来辨别方向。并且盲人足球还会内置铁片和滚珠，从而加大声音的清晰程度，更好地帮助球员根据声音来判断球的方位和距离。皮球内的铃铛声音提醒着队员们带球人的位置，接球的球员和防守的球员要喊出声，让队友和对手知道自己的位置，场内的守门员、场外的引导员和教练，则要不断大声指挥队友调整前进方向和防守位置。就是通过这样特殊的训练方式和比赛方式，盲人运动员利用自身对于声音的独特辨识能力，出色的完成了每一次训练和比赛。广东省盲人足球队多名主力入选国家队，并且于2014年12月代表中国参加在香港举办的亚洲盲人足球队公开赛，在其中表现出色，一举夺冠。对于足球这一激烈的运动，盲人队员都能够通过声音的识别来完成比赛并取得出色的成绩，那对于盲人群体来说，平时生活中出行通过声音来判断障碍物的位置将更容易被实现。

因此，根据盲人用户这一特殊性，在本产品的VR系统中，加入声源探测器，将探测器的接触点贴近双耳，从而在盲人用户听到声音后，通过接触点可以探测到声源的方向，与声音的强弱，再与头部追踪系统相融合。当头部发生运动时，听到的声音也会改变，从而带来定位的不同。通过头部的运动追踪与声源的判定，能够更加准确地为盲人用户确定当前的位置，所创建的模拟视觉环境将更为真实。

（3）感觉反馈创建盲人虚拟视觉环境

基于盲人用户群体的特殊性，用户无法看到虚拟的物体，但可以通过感知来判断物体的存在，这个模拟环境的创建可以通过本产品盲人阅读器虚拟现实眼镜配备的虚拟现实手套完成。通过在手套内层安装一些可以感知以及振动的触发点，在盲人用户接触物体或障碍物时，就会触发到这些接触点。这些接触点通过对于物体表面进行感知，根据其质地、粗糙程度的感知带来的振动频率强度不同，从而为盲人用户判断障碍物做出帮助。在基于可穿戴传感器的手势识别算法研究方面，有学者用离散的隐马尔可夫模型结合矢量量化技术获得的特征码本识别了6种不同的网球击球动作，获得了较高的识别率[3]。进一步将盲人虚拟视觉环境创建的更为真实细致。

（4）语音匹配与盲人虚拟视觉环境的创建

在VR系统中，语音匹配系统是十分重要的。这要求模拟环境系统能快速识别用户的语言，并对于用户的指令做出反应。但对于计算机来说，让其快速识别人类语言并及时做出反应是较为困难的。由于我国是一个多民族国家，各地的方言千差万别，并且每个用户在发音时的清晰程度和准确度也是无法统一量化的。这就为计算机在进行语音识别方面带来了难度。

而本产品，新型盲人阅读器则配备有多国语言智能识别系统，与区域语言识别系统，能够带来盲人用户语言的快速识别。基于人工智能技术，在对于用户语音进行识别方面加入更多智能识别技术，不只是简单地将用户输入的语音与语音库数据进行对比匹配，而是将用户的语音输入进行更为智能的识别，加入更多“人”的思维智慧，从而可以更好的完成人机交互。在盲人用户需要帮助时，可以直接通过语言的方式与本产品所创建的虚拟环境进行沟通。在机器自动识别后，根据阅读器内装备的人工智能系统，及时解决回答盲人用户的困难和问题，从而使本产品创建的盲人虚拟现实环境更为人性化、智能化。

2 多语种转换系统与盲人阅读器的有机结合

我们生活在一个全球化的时代，不同文化、不同语言间的交流日益频繁，多语种的互译就显得尤其重要。本团队设计的盲人阅读器的多语种翻译功能，旨在通过摄像头录入所需阅读的文字后，转化为数据，通过内置的翻译软件将其翻译为客户所需要的语言。其不仅可以方便我国盲人的生活，让其感受多种语言、多种文化的魅力，还扩大了应用地域范围，能为更多来自不同国度的盲人群体提高服务。

2.1 架构模式

随着技术的不断提高，翻译系统也在不断创新完善。目前的多语种辅助翻译系统多采用网络版和单机版两种架构模式。网络版系统包括：客户端在线功能模块、核心功能模块、服务端WCF服务接口模块、应用服务模块、数据库接口模块，以及后台数据存储模块。单机版包括：系统核心功能模块、本地接口模块和本地文件存储模块[4]。

2.2 网络拓扑结构设计

应用网络拓扑结构作为翻译系统运行的基础，通过按键向系统发出翻译请求，在与数据库进行交互后，将翻译得出的结果传递给语音朗读系统，通过预设的声音模式，直接将其朗读出来，即可将文字信息翻译成所需要的语种并通过声音传递给盲人用户，带来方便快捷的用户体验。

2.3 核心翻译方法

本团队采用中间语言法作为翻译的核心方法，通过互联网资源和自然语言处理技术，利用算法将源语言转化为目标语言，从而完成翻译。使用基于中间语言的方法，这种方法利用一种人工制定的标准语言作为语言翻译的中介，即首先把源语言解析为中间语言的表示形式，然后再由这种中间语言生成目标语言[5]。这种方法具有研究人员无需精通2种以上语言、可分步进行语种添加等优点，技术要求低，操作简单易上手，是多语种机器翻译核心机理的首选。

2.4 作用流程

通过盲人阅读器的摄像头，将需要进行阅读的文字信息进行录入,而后转化为数据暂存入数据库，由数据库对基本信息进行短时间内存储，通过嵌入的翻译脚本，将数据库中的数据提取出来，通过单机版翻译软件、云翻译等翻译程序，将其翻译为所需的语种，再通过语音功能将其播放出来。

2.5 作用原理

影像资料的处理：从外部的影像设备将需要翻译的信息录入以后，首先将其转化为一张张的静态图片。并且根据盲人阅读器内部的程序，在一句话的最后选择5个比对点，若比中，可以将两张图片在系统中串联起来，形成完整的信息。若不能比中，则说明扫描的速度太快，中间有断点，缺了若干行文字。

文字特征抽取：特征抽取可以说是盲人阅读器的核心，用什么特征，怎么抽取，直接影像到识别的好坏。特征抽取是文字识别中一个基本而又十分重要的问题，合理、正确抽取文字是提高识别率的关键[6]。

数据库比较：通过与阅读器自身数据库的对比，将文字特征转化为数据库中的文字信息，将与之匹配的语音信息，通过扩音器朗读出来。盲人阅读器默认的翻译语言将设置为中文，用户可以通过计算机联网方式下载所需翻译语言的数据包，以实现阅读器的多语种翻译。用户也应当定期更新盲人阅读器的联网数据库，以保证数据的实效性。

人工矫正与学习：由于识别的正确度无法达到百分之百，想要加强阅读器的实用性，人工矫正与学习这一步至关重要。盲人在使用过程中如果发现翻译的语意严重偏离，那么就可以开启矫正与学习功能。此时盲人阅读器内部相关程序段就会运行，盲人只需要语音输入他认为正确的语义内容，阅读器便通过语音识别内容，并与数据库对比是否有相似翻译。一旦比中，程序就会修改关于这类词语的翻译方式，以提高系统的适用性。

3 新型盲人阅读器内嵌智能识别系统

本团队设计研发的此款盲人阅读器运用了OCR技术、TTS技术、ASR技术等，不仅具有强大的内置摄像头智能识别及提醒功能，还具有灵活的语音词汇搜索功能。

3.1 文字识别技术

本阅读器能够将待阅读文本进行图像采集，然后利用图像处理技术完成对文本的提取和文字识别，最后对识别的文字进行音频输出。文字识别（OCR）技术是模式识别的一个分支，是智能阅读的核心[7]。阅读器的提醒功能是指够帮助盲人对想要获取的信息文本进行完全录入，使其阅读过程更为顺畅。在文字信息的处理方面，我团队在盲人阅读器中安装了doPDF⁃Cajviewer 7.0系统。此系统可以做到经摄像头读取后确定文本范围，进行文本内容录入的操作。在录入过程中，可以对识别内容进行自动调整，对于拍摄过程中的灯光角度自行调节。

3.2 文字转语音技术

在对文本进行拍摄录入时，应用了文字转语音技术。TTS（Text-To-Speech）文字转语音技术是一项实现任意文本信息到语音信号转换的技术[8]。被拍摄的目标文本信息可以与多语种文字系统进行匹配，阅读器会按照用户需求进行文本信息的处理。在音频信息的处理方面，通过多语种语音系统，建立生成多语种音频库，同时盲人用户在使用过程中对于文本范围的选取伴有建议范围提醒功能，具体精确到对于范围角度及广度的提醒，提醒过程充分考虑到盲人的不便与需求。在已确定文本语种及音频语种的前提下，系统将文字与音频进行一对一搭配，匹配过程中智能查找错误进行修改与完善。并且，盲人用户在文本信息读取过程中，能够及时进行词汇语音搜索。具体来说即是盲人在听读过程中，遇到有疑问的词汇，能够立即通过语音搜索系统提出自己的疑问，阅读器在接收到盲人用户的语音反馈后，通过无线网络系统进行智能搜索。通过这一服务项目，达到瞬时通过语音反馈解决阅读过程中出现的困难的目的。

3.3 自动语音识别(ASR)技术

语音识别技术，也被称为自动语音识别(ASR)。语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行相应的操作[9]。其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。在语音识别处理中，过高的语音采样速率会使一段语音信号的帧数大大增加，不利于系统的实时处理[10]。

参考文献：

[1]张毅.虚拟现实技术的发展现状与展望[J].电脑迷,2017(11):32.

[2]王阳阳.基于虚拟现实的三维建模技术探析[J].数字技术与应用,2017(07):209-210.

[3]赵小川.手势识别技术研究综述与应用展望[A].中国高科技产业化研究会智能信息处理产业化分会、中国高科技产业化研究会信号处理专家委员会.第十一届全国信号和智能信息处理与应用学术会议专刊[C].中国高科技产业化研究会智能信息处理产业化分会、中国高科技产业化研究会信号处理专家委员会,2017:4.

[4]尼加提·纳吉米,席小刚,马斌,买合木提·买买提.多语种辅助翻译系统研究与实现[J].电脑知识与技术,2012,8(02):345-350.

[5]包苏鲁德.多语种机器翻译平台关键技术研究[D].复旦大学,2008.

[6]潘保昌.浮动模板法——一种抽取文字特征的方法[J].计算机学报,1983,(06):469-477.

[7]秦瑞强.嵌入式盲人阅读器系统设计与开发[D].大连理工大学,2015.

[8]廖正和.浅析语音合成技术[J].科技情报开发与经济,2006(18):216-217.

[9]刘向华.语音识别技术及应用[J].温州职业技术学院学报,2006(03):33-35.

[10]王一.盲人信息输入新方法的研究与实现[D].湖南大学,2009.