李辉
(湛江科技学院 广东省湛江市 524094)
根据残联网第六次人口普查结果显示,截止2010年我国聋哑人总数将高达2100万,占全国总人口的1.68%,其中有80多万人是年龄低于10周岁以下的儿童 。按着这样计算到今天,全国聋哑人的总数将是一个十分庞大的数目。
手语作为聋哑人常用的交流和学习的工具,同时也是和非聋哑人沟通最重要的桥梁。
根据现有产品的调研,针对聋哑人用户的交流的设备还较少,目前较为流行的手语识别设备主要还是穿戴类的产品,如何摒弃繁重的产品又能够快速的完成手语与语言之间的转换,称为本课题主要研究的内容。
现在社会环境下,聋哑人与非聋哑人沟通的方式仍没有一个较好的解决方式,非聋哑人只能通过手语或者文字的形式进行沟通,不懂手语的人只能通过聋哑人的粗略比划获取很少的信息。因此,设计一款帮助聋哑人与非聋哑人进行沟通交流的产品非常必要,既能够帮助聋哑人更好享受生活,更能够促进非聋哑人与聋哑人更多的沟通交流,也能为聋哑人关爱设计起到推动作用。
1.3.1 研究目的
随着社会的发展,生存环境复杂多变,就如何提升聋哑人这一特殊群体的生活质量,给予他们在职业上、学习上帮助等问题,本文从社会关怀角度,对聋哑人交流障碍及其生活现状和就业状况进行分析和研究,综合利用产品设计理念和专业知识进行构想。在现实环境下,我国多数聋哑人的沟通方式并未得到一个很好的解决。随着科技的发展,越来越多的人工智能的相关应用使用在各个领域,改善我们的生活。本课题主要是基于大数据,设计研发一款针对聋哑人的无障碍交流产品,解决聋哑人在日常生活中语言沟通障碍所带来的一些不便,让聋哑人可以享受更好的社会环境及生活。
1.3.2 研究的意义
随着科技的发展,越来越多的人工智能的相关应用使用在各个领域,改善我们的生活。同样的也可以开发一款解决聋哑人的人工智能应用,尽量的解决语言沟通障碍所带来的一些不便,缓解聋哑人“就业难,创业难”的社会问题,让聋哑人可以享受更好的社会环境及生活。
1.4.1 研究内容
本设计将手语识别系统与眼镜相结合,在眼镜框加入摄像头,当聋哑人与非聋哑人沟通的时候,聋哑人只需要做出一个特定的开始手语的手势或者触摸感应开关,程序就会就绪。手语演示的过程中,程序会把手语翻译成文字,显示在设备(手机屏幕,显示屏)上,或者是通过语音播报的形式进行交流,不懂的手语的人就可以理解聋哑人想要表达的内容。反之,当非聋哑人与聋哑人沟通时,接收器会接收非聋哑人所讲的内容然后通过文字或者手语的手势呈现在镜片上,令聋哑人进行流畅的交流沟通。
1.4.2 研究框架
总体研究框架如图1所示。
图1:总体研究框架
调查法:通过调查获取手语相关信息,以及目前同类产品所存在的问题等,进行分析、归纳及总结,为后续眼镜产品的设计实践提供相关数据。
功能分析法
功能分析法:主要是用来分析社会现象的一种方法,是社会学科中常用的方法之一。不同的产品具有不同的功能,通过调研数据分析总结可以很好的归纳出所设计产品的基本功能。
跨学科研究法:又称多学科交融法,是指通过多门学科之间的协作来共同解决一个问题的方法。本文主要融合计算机语言、产品设计学、自然语言等多门学科共同解决儿手语与语言之间转换的问题,从而达到聋哑人与正常人之间的无障碍沟通。
探索性研究法:是在缺乏前任的研究信息和理论的前提下,用已有的资源,探索创新出新颖独特的方法和成果。
聋哑人无障碍交流技术的研究涉及众多学科及科研领域。目前国外的聋哑人无障碍交流产品研发处于领先地位,相关的技术及产品较多,主要有:
“AcceleGlove”电子手套:这是由美国乔治·华盛顿大学研制的一种将手语动作转化为声音或文字的智能设备,这种智能设备有助于聋哑人在日常工作和生活中方便、快捷地与正常人进行沟通、交流。在使用过程中,它可以迅速的将聋哑人打出的手语或者手势翻译正常人可以直截了当地看懂、听明白的语言和文字。
嵌入式聋哑人无障碍交互软件:这是由美国iCommunicator公司开发的一套用于帮助聋哑人与非聋哑人进行正常交流的软件及相应产品设计。它能够把文字转化为语音,方便聋哑人与正常人的远程交流,相当于聋哑人可以以文字与正常人进行语音沟通。同时,它可以把正常人的语音转化为文字或手语,显示在聋哑人的电子设备屏幕上,或者对口音差异巨大的语音进行优化处理并发送到聋哑人的助听设备中,方便聋哑人与正常人的沟通。
ViaScribe语言识别技术:这是由美国“蓝色巨人”IBM公司研发的一种文字与语音的智能转换技术,它可以在任何场合的发言过程中把语音转化为文字并注入到字幕当中,也可以录入发言内容并转化为文本讲稿,方便后期的修改与完善。与相应的电子演示稿、视音频文件结合之后,它能够快速制作出多样化的网络学习素材。目前IBM中国信息无障碍中心、IBM中国软件开发中心正在与北京联合大学特殊教育学院合作,应用这一技术为聋哑人学校搭建无障碍教学平台。
由此可见,目前国外聋哑人无障碍交流技术的研发多是基于手语交互技术,国外的相关技术水平已经相对成熟。但国内的相应研究基本上仍处在起步阶段,相关产品较少,目前已知的是哈尔滨工业大学深圳研究生院计算机科学与技术学科部智能计算研究中心开发的一种手语合成系统。该软件由虚拟人手势拟合子系统、手语词库管理编辑子系统和汉语手语机器翻译子系统组成,可以将汉语文本转换为手语,在电子设备屏幕上显示出来,以供聋哑人观看,方便聋哑人理解不懂手语者的意思。
国内基于语言文本交互的聋哑人无障碍交流技术的研究尚处于空白阶段,手语无障碍交流技术方面也存在一些不足。一是辅助设备体积相对较大,大多用于聋哑学生的手语教学中,不便于应用在聋哑人日常生活中。二是不能有效地识别多种方言和口音差异。因此迫切需要将聋哑人无障碍交流技术及其产品朝向便携、易用的方向发展。本文在目前较为成熟的手写识别、文本语音转化技术及嵌入式技术基础之上,设计和开发一种便于聋哑人携带、辅助聋哑人与正常人进行无障碍交流的嵌入式设备,以解决目前手语交流技术方面存在的不足。
在针对聋哑人的生活现状包括其就业、教育、手语、推广、就医、娱乐、维权等方面的问题以座谈、走访、问卷、面对面交流等方式向聋哑人群体、政府工作人员以及普通人民大众作了具体的调查分析,据调查分析听力语言障碍残疾居五大残疾之首,耳聋人数约占中国人口总数的16.7%。全中国大约有2075万听障人,全世界有6500-7000万人为聋哑人。并且每年9月的第四个星期日是世界聋哑人日,设立这个节日的宗旨是为了造福于世界聋人,捍卫聋人的权利,以及帮助聋人早日康复,感受到来自社会的关怀。
据相关数据显示,我国聋哑人这一特殊的群体,在残疾人总人口中还是占有相当打的比重。在对残疾人无障碍的环境构建中,聋哑人的无障碍问题亦是整个残疾人无障碍事业中的重要环节。聋哑人日常的工作、生活中所存在的障碍不同于其他残疾人群。其障碍主要表现在信息的交流和沟通方面。由于聋哑人与非聋哑人交流存在障碍,聋哑人很容易与非聋哑人出现隔阂,这对聋哑人身心健康乃至社会的和谐稳定都造成了阻碍。因此解决聋哑人无障碍交流和沟通是聋哑人无障碍生活的基本保障。
目前国内的手语识别方法大多数都是基于计算机从摄像头演变而来,最常用的就是照相机,手机,电脑或外界摄像头等设备,主要是通过设备获取手势的信息并综合分析,这种设备对于用户手势的输入限制比较小,能够实现更自然,直观的人机交互。
国外在手语识别方面的研究早在20世界90年代就已经开始了,目前针对手语识别发明主要是微软研究院的Hangpose。该设备首先需要用户将手放在设备视野下,设备能够精准地识别到用户的手势动作,再通过计算机扫描并创建一个三维模型。Handpose的算法很大程度提高了计算机对手语的识别能力。后期也应用在针对聋哑人的产品上,以及其他人工智能的电子消费品上。
谷歌公司团队设计了一款可穿戴产品来帮助聋哑人与非聋哑人沟通交流,这支团队利用了聋哑人的交流手语手势,通过检测人体肌肉活动来获取聋哑人所表达的内容,然后通过产品中的软件和AI技术使肢体语言转换为语音发声。
国内:最早研究手语是浙江大学计算机科学与工程学的吴教授以及其组成的研究小组,开始他们主要是通过穿戴技术来获取手语手势信息,这套技术也初步实现了单个词的识别。后期对该技术进行改进,采用一种高斯混合模型对手语字典中的词汇进行识别,识别准确率也达到了98.2%。虽然手语识别精度进一步的提高,但还是针对单个词汇,随后他们又提出基于大词汇量的中国手语识别系统。
国外:美国的Vi—aScribe技术,该技术是将语音转换为文本,这项技术也被广泛的应用到演讲以及课堂加注时的字幕和讲稿等进行录入;谷歌发布了一个视频,展示了一种能够装戴在手臂上的、能够依据装戴者的手势运动所翻译成声的产品。
在国外一项名为Music:Not Impossible 的新兴技术设备出现,可以帮助聋哑人通过皮肤感受到立体声。据悉,该技术的创意来源于前好莱坞制片人Mick Ebeling。Mick Ebeling在生活当中经常发现一些听力障碍的群体需要站在扬声器附近,通过感受扬声器的震动从而获得音乐的快感。由此,Mick Ebeling得到灵感,研发出Music:Not Impossible这套设备来帮助患有感知障碍的人类解决难题。
该设备由腕带、脚踝带、背带以及肩带组合而成,他们各自以电池作为能源供给。这套设备还可以和现场音响系统直接连接,再向人体穿戴的传感器传递音频,以此可以更好的让皮肤感受声音的变化。之后,Mick Ebeling通过避过对于声音频道的感知,试图通过穿戴技术让声音直接进入大脑,使用者即可通过皮肤的感受来享受音乐的快感。
根据现有产品的调研,针对聋哑人用户的交流的设备还较少,目前较为流行的手语识别设备主要还是穿戴类的产品,如何摒弃繁重的产品又能够快速的完成手语与语言之间的转换,是本课题主要解决的问题。
WebCamera自动检测用户是否在使用手语,根据用户签名开启手势的开启识别动作触发,根据用户签署的结束手势结束识别。
我们希望这个项目能让更多的语言障碍从中受益,机器学习如今已经能运行在浏览器上,从使用者的角度出发,可以不用安装其运行环境或者库,打开浏览器即可直接运行,相较于运行在高速的服务器上运行速度可能略述色一分。但用户端的机器学习,更能保护用户的隐私,防止被泄露。训练的数据都是在用户的设备上完成的。如今,所有的电脑和移动设备自带浏览器,并且可以用Javascript实现机器学习。所以Learning In Web 也是一项不小的挑战。
用户在每一次使用,用户端所产生的新的数据点(不包含隐私信息)都将被发送回服务器,帮助改善该用户的模型,会使模型将越来越接近完美,应用会更加精准的识别手语,打造一个专属于你的“手语翻译家”。
在此项目中,对于摄像头采集的训练数据,我们需要筛选识别度高、动作标准的数据,前期需要较多的高质量的训练数据。
手语在实际使用过程中,每一个动作连贯的,这意味着不能像处理图片方式去处理这个过程,每一个动作都表达着不同的意思。
聋哑人是先天听觉器官发育异常或后天听觉器官受损,丧失语言学习能力,无法与大多数正常人进行正常交流,聋哑人往往比较敏感容易被激怒,自控能力较弱。由于他们学习生活和就业等方面所遇到的困难远比普通人更多,且难以得到足够的理解和帮助。因此在解决聋哑人的沟通交流上面显得尤为重要。在对于聋哑人无障碍交流产品设计方面,我查阅了许多的资料,许多对于聋哑人无障碍交流的设计大部分为手环,而我主要构思把手语识别的功能加入到眼镜上,让手语与语音互相转换,从而实现聋哑人的无障碍交流。
如图2所示,本设计将手语识别系统与眼镜相结合,在眼镜框加入摄像头,当聋哑人与非聋哑人沟通的时候,聋哑人只需要做出特定的开始手语的手势或者触摸感应开关,程序就会就绪。手语演示的过程中,通过语音播报的形式进行交流,不懂的手语的人就可以理解聋哑人想要表达的内容。反之,当非聋哑人与聋哑人沟通时,接收器会接收非聋哑人所讲的内容然后通过文字或者手语的手势呈现在镜片上,令聋哑人进行流畅的交流沟通。
图2:(作者自绘)智能眼镜产品造型设计实践
在社会上聋哑人要适应激烈竞争的社会,就必须要具有更精湛的综合职业能力和更优秀的总和素质,这是特殊教育人才培养目标的具体化。这也是本设计产品所能帮助到的地方,无障碍交流眼睛可实现聋哑人自足自主学习职业能力的关键一环。我相信对于聋哑人群体来说能正常的受到社会的接纳就是对他们自身最大的安慰和对他们价值的认可,将此款产品运用得当,能帮助他们扬长避短,帮助聋哑人做出他们范畴里的好成绩来也能很好的解决聋哑人士的就业问题。