沈烨培 邱金波
(广东石油化工学院 电子信息工程学院,广东 茂名 525000)
根据世界卫生组织的报告,全球约有4.66亿人遭受听力损失的困扰,并且预计2050年人数将超过9亿人,而我国是世界上听力语言残疾人数最多的国家,有听力语言残疾人2057万(2010年)[1]。手语为听力语言残疾人与他人交流提供了可能性。本项目引入最新的图像识别和机器学习技术,对中国手语进行向自然语言的文字和语音形式的转化,从而实现惠及中国听力语言残疾群体的无第三人介入的中国手语翻译解决方案。
在计算机科学中,手势识别是通过数学算法来识别人类手势的一个议题。手势识别可以来自人的身体各部位的运动,但一般是指脸部和手的运动。识别人的姿势,步态,行为也是手势识别的一个分 支[2]。手势识别可以认为是让计算机理解人体肢体语言的一种手段。
目前,根据不同的识别方法,手势识别的输入设备大多分为以下几类:手套(Wired Gloves),手语使用者需要佩戴特制的手套对其手指动作进行捕捉;深度感知相机(Depth-aware cameras)[3]主要应用结构光(Structured light)和飞行时间相机(Time-of-flight camera)技术对近距离的手势进行识别感知。Google I/O 2015上也有使用雷达对手势进行识别的展示。
从以上文献调研可知:
手势识别技术由于作为非接触人机交互的先进领域得到快速发展,但较为复杂手语的识别并非主流需求,所以直到2019年1月才出现了较大规模的可用于机器学习训练的连续中国手语数据集[4]。本项目则实现一种无需第三人介入而只需要单一摄像头的视频源,基于卷积神经网络CNN与OpenCV计算机视觉库的智能中国手语翻译方案。
手语中的手势最重要的就是对手指的识别。在手指检测系统中,首先要解决的问题是如何在视频采集图像中分割出手部。一般采用肤色模型来识别出肤色区域,再进行筛选提取手部轮廓[5]。将采集到的图像从RGB(红、绿、蓝3个通道的像素值)颜色空间转换到YCbCr颜色空间来建立肤色模型,YCbCr颜色空间通过亮度(Y)、蓝色亮度(Cb)与亮度差、红色亮度(Cr)和亮度差来描述颜色,可以把图像的亮度通道分离出来,不易受光照影响。
分割出手部后,需要对指尖和掌心的位置进行确认,从而进行骨骼建模,得出单个手语动作。以下是凸包算法的例子[6]。给定平面上的一些点,用最少的点连成一个凸多边形,使得平面内所有点皆在此多边形内或此多边形上,这个凸多边形就是给定点的二维凸包。最常用的凸包算法是Graham扫描法,主要通过排序、扫描来实现,但是其所需时间较长。一种快速凸包算法,则是利用递归的方法逐步排除凸包内部的点。
通常情况下,手语是一连串一起表达的,所谓的动态手势。基于视觉的动态手势识别是指用摄像机采集包含动态手势的视频图像序列,然后分析提取图像序列中的动态手势,最后由计算机通过一定的模式识别技术对该动态手势进行识别。
一般CNN(2D-CNN)主要应用在二维的图像中,在提取空间特征上有着很好的效果,而在处理视频类的任务中,2D-CNN无法捕捉连续视频帧中的运动信息,3D-CNN在行为识别中取得的突出成绩为手语识别提供了新的思路,基于3D-CNN的手语识别框架,替代了传统的手动特征提取及HMM建模的识别方法,通过设计CNN整体框架,实现了对手语的时间空间特征提取及有效分类。
本项目中翻译终端机器附有一个摄像头。为了实现对手语使用者较为精确的动作捕捉和手势识别。采用的摄像头规格应高于最低 规格。
本项目从翻译终端机器采集的画面会实时推流到云服务器中进行处理运算,并获得翻译的结果。这对服务器的算力要求较高。
从直播推流技术栈的角度来考虑。使用rtmp协议可以采用Ngix+RTMP插件模块来搭建服务端。其中若选用DSS(Darwin Streaming Server),DSS是Apple公司提供的开源实时流媒体播放服务器程序。采用C++编写,并且DSS是一个开源,基于标准的流媒体服务器,可以运行在Windows NT和Windows 2000,以及几个UNIX实现上,包括Mac OS X,Linux,FreeBSD,和Solaris操作系统上。
第一,为了实现视频的稳定上传推流需要充足的带宽。第二,低延迟反馈翻译结果的基本要求就是要保持视频传输过程的延迟低,做到实时的传播,避免出现卡顿情况。第三,需要用到负载均衡技术,系统在线诊断技术,同时及时故障处理的技术人员。
综上所述,采用云服务提供商的直播云服务而不是自行维护云服务器,可以使项目成本显著下降。