仿真假体视觉下基于深度图像的手势识别研究

2019-08-23 05:34赵瑛王冬晖李琦于爱萍谷宇
现代电子技术 2019年16期
关键词:手势识别

赵瑛 王冬晖 李琦 于爱萍 谷宇

摘  要: 针对仿真假体视觉下彩色图像和深度图像对于手势识别的不同效果,研究使用Kinect获取彩色图像以及深度图像进行手势识别。通过Kinect提取的骨骼信息与提取的深度图像结合,将人体与背景图像分离,对OpenCV库分离后的图像进行降噪,并进行像素化处理。在不同分辨率(32×32,48×48,64×64)下进行彩色图像和深度图像的手势识别实验。实验结果表明,随着分辨率的增加,手势识别的准确率也不断增加。同一分辨率下,深度图像下的手势识别率总体高于彩色图像下的手势识别率,且在32×32分辨率下,二者差异显著。

关键词: 视觉假体; 手势识别; 深度图像; 骨骼信息; 图像降噪; 像素化处理

中图分类号: TN911.73?34; TP301.6                  文献标识码: A                 文章编号: 1004?373X(2019)16?0131?05

0  引  言

人类获取外界信息大部分依靠眼睛,视觉通路的任何一部分受损或病变都会导致失明[1]。对于视力残疾者而言,视觉的部分或者全部丧失对于他们的日常生活都有着无法言说的痛苦。然而,视觉假体能够为如视网膜色素变性(Retinitis Pigmentosa, RP)和老年黄斑变性(Age?related Macular Degeneration, AMD)等眼类疾病提供一种可行性的视觉代替方案,为盲人重见光明带来希望[2]。

视觉假体利用盲人残存的部分完整且结构和功能完好的视觉通路,通过人工进行电刺激诱发“光幻视”使盲人产生部分视觉感受[3]。目前研究主要集中在人工视网膜的设计,被植入的位置更临近于中央视觉区引起视觉感知的中央凹,而最有效的配置电极的位置和数量仍然是未知的;并且,植入人体刺激电极的数量需要严格限制,需要确定以最小视觉需求实现有用的人工视觉图像识别[4]。所以,通过正常视力的被试者参与仿真假体视觉下的实验来评估所给电极阵列的潜在益处能够为临床研究提供有益的帮助。同时,从心理物理学和行为学研究方式上来看,对于假体植入者而言,假体需要满足其最基本的生活需求,比如辨物、寻路、避障、文字阅读等,手势识别则属于此类基本需求之一。仿真假体视觉下的手势识别有利于模拟假体植入者的视觉感受。

手势识别经历了不同的发展阶段,最初的识别研究主要通过人手佩戴特有的硬件设备,如数据手套来获取人的手部位置、伸展情况等信息,从而进行手势定位、跟踪与识别[5]。目前,手势识别[6?7]主要使用的是基于计算机视觉[8]的方法,即直接利用摄像机等图像采集设备采集手势,通过对采集的图像或视频处理进而获得手势并对其进行识别。普通彩色摄像头在家庭生活中的普及,使得基于彩色图像的手势识别得到了较大发展,并取得了许多很好的研究成果。但由于彩色图像[9]易受光照强度、色度大小以及阴影环境等因素的影响,且采集的图像所处环境一般较复杂,因此手势的分割[10]及特征提取是识别静态手势的难点。随着摄像技术的发展,3D摄像头通过计算光的飞行时间获取物体深度信息。而物体深度信息,可以方便地将场景进行前景与背景分离,在人手定位与追踪方面有一定的优势。微软公司研发了一款体感外接设备Kinect[11?12],它能同时获取彩色图像和深度图像,其中深度图像包含物体在空间的三维信息,且不易受到其他干扰因素的影响,很好地解决了彩色图像在计算机视觉研究中的一些问题。陈建军基于Kinect获取的深度信息进行手势分割[13],然后利用动态时间规整算法(DTW)[14?15]并结合静态手势的识别,提出来一种动态手势识别方法。毛雁明等人基于手势深度图,提出一种新的手势识别方法——扫描线法[16]。

本文主要通过Kinect获取深度图像,进行仿真假体视觉下的手势识别试验,探讨了仿真假体视觉下基于彩色图像和基于深度图像的手势识别情况。

1  深度图像及骨骼图像获取与处理

1.1  深度图像及骨骼图像获取

Kinect V2采用了Time of Flight(TOF)技术[17],基本原理是通过连续发射光脉冲(一般为不可见光)到被观测物体上,然后接收从物体反射回去的光脉冲,通过探测光脉冲的飞行(往返)时间来计算被测物体离相机的距离。

Kinect V2通过从投射的红外线脉冲发射和接收的时间差来获得深度信息。脉冲调制方案的照射光源一般采用方波脉冲调制,以利于数字电路的实现。

相机上的控制单元先打开光源后再关闭,发出一个光脉冲。与此同时,控制单元相继打开和关闭接收端的电子快门,接收端接收到的电荷被存储在感光元件中。然后,控制单元再次打开和关闭光源。这次快门在光源被关闭的时间点打开,新接收到的电荷也被存储起来。

由于单个光脉冲的持续时间十分短暂,该过程会重复几千次,直到达到曝光时间。然后读出感光传感器中的值,根据这些值来计算实际距离。记光的速度为c,光脉冲的持续时间为tp,较早的快门收集的电荷为S0,延迟的快门收集的电荷为S1,那么距离d可以表示为:

[d=c2·tp·S1S0+S1] (1)

Kinect V2将侦测到的3D深度图像转换到骨架追踪系统[18]。骨骼追踪技术通过处理深度数据来建立人体各个关节(在Kinect中使用25个关节点)的坐标,骨骼追蹤能够确定人体的各个部位,如头部、手、身体等,还能确定他们所在的位置。

被试的各关节点位置用(x,y,z)坐标表示,且骨架空间坐标的坐标单位是m。坐标轴x,y,z对应深度感应器实体的空间x,y,z坐标轴。坐标系属于右手螺旋系,Kinect感应器处于原点上,z坐标轴则与Kinect感应的朝向一致;y轴正半轴向上延伸,x轴正半轴(从Kinect感应器的视角来看)向左延伸,如图1所示。为了方便讨论,称这些坐标的表述为骨架空间(坐标)。

1.2  手势图像处理

本文主要通过将Kinect获取的3D深度图像转换到Kinect骨架追踪系统,从而生成对应的骨骼图像后与深度图像结合,从而实现人体与背景分离。然后使用开源计算机视觉库OpenCV对分离了背景之后的图像进行二值化处理、降噪处理以及像素化处理后,生成像素化图像,供被试识别。具体流程如图2所示。

2  实验过程

2.1  被试的选取

被试为来自内蒙古科技大学的学生志愿者,年龄范围为20~25岁,实验共有20位被试,男女比例为1∶1。所有的被试视力或矫正后视力正常,母语均为汉语。实验进行前,所有被试需了解实验目的及过程,并承诺认真完成实验。正式实验前,被试需要在实验员的指导下对环境进行适应和熟悉,并且在理解实验内容后开始实验。在此期间,实验员将会对被试进行实验解说。

2.2  实验设备及方法

实验设备由一台戴尔电脑、网络摄像头以及待识别视频组成。本实验中,20名被试分别进行分辨率由低到高(32×32,48×48,64×64三种分辨率)的手势识别实验,考察被试在手势识别过程中的识别准确率等实验标准。实验在一间没有噪音干扰、光线良好的实验室中进行,实验前确保被试者不受外界干扰,保持放松。

2.3  实验素材库构建

构建实验素材库,选取共计36个手势姿势。其中包括0~9十个数字手势姿势,A~Z二十六个字母手势姿势。实验员在录制视频时手部位置应位于Kinect摄像头50 cm以外,同时避免其他因素的干扰。由于数字手势需要被试直接认识告知实验员其看到的数字即可,故数字手势0~9十个数字在同一视频内,每个数字出现时间约为5 s。字母手势则需要被试辨认并摆出相应的手势,故字母手势A~Z二十六个字母每个字母出现时间约为15 s,且为了避免视觉疲劳,每个字母手势单独录制。视频分别在彩色图像和深度图像下采用32×32,48×48,64×64三个分辨率进行录制。

2.4  实验步骤

2.4.1  0~9数字手势识别

首先,被试需要进行训练,能够清楚地认知手势0~9的正确摆法;其次,经由实验员讲解,被试应对像素化后的手部位置有所判断。在此之后开始进行正式试验。

实验员选取32×32分辨率的彩色图像数字视频。视频包括经由像素化处理后的0~9十个数字,且这10个数字是随机选取的且不重复。被试通过在视频播放过程中出现的数字识别并告知实验员,实验员记录实验数据。其次,只改变分辨率,其余条件与第一次实验一致,在48×48,64×64分辨率的情况下进行实验。最后,采用深度图像数字视频,实验条件与第一次实验完全相同,分别在32×32,48×48,64×64的分辨率下进行实验。

2.4.2  A~Z字母手势识别

本实验中判断被试是否辨认出手势的方法是让被试做出自己所能看到的手势,如果与手势库中的相同就算识别正确,反之,与其不同或者是被试自己表示无法辨认出来就算辨认失败。先选取一张正常字母手势图像由被试识别并能够自己做出自己所看到的手势。在此之后进行正式试验,首先,实验员选取32×32分辨率的彩色图像字母视频。视频包括经由像素化处理后的A~Z二十六个字母,这26个字母是随机选取的且不重复。被试通过识别在视频播放过程中出现的字母并做出自己看到的手势。实验员判断被试做出的手势正误,并记录。其次,采用32×32分辨率的深度图像字母视频进行实验,其余条件与第一次实验一致。最后,在48×48,64×64分辨率的情况下进行实验,其余条件与第一次实验一致。为了避免学习效应,在字母识别中,同一分辨率下的彩色图像视频与深度图像视频先给被试观看的次序是交替的,即有10组被试先看彩色图像视频,10组被试先看深度图像视频。

3  实验结果及讨论

3.1  不同分辨率下手势识别率分析

图3显示了不同分辨率下彩色图像和深度图像数字手势识别率。由图可以看出,经由彩色图像和深度图像生成的像素化手势图像的识别率随着分辨率的提高而提高。其中,数字手势图像在48×48,64×64两种分辨率下的识别率几乎接近于100%;识别率较低的数字有7和9,这两个数字在一定程度上会被误认为0和1。且由独立样本t检验得知不同分辨率之间不具有显著性差异。

图4为64×64分辨率下基于深度图像生成的像素化数字图像。由图可以看出,数字0几乎为全握拳状态,数字7属于半握拳状态,数字7易被认为数字0;数字1和数字9的差别在于数字9的食指是弯回的,不仔细辨认很容易误认为数字1。

图5显示了不同分辨率下彩色图像和深度图像字母手势识别率。由图可以看出,经由彩色图像和深度图像生成的像素化手势图像的识别率随着分辨率的提高而提高。其中,字母手势图像在64×64分辨率下的识别率几乎接近于100%;识别率较低的字母有K,Q,X;几乎不可辨认的有字母M,N。

如图6a)、图6b)所示,二者分别为32×32分辨率下基于深度图像生成的像素化字母图像。由图可以判断该分辨率下T和V都是有两根手指处于伸直状态,字母T较为容易认出是食指和小指处于伸直状态;而字母V则容易判断为是食指和中指或者食指和无名指处于伸直状态,甚至会和字母T混淆;图6c)、图6d)二者分别为64×64分辨率下基于深度图像生成的像素化字母图像,两幅图可以清楚地辨认出字母T和V的手势。

3.2  同一分辨率下彩色圖像与深度图像手势识别率分析

图7为同一分辨率下彩色图像与深度图像数字识别率对比,由图像可以直接看出同一分辨率下深度图像数字识别率要高于彩色图像数字识别率。32×32 分辨率下,采用成对样本t检验,求得sig=0.028

图8为同一分辨率下彩色图像与深度图像字母识别率对比,由图像可以直接看出同一分辨率下深度图像数字识别率要高于彩色图像数字识别率。32×32 分辨率下,采用成对样本t检验,求得sig=0.00

4  结  语

随着分辨率的不断增加,仿真假体视觉下彩色图像和深度图像的手势识别率随分辨率增加而逐渐增加,且从32×32 到48×48增长速度较快,从48×48到64×64增长速度略微缓慢。在32×32分辨率下,彩色图像和深度图像下的手势识别率具有显著性差异。随着分辨率的增加,像素化后的手势图像信息更为清晰,此时二者之间的差异并不显著。

对于仿真假体视觉下手势识别的研究,由于获取的图像仅进行了人体与背景分离,当人体与手部位置重合时容易造成手部信息缺失,从而无法正确识别手势。当手指相互贴合时可能会造成识别误差,無法正确区分手指所属部位。在之后的研究过程中,进一步改善仿真假体视觉下手势的细节信息,并且通过对深度图像灰度级的进一步分层,同时通过骨骼图的关节点实现人体与手部分离,使呈现的图像只具有手部特征从而更容易识别手势。这些将在后续的工作中进一步探究。本研究的结果也可为仿真假体视觉下连续手语的识别提供一种可行方案。

参考文献

[1] 李春勇.CFH,C2,C3,CFB,SERPING1基因与老年黄斑变性相关性的研究[D].成都:四川师范大学,2010.

LI Chunyong. CFH, C2, C3, CFB, SERPING1 Study on the relationship between genes and age?related macular degeneration [D]. Chengdu: Sichuan Normal University, 2010.

[2] KAWASHIMA Y, OISHI A, TSUJIKAWA A, et al. Effects of afliberceptfor ranibizumab?resistant neovascular age?related macular degeneration and polypoidal choroidal vasculopathy [J]. Graefes archive for clinical & experimental ophthalmology, 2015, 253(9): 1471?1477.

[3] 赵瑛.视觉假体最小信息需求研究[D].上海:上海交通大学,2010.

ZHAO Ying. Minimum requirements for visual prosthesis to restore useful vision [D]. Shanghai: Shanghai Jiao Tong University, 2010.

[4] MAYNARD E M. Visual prostheses [J]. Annual review of biomedical engineering, 2001, 3: 145?168.

[5] 陈皓,路海明.基于深度图像的手势识别综述[J].内蒙古大学学报(自然科学版),2014(1):105?111.

CHEN Hao, LU Haiming. A survey of gesture recognition based on depth image [J]. Journal of Inner Mongolia University (Natural science edition), 2014(1): 105?111.

[6] 于泽升,崔文华,史添玮.基于Kinect手势识别的应用与研究[J].计算机科学,2016(z2):568?571.

YU Zesheng, CUI Wenhua, SHI Tianwei. Application and research on gesture recognition by kinect sensors [J]. Computer science, 2016(S2): 568?571.

[7] 崔家礼,解威,王一丁,等.基于自适应手指分割与判别的静态手势识别[J].计算机应用与软件,2016(10):181?186.

CUI Jiali, XIE Wei, WANG Yiding, et al. Static gesture recognition based on adaptive segmentation and discrimination offingers [J]. Computer  applications and software, 2016(10): 181?186.

[8] 关然,徐向民,罗雅愉,等.基于计算机视觉的手势检测识别技术[J].计算机应用与软件,2013(1):155?159.

GUAN Ran, XU Xiangmin, LUO Yayu,et al. A Computer vision?based gesture detection and recognition technique [J]. Computer applications and software, 2013(1): 155?159.

[9] 康晓东,王昊,郭军,等.无监督深度学习彩色图像识别方法[J].计算机应用,2015(9):2636?2639.

KANG Xiaodong, WANG Hao, GUO Jun, et al. Unsupervised deep learning method for color image recognition [J]. Journal of computer applications, 2015(9): 2636?2639.

[10] 莫舒.基于视觉的手势分割算法的研究[D].广州:华南理工大学,2012.

MO Shu. Hand gesture segmentation algorithm basedonvision [D]. Guangzhou: South China University of Technology, 2012.

[11] 王松林.基于Kinect的手势识别与机器人控制技术研究[D].北京:北京交通大学,2014.

WANG Songlin. Research on gesture recognition and robot control technology based on Kinect [D]. Beijing: Beijing Jiaotong University, 2014.

[12] 陈一新.基于Kinect的手势识别技术在人机交互中 的应用研究[D].成都:西南交通大学,2015.

CHEN Yixin. Research on the application of gesture recognition technology based on Kinect in human?computer interaction [D]. Chengdu: Southwest Jiaotong University, 2015.

[13] 陳建军.基于Kinect手势识别的网页控制软件设计[D].太原:太原理工大学,2015.

CHEN Jianjun. Design of Web control software based on Kinect gesture recognition [D]. Taiyuan: Taiyuan University of Technology, 2015.

[14] 刘贤梅,赵丹,郝爱民.基于优化的DTW算法的人体运动数检索[J].模式识别与人工智能,2012,25(2):352?360.

LIU Xianmei, ZHAO Dan, HAO Aimin. Human motion data retrieval based on dynamic time warping optimization algorithm [J]. Pattern recognition and artificial intelligence, 2012, 25(2): 352?360.

[15] 余超,关胜晓.基于TLD和DTW的动态手势跟踪识[J].计算机系统应用,2015,24(10):148?154.

YU Chao, GUAN Shengxiao. Dynamic hand gesture tracking and recognition based on TLD and DTW [J]. Computer systems & applications, 2015, 24(10): 148?154.

[16] 毛雁明,章立亮.基于Kinect深度信息的手势分割与识别[J].系统仿真学报,2015,27(4):830?835.

MAO Yanming, ZHANG Liliang. Gesture segmentation and recognition based on Kinect depth data [J]. Journal of system simulation, 2015, 27(4): 830?835.

[17] SONG W, LE A V, YUN S, et al. Depth completion for Kinect V2 sensor [J]. Multimedia tools & applications, 2017, 76(3): 4357?4380.

[18] 丁晨,王君泽,瞿畅,等.Kinect体感交互技术及其在医疗康复领域的应用[J].中国康复理论与实践,2013(2):136?138.

DING Chen, WANG Junze, QU Chang, et al. Kinect somatosensory interaction technology and its application in medical rehabilitation [J]. Chinese journal of rehabilitation theory and practice, 2013(2): 136?138.

猜你喜欢
手势识别
基于手势识别的工业机器人操作控制方法
基于红外的非接触式手势识别系统设计
基于嵌入式的智能手表设计
复杂背景下的手势识别方法
基于Kinect的体感虚拟鼠标研究与开发
基于手势识别的人机交互技术研究
一种基于Kinect的手势识别系统
基于OpenCV的一种手势识别方法
基于样本轨迹的Kinect手势识别算法