张艳琼 周 奕
(南京特殊教育师范学院 数学与信息科学学院 南京 210038)
手语是一种视觉语言,其借助手的手形、运动、位置、朝向,配合面部表情和身体姿态,按照一定的语法规则来表达特定含义[1],是听障人群生活、工作、交流的重要语言。根据世界聋人联合会和世界卫生组织的统计数据,目前全球大约有4.66亿听力损失的人,已经占到世界总人口的5%以上。到2050年,预计将有近25亿人患有一定程度的听力损失[2]。手语识别通过利用算法和技术来识别所产生的手势序列,并以文本或语音的形式阐述其意义[3],为听障人群更好地融入社会架起了一座桥梁。手语识别涉及视频数据的采集、特征提取、模式识别、自然语言处理等多个研究领域,是一项具有极大挑战性的研究任务。手语识别研究可以追溯到20世纪90年代。随着计算机视觉、人工智能等技术的发展,手语识别得到了极大的发展,成为社会各界关注的焦点。鉴于此,本文将利用信息可视化工具CiteSpace软件,对2000—2021年手语识别研究相关的国际文献进行系统而全面的梳理,探究国际手语识别领域的现状、研究热点及发展趋势,进而为相关研究者提供更加直观、有效的参考依据。
本文选用信息可视化软件CiteSpace对文献进行分析。该软件是美国Drexel大学陈超美教授基于JAVA平台开发的,适用于多元、分时、动态的复杂网络分析的可视化软件[4]。此软件通过可视化手段来呈现科学知识的分布、结构和规律,其得到的可视化图形称为“科学知识图谱”,拥有图和谱的双重特性。CiteSpace的突出特征体现在:(1)采用时间切片技术,对连续的每个时间片进行“抓拍”,构建一个时序型网络模型,并将这些单独网络连接成一个综合的、全景的网络图谱,以此展现出该知识领域的演化历程[5];(2)能自动识别出图谱上作为知识基础的引文节点文献和共引聚类所表征的研究前沿。刘则渊教授将CiteSpace知识图谱概括为“一图展春秋,一览无余;一图胜万言,一目了然”[6]。
Web of science是全球最大、覆盖学科最多的综合性数据库之一。本文以Web of science核心合集为检索数据库,以“sign Language recognition”“the recognition of sign language”“sign Language identification”“the identification of sign language”“sign Language interpretation system”“finger Language recognition”“finger Language Identification”“finger spelling recognition”等为主题词,文献类型为article 或 Proceedings Paper,检索时间跨度选择2000-01-01至2021-12-31,语种选择英文。通过人工剔除与本研究不相关的文献及重复文献,共得到有效文献1564篇。
发文量可以从侧面反映出某一领域的研究热度,并在一定程度上反映该领域学术研究的发展状况。通过对国际上手语识别领域各年度发文量进行统计并以折线图的形式对这部分数据加以呈现,见图 1。
图1 年度发文量及发文趋势图
根据图1可以看出,手语识别研究发文量总体呈现出稳步增长的趋势,但是各年度的增长幅度各异。2000—2011年发文量总体增长比较缓慢,呈现低增长的态势,每年的发文量均在50篇以内,12年间共发表文献325篇,占总体发文量的20.78%,处于手语识别发展的第一个阶段,也就是缓慢增长的初始阶段。而2012—2021年手语识别领域的发文量呈现高增长的趋势,处于发展的第二个阶段,即指数增长阶段。其中2014—2015年文献发表量呈直线增长,这主要与计算机视觉、人工智能的快速发展有很大关系,学者们逐渐向计算机视觉、人工智能方向等最新出现的新方法、新技术寻求新的思路。
关键词代表的是一篇文章的核心。通过关键词分析,可以了解某一领域的研究热点与重要研究主题。利用CiteSpace软件,Node Type(节点)选择“Keyword(关键词)”,时间切片选择1,选择适当阈值,计算方式选择Minimum Spanning Tree与Pruning Sliced networks,对切片网络进行精剪合并。为了解决关键词中含义相近及表述相近词等问题,如Convolution neturalnetwork与Convolution natural network,需要在Project文件夹中以文本格式打开citespace.alias,在其中输入内容@PHRASE1#@PHRASE2,表示将两者合并。同时隐藏相关度不大的关键词如“recognition”“system”等,得到手语识别关键词共现图谱,见图 2。
图2 关键词共现图谱
对国际手语识别领域的关键词数据进一步统计分析,可以发现2000—2021年国际手语识别领域关键词频次大于20的主题词有26个。提取频次排名前10的关键词相关信息(排除检索词及相关性小的关键词,如手语识别、手语、手势识别、手势、美国手语等),见表1。
通过分析关键词共现图谱图2和表1可以看出,Deep learning(深度学习)、Convolution neural network(卷积神经网络,以下简称CNN)、Netural network(神经网络)、Feature extraction(特征提取)、HMM(隐马尔科夫模型)等节点较大,也就是说这部分主题出现的频次比较高,即这些主题词代表了国际手语识别领域采用的热点技术和方式。Freeman于1977年提出中介中心性(Betweenness Centrality)的概念,用于衡量网络图谱中每个关键词的地位,在关键词共现网络图谱中,关键词联系紧密程度越高则中介中心性越大[7]。由表1可知,HMM(隐马尔科夫模型)、Netural network(神经网络)、Support vector machine(支持向量机)、Machinelearning(机器学习)等主题词节点的中心性相对比较高,说明这部分主题在国际手语识别领域中处于重要地位,起到了桥梁的作用,为之后许许多多的研究起到了支撑的作用。从图2可以发现,Deep learning(深度学习)、Machine learning(机器学习)等节点呈深色环状,说明这两个主题在某个时间段出现激增现象。
表1 高频关键词统计表(TOP10)
文献共被引是指两篇(或多篇)文献同时被另一篇文献所引用,则这两篇论文构成共被引关系。被引频次和中心性高低可在一定程度上反映文献的学术影响力和经典程度,相关研究者往往将这些高被引文献内所包含的观点、知识作为开展下一步研究的知识基础[8]。在科学知识图谱中,共引文献包含了大量的科学知识。通过这部分文献,可以有效展开对国际手语识别研究领域知识结构等方面的研究。文献被引数量是衡量学术影响力的一个重要指标,能够通过文献追溯学科领域的研究演变进程[9]。如果一篇文献同时被多篇文章引用,那么就说明这几篇文章之间有着比较大的相关性。为了更好地对这部分参考文献进行分析,本文运用CiteSpace 中的Cited-Reference功能对之前检索所得到的文献数据进行共被引分析,g-index中K值设置为5,计算方式选择Minimum Spanning Tree(最小生成树)与Pruning Sliced networks(修建切片网络)以减少计算量,其他参数保持默认值,得到国际手语识别领域文献共被引图谱,见图 3。
图3 文献共被引知识图谱
在图谱中,网络中的连线代表了文献之间的共同引用关系,节点半径越大代表该文献被引用得越多,即为该知识领域的重要文献。图3下方,半径最大的节点是Ong SCW等人在IEEE T Pattern Anal期刊上发表的文献AutomaticSignLanguageAnalysis:ASurveyandtheFutureBeyondLexicalMeaning。该文对自动手语识别技术进行分析与总结,为不同的研究提供了理论和技术的支撑[10]。通过对CiteSpace中得到的共被引文献的数据进行进一步统计,得到2000—2021年与手语识别相关的10篇最高引用文章,见表 2。
从图 3和表 2中可以看到,核心被引文献发表时间主要集中于2011—2019年,这10篇高被引文献基本都发表于2014年之后,可以说明2014之后手语识别技术有了新的突破,出现了新的研究方向和技术。其中,被引频次最高的是Koller O等人发表在ComputVisImageUnd上的文章。该文提出了一种统计识别方法,针对不同的手语者进行大词汇量的连续手语识别,为许多新加入该领域的研究者提供了一个新的起点[11]。被引频次排第二的是Pigou L等人发表在LectNotesComputSc上的文章。该文章提出了使用Kinect、CNN和CPU加速器的识别系统,能够高度准确地识别20种意大利手势,在交叉验证中的准确率达到了91.7%[12]。排名第四的文章是Cheok M J等人在IntJMachLearnCyb上发表的文献。该文对手势和手语研究中使用的最新技术进行了全面的回顾[13],可以为后续研究者提供新的思路和方向。排名第五的文章是Koller O等人于2016年在ProcCvprIEEE上发表的文献。该文提出了一种新的方法,通过在迭代EM算法中嵌入CNN,在弱标记的序列数据上学习基于帧的分类器[14]。
表2 文献共被引频次(Top10)
通过对表中这部分高被引文献的阅读,发现这些文献的主要研究对象为基于视觉的连续手语,且多篇文章对传感器如3D运动传感器、Leap motion、 Kinect等进行了研究,弥补了Cyblerglove(数据手套)的不足。也有作者提出了多传感器融合的框架,这些传感器和框架的出现无疑为人机交互这一领域提供了新的机会。近年来手语识别采用的主要研究方法为CNN以及多种混合的模型,这些新的方法成为了许多学者探索的研究方向,这也就奠定了它们高被引的基础。因此,手语识别在未来一段时间的研究方向是基于深度学习技术、人机交互技术、计算机视觉的连续手语识别方面的研究与探索。
1.2000—2011年(缓慢增长阶段)时序图分析
对第一阶段2000—2011年数据进行Timezone分析,得到2000—2011年国际手语识别领域研究的热点时区图谱,隐藏比较明显且相关度不大的节点,见图 4。
图4 2000—2011年关键词时序图
第一阶段(2000—2011年)研究主要集中在基于传统技术的手语识别,如HMM(隐马尔科夫模型)、Support vector machine(支持向量机)、Netural network(神经网络)、DTW(动态时间归整算法)等。其中HMM最早被应用于语音识别和手写字体的识别,识别效果良好。由于这两者与手语识别具有一定的共通性,所以在较早的时候便有学者将它应用于手语识别领域,主要用于对手语进行时序建模。识别对象主要是针对手指语识别、孤立静态手语识别方向,数据提取方面主要采用1990年兴起的Cyblerglove(数据手套),其主要用于手部3D运动捕捉,这一技术有助于实现用户在虚拟现实环境中与数字物体的互动,因而在虚拟现实领域应用较多。同时,在这一阶段,人机交互领域得到了一定的发展,越来越多手语识别领域研究者的研究方向朝着人机交互的方向发展。
2.2012—2021年(指数增长阶段)时序图分析
以同样方法对第二阶段2012—2021年数据进行Timeline分析,得到2012—2021年国际手语识别领域研究的热点时区图谱,隐藏部分比较明显且相关度不大的节点,见图 5。
图5 2012—2021年关键词时序图
从图 5中我们可以发现,相比第一个阶段(缓慢增长阶段),第二个阶段(指数增长阶段)的主题词的数量有了大幅的增长。在这一阶段,多种数据传感器的出现,逐渐代替了数据手套,提高了数据采集的质量。2010年出现Kinect传感器之后,便有学者基于该传感器进行数据集的开发,如中国手语数据集CSL[20]就是由Kinect采集的。在之后出现的Deep learning(深度学习),在手语识别领域产生了较大的影响,使得手语识别正确率得到极大提升,受到相关专家的追捧。CNN依托于其强大的特征提取能力,目前许多算法都是利用其来进行特征提取。早期运用广泛的HMM、SVM等,在之后大多被应用于混合模型进行识别。如,Koller等人进行了德国连续手语识别的研究,并在2016提出了一种基于CNN和HMM的混合模型,在两个公开的大规模基准手语数据集上取得了很好的识别效果[21]。同时,在这一阶段,更多研究是基于实时、连续、大规模手语识别进行的,同时3D手语识别、复杂背景的引入以及其他非手性特征的识别如面部识别受到部分学者青睐。
通过分析手语识别时序图发现,手语识别的研究从早期的静态手语识别逐渐转向动态实时的识别,由传统的识别方式逐渐转向基于计算机视觉的深度学习方向,从单一模型逐渐转向混合模型。
研究前沿的演进趋势常常依据突现词来进行判定。Burst Term(突现词)是指频次出现突增。由于突现词的词频时间分布和动态变化特征,突现词比关键词更能准确地揭示研究前沿领域[22]。在CiteSpace中通过对主题词进行突现分析,共检测出14个主题词发生了突现,见图 6。
图6 国际手语识别研究前沿
在图 6中,“Strength”表示的是突现的强度,它的数值越大代表突现强度越高,那么该关键词就有更大的可能性成为该领域的研究前沿。灰色线段部分对应的是该关键词发生突现的持续时间,黑色线段则为不发生突现的时间段。通过对关键词突现率进行进一步排序,删除与检索词相关的和没有实际意义的关键词如“hand gesture”“system”“motion”等,对剩余突现词进行排序,取突现词排名前四的关键词,见表 3。
表3 高突现率关键词(Top4)
从表3中的信息可以看出,突现率排名前四的关键词均属于高频关键词,突现强度最高的主题词可以代表手语识别领域内较新的研究方向,即研究前沿。表3中,突现率最高的关键词是CNN,其突现强度达到13.87。CNN是常用的深度学习模型之一,结合之前的分析可知,与CNN相关的手语识别研究自2015年起就有人开始涉足,但其突现时间体现在2019—2021年。也就是说,自2019年起突然出现很多学者运用CNN来进行手语识别的相关研究。
其次为Deep learning(深度学习)和Machine learning(机器学习),它们的突现时间均为2018—2021年,突现强度分别是13.71和6.28。深度学习是机器学习的一个分支,未来将成为国际手语识别领域未来很长一段时间的研究热点。2006年Hinton等人首次提出了深度学习的方法,它的提出与发展无疑为手语识别的发展注入了新的血液。
突现率排名第四的是Leap Motion(体感传感器),其突现率为5.00,突现范围为2015—2017年。Leap motion是由2013年发布的一种深度传感器,它将信号转换成计算机指令。作为一种基于手势的人机交互输入设备,它能够准确地检测手和手指,使用红外线成像技术实时确定有限空间内预定义目标的位置[23]。正是因为这一优势,它得到了不少学者的关注,并将其应用于手语识别研究中关键特征的提取上。虽然Leap motion有能力捕捉手和手指的三维位置,但是必须在靠近被试的地方操作。同时,由于这种基于体感设备进行手语识别的方式,需要利用辅助设备进行捕捉,精度容易受环境影响。所以仅在两年内突现,之后则逐渐削弱。
本文通过对Web of science 核心合集中2000—2021年手语识别领域相关文献数据,从发文量、研究热点及研究前沿等各项指标进行分析与总结,得出以下结论。
从发文量方面来看,国际上手语识别领域相关研究载文量总体呈现出一个稳步增长的趋势,但是各年度的增长态势并不平均。2000—2011年处于研究的第一个阶段,即缓慢增长的初始阶段;2012—2021年处于该研究的第二个阶段,即呈指数型增长的阶段。
从研究热点、研究趋势以及技术手段方面来看,研究早期主要是基于非视觉的识别系统来对手语特征进行采集,如数据手套等,运用较多的是HMM,SVM、DTW等算法。随着技术的不断迭代更新,机器学习、人机交互、计算视觉领域得到了发展,近几年来的研究更多的是基于视觉(图像)的识别系统。由于基于深度学习的手语识别利用深度学习强大的学习能力和拟合能力获取更全面、更抽象的特征,突破了传统手语识别方法的局限性[24],成为手语识别领域的研究热点和研究前沿。
深度学习技术极大地提高了手语识别的精度和速度,但是距离走出实验室,达到在实时、精准的真实场景下进行手语识别的应用目标,还有很长的一段路要走。随着不同领域的交叉融合,未来手语识别将得到更大的发展,期待更多的专家学者加入手语识别研究工作中来,共同促进手语识别水平的提高。