邬旭,张倩
(1.天津理工大学,天津,300384;2.天津城建大学,天津,300384)
近年来,研究人员一直致力于开发更加自然的人机交互(HCI)界面,以方便用户搭建与产品之间更加直观的交互方式。手势交互的研究是其中一项重要分支。手势交互即用户通过使用手和手指的姿势或运动向产品发出指令。
在二维手势交互中,用户不再需要使用传统的设备(例如鼠标和键盘),仅通过指尖触摸屏幕表面即可发出指令。在目前智能移动设备(例如智能手机、平板电脑)的操作中已得到广泛应用。二维手势交互的局限性在于:它仍需借助屏幕传感器对于指尖的感测来接收和发布指令。随着运动捕捉技术、传感技术、算法技术的发展,三维手势交互逐渐成熟。对于三维手势交互,用户可以无需再借助任何外部设备,仅通过在三维空间的手势动作就可以轻松的控制操作界面。用户将拥有与产品更加直观和自由的互动方式。无论是单独使用还是与其它交互方式形成多模式互补,都能发挥出良好的效果,在未来拥有广泛的应用前景。与传统的UI界面或语音交互相比,具有以下优势:
(1)速度:如果需要快速响应,手势比说话更快;(2)距离:如果需要跨越房间进行交流,做手势比动嘴巴更容易;(3)表意简洁:表达一定含义用到的手势越简洁,越容易被记住;(4)表现力:手势非常适合表达情感。
进入老龄化社会后,越来越多智能设备将进入老年人的家中。老年人相比于年轻人,在认知能力、记忆能力和判断能力方面均有不同程度的下降,现有的多种交互模式对于老年人来说过于复杂。因此创建一套应用在智能家居系统中并充分满足老年人需求的三维手势交互集非常必要。
关于三维手势交互,国外已经进行了一些相关研究。Bowman和Wingrave(2001)研究了在菜单选择界面已经设计用于手势交互的可能性[1]。Alpern and Minardo(2003)开发了一个简单的汽车导航娱乐系统手势界面[2]。Karam和Scheraefel(2005)开发了用于控制背景音乐的手势[3]。Wachs、Kolsch、Stern和Edan(2011)研究了心理作用对于手势交互作用的影响以及相比于传统的输入设备或二维手势输入,三维手势交互对于HCI的优势[4]。国内对于三维手势交互的大多集中在对于手势识别技术层面的研究,李清水、方志刚等(2000)提出了手势交互在人机交互中的应用[5]。杨波、宋晓娜等(2010)分析了复杂背景下基于空间分布特征的手势识别算法[6]。
实验人员收集了智能家居系统的各类产品的指令,并对其进行了归纳,同时还借鉴了之前二维触摸感应交互研究中的指令。最终实验人员选取了智能家居五大门类11种产品共计40种目标指令(见表1)。
表1 选择进行实验的智能家居产品40个指令
共有30名老年人参加实验,其中16名为女性,12名为男性,平均年龄为63.5岁。受试者安排在1间长宽2.5m×2.5m房间内进行测试(图1)。实验进行前,实验人员将首先对受试者进行实验原理和过程说明。受试者将被要求想象他们是出现在一所智能家居中,该房间内的产品可以通过他们的手势指令进行操控。受试者需要对40个指令提供手势,其中每一个指令至少提供两种不同的手势(图2)。实验过程期间实验人员会使用录像机进行记录并分析。
图1 实验环境
图2 实验过程中受测者作出手势
由于很多受试者做出的手势仅存在细微差别,为了防止重复计算对后期评估造成的影响,因此在对其进行评估之前,首先要对得到的手势影像进行分析,以归类基本相同的手势。归类的标准在于手的姿势和手部的运动轨迹。姿势包括手指、手腕和前臂的末端姿势。运动轨迹包括关节运动的方向和手指、手腕和前臂的同步运动轨迹。若两项标准基本相同,则将其归类为同一种手势。在归类结束之后,将会对采集到的手势进行评估。每一名受试者将在实验人员的说明下完成一组李克特量表(Likert scale)测试,以便了解受试者对于做出的手势的主观评价。评价对象为测试的40个命令对应的出现频率最高的前两个手势。评价标准则来自于四个方面[7]:
偏好度:指自己对于该手势的满意程度。 匹配度:手势与指令之间的匹配程度。困难度:手势时做出时的困难程度。易记忆性:手势是否容易被记忆。
每一项标准将根据非常满意(5分)、满意(4分)、不确定(3分)、不满意(2分)、非常不满意(1分)5个层级进行综合打分。最终的评估结果会根据评估得分和后期专家的评估综合做出。
根据实验提供的40项指令,受试者共创建了超过2600种不同的手势;经过手势归类,受试者对每个指令出现频率前两位的手势进行李克特量表(Likert scale)评分,将根据以上评分结果结合专家的后期评审综合做出最终选定的手势。
由于出现有不同的指令由相同的手势表示的情况,因此只最终形成了16种手势,在图3中对这些手势进行了详尽的表现:图中左侧列出的是每种指令出现频率最高的前两种手势以及最终选定的对应手势的具体动作,其中的黑色箭头表示运动的方向,灰色的虚框表示运动的轨迹。旁边的柱状分析图表示针对每个指令创建的手势种类的数量及每种手势出现频率占总数的百分比。
图3 每种指令出现频率最高的前两种手势,柱状图代表每种手势出现频率占总数的百分比
经过后期对手势指令进行的分析与研究,实验人员发现了手势指令具有如下一些特性:
(1)大多数的手势模仿了生活中的动作
相当多的受试者在根据指令创建手势的时候引入或吸取了日常生活中的对应动作。同时该类手势在偏好度、匹配度和易记忆性的三项评分中也名列前茅[8]。例如对于接电话的指令,有超过7成的受试者创建的手势模仿了日常生活中的接电话动作,即单手在耳边做“六”手势。还有一些手势是受试者是根据相关场景联想到的,例如智能音响的打开和关闭中,受试者通过音乐联想到音乐会,进而联想到音乐会上指挥家的动作,从而做出相关手势,即双手向上做乐队指挥动作。
(2)双手手势中的合作分工
在实验中部分受试者使用双手协同完成指令,且双手具有明确的任务分工:通常左手作为“主体手”,主要用来表达指令执行的主体或指令本身;右手作为“修饰手”,用来表达具体的指令动作。面对同一主体的不同指令,通常左手保持不变,通过右手动作的变换指代不同的指令。从而实现了用较少的手势对于多重含义的表达。例如在电视声音提高/降低的命令中,使用右手作出方框(电视)的形状,左手分别做出抬升,下降五指向中心张开及五指分开的姿势分别代表播放器声音打开、关闭、提高和降低的指令。
(3)少数用户的手势可能是更好的手势
同一指令选取出现频率最高的前两类手势进行评估的方法是基于只有受到更多人接受的手势才会是更好的手势的理念而制定的。但在后期分析中,经过与专家探讨,实验人员发现其中部分因出现频率较低而未被选中的手势其实非常有趣。这些手势虽然出现几率很低,但却令人眼前一亮,具有非常强的创意性和匹配度。例如对于“关闭”空调的指令,一位受试者做出了双手摩擦的手势。因手势只出现了一次,因此未被选中。但专家对于该手势用双手摩擦表示房间寒冷需要关闭空调的想法非常欣赏,并引发了争论。这似乎表明少数用户的手势可能是更好的手势。
为了验证该想法,实验人员将一些出现频率低但受到专家好评的手势与受试者进行了交流,结果发现:在给受试者观看了其他人的手势之后,当他们观察到别人做出了自己没有想到的适合的手势的时候,他们感到非常兴奋。并表示若再次进行实验,他们会对自己的之前的手势选择进行更改。这证明了之前的假想:即少数用户的手势可能是更好的手势。
由于条件的局限,本次实验存在一定的局限性。主要有两个方面:首先,进行本次实验的受试者大部来自于中国北方地区,且均为以汉语为主要语言的汉族居民。根据David Rose的研究,手势具有代际特征。来自于不同地区或文化背景的用户会作出不同偏好的任务手势。因此在未来的实验中应当考虑继续加入更多地区的人群。其次,受到到实验时间的限制,每一个手势命令中只对两个出现频率最高的手势进行了偏好、匹配度、困难度和易记忆性的主观评分和专家分析。因此,这可能会导致一些有价值的手势未来在评估中被遗漏。
本文的目标创建一套应用在智能家居系统中并充分满足老年人需求的三维手势交互集,通过建立让用户参与手势设计的实验,指导30名受试者针对40个种常见的人机交互任务开发手势,并根据偏好度、困难度、匹配度和易记忆性四个方面进行了李克特量表评分和后期专家研究,运用上述方法得到了一组应用于智能家居系统并适应老年人用户群体的三维任务手势词典。同时发现了用户在手势的创建中有偏向使用日常生活动作、习惯双手协同及少数用户的手势可能是更好的等三方面特征,为未来中国老年人运用三维手势交互使用智能产品提供了,更好进行人机交互,更好的提升老年人HCI的满意度。