孔祥杰,刘玉庆,安 明,刘 相,胡福超,张 喆
(1.中国航天员科研训练中心人因工程国防科技重点实验室,北京100094;2.中国航天员科研训练中心,北京100094)
体验质量是指用户对于系统或应用喜欢或者厌恶的程度,取决于应用或服务实现用户期望的程度,并受到用户个性和当前状态的影响。体验质量受到系统因素、环境因素和用户因素3个方面因素的综合影响[1]。
目前,体验质量的研究主要在音频、视频等领域,且已经建立了一些评价的标准或框架,如ITU-T提出的PSQM[2]和PESQ[3]方法;ITU-R提出的DSCQS[4]方法,思科及IneoQuest技术公司提出的MDI指标[5]。在立体图像、视频体验质量评价方面,齐峰等从双眼感知一致性特征来展开对体验质量的评价[6];Kazuhisa等通过视频质量、深度质量、不适和疲劳等指标来评价3D视频的体验质量[7]。关于虚拟现实、增强现实这种新媒体的体验质量,已经有了少量的研究,以主观评价为主要手段[8-9]。
虚拟现实技术已经被应用于各国航天员训练之中,为了满足航天员在多舱段空间站内导航训练和操作训练任务不断多样化的需求,中国航天员科研训练中心也开发了一套虚拟现实仿真训练系统[10],为航天员的训练带来了新的体验和超越传统地面模拟设备的可能性。但是,系统开发人员往往只关注系统功能的实现,而忽略了用户的使用感受。本文以体验质量为目标,从用户的角度对航天员虚拟训练系统展开主观评价,以发现系统中可能存在的影响体验质量的问题。
用户体验质量强调对用户体验某项产品结果的关注,为了充分和全面地了解用户在使用虚拟训练系统过程中的实际感受和满意程度,从而给出系统优化的合理化建议,需要建立全面合理的评价指标体系。
本文首先制定体验质量的评价策略,然后在这些策略的指导下,完成评价指标体系的设计。本文将策略归纳为三点:关注用户需求、强化系统特性和重视情感体验。
关注用户需求是指用户对产品的需求是一个由工具实体向精神追求的拓展、由物质到精神的过程,对于不同的系统,用户的需求可能是实用性,或者享乐性,在制定评价指标时应该区别对待;强化系统特性则是指评价指标要重点关注系统本身的特异性,在评价过程中重点围绕实现用户需求设计评价指标,弱化和用户需求关联弱的系统特性。最后一个策略是重视情感体验,在产品功能满足用户需求的情况下,操作是否直观易学、人机界面是否易于理解等都会影响用户的情感体验,充分重视细节和人文关怀能够带给用户强烈的情感认同,在很大程度上影响体验质量[11-12]。
这三个策略重点考虑了系统和用户这两个体验质量的影响因素,而对于特定的应用系统和用户,其使用环境在很大程度上也就被确定了下来,所以基于这三个策略设计评价指标能够保证指标的科学性和完备性。
本文结合虚拟训练系统的特征和虚拟现实应用体验质量评价策略,设计了航天员虚拟训练系统体验质量评价指标,包括任务负荷、界面可用性、临场感、副作用和有用性5个指标,如图1。针对每一个指标,采用一套问卷来给出评价,为了使结果更加可靠,尽量采用标准化问卷或者根据实际情况对标准化问卷做出修订,并保证修订后问卷的信度。各指标的设计依据和参数获取方法如下:
任务负荷:任务负荷是基于用户需求和系统特性设计的指标。从用户角度来说,用户希望以尽量轻松的方式完成训练任务并掌握相关技能;而从系统角度来说,作为一套辅助技能获取的系统,必须要设定合理的训练方法和任务难度。对于相同的任务,不同的训练方法可能导致明显的绩效差异[13],而对于用户来说,这就意味着不同的任务负荷,所以需要对任务负荷进行评估;任务负荷采用NASA-TLX量表[14]进行评估,该量表由脑力需求、体力需求、时间需求、业绩水平、努力程度、受挫程度6个维度构成,每个维度均为100分,受试者通过在数轴上做标记来打分,各维度的权重基于受试者对这些维度的重要性两两比较的结果进行计算,本文使用了Sharek开发的一套可以在线评分的NASA-TLX应用[15]。
界面可用性:可用性指系统在易学、易用和界面信息等方面的属性,是用户对系统的基本需求。界面可用性采用基于整体评估可用性问卷(Post-study System Usability Questionnaire,PSSUQ)问卷第3版[16]修订而来问卷进行测量,PSSUQ信息简明,分数计算方便,该问卷为7点制量表,包含16个项目,分为3个子量表:系统质量、信息质量和界面质量,3个分量表信度分别为0.9,0.91和0.83,整体问卷信度为0.94。根据Lewis的研究,完整的和不完整的PSSUQ问卷均值差异很小[17],对于其3个子量表,问卷结果的完整性既没有显著的主效应,也没有显著的交互效应,也就是说,只采用原问卷中的部分问题,对最终结果不会产生显著的影响。因此,本文删除了原问卷中对航天员虚拟训练系统意义不大的题项,并增加了一项系统信息一致性的问题(Q6),最终形成了一份包含10个问题的界面可用性问卷,为了和其它问卷保持一致,将原问卷修改为5点量表,1到5分代表从完全不同意到完全同意。采用Cronbach′s Alpha系数法对修订问卷进行信度测量,问卷整体信度α=0.85,Landauer的研究指出,问卷测量信度在0.7~0.8是可接受的[18],可见修订后的问卷仍然保持较高的信度。修订后的问卷,仍然包括系统质量、信息质量和交互界面质量3个子量表,各子量表分值为该量表各项评分的算术平均值,界面可用性分值为1~10题得分的算术平均值。
临场感:临场感是虚拟现实技术最重要的特征之一,临场感一方面可以评价虚拟表现水平,另一方面,良好的临场感意味着受训者感觉自己置身于系统构建的虚拟环境中,那么用户在实际任务中的表现将会更好[19]。临场感问卷基于PQ问卷[20]修订而来,原问卷包含32项问题,Witmer等在论文中指出,其中3项有降低问卷信度的趋势而被弃用,结合航天员虚拟训练系统特异性,进一步对问卷项目做了筛选,最终,临场感问卷包括22项问题。采用Cronbach′s Alpha系数法测量修订后问卷信度为0.905,可见修订后问卷可靠性较高。根据Witmer等人的研究,PQ问卷因子结构包括4个因子:参与感、适应性、感官逼真度和虚拟界面质量,取各因子对应问题的算术均值作为该因子得分,所有问题均值作为临场感评分(PQ)。
有用性:有用性问卷共包含6个问题,可以归结为实用性和享乐2个方面,有用性分值为各题得分的算术平均值。其中实用性是受训者最基本也是最重要的需求,愉悦感则可视为是对用户情感体验的评价。有用性问卷基于航天员训练实际需求设计,考察虚拟训练系统的实用性和用户使用过程中的愉悦感。采用Cronbach′s Alpha系数法测量本问卷信度为0.809,可见问卷可靠性较高。
副作用:根据Stanney和Kennedy的总结研究,基于头盔式显示器生成的虚拟环境下,80%~95%的受试者会出现不同程度的生理不适感,可见副作用是虚拟现实系统普遍性问题。副作用对用户的体验影响巨大,在评价过程中必须考虑到。本文使用模拟机疾病调查(Simulator Sickness Questionnaire,SSQ)问卷评价虚拟环境下受试者的生理不适[21]。原量表为4点量表,评分为0~3分,包含疲劳、恶心、晕眩等16个可能产生的不良反应症状。为了和本次试验其它量表一致,这里修改评分为1~5分,分别表示没有、轻微、中度、明显和严重。另外,根据 Kennedy等人的研究[22],SSQ量表可以进一步归结为3个子量表,分别是恶心、动眼神经紊乱和失方向,并给出了计算SSQ分值及子量表的方法、各子量表评分为与之最相关各项评分的加权和,SSQ总分为3个子量表得分的总和,SSQ总分越高,代表不适感越强烈。本文基于Kennedy等人的方法处理SSQ问卷,且SSQ问卷须在试验前后分别填写。
试验共招募志愿者26名,男性,年龄22到30岁(平均年龄24.85,标准差1.87),全部为大学在读研究生或本单位科研人员,受试者要求视力正常或矫正后视力正常,身体健康,在试验前保持良好的精神状态。全部受试者均为第一次体验航天员虚拟现实训练系统,并在试验开始前签署试验知情同意书,告知受试者本次试验目的是对系统进行评估而不是对用户的评估。
为了全面地评价虚拟现实训练系统的体验质量,需要安排受试者尽可能全方位地体验和使用虚拟训练系统,为此,本文设计了两个典型的试验任务:空间站内导航任务和用于交互操作流程训练的质量测量仪装配任务,每个任务都包括练习和考核两种模式。
3.2.1 空间站内导航任务
虚拟空间站在结构上包含11个舱段,三维立体结构,外部结构如图2,且搭建了逼真的舱内虚拟环境,如图3。空间站内导航任务是控制虚拟航天员从当前位置移动到目标位置的过程,旨在让航天员体验空间站中任意视觉垂向下的导航过程。在虚拟空间站内创建了一个虚拟人,受训者通过头盔显示器获得该虚拟人的视野,通过转动头部可以观察虚拟空间站内部环境。同时受训者通过三维鼠标控制虚拟人在虚拟空间站内完成从起始舱到目标舱的训练任务,在此过程中,需要受训者熟悉路径上各舱段内部环境和布局,形成仅依靠视觉线索定位定向的能力。在练习模式下,可见一条蓝色导航线连接起点舱和目标舱,指引受训者,同时任务栏实时显示受训者当前所在舱段名称。在考核模式下,用户控制的虚拟人被随机置于任意舱段,任务栏仅显示目标舱名称,受训者首先定位自身所在舱段,然后根据空间站结构,规划路径,到达目标舱。
图2 虚拟空间站外部构型Fig.2 Structure of the virtual space station
图3 舱内虚拟环境Fig.3 Scenes in the module
3.2.2 质量测量仪装配任务
装配任务是为了训练航天员对于装配流程和各组件配合关系的记忆。在装配任务过程中,受训者可以训练区域内移动,舱内虚拟人通过位置跟踪获得和受训者一致的运动,受训者使用手柄操作虚拟环境中的物品并将其“安装”在相应位置上。在练习模式下,系统提示受训者每一步应该操作的组件和该组件的安装位置,受训者在系统提示下完成装配;在考核模式下,受训者则根据记忆,按照练习的步骤,在没有提示的情况下完成装配,同时如果受训者不能完成,则可以通过菜单选择提示,系统会给出相应的提示。质量测量仪装配练习场景如图4,虚拟环境中试验台上的物体为待装配的组件,左侧半透明模型为相应组件待装配位置的提示,不透明模型为已安装组件。
图4 装配任务场景Fig.4 Assembly scene
试验流程分为4个阶段:试验准备、交互操作体验阶段、导航任务阶段和试验后数据采集。在试验准备阶段,需要告知受试者试验内容,向受试者介绍虚拟空间站外部构型,进行手柄和三维鼠标操作培训等,在受试者签署知情同意书并填写试验前问卷后,帮受试者佩戴头盔显示器,然后试验正式开始。受试者先完成一次质量测量仪装配任务,包括练习和考核,用时约10 min,然后开始空间站内导航任务,用时约30 min。试验结束后,受试者稍作休息,完成问卷数据采集,到此试验全部结束。
试验在一个宽敞且安静的实验室中展开,试验过程室内温湿度适宜,无外界噪声干扰,且受试者有足够的活动空间,能最大程度避免外部环境干扰造成的沉浸感损失。试验软硬件平台基于HTC VIVE解决方案构建,包括用于跟踪定位的Lighthouse系统、手柄控制器、三维鼠标和头戴显示器等。该方案定位系统理论定位精度可达毫米级,跟踪效果优秀,VIVE头戴式显示器提供单眼1080×1200像素分辨率和 90 Hz刷新率、110°视场角,为系统体验质量提供了优良的基础。试验过程中,整个试验系统运行在一台装备有NVIDIA GeForce 1080显卡的HP Z820图形工作站上,系统配置超过VIVE运行的建议配置,能够有效避免平台计算能力不足带来的卡顿、丢帧等问题,保证了虚拟训练系统的稳定运行。
受试者关于TLX量表的打分情况如图5所示。由图可见,除努力程度略高于50分外,各项评分均值都低于50分,说明本次试验任务负荷相对合理,既没有太难以执行,也没有过于简单。对于各维度,本次试验任务主要是舱内环境熟悉和交互操作流程记忆,主要需求为脑力需求,几乎没有体力消耗任务,但由于受试者在试验过程中生理不适,体力需求仍然达到了一定的水平。此外,不论是脑力需求还是体力需求,数据散布程度都比较高,说明个体差异较大。对于脑力需求,个体空间能力对环境熟悉任务影响较大,空间能力越强的个体,完成任务越容易[22],报告的脑力需求则更低;对于体力需求,受试者访谈结果表明,忍受恶心想吐的不适感消耗较多的体力,对虚拟环境耐受性好的个体,不适感较低,则体力需求评分很低,而耐受性不好的个体,则因为忍受强烈的不适而消耗更多的体力。
任务负荷评价结果表明,本次试验任务负荷设置合理,这种任务设置模式可以作为训练任务设置的参考,但应该适当降低任务时长或在中间安排休息。
图5 任务负荷量表打分情况Fig.5 Scores of the NASA-TLX scale
界面可用性问卷受试者打分情况如表1所示,由表可见,各项目得分均值都不低于3.5,系统质量、信息质量(包括其相关各题项)以及界面可用性整体评分均值不低于4分。单样本t检验(双侧,α=0.05)结果表明,所有项目评分显著高于中位数3分,95%置信区间下线也高于3分;系统质量、信息质量(包括其相关各题项)以及界面可用性整体评分都显著高于3.5,95%置信区间下限也高于3.5分(Q8最低,3.64)。由此,可以认为在界面可用性方面,系统达到了良好的水平,特别是在系统质量和信息质量两个方面表现优秀。
另外,界面质量(包括其相关各题项)评分相对较低,受试者访谈的结果表明,该题评分低的原因有2个方面:一是三维鼠标各自由度间的耦合导致虚拟人运动控制不能完全符合预期;二是模型精度和头盔分辨率不够高导致的视觉显示质量不够高、存在像素感等,这2个方面应该作为系统界面可用性改进的主要方向。
临场感问卷得分情况如表2,由表可见,4个因子和临场感总分平均值都大于3.5,单样本t检验(双侧,α=0.05)结果表明,除界面质量外,其余各项均具有显著性。值得注意的是,感官逼真度平均评分达到了4.365,说明系统拥有优秀的虚拟表现水平,能够提供给用户逼真的虚拟环境。
从临场感问卷评分情况来看,虚拟训练系统能够在视觉上提供给用户逼真的虚拟环境,给用户身临其境的感觉。其中,感官逼真度和适应性评分较高,说明系统场景渲染逼真,用户可以轻易地适应虚拟环境;而界面质量和参与感评分相对较低,说明交互设备满足用户需求的程度不高,用户需要分散更多的注意力在交互设备的使用上,从而降低了用户的沉浸感和参与感。用户访谈结果表明,交互设备使用不够自然和精确以及控制延时这些问题干扰了试验任务,是降低用户临场感的重要原因,可以考虑开发更加自然的交互方式以提升用户的临场感。
有用性问卷打分情况如表3,单样本t检验(双侧,α=0.05)结果表明,实用性评分显著高于3.5分,可见系统在实用性方面得到了受试者高度的认可。而在享乐性方面,整体评价均值为2.96,小于中位数3分。其中,12名受试者给出了中立评价,8名受试者给出了负面评价,只有6名受试者给出了正面评价,给出中立或负面评价的受试者占总人数的76.9%,说明系统显示使用系统存在降低用户精神愉悦度的风险,且具有一定的普遍性。通过受试者访谈得知,系统降低用户精神愉悦度的原因是环境熟悉试验引起的恶心、晕眩等生理不适。
有用性评价结果表明,一方面,用户主观感知虚拟训练有实际效用,另一方面,虚拟环境带来的不适感降低用户精神愉悦感,虽然可以通过减少用户暴露在虚拟环境下的时间来降低不适感,但显然必要的训练时间是掌握技能的基础,训练时间不能太短。
图6为受试者在装配任务中练习和考核所用的时间,配对t检验结果显示练习模式和考核模式用时差异显著(双侧,α=0.05,sig=0.022),可见在装配任务中,受试者在考核模式下用时显著减少,说明受试者熟练程度提高,证实了受试者的主观感知,即虚拟训练确实有一定的实际效用。
图6 装配任务完成时间Fig.6 Time used for assembly
副作用问卷受试者打分情况如图7所示。由图可见,试验后总体不适、恶心和想吐3项的平均评分超过了3分,达到了中度不适甚至更高,说明这3项症状变化最为显著。采用配对t检验(双侧,α=0.05)对评分变化的显著性进行检验,各项症状均变化显著(P<0.01)。此外,由图可见头疼、眼睛疲劳、聚焦困难、唾液分泌增加、出汗、注意力难以集中、视觉模糊、目眩和打嗝等项,数据散布程度很高,说明虚拟环境下生理不适个体差异非常明显。
图7 试验前后SSQ评分情况Fig.7 Scores of the SSQ before and after experiment
SSQ三个子量表的评分和SSQ总体不适感评分如图8所示。由图可见,试验后受试者在恶心(N)、动眼神经紊乱(O)和失方向(D)三个方面均感受到了强烈的不适。试验前三个子量表得分情况为O>D>N,试验后则变为N>D>O,这一结果与Kennedy等人在1997年的研究结果一致:“太空病的特征是大量恶心和失方向,但动眼神经紊乱相对较少(即N>D>O)”[23]。
图8 SSQ子量表评分Fig.8 Scores of the SSQ subscale
从各问卷分析可见,本文的评价指标并不是相互独立的,如临场感问卷和界面可用性问卷都涉及到对界面质量的评价,评分分别为:临场感3.667±0.699,界面可用性 3.538±0.774,配对 t检验(双侧,α=0.05,sig=0.451)结果未显示显著差异,表明选择标准化问卷带来更高的可靠性。如前文所述,相比其他指标,界面质量评分相对较低,原因是用户对于交互设备的不适应或不满意,在开发出新的交互方式前,让用户学习并适应现有的交互方式是提升用户体验质量的一个重要方面。
试验后用户访谈过程我们了解到,多数受试者认为在试验过程中忍受了不适感,特别是恶心想吐,引起了体力消耗。用户评分结果验证了用户访谈结果,Pearson相关系数分析表明,体力需求和SSQ症状中的总体不适,想吐两项显著相关(P<0.05),和SSQ量表总分也显著相关(P<0.01)。表4给出了各评价指标之间的相关系数,可见副作用与任务负荷呈显著正相关,而与临场感呈显著负相关,与有用性呈负相关。结合上文分析,有理由认为生理不适引起用户体力消耗,加重了用户的负荷,且用户需要分散精力忍受这些不适,显著地影响到了用户的临场感,并在一定程度上降低了用户感知有用性,破坏了用户的体验。
目前,关于虚拟现实副作用产生的原因,尚无统一的认识,比较流行的观点是感官冲突理论[24]。该理论认为在虚拟环境下,前庭和视觉传递给中枢神经的信息不一致而导致晕动症;同时该理论还指出,人们可以通过学习以适应晕动症,这表明可以通过训练增强人对虚拟环境的适应性和耐受度。
表4 指标相关系数矩阵Table 4 Correlation matrix of the metrics
航天员虚拟训练系统是用于航天员训练的工具,尽管其实用性得到了用户的认可,但引起生理不适也降低了用户的愉悦感和使用欲望。研究表明,虚拟环境下的不适感强烈程度,随着用户暴露在虚拟环境下时间的增长而增加[25]。本次试验持续约40 min,且中间没有安排休息,虽然任务负荷量表中时间需求平均分低于50,但从各维度之间对比来看,时间需求评分较高,所以,在实际训练中,应该适当安排休息,避免用户暴露在虚拟环境下的时间过长。
本文通过用户测试的方法,主要使用主观评价法,对航天员舱内导航与操作虚拟训练体验质量进行了评价。本文基于任务负荷、界面可用性、临场感、副作用和有用性5个指标设计了评价量表。整体来看,系统体验质量达到了较好的水平。用户评分结果表明,系统在界面可用性、临场感和有用性方面表现良好,能满足用户期望;试验任务负荷适中,可以为训练任务设置提供参考。
系统存在的问题主要有2个方面:一是多数用户在体验过程中遭受了生理不适,降低了用户的体验质量,且对试验任务造成了干扰;二是用户对于交互设备的不适应和不满意。减少训练时间能够降低用户的不适感,但训练时间太短则不能达到预期的训练效果,所以设置合理的训练时间非常必要。另外,虽然用户可以学习并逐渐适应交互方式和虚拟环境下的晕动症,但寻找解决这两个问题的技术手段更为关键。