基于增强现实技术的浮迹系统设计

2022-11-26 06:10伊丹雪子周星辰饶培伦

包装工程 2022年22期

伊丹雪子，周星辰,2，饶培伦

（1.清华大学，北京 100084；2.北京师范大学，北京 100091）

随着信息技术的快速发展，人们正置身于一个大数据时代，海量的数据被创造、挖掘、利用，一方面极大地增加了工作与生活的便利，一方面对人类的信息处理能力提出了新的挑战。相较于技术的飞速进步，人类个体的认知能力在短时间内的提升十分有限，如何利用技术让信息的呈现与交互适应于人类的认知水平是信息产品设计的一个重要命题。增强现实（Augmented Reality，AR）是大数据时代中一个充满前景的信息呈现与交互的方向。通过将虚拟对象叠加到真实世界的事物上，增强现实技术能提供给用户一个包含更多信息且感知效果更丰富的环境，用虚拟的信息增强用户对现实的感知。虚拟的信息该如何叠加在现实事物上，既增强用户的认知，又不造成过多的负荷，是增强现实人机界面设计亟须解决的问题。在二维环境中，近年来广泛流行的视频弹幕是一种通过用户的评论性文字对视频内容进行增强的方式。通过滚动的短评论字幕，视频观众可以进行互动，他们的观影体验得到了增强——这与增强现实的核心理念十分契合。因此，受视频弹幕的启发，笔者设计了一套基于增强现实技术的文字信息系统——浮迹系统，探索弹幕式文字在增强现实环境中的应用。

1 增强现实技术与弹幕的结合

1.1 增强现实技术

增强现实的概念最早由Caudell等[1]在1992年提出。增强现实通过计算机技术合成虚拟物体并将其叠加在现实的场景中，完成虚拟与现实环境的交互与融合。通过虚拟物体对现实场景的增强，个体可以了解更多关于所处环境或所面对对象的信息，从而能更好地完成目标任务或获得更丰富的情景体验[2]。

目前，市场上消费者级别的增强现实设备主要分为两大类。第一类为平板类移动设备，如手机、平板电脑等。这类设备通过自带的摄像头进行视频采集来识别和跟踪标志物，从而实现虚拟信息对现实场景的增强。第二类是头戴式的增强现实设备，如Google glass、HoloLens、Lumus、Magic Leap等。这一类设备相较于平板式移动设备，解放了双手对设备的持握需求，且具有更大的视域，能提供给用户更强的沉浸感和更自然的交互方式。

近年来，增强现实的技术广泛地应用于机械设备的装配与制造、医疗外科手术、虚拟商业与零售、休闲娱乐等各种不同的领域。可以预见，随着信息技术和普适计算的进一步发展，增强现实技术会扮演越发重要的角色。

1.2 增强现实中的信息呈现与交互

增强现实的环境丰富了信息呈现的方式，但也产生了新的信息交互问题与挑战。从信息呈现范围的角度讲，头戴式增强现实相比于屏幕显示方式具有更大的显示空间，这对于信息呈现的位置和布局提出了新的挑战。有学者对于增强现实环境下的信息布局进行了研究，他们发现，因为相较于电脑荧幕来讲信息呈现空间更大，在增强现实环境中来回获取不同位置的信息时，切换距离和切换路径对信息呈现效果有更大的影响[3]。头戴式增强现实设备信息定位的不同方式也会影响信息的呈现效果和用户的交互体验。Billinghurst等[4]总结了头戴式AR设备的三类定位方式。第一类定位方式与成像设备锁定。信息会随个体视域的变化而保持相对静止的运动。第二类定位方式与个体身体锁定。当身体不动时，头部运动不会造成虚拟影像的移动，因此能让人从多个角度观察虚拟影像。第三类定位方式与外部环境锁定。个体运动时与虚拟影像产生的相对运动会与自然世界保持一致。

从信息呈现形式的角度来讲，增强现实的环境对于信息形式产生了新的要求。因为增强现实的环境包含了虚拟影像与现实环境的叠加，所以很多使用场景都要求信息达到既可以被感知又没有太强干扰作用的效果[5]。文字是信息传递的一种重要载体，在增强现实的环境中文字信息的呈现形式也受到了广泛关注。影响文字信息呈现效果的主要因素包括字体、字号、行间距、颜色与背景属性等[6]。在增强现实环境中，研究者们发现，文字属性对呈现效果的影响与电脑屏幕有所区别[7]。微软公司发布了增强现实环境下文字呈现形式的建议[8]，该建议得到了一些学术研究成果的支持[5]。

从信息交互方式的角度来讲，增强现实环境带来了交互方式的改变。目前，语音交互、手势交互等自然交互方式在头戴式增强现实设备中被广泛使用。而基于头戴式设备的特征，研究人员还开发了如眨眼交互等多种多样的可适用于增强现实设备的交互方式[9]。此外，增强现实技术的使用场景也对信息的呈现与交互提出了挑战。研究表明，在社交场景下，虚拟信息的呈现会对社交活动中个体的任务表现、非语言行为和情感联结产生显著影响[10]。因此，在社交场景中，虚拟信息的呈现方式需要经过精心设计。在大数据时代，增强现实环境中也可能存在需要展现过量信息的场景，超过个体认知负荷的大量信息该如何呈现也是一个巨大的挑战。

1.3 弹幕信息交互

“弹幕”这种信息呈现和交互方式，最早起源于日本的著名视频网站Niconico，近年来在东亚各国的年轻群体中十分流行[11]。弹幕的出现，最初是为了解决独自一人观看视频节目时无法与人交流的痛点。弹幕将用户生成内容（User Generated Content, UCG）以子弹飞过一样的形式动态呈现在视频之上，让观看者产生实时交流的感觉[12]。与通过社交媒体交流观影体验的方式相比，弹幕具有三个主要特点[12]。第一个特点是消除了社交压力。如果通过社交媒体交流观影体验，因为用户彼此知道对方的身份，不可避免地会产生社交压力，交流的自由性受到了妨碍。第二个特点是弹幕提供了“伪同步”的感觉[13]。伪同步是指弹幕评论不是真正的同步产生，评论会依据视频内容的时间来呈现，给用户营造了一种大家在同时看视频并进行交流的错觉，产生了更好的参与感与沉浸感。第三个特点是弹幕信息直接呈现在视频内容上，如果与视频内容高度相关，这种呈现方式能极大地增强观众对原视频内容的理解。但是这种呈现方式不可避免地吸引了用户的注意，造成了弹幕信息与原视频信息的相互干扰。

基于上述特点，弹幕信息呈现方式在实际应用中有利有弊。相比于传统视频，弹幕能增强观看者的参与感，并提高视频观看的趣味性[11]；另外弹幕能促进与视频内容实时的讨论和交流，能增强视频观看的互动感和知识性[14]，现已被探索用于网络视频教学中[15]，这些都是有利的地方。弹幕信息呈现方式的主要弊端是：过多的信息遮挡屏幕阻碍了用户的有效信息获取。一方面，大量动态文本吸引了用户的注意，使他们不能专注于视频本身，降低了对视频的深入体验；另一方面，用户需要同时观看视频和弹幕，有了更高的多任务需求，需要消耗用户更多的认知资源[11]。目前，各大视频网站解决弹幕信息对视频信息产生遮挡干扰的一个方法是：通过人脸识别技术将视频中的人脸置于弹幕之上。人脸是视频观看中吸引用户注视点的主要来源，这样的方法，一定程度上解决了弹幕与视频信息相互干扰的问题。

增强现实技术与弹幕呈现方式存在互补的可能。基于屏幕显示的弹幕，其文字信息与视频信息产生干扰的一个原因是，受限于视域大小，文字和视频内容需叠加在一起。在头戴式增强现实的环境中，用户的视域更宽广，且信息呈现从二维扩展到了三维，能支持更加丰富的信息呈现效果，也有更多的方法让不同信息同时存在且尽量减少相互干扰。弹幕提供了一种大量信息实时呈现的方式，这种方式为增强现实环境下的大量信息呈现提供了一条设计思路和发展路径。

2 浮迹系统的设计

“浮迹”系统，从字面意思理解，即为“漂浮在空中的字迹”，描绘了在增强现实的环境下，叠加在现实场景之上的虚拟文字影像。受到二维平面空间中弹幕增强影视作品信息的启发，设计了这套在增强现实环境下使用的文本增强系统，主要希望解决增强现实环境中大量虚拟内容同时存在可能带来的冗余问题和社交场景中虚拟内容的呈现问题，旨在为今后增强现实产品的文本信息交互设计提供方向。在浮迹系统中，针对单用户视频场景和多用户社交场景，一共设计了6种文本呈现方式以满足不同的使用需求（见表1）。

表1 浮迹系统功能设计Tab.1 The function design of the Foj system

2.1 单用户视频场景

在单用户场景中，人们关注与视频观看类似的活动。在这些活动中，用户不直接与其他用户在同一现实场景中进行互动，但是他们可以将想法以文字的形式上传到网络上进行交流；而这些带有时间标签的文字可以以弹幕的形式呈现，并叠加在现实场景中。在头戴式增强现实环境中叠加的弹幕相比于平面显示器视频弹幕有两个主要优势。其一，头戴显示器视域更加宽广，减少了弹幕信息对观看内容本身的干扰。其二，头戴式增强现实弹幕可以应用于更广泛的场景，不限于观看网络视频。观看现实场景中的体育比赛、舞台表演时，也可以通过虚拟现实弹幕的方式，让观众进行交流，并通过弹幕的形式，在个人的视窗中叠加不同观众的评论，信息共享，提升观看体验。

在单用户场景中，浮迹系统一共设计了三种文本呈现方式：可交互弹幕、特效文字和跟踪显示文字。以观看中国女排的视频直播为例来解释三种文本呈现方式的不同效果。如图1所示，显示了传统视频弹幕和增强现实可交互弹幕的差异。图1a显示了传统视频弹幕信息对于原视频的遮挡，这样过多的信息产生了负面的作用。图1b显示了在增强现实的环境下，因为视域更广，弹幕可以与视频隔离开，且不会造成遮挡，又因为增强现实环境中多了深度信息，用户的视焦点能够更方便地在不同深度的内容间进行切换。图1c展示了头戴式增强现实设备能让用户更自然地与弹幕信息进行交互。运动比赛的观看需要一定的知识储备，当在弹幕中看到一些专业的术语而又不理解时，用户可以轻松点选弹幕，浮迹系统会通过网络搜索并反馈相应知识，帮助用户更好地理解比赛。

图1 浮迹系统中的增强现实可交互弹幕功能Fig.1 The AR interactive bullet screen in the Foj system

在单用户场景中，浮迹系统的第二个功能是增强现实特效文字功能。特效文字比一般文字具有更醒目的效果，能表达更加强烈的感情色彩，这也造成了在二维视窗中特效文字对视频内容本身的遮挡较大（见图2a）。在浮迹系统中，增强现实的特效文字相比于平面显示设备中的特效文字有两个优点。第一，在增强现实的环境中，因为包含了深度信息，特效文字可以在深度上与原视频区隔开，造成的干扰较小。第二，增强现实的特效文字可以产生立体效果，也有更多的移动方向，能实现比平面特效文字更多的视觉效果，增加趣味性。

图2 浮迹系统中的增强现实特效文字功能Fig.2 The AR special effect text in the Foj system

在单用户场景中，浮迹系统的第三个功能是增强现实跟踪显示文字功能（见图3）。仍以观看中国女排的现场直播视频为例，通过人脸识别的技术可以识别出各个队员的身份，并通过浮迹系统的跟踪文本显示，标识出运动员的姓名。用户可以通过自然交互的方式点击运动员标识来查看个人详细信息。这样对于不是特别熟悉排球的用户来说，他们实时了解一些相关知识，能获得更好的观赛体验。

图3 浮迹系统中的增强现实跟踪显示文字功能Fig.3 The AR tracking display text in the Foj system

2.2 多用户社交场景

在多用户社交场景中，浮迹系统也设计了三种文字呈现功能以增强用户间的社交活动。第一个功能是语音识别弹幕功能（见图4）。该功能通过语音识别技术，将面对面交流中的语音信息转化为文字信息，通过弹幕的形式呈现出来。如此一来，单模态的语音信息变成了视听双模态的信息，增强了用户对于交流内容的理解。而且在增强现实的环境下，用户可以调整作为支持的文字信息的呈现位置，以减少可能产生的干扰。语音转化为文字后，用户还可以实时对相关内容进行检索，以增进对其的理解；面对特别重要的内容，还能即时标记。

图4 浮迹系统中的增强现实语音识别弹幕功能Fig.4 The AR voice recognition bullet screen in the Foj system

在多用户场景下，浮迹系统的第二和第三个功能尤其针对非熟人社交的环境。第二个功能是个人标签呈现功能（见图5）。在互联网时代下，用户有很多公开信息可以获取，在不侵犯隐私的前提下，合法地呈现一些公开个人特征，有助于非熟人之间尽快找到沟通话题。尤其是在跨文化交流中，呈现一些文化特征的标签，能帮助用户掌握对方的文化习惯，避免一些因为不了解而造成的冒犯对方的问题。同样地，用户可以对个人标签进行编辑、标记和检索，以增强社交体验。

图5 浮迹系统中的增强现实个人标签呈现功能Fig.5 The AR personal tag display in the Foj system

多任务场景中的第三个功能是情绪信息展示功能（见图6）。在社交活动中，感知对方的情绪是十分重要的能力。中文里就有“察言观色”一说，但不是所有人都擅长这一能力。不能准确地识别交流对象的情绪，很可能损害沟通效果。尤其是在跨文化沟通中，不同文化背景中的人对情绪的表露方式不一样，如何准确地获知对方的情绪是一个十分重要的问题。随着图像识别和深度学习方法的发展，计算机已经能很好地识别不同文化背景下的人的情绪，其识别准确率甚至高过人类。利用情绪识别技术识别情绪，再用浮迹系统对情绪进行实时呈现，有利于用户进行良好的沟通；而头戴式增强现实的呈现方式也不会对交流造成阻碍。

图6 浮迹系统中的增强现实情绪信息展示功能Fig.6 The AR emotion information display in the Foj system

3 浮迹系统原型开发与用户测试

3.1 浮迹系统原型开发

本研究中，主要开发展示各功能的视频原型来探索用户对于各功能设计的态度和意见。展示功能效果的场景动画主要用Unity 3D完成。在Unity 3D中设置了两个摄像头，分别用第一人称视角和第三人称视角展现增强现实浮迹系统的呈现效果，以增强用户测试中参试者的临场感。动画中使用的3D模型来源于从Adobe公司旗下Mixamo下载的任务角色模型。该模型的优点是可以自动绑定骨骼，能够直接使用3D模型完成角色和动作编辑。浮迹系统的功能展示，主要使用Unity 3D自带的Animator功能，根据用户测试任务设计的呈现效果来明确Animation触发的逻辑条件。

3.2 用户测试方案

测试的目的是评测不同用户对浮迹系统在两种场景下六种功能的满意程度，探索影响用户满意度的因素，为浮迹系统的设计提供进一步改进的方案。本阶段，浮迹系统的设计主要关注用户体验和系统可用性。放开测试的时间限制以尽可能地探索可用性，因此绩效指标不是测试任务的关注点。在测试过程中，主要使用主观评分和访谈汇报的方法，没有进行生理信息和绩效信息等客观性指标的测量。为提高测试结果的效度，采用定性、定量结合的方式进行分析，将主观量表的定量结果与半结构访谈的定性结果进行三角论证（Triangulation）。

参试者通过网络进行招募，并通过网络观看原型视频进行测试。测试正式开始前，参试者需仔细阅读测试说明并填写知情同意书。与实验员沟通充分了解测试内容和要求后，参试者填写年龄、弹幕使用频率、社交频率等基本信息，随后开始正式的测试。

在测试中，每名参试者被要求通过视频原型体验浮迹系统的六种文字呈现功能，每种功能体验完成后填写满意度量表。该量表为五度李克特量表，共包含四个题项的描述，分别是“我可以容易地找到我所需要的信息”“我认为系统的这个功能有效地帮助我”“我认为系统提供了我期望的功能”“总体来说，我对这个功能感到满意”。将四个题项的平均分作为参试者对于该功能满意度的打分。

完成针对每个功能的测试和打分后，参试者参与一个简单的半结构访谈，解释他们的打分原因，并提出他们对浮迹系统的看法和建议。

3.3 参试者信息

共计25名参试者参与了本次系统原型的用户测试。在所有参试者中，女性11名，男性14名。20岁以下参试者2名，20～25岁参试者15名，26～30岁参试者7名，31岁及以上参试者1名。曾使用过头戴式增强现实设备的参试者10名，对增强现实技术有了解的参试者16名。

另外调研了参试者平时对弹幕的使用频率和社交频率。从弹幕使用频率来看，其中12名参试者具有低弹幕使用频率，13名参试者具有高弹幕使用频率。从社交频率来看，14名参试者被认定为具有低社交频率，11名参试者具有高社交频率。

3.4 结果分析

3.4.1 满意度评分结果分析

用户测试的所有结果都通过R3.5进行分析。首先计算量表的克朗巴哈系数。结果显示，针对每一个功能的评测打分，其量表的克朗巴哈系数都大于0.8，显示出参试者的回答内部一致性良好。

在单用户场景下，重复性测量单因素方差分析的结果显示，参试者对于三种文字显示功能的满意度存在显著性差异（F2，42=10.71，p＜0.001）。参试者对跟踪显示文字的满意度（平均值=4.69，标准差=0.40）显著高于对可交互弹幕（平均值=3.92，标准差=0.77）和特效文字（平均值=3.75，标准差=0.96）的满意度。而在多用户场景下，参试者对三种不同功能的满意度没有显著性差异。

进一步分析弹幕使用频率和社交频率对满意度的影响，发现弹幕的使用频率对于参试者的满意度没有显著影响。这表明没有习惯二维环境弹幕使用的用户也能对浮迹系统的弹幕功能有较好的满意度。另一方面，本身的社交频率对于参试者对情绪展示功能的满意度有较显著的影响(F1，22=4.32，p=0.051)。低社交频率的用户对于情绪展示功能的满意度（平均值=4.07，标准差=0.58）显著高于高社交频率的用户对于情绪展示功能的满意度（平均值=3.20，标准差=1.44）。这表明低社交频率的用户可能更不擅长感知社交对象的情绪状态，他们会觉得情绪展示功能可以有助于社交。评分结果中没有发现社交频率对于其他功能满意度评价的显著影响。

3.4.2 访谈结果分析

针对单用户使用场景，很多参试者认为浮迹系统能有效降低弹幕的遮挡，例如有参试者提到“视频弹幕太多会很纠结要不要开弹幕，如果是增强现实弹幕就会好很多”。另外，大部分参试者都认为跟踪显示是一个非常实用的功能，尤其是观看体育赛事的时候。例如有参试者提到“有时候想看看各种体育赛事，但是都不认识（选手），很喜欢这个功能”“我平时看篮球比较多，要是能跟踪显示运动员个人成绩的话，会非常方便”。另外，不少参试者还表达了对自定义弹幕显示方式的需求。

针对多用户使用场景，参试者的个人看法分歧较大。有两名平时社交频率较高的参试者表示“社交是比较私人的，不想让系统感知到情绪”因此非常不喜欢情绪显示功能。而另外一些社交频率较低的参试者则表示，增加个人标签和情绪感知能有助于和不熟的人进行社交，短时间内找到话题，化解尴尬的气氛。有一位参试者表示自己特别不擅长“读表情”，如果有浮迹系统辅助判断会方便很多。这些结果显示，浮迹系统的社交功能针对不同的用户其接受度差异很大。社交活动与用户隐私息息相关，如何保护用户隐私并提升用户的隐私保护体验是一个非常重要的问题。

4 结语

基于视频弹幕的呈现方式，设计了通过文本对现实环境进行增强的“浮迹系统”。该系统包括6种不同的文本呈现和交互方式以满足单用户视频观看场景和多用户社交场景的使用需求。通过开发相应的功能原型并基于原型进行用户测试，探索了浮迹系统的使用效果。在单用户视频观看场景中，浮迹系统通过弹幕文字和跟踪显示文字增强了个体对现实环境的理解；通过自然交互方式，让用户能轻松展开信息检索；通过特效呈现增强了观看的趣味性。在多用户社交场景中，浮迹系统能帮助不擅长社交的个体获取有效的社交信息，并通过同时提供语音和文字视听双通道信息提升社交过程中信息获取的准确性。总的来说，浮迹系统的设计，解决了二维空间中的弹幕遮挡问题和增强现实环境中大量信息同时呈现的问题，解决了社交场景中虚拟信息的呈现方式问题，是增强现实环境下文字呈现和交互设计的一个尝试，为今后的增强现实文字系统设计提供了方向。