郑杰辉
(厦门海洋学院 信息工程学院,福建 厦门 361000)
虚拟教室是虚拟现实(Virtual Reality,VR)技术在教育领域的应用成果,这种革新的教育模式能给学生带来全新的学习体验.作为教育升级的关键技术[1],VR技术让学生即使身处教室也可以在任何地方进行实地考察,也可以让学生在安全的条件下了解不同的机械及其工作原理,从而减少对安全性和成本的担忧.VR可以为学生带来深刻的学习体验,但同时一些干扰因素也会分散学生的注意力[2].视线可视化技术可以帮助老师识别注意力分散的学生,然后老师可以根据实际情况调整课程教学的安排,以更好地指导这些学生朝着感兴趣的对象发展.本文立足于VR技术在教育领域的应用,设计了多种视线可视化技术来检测课堂上注意力分散的学生,以促进VR教育的发展.
本研究实现了六种可视化技术来表示VR中的视线凝视(如图1所示),包括:凝视环、凝视点、凝视箭头、凝视轨迹、带有箭头的凝视轨迹和凝视热图.前三种技术仅考虑当前的凝视点[3-4].在每个凝视点处,可视化指示器显示在被凝视对象的前面.这种可视化技术可以避免指示器混淆进入凝视场景中,以便于确保指示器的清晰视图.而后三种可视化技术不仅可以显示当前凝视点,还看显示历史的凝视数据[5].所有这些技术都适用于多用户的场景,不同用户的视线都可以用不同类型的指示器表示.
凝视环:这种技术使用有色的空心圆环来表示视线的注视位置(见图1(a)),并能减少指示器对虚拟视野的遮挡和查看对象的干扰.
凝视点:这种技术与凝视环相似,只是将空心圆换成圆盘作为指示器(请参见图1(b)). 圆盘的大小小于圆环,以最大程度地减少对场景的阻挡.
凝视箭头:如图1(c)所示,该技术用三维箭头表示视线凝视,箭头尖端位于当前注视点.箭头能比较直观地指示出感兴趣对象的位置.
凝视轨迹:凝视轨迹能表示一定时间范围内凝视点的集合(见图1(d)).使用粒子系统实现轨迹,即通过粒子发射器移动到每个新的凝视点来形成移动凝视轨迹.
带有箭头的凝视轨迹:该技术类似于凝视轨迹,但是此轨迹是使用静态线段(而不是粒子)渲染的,并且采用箭头来指示凝视移动方向(请参见图1(e)).将线段添加到视线凝视点之间,线段的长度需要满足最小长度的需求(即非常靠近的视线点之间不添加线段),并在每三个线段中绘制一个箭头.在添加新线段的同时,把最旧的线段删除.在轨迹的前面绘制了一个小球体,以突出当前的凝视点.由于该技术能够呈现视线的历史轨迹,因此该技术能更有效地检测学生是否分心.
凝视热图:该技术将凝视点聚集在一起以创建具有代表聚集密度的颜色图像(如图1(f)所示).通常,红色与视觉关注度更高的区域相关联,对应于给定位置附近的更多凝视点.我们将该技术应用于三维和多用户环境.学生的凝视位置可以使用自定义着色器直接呈现在对象上.每个学生都有一个不同的基本颜色,该颜色将对象的颜色覆盖在注视点周围,其不透明度和饱和度随附近凝视的密度和注视点的出现时间而变化.来自不同学生的颜色在重叠时会加在一起.
图1 视线可视化技术
由于篇幅有限,此处仅呈现视线凝视轨迹技术的算法设计过程.第一步,运动检测和跟踪算法将检测每个帧中的运动对象并提取运动轨迹.首先检测背景,并使用中值滤波器每5秒更新一次背景.然后,通过获取每个帧和每个像素位置的背景之间的绝对差来生成前景.
通过将每个帧中的每个运动对象链接到下一帧中最相似的对象以实现对象跟踪.通过将每个对象视为颜色分量特征空间中的一组点来定义每对图像段之间的距离度量.使用广义的马氏距离作为点集之间的距离函数.
对象X和Y之间的广义马氏距离D(X,Y)为:
(1)
(2)
其中,nX和nY分别表示集合X和Y的基数.为了跟踪所有对象并有系统地提取运动轨迹,使用分层图来表示视频中的运动对象.在分层图中,节点被划分为L1,…,Ln,边都在相邻层之间.图中的每一层代表一个帧,并包含几个节点,这些节点代表该帧中的运动对象.将每层中的每个节点连接到具有最小距离的前一层节点.引入了深度优先算法来搜索和检测图中的每个可能路径.然后,使用此信息来提取运动轨迹并生成动作镜头摘要.
通过提取轨迹,根据运动的时空特征提供交互式过滤和特定事件的检索.用户可以选择感兴趣的区域,然后系统会自动应用过滤器,并仅保留运动轨迹与感兴趣的区域相交的那些运动事件.对于每个运动事件,通过提取每帧中的运动对象并将其添加到背景图像中来生成动态图像.为了最大程度地减少两个连续帧中的图像片段重叠,仅当新对象和先前添加的对象之间的重叠小于阈值,才将新对象添加到帧中.
实现了六种可视化技术以进行了可用性实验,以评估它们在检测学生注意力分散方面的有效性.考虑了只有一个学生和多个学生的场景.本实验有2个自变量,即技术类型变量和学生模式变量,一共设置了12种实验条件,每种实验条件进行一次试验.因变量是平均响应时间和平均准确性,其中均值是针对给定用户的给定条件得出的.对于每个试验,将有多个干扰事件,并且每个干扰事件都将具有与其相关的响应时间和准确性.此外,要求实验参与者根据实验结果给出主观的排名.
实验参与者的人数为26人,其中男性18人,女性8人,年龄从18至57岁,平均年龄25.1,有20位参与者具有使用VR设备的经验.实验设置包括一台27英寸的戴尔显示器,一台带Vive控制器的HTC Vive Pro以及一台装有Microsoft Windows 10的PC.PC的主要配置为英特尔i7 8700K,英伟达GTX 1080图形卡,内存为16 GB RAM.
使用HTC Vive Pro Eye来记录学生的视线凝视数据,并在实验期间回放.将VR虚拟漫游用于这种教育体验,其中老师概述红色景点的虚拟漫游路径的组成部分.在记录视线凝视的过程中,学生应该遵循预先录制好的音频说明,并观察多个不同的对象.VR场景会突出当前需要被观察的对象以提高学生的注意力,同时VR场景会播放相关的音频以介绍当前对象.每个需要被观察的对象都相应的音频介绍以提高学生的注意力.每个学生都以随机的顺序观看相同的对象.最后,获得了6个不同的数据集,每个数据集都有6个记录.各个数据集的平均干扰水平相似,但每个多学生场景的干扰却有所不同.
每个实验的参与者需要经过培训,以适应VR环境并了解VR学习的过程.培训能够为没有VR使用经验的参与者提供帮助.参与者的任务是在每个试验中检测注意力分散的学生,参与者在发现学生注意力分散时立即按下触发按钮.
参与者首先在不同可视化技术中对单个学生场景进行检测,然后再对多个学生场景进行检测.系统从场景中随机选择并突出显示其中一个观察对象,并播放相应的音频.每当学生的视线离开了观察对象一秒钟以上时,系统会认为学生的注意力分散事件发生了.对于每个试验,记录了检测注意力分散事件的响应时间和准确度.响应时间定义为从学生开始分心到参与者按下触发按钮的时间.准确度定义为参与者正确判断分心事件准确程度.误报和漏报都属于检测错误.每次试验后,实验参与者根据对单个和多个学生场景中的可视化技术偏好进行排名.
图2和图3分别呈现了不同场景模式下各个可视化技术的平均响应时间和准确度.由结果可知,对于同一个场景模式,技术的类型对响应时间和准确度几乎没有影响.但是,对于同一种技术类型,两种场景模型的响应时间和准确度之间具有较大差异.具体而言,具有多个学生的场景的准确度和响应时间要比单个学生的场景高的多.
图2 不同可视化技术的平均响应时间
图3 不同可视化技术的准确度
图4呈现了单个学生和多个学生场景中的总体学生注意力分散程度、识别视线方向的容易程度以及检测注意力分散的容易程度.由结果可知,在单个和多个学生的场景中,可视化技术不会对学生的注意力分散程度造成影响.然而,不同的可视化技术会影响识别视线方向和识别注意力分散的容易程度.在两种场景中,当采用凝视热图作为可视化技术时,实验参与者难以发现学生的视线方向,也更不容易发现注意力分散的情况.
图4 实验参与者的评分结果
在完成注意力分散的检测实验后,每个实验参与者按照个人的偏好对可视化技术进行排序.对于每一种技术,统计了将该技术排在第一位的参与者数量,结果如图5所示.从图5所示的结果可知,大多数的实验参与者更倾向于采用凝视轨迹作为视线的可视化技术.
图5 可视化技术偏好
上述的实验结果表明,无论场景中有多少学生,所有技术的响应时间都大致相似.没有发现该技术的响应时间有任何统计学上具有显着性差异.发现在多个学生的场景中,注意力分散检测的准确性明显更高.笔者认为,如果只有一个学生,则更容易发现干扰.这是因为只要有一个学生出现注意力分散,参与者就会按下触发按钮.而在有多个学生的情况下,VR场景中会出现更多的视线表示,因此参与者就更频繁地按下触发按钮.
本研究提出了多种视线可视化技术以便于教育工作者检测注意力分散的学生,以达到提高学生学习效率的目的.通过进行受试者内实验,对所提出的技术进行了深入研究.实验结果表明,各种技术之间的响应时间没有显着差异,而实验参与者在多个学生场景中的注意力分散检测准确度更好.本研究仅根据视线凝视数据来判断注意力是否分散,但是即使学生的视线没有离开观察对象,学生仍会在精神上分心.因此,在将来的工作中,将结合更多的数据(例如心率、脑电图等)来检测注意力分散的学生.同时,将对视线进行过滤并仅显示注意力分散的学生的数据.