多模态视角下用户注意偏向与记忆的影响机制
——基于电影字幕的眼动研究

2021-06-18 06:58:12喻国明陈雪娇修利超

西南民族大学学报(人文社会科学版) 2021年6期

喻国明陈雪娇修利超

[提要]从插图、字幕、弹幕再到现在的AR/VR、H5，单一模态的媒介表达形式越来越难以满足当下社会对信息传达的需求，因此媒介载体不断升级，从更高的维度来塑造表意资源的保真度。在这个过程中，“注意”愈发成为一种稀缺资源。本研究从“字幕”这个细小点切入，立足于交叉学科思维，结合眼动实验和行为实验，探究母语电影中的字幕对用户注意分配以及记忆效果的影响。结果显示，在字幕组别(有字幕组、无字幕组和安慰剂对照组)之间，用户对没有加工困难的母语字幕表现出高度关注，但是这种字幕偏好性并没有提高记忆效果；在画面和文本之间，用户会优先加工画面信息，但是记忆测试结果显示用户对文字的记忆效果更好。

媒介作为信息传达的载体，在技术发展的过程中不断实现组织化、结构化升级。从单媒体、多媒体再到融媒体、智媒体，过去单一模态的媒介表达形式已难以满足传播者对意义传达的需求，因此产业不断升级，发展出更高维度的媒介载体来补充、协同、强化信息传输过程中表意资源的丰富性以及保真度。在此背景下，由言语以及非言语等表意系统所建构的多模态话语成为当下社会实践的重要形式。[1]

多模态话语系统的发展势必会带来用户信息接受方式的变化。技术变革了媒介内容的呈现形式，用户的感官系统适应性地得到“延伸”。在加工如报纸、广播等单一模态的媒介内容过程中，用户主要依靠视觉模态或者听觉模态等单一感官通道来与外界进行信息交换；而在看集声音、文字、图像等多模态信息于一体的电视、电影等视频媒介时，用户往往需要调用视觉、听觉两种或两种以上的感知通道进行信息加工。在媒介深度融合的大趋势下，多模态话语成为社会文化表征中的重要符号资源，多通道感知越来越成为用户与信息交互时不可分割的一部分。在这个过程中，信息的无穷性与注意资源的有限性成为一种无法调和的矛盾，“注意”在当下社会愈成为一种稀缺且重要的资源。[2]

从历史发展进程上看，人们对媒介内容的形式产生注意偏向最早可追溯到中世纪由欧洲开始兴起的插图绘本，[3]图片作为对文字的补充，目的是让读者明确清晰内容的含义；后来字幕开始普遍应用于电视、电影等媒体，文本、画面和声音这三种模态同时作用于内容呈现；到了新媒体社会，弹幕成为线上视频平台不可或缺的一部分，这种介入性信息让观众可以自由地在屏幕上交流意见，构建出独立于影片内容之外的第三方社交空间；再到当下的数据新闻、VR/AR以及H5，这些多模态话语相交叉的呈现手段与内容相互铺陈参照。由此展开，本研究想要探讨的是，面对多种介入性信息，用户的多种感官通道同时工作，这种背景下应该如何把握用户的注意偏向并量化记忆效果。因此，本文以电影材料为载体，从“字幕”这个细小点切入，立足于传播学、心理学以及认知神经科学的交叉思维，采用眼动实验的方法，从生理层以及行为层探究母语电影中的字幕对用户注意分配以及记忆效果的影响。

一、文献综述

(一)多模态传播过程中认知机制的建构

人的耳朵、眼睛、皮肤、鼻子以及舌头等五官分别对应着听觉模态、视觉模态以及触觉模态等五种符号交际系统。“多模态话语”(Multimodal Discourse)是指“运用听觉、视觉、触觉等多种感觉，并通过语言、图像、声音、动作等多种手段和符号资源进行交际的现象”。[4]不同通道的信息呈现会给用户带来不同的感知效果并塑造复杂化的意义表达系统，但是多种模态的交叠并不总是会带来高效的传播效果，当叠加的模态没有对第一种模态做出补充或者强化时，就会产生冗余现象，也就是说处于交叠下的多模态信息有可能相互排斥以及相互抵消，在此背景下，有可能出现认知负荷的现象。

1.字幕呈现与认知负荷

认知负荷指的是信息数量与大脑工作记忆容量之间相匹配的相关关系，如果人们在加工信息的过程中所需要调配的资源大于个体所具备的认知资源总量，会导致较高的认知负荷。该理论的主要研究目的是通过“合理配置”人脑中的工作记忆，来使学习效率达到最优化。在国内，即使是母语电影也会在屏幕中搭配中文字幕，其中画面和声音是必要信息，背景音乐是非必要信息，针对字幕是否是一种冗余信息这一问题，国内外不同学者对此展开了实证探讨。研究发现，尽管对视频中的母语不存在加工困难，但是不同年龄段的用户还是花费相当多的时间去关注字幕区，也就是说用户对字幕的关注是一种自动化的过程，[5]后来还有研究表明，字幕呈现容易分散用户对画面的注意并加重认知负担，[6]而当视频中没有字幕时，被试对画面的注意更加集中。[7]但是以往的研究尚未系统地验证用户对视频中不同呈现形式的偏向与记忆机制之间的关系。

2.基于双重编码理论的字幕加工

在双重编码理论(Dual Coding Theory)中，言语系统的编码对应着文字、声音等信息；非言语编码对应图片、视频等言语之外的信息。该理论认为人的大脑可以同时使用视觉和言语两种方式来呈现信息。双重编码理论最早用来解释人们在认知过程的图片优势效果(Picture-Superiority Effect)，指的是相较于文字信息，被试对图片的辨识度和记忆效果会更好，[8]后来有学者通过实验进一步得出图文并茂的信息比单一文字更容易被辨识和记忆的结论。[9]在多模态话语体系下，持双重编码理论的学者认为多感知通道的同时加工并不会对用户造成认知冗余，相反，多通道的配合使用很可能会提高用户编码以及学习的效率。在字幕相关研究中，实验发现，个体对字幕的处理是一种半自动化的加工机制，[10]不管是观看字幕或是无字幕(配音版本)的视频，个体的生理情绪反应都没有显著差异。[11]同语言的字幕会帮助语言学习者更快地将声音和文本联系起来，从而提高他们的记忆效果。[12]也有学者通过比较有无字幕图片的对照组发现，在带有字幕的情况下，被试的记忆成绩比无字幕组的高出了一倍以上。[13]还有研究证实了声音和文本的同时呈现更有助于受众对新词汇的学习和记忆这一结论。[14]

(二)多感知通道下的注意偏向以及测量指标

“注意”一直是传播学研究的焦点，在认知和决策的过程中，个体无时无刻不在注意着某个对象，这涉及到人们心理活动过程中的选择性和容量性这两个层面。人们接收到的信息大部分来自于视觉和听觉这两个感觉通道，但是在日常生活中并不会注意到所有接触到的信息，而是有选择性地注意到其中可利用或者自己感兴趣的那部分，这就涉及到在不同感官资源同时作用的过程中个体对注意偏好的选择。

1.多感知通道下的注意偏向

随着媒介融合的发展，目前关于感知通道的选择性注意研究已经从单一通道发展到跨通道注意转移的研究上，即探索注意资源在人体的各个感觉通道间是否能够共享，当多种不同形式的内容同时呈现，观看者选择性地以某个通道进行工作时是否会忽略其它通道，或者说这些通道是否能够实现独立的加工并且不相互受影响。有研究认为，当某个感官通道正在进行注意任务时，同时进行任务的另一个感觉通道的认知能力会受到影响，也就是说人们的两个通道在同时工作时很难保持和单一通道一样高的效率，因为通道上的注意资源是有限的，[15]有学者通过fMRI研究也证实了这一点。[16]而在关于加工通道的顺序上，已有研究发现，视觉通道在信息获取和加工过程中发挥着重要作用并且具有一定的优先性，[17]也就是说，在视觉以及听觉材料同时出现时，被试会自动地先关注视觉刺激，并且将听觉信息当做视觉信息。[18]

2.注意的测量方式与测量指标

个体在进行通道注意分配的过程也是认知加工的过程，人们的认知决策包括自主过程和自为过程两方面，前者属于人们可以感知并控制的信息处理范畴，传统的问卷调查法、观察法可以在一定程度上反应并总结事物发展的规律；而后者是处于人脑“意识黑箱”中的无意识加工过程，这部分信息获取则需要运用认知神经科学的测量范式来研究人脑信息的处理机制以及个体实践中的潜在驱动要素。

在注意层面，眼睛可以说是一种重要的接受外界刺激并且及时将信息传送给大脑加工的器官。人在注意某个对象的过程中，视线一般会对焦到对象的某一点上，并且会根据自身的心理、生理状态以及对象的移动转换注意的目标。有学者曾经提出“眼-心假设”(Eye-Mind Assumption)[19](P.178-179)，认为人的视线注意对象和心中所想之事具有强烈的联结，比如可以通过用户凝视一排文字的时间长短来判断文字内容的难度。眼动仪就是用来研究个体在注视某个对象时眼球注视焦点以及运动轨迹的专业仪器，通过测量个体的眼跳、注视次数以及注视时长等指标，可以间接推测出用户的内部注意加工过程以及行为效果。[20]例如，有学者通过眼动实验，总结出了用户在阅读网页时的“F”型视线运动规律，[21]并证实了用户的眼球运动轨迹和注意之间的关系[22]。

在本研究中，眼动仪将记录被试在观看电影过程中视线移动轨迹，根据眼动数据分析出来的相关结果，可以了解到被试对字幕区以及画面区的注意分配情况。基于以往文献支持，本研究主要采用以下三个指标的组合[23]：

(1)注视时长(Fixation Time)，单位为秒(s)。是指实验对象对屏幕某一区域内所有注视点持续时间的总和，注视时间意味着对信息加工的深度以及注意分配情况。[24]

(2)注视次数(Fixation Count)，单位是次(Count)。是指实验对象对屏幕中某一区域里的注视点个数总和，主要受实验材料难度、用户既有经验和认知等因素影响。通常认为，在用户视线移动过程中，注视次数与实验被试所需要处理信息的数量有关系，而与信息的加工深度无关，[23]即注视次数越频繁意味着用户对该区域的认知加工负荷越高。

(3)平均注视时间(Average Fixation Duration)，单位为毫秒(ms)。是指在兴趣区内个体对每个注视点的平均停留时间。这一指标通常反应的是用户对该兴趣区的感兴趣程度，也可以间接反映所接受信息的难易程度和用户认知的复杂性，注视点的平均注视时间越长意味着用户处理信息的过程更深入且精密，这可能是被试认知困难或者是注视内容对被试来说非常有趣的表现。[20]

(三)记忆分类以及效果测量的范式

记忆是传播效果的一个重要维度，也是衡量人类认知能力的重要标尺，在近百年受到过不同程度的关注，学者们也对此展开过不同的实证研究。早在19世纪，德国心理学家艾宾浩斯就对记忆这一现象展开实证研究，他通过实验法来量化人们学习与遗忘的基本现象，由此得出了“遗忘曲线”的研究成果。后来随着研究进一步发展，不同的记忆类型相继被提出。

根据内容信息在大脑中的存在时间长短，心理学家将记忆划分为长时记忆、瞬时记忆和短时记忆这三类，这个系统也被称为记忆的多储存模型。瞬时记忆作用时间极其短暂，只能持续0.5-3秒；短时记忆指的是人们可以轻松回忆起几秒前发生的事情；长时记忆则可以在人脑中停留几小时，甚至几年。

根据记忆的功能，学者将其区分为内隐记忆以及外显记忆，前者指的是个体有意识地提取大脑中先前储存的相关信息的记忆，后者指的是一种难以被个体意识到并且不用意识来提取大脑中相关信息的记忆，这两种记忆类型都属于长时记忆的范畴。本研究主要测量的记忆类型是长时记忆中的外显记忆。

关于记忆的测量，目前学界采用的大多是“学习—测验”范式，即让被试先学习完一段材料，再进行测试的过程。在学习阶段，研究者会让被试学习一些与研究问题相关的任务，然后在随后的再认测验阶段给被试呈现一组辨认材料(一半是学习过的，一半是没有学习过的)，要求被试进行新旧判断，以此来量化被试的长时记忆效果。在某些情况下，根据研究需要，研究者还会在学习和测试这两个阶段之间添加分心任务，防止被试复述前面的学习内容。

基于以上综述，本研究以注意偏向以及记忆效果这两个变量为研究重点，其中注意偏向指的是用户在观看电影时对画面区和字幕区这两个区域之间的眼动轨迹，记忆测试则是为了量化个体在多通道感知过程中的认知效果。除此之外，在社会心理实验场景下，安慰剂效应很可能会出现，并且十分常见。[25]在本实验中，有字幕和无字幕电影之间的差异并不仅仅只是字幕，它们的本质区别有两个方面：第一，屏幕的下方位置有障碍物；第二，该障碍物是文字。如果只比较有无字幕对受众注意的分配以及记忆影响，这就混淆了上面两个条件，因为影响被试的也有可能是下方的条形障碍物，而不一定是字幕。为了消除安慰剂效应对被试的影响，证实究竟是电影下方的文字还是其他因素对被试造成影响，因此增加了“打码字幕”，即“安慰剂组”这一实验条件。安慰剂效应仅仅是本研究要控制的一种额外变量，并不是本研究重点。基于此，本研究提出以下假设：

H1：在多模态信息呈现过程中，电影字幕会让个体对字幕区以及画面区的眼动信号产生差异，在字幕条件下，个体会对画面更关注；

H2：在字幕区是文字而不是其他障碍物(如马赛克)吸引了用户的注意，因此无字幕组和安慰剂组的眼动信号不存在差异；

H3：字幕的呈现会影响到个体对画面区以及字幕区的记忆效果，其中无字幕组对画面信息的记忆效果更好，有字幕组对字幕信息的记忆效果更好；

H4：在多感知通道同时作用的情况下，用户的眼动信号与注意效果之间存在相关关系。

二、电影字幕对用户注意偏向的影响——来自眼动实验的证据

该部分主要探讨电影片段中字幕呈现对用户注意分配的影响，采用眼动设备进行测量。为了避免单段观看电影材料所造成结果的随机性，本研究选取了四段电影片段，最终采用这四段眼动数据的平均值，让不同组别的被试按顺序观看同样内容、不同字幕条件的材料，以增强实验结果的准确性。须验证的研究假设如下：

H1：在多模态信息呈现过程中，电影字幕会让个体对字幕区以及画面区的眼动信号存在差异；

H2：在字幕区是文字而不是其他障碍物(如马赛克)吸引了用户的注意，因此无字幕组和安慰剂组的眼动信号不存在差异。

(一)研究方法

1.实验被试

本实验开展时间为2019年12月15日至2020年1月10日。期间随机选取了66位北京市在校学生参与本次研究，其中男生33名，女生33名，年龄在18岁至26岁之间(22.09±2.55)。为了保证实验测量结果的准确性，在被试的选择上，本实验不邀请心理学专业的学生，要求被试裸眼或者矫正视力正常，无色盲色弱，无严重酒瘾或者烟瘾等不良嗜好，无精神病史或者家族遗传病史，平时无服用兴奋剂等精神活性药物。实验开始后，将66位被试随机分配到3个组别(有字幕组、无字幕组和安慰剂组)中完成实验，并保证每个实验组的被试男女性别均等。安慰剂组所看到的字幕为打码字幕，即字幕区域被马赛克所遮挡，以控制字幕文本所可能产生的潜在的安慰剂效应。

2.实验材料

实验材料为四段电影视频片段，每段时长2分钟左右。实验材料的选择标准如下：

(1)电影片段的字幕类型以及位置。为增强实验结果的准确性，在选取材料过程中，保证了四部影片的字幕大小、字体一致，统一选择字幕在画面框之外的电影片段，避免这些额外变量对被试造成影响。

(2)电影片段的语言。为了避免被试外语水平不一致对实验结果造成干扰，本实验的四段视频均选择国产中文电影。

(3)电影片段的信息量。电影片段的信息量不同也会对实验结果造成影响，因此在选择时，选取了四段字幕数量、镜头数量以及片段时长相当的电影视频。

(4)电影片段的熟悉度。电影熟悉度会影响被试的记忆效果，它反映了被试在参加实验之前的已有经验和记忆积累。为了消除电影熟悉度对实验被试的注意水平以及记忆测试的影响，本研究采用被试熟悉度较低的电影。在确定正式实验的电影材料之前，邀请了20位本科生和研究生对材料熟悉度进行评定。评定量表根据过去学者采用过的《品牌熟悉度量表》改编，[26]根据得分确定最终采用的实验材料，结果如表1所示。

表1 电影熟悉度评定

3.实验程序

在实验开始前，先进行眼动仪校准，再进行眼球定标，即让被试认真盯着刺激电脑屏幕上出现的红点，并让被试视线随之移动。如果眼球定标精准度达到基线要求，则可以按任意键开始眼动实验。若达不到，则需要重新定标。

在眼球定标成功后，按照分组让被试在Experiment Center软件上观看三种字幕(有字幕、无字幕和安慰剂对照)电影视频，每段时长两分钟左右，眼动仪自动记录被试各项数据。看完每段电影视频之后要求被试进行2分钟的计算题测试(数值在100以内)，防止在后续的记忆测试中复述电影内容。

4.数据收集和处理

眼动实验选择在安静、无干扰的实验室场所进行。实验操作所需的硬件设备包括：来自德国SMI公司生产的RED固定式视线追踪眼动仪(采样频率120 Hz)，一台用于向被试呈现实验刺激的液晶显示器；相关的应用软件系统有：iView-RED眼动仪操作软件，Experiment Center实验设计软件以及BeGaze3.0眼动数据分析软件。其中IView RED以及Experiment Center软件主要进行眼动数据采集；Begaze3.0软件主要用于数据分析与兴趣区划分。

兴趣区简称AOI(Area of Interest)，指的是在屏幕上定义相关区域，也就是研究者拟研究区域。本研究利用Begaze3.0软件自带的Dataview模块功能，将字幕区和画面区选定为兴趣区，最终结果统计时对这两部分的兴趣区分别进行眼动指标的定量汇总和分析。

(二)研究结果

采用单因素方差分析(One-way ANOVA)的统计方法对眼动的三个指标：注视时间、注视次数和平均注视时间分别进行统计分析，其中三种字幕组别是自变量，眼动指标是因变量。各组的平均数和标准差如表2所示。

表2 三种字幕条件下各兴趣区的眼动指标(M± SD)

结果发现，在注视时间上，画面区组别的主效应(F(2，65)=23.468，p=0.000，η2=3.85)和字幕区组别的主效应(F(2，65)=42.967，p<0.001，η2=0.58)均显著，进一步进行事后分析，多重比较结果显示：有字幕组，无字幕组和安慰剂组之间存在显着差异(p<0.05)，和无字幕组以及安慰剂组相比，有字幕组在画面区的注视时间更短，而在字幕区的注视时间更长。安慰剂组和无字幕组之间没有显著差异。

在注视次数上，画面区组别的主效应(F(2，65)=4.389，p=0.016，η2=0.122)和字幕区组别的主效应(F(2，65)=77.278，p<0.001，η2=0.71)均显著。进一步进行事后分析，多重比较结果显示：有字幕组、无字幕组和安慰剂组之间存在显着差异(p<0.05)。其中，有字幕组在画面区的注视次数要比无字幕组和安慰剂组少，而在字幕区域的注视次数要比其他两个组更多。在画面区和字幕区上，安慰剂组和无字幕组之间没有发现显著差异。

在平均注视时间上，画面区组别的主效应不显著(F(2，65)=1.923，p=0.155，η2=0.058)；在字幕区的平均注视时间上，组别的主效应显著(F(2，65)=46.118，p=0.000，η2=0.59)，进一步进行事后分析，多重比较结果显示：有字幕组、无字幕组和安慰剂组之间存在显着差异(p<0.001)，和无字幕组以及安慰剂组相比，有字幕组在画面区的平均注视时间更短，而在字幕区的注视时间更长。无字幕组在字幕区的平均注视时间低于安慰剂组。

以上结果显示，当电影添加了字幕，即文字、声音以及画面三种媒介形式同时作用于用户认知时，个体会对文字信息产生注意偏好，从而降低对画面信息的加工深度以及信息处理数量，也就是说，电影字幕会让个体对字幕区以及画面区的眼动信号存在差异，H1成立。

此外，对比安慰剂组和无字幕组，两个组别在注视时间和注视次数上没有显著差异，但在平均注视时间上，安慰剂组对字幕区的关注多于无字幕组，这说明马赛克作为屏幕上突然出现的障碍物，在某种程度上会产生“弹窗效应”，吸引被试的关注，H2部分成立。但是这种关注是否会影响被试的记忆效果，即产生“安慰剂效应”，还需要结合记忆部分的研究结果。

三、电影字幕对用户记忆效果的影响——来自行为实验的证据

这部分考察的是不同组别的用户在观看完电影之后的记忆效果以及用户注意和记忆之间是否有关联。最终的记忆测试结果也采用四段电影片段的记忆成绩平均值，以增强实验结果的准确性。主要验证以下几个研究假设：

H3：字幕的呈现会影响到个体对画面区以及字幕区的记忆效果，其中无字幕组对画面信息的记忆效果更好，有字幕组对字幕信息的记忆效果更好；

H4：在多感知通道同时作用的情况下，用户的眼动信号与注意效果之间存在相关关系。

(一)研究方法

1.实验被试

与本文中“电影字幕对用户注意偏向的影响——来自眼动实验的证据”中的被试相同。

2.实验材料

实验材料分为干扰材料和测试材料。

干扰材料是100以内的加减运算题目，完成时长为两分钟左右。目的是为了模拟真实环境记忆状态，避免被试在观看视频结束后复述电影内容。

测试材料选择学习阶段在电影中出现过的词(20个)/画面截图(20张)与未曾出现过的词(20)个/画面截图(20张)，将这些词/画面截图嵌入E-Prime 3.0程序，统一以白色背景，黑色字体随机呈现，要求被试进行再认判断。

3.实验程序

记忆测试安排在实验以的眼动实验之后，为了避免干扰效应，让被试先完成一页2分钟100以内的加减运算题目，然后进行实验二。

记忆的测量采用的是再认测试。被试阅读完屏幕上的指导语之后按“空格键”开始。要求被试立刻判断是否在看电影的过程中见过该词，如果见过，则为旧词，按“9”键；反之，则是新词，按“2”键。如果被试在规定的2500ms内没有进行反应，则视为被试没有记住该词，自动跳转到下一个试次(如图1所示)。刺激材料分为文本(词汇)和画面截图两个组块(block)，被试先完成文本组块，后完成画面组块。在每个组块里，文本和画面均为40试次，两个组块共80个试次(trial)，刺激随机呈现，其中出现过的旧词/旧图和没有出现过的新词/新图各占一半。被试一共要完成四段视频的测试，一共320个试次。

图1 实验程序流程图

4.数据收集和处理

行为数据的收集和处理主要使用E-Prime 3.0软件，该软件可以设置实验刺激的呈现时长，收集实验对象按键的反应时和正确率等数据。实验收集的可用数据为66份，其中有字幕组被试22人，无字幕组被试22人，安慰剂组被试22人，每组男女比例均等。行为数据由E-Prime 3.0软件收集处理之后，再采用Excel 2018和SPSS 26.0软件进行统计分析。

(二)研究结果

采用3(组别：有字幕vs.无字幕 vs.安慰剂)× 2(材料类型：画面 vs.文本)重复测量方差分析(Two-way Repeated ANOVA)对记忆成绩数据进行统计分析，其中组别(有字幕vs.无字幕vs.安慰剂对照)是组间变量，材料类型(画面 vs.文本)是组内变量，记忆测试的反应时和正确率是因变量。结果如表3所示：

表3 三种字幕条件下的个体对画面和文本的记忆成绩(M ± SD)

以上结果表明，字幕的呈现并不会影响到个体对画面区以及字幕区的记忆效果，H3不成立。但是相较于字幕，三个组别的用户均对文本信息产生更好的记忆效果，这部分属于额外发现。

表4 注意和记忆之间的相关关系(r)

由注意与记忆相关分析分析可知，画面的注视时间、注视次数以及平均注视时间与画面的记忆正确率皮尔逊积差相关系数r分别是-0.029、0.127和-0.161，p值均大于0.05，因此相关不显著；字幕的注视时间、注视次数以及平均注视时间与字幕的记忆正确率皮尔逊积差相关系数r分别是0.223、0.236和0.107，p值均大于0.05，因此相关不显著。上述结果表明，用户的注意与记忆效果之间不存在显著相关，H4不成立。

四、综合讨论

本研究以电影为载体，以字幕为变量，试图考察在多种感官通道同时作用的情况下，用户对画面和文字的注意偏向以及记忆效果的差异。结果显示，在字幕组别(有字幕组、无字幕组和安慰剂对照组)之间，用户对没有加工困难的母语字幕表现出高度关注，但是这种字幕偏好性并没有提高记忆效果；在画面和文本之间，用户对画面信息加工具有一定的优先性，但是记忆测试结果显示用户对文本的记忆效果更好；在注意和记忆的相关性上，并没有显示出明显差异。

(一)字幕组别：电影字幕的呈现会吸引用户注意但并不影响记忆效果

眼动数据分析显示，字幕的呈现确实影响了用户的电影观看行为，相较于无字幕组与安慰剂组，有字幕组对字幕区的注视次数和注视时间显著高于另外两组。这个结果与前人的研究结果具有一致性，即当视频中有了字幕这一文字信息后，被试会将更多的注意资源分配给字幕，而当视频中没有字幕时，则会增加对画面区的认知加工。[6]本实验采用的材料是对被试没有认知加工障碍的母语视频和字幕，但是被试仍然分配一部分的注意去关注字幕，另一方面也说明被试对字幕的阅读行为是自发性的，几乎不需要额外的认知资源。这也符合前人的研究发现，虽然美国被试对英语视频没有任何加工障碍，认识他们仍然花费相当大的一部分时间在字幕区，[3]并且这种注意不受安慰剂效应的影响。

记忆的结果显示，字幕的呈现虽然吸引了用户的注意，但是并不会提高用户的认知负担；无字幕虽然少了视觉通道对文字信息的加工，但是也不会降低对用户对电影画面和文字的整体记忆。这部分结果与前人的研究结果存在差异。持认知负荷论的学者认为，字幕可能会通过冗余效应来增大用户观看电影过程中的认知负荷，声音，画面和文本三者之间存在高度的重合性，用户对字幕的过多关注可能会使其丧失对其他信息的编码和记忆，特别是当视频中出现的是自己熟悉的母语音频时，字幕很可能成为一种无效信息，从而削弱对电影画面信息的记忆效果。[5]本研究期待被试对电影信息的辨识和记忆效果会因为字幕的呈现与否而产生差异，但是实验结果并没有支持这一假设，并且与以往研究存在些许出入。在过去，有学者在使用教学视频来做实验时，发现有字幕组的被试对单词或教学内容的记忆以及理解程度均优于无字幕组，也就是说在前人的研究结果中，字幕确实会对用户的记忆效果产生影响。[27]此外，双重编码理论在教学领域应用时也发现，当知识同时以视觉形式和言语形式呈现时，能够增强学生的识别以及记忆，听觉以及视觉的双通道运用可以为学生提供良好的知识补充和辅助，大大降低了认知难度。

上述结论与本研究结果的差异有可能是由于实验材料以及被试观看视频的动机不同所导致的，已有研究证实用户在社区中的参与行为受到内在动机的驱动，这些动机可以划分为目的性动机、社会提升动机、自我实现动机、维系联系动机、娱乐性动机等维度。[28]而在现实生活中，用户观看电影大多是出于享乐动机，相较于有负担地观看学习视频，被试在观看电影时所调动的认知资源也许会低于教学类视频，从而产生认知以及记忆效果的偏差。

这进一步表明，当用户在观看没有理解和加工难度的视频片段时，他们有足够的认知资源来同时处理文本和画面两部分信息，因此对于电影或者宣传片这种对用户没有理解负担的视频载体，即使用户的选择性注意会偏向对字幕的关注，但是是否添加字幕并不会影响用户对整体内容的记忆效果，也不会因此增加用户的认知负荷。

(二)材料类型：用户对画面信息的加工具有优先性，但文本记忆效果更好

眼动数据分析显示，电影画面区的注视时长、注视次数都要高于字幕区域，这表明在画面、文本和声音的多模态资源整合中，用户对画面的加工要显著多于文本。双重编码理论认为在用户的认知过程中存在图片优势效果，即被试对图片的辨识度要优于文字信息。[8]本实验结果也支持了这个理论，即用户对图片的注视时长要显著多于描述性文字，在文字和图片同时出现的情况下，用户会对图片信息优先加工。[29]已有研究认为用户观看电影的行为与场景知觉相似，当场景中呈现的刺激突显水平越高，越能够得到用户更多的注意分配，[30]由于视频画面能够传达更多的信息并且本身更加直观鲜明，因此被试会不自觉的将更多的注意资源分配给画面。在广告领域，也有研究证实，如果在广告中增加字幕会增加用户对文字信息的辨识，从而减弱画面信息的记忆效果。[28]

在观看电影过程中，被试依靠视觉通道获取画面信息，通过听觉通道获取声音信息，当视频中没有了字幕信息时，被试主要依靠听觉通道来获取文本信息以作为画面信息的补充和解释。但是实验结果显示，不管字幕区有没有文本信息，被试对文本的记忆效果均优于对画面的记忆效果，这一结论符合以往的研究结果，也就是说人们的两个通道在同时工作时很难保持和单一通道一样高的效率，因为通道上的注意资源是有限的。[31]本实验结果中文本记忆效果优于画面记忆效果，这说明当声音信息以文本形式重复呈现的时候，实验对象对视觉信息的加工会受到听觉信息的影响，在这两者中视觉通道具有一定的优先性，[17]但是被试对听觉通道也就是文本信息的记忆效果更好。

同时，本研究也存在着一些不足之处。首先是样本选择，本实验在样本量上虽然已经达到了眼动实验科学性的要求，但是在样本构成的多样性上仍有缺陷。因为所挑选的实验对象主要以北京市在校大学生为样本，具有一定的片面性，难以代表广大电影观看人群。后续研究可以进一步扩大被试的年龄阶层，丰富实验结论。其次是实验材料，本研究以被试熟悉度较低的电影片段作为实验材料，其目的是为了避免被试已有观影经验对实验结果造成干扰。这虽然控制了实验干扰，但是也限制了研究结果，在后续研究中可以视频类型为中介或者调节变量，进一步考察电影字幕的传播效果。

五、结语

在数字空间中，多模态话语占据着用户感官通道的加工，海量冗余信息愈发让“注意”成为一种稀缺资源。本研究从电影字幕的角度切入，探究画面、文本以及声音这三种媒介信息的协调和编排对用户注意以及记忆的影响。结果表明，个体对电影画面信息的加工具有优先性，但是字幕的加入的确会对注意资源的分配产生影响，而且这种影响并非是一种安慰剂效应，而是一种相对自动化、习惯化的注意分散。字幕会吸引个体的兴趣、降低对电影画面信息的加工深度和对电影画面的信息处理数量。然而，字幕呈现所导致的这种注意分散却并没有影响到对电影画面和文本信息的记忆，这与个体对字幕的注意偏好无显著关联。

多模态视角下用户注意偏向与记忆的影响机制——基于电影字幕的眼动研究

一、文献综述

(一)多模态传播过程中认知机制的建构

(二)多感知通道下的注意偏向以及测量指标

(三)记忆分类以及效果测量的范式

二、电影字幕对用户注意偏向的影响——来自眼动实验的证据

(一)研究方法

(二)研究结果

三、电影字幕对用户记忆效果的影响——来自行为实验的证据

(一)研究方法

(二)研究结果

四、综合讨论

(一)字幕组别：电影字幕的呈现会吸引用户注意但并不影响记忆效果

(二)材料类型：用户对画面信息的加工具有优先性，但文本记忆效果更好

五、结语

多模态视角下用户注意偏向与记忆的影响机制
——基于电影字幕的眼动研究