姜婷婷田慧溢许艳闰傅诗婷
(1.武汉大学信息管理学院,武汉,430072;2.武汉大学信息资源研究中心,武汉,430072)
20世纪80年代起,计算机和信息系统开始深刻地影响、改变甚至重塑人们的生活方式。人机交互(Human-Computer Interaction, HCI)领域秉持“以人为本”的宗旨,多年来为优化系统设计和提高用户体验提供了规范、准则、策略和建议[1]。人工智能(Artificial Intelligence, AI)的出现为HCI领域带来全新的挑战和机遇,“人智交互”(Human-AI interaction, HAII)成为HCI领域的前沿课题[2]。人智交互体验研究关注人类使用人工智能系统完成特定任务的过程和结果,采用多种用户研究方法和手段揭示交互主体、任务、环境等各要素在其中的作用机制,旨在帮助人工智能系统提供更好的用户体验[3]。关注交互体验不仅是HCI领域的基础内容,也是推动HAII领域持续发展的重要动力[3]。近年来,HAII相关研究积极地探索着人与AI的交互体验,致力于增强人类与AI的相互理解和协作共生[4-7]。
实验方法是HCI领域重要的研究方法之一,被广泛应用于以往的HCI用户体验研究[8]。采用实验法来探究交互体验有以下优点。第一,确定因果关系。在交互体验研究中,情境复杂并且影响因素众多[9],实验法通过严格控制额外变量来分离出自变量对因变量的影响,有助于确定因果关系[10]。第二,提高可重复性。HCI交互体验研究面临严峻的“重复危机”(Replication Crisis/Replicability Crisis/Reproducibility Crisis),即现在很难或无法复现以往的研究结果,这极大地阻碍了领域发展并降低了人们对以往研究的信心[11]。实验法遵循严格的实验流程并且对变量有明确的操作性定义,可以提高交互体验研究的可重复性[12]。第三,主动复现。交互过程中可能存在不稳定出现但重要的效应或事件,实验法能够操纵自变量水平来重现某些效应或事件[10]。因此,实验法适用于HCI领域对交互体验进行理论验证、设计实践、效应探索等多方面探索[13]。
由于HAII萌芽于HCI领域,HAII自然继承了实验法对领域发展的重要意义。HAII领域的发展日新月异,为了解目前HAII体验实验研究的发展现状和趋势,以及为后续开展HAII实验研究提供参考,有必要对现有的HAII体验实验研究进行梳理。为此本研究采用系统性综述法,梳理114篇HAII领域内交互体验实验研究的结构和内容,构建HAII实验研究的基本框架,揭示HAII实验研究的发展现状和趋势,以期为后续开展HAII实验研究提供参考和借鉴。
本研究开展系统性综述对人智交互体验的实验研究进行了梳理和总结。系统性综述是一种对特定研究问题、主题领域、感兴趣现象有关的全部现有研究进行识别、评价与解释的方法[14],具有系统、全面、透明、可复制等特点[15]。本研究按照系统性综述的常用流程开展工作,具体如图1所示。
图1 系统性综述的工作流程Fig.1 Workflow of the Systematic Review
在搜索人智交互体验的实验研究时,本研究首先在Web of Science(WoS)中,以“Human-AI interaction”or“Humanrobot interaction”or“Human-AI collaboration”and“User experiment”为查询式开展标题、摘要和关键词字段的搜索,不设置时间跨度;接着使用同样的查询式在Google Scholar和ResearchGate中进行搜索,补充未收录进WoS的文献。此外,本研究还采用了珠型增长策略进一步获取与这些文献具有各种关联(如引用和共引)的其他文献,以对现有搜索结果进行补充。最终初步获取2002年1月1日至2022年6月30日的310篇相关文献,经去重后得到306篇。
在文献筛选阶段,本研究的综述文献集纳入了发表在同行评审期刊或是会议论文集上的英文论文,但排除其中可用性测试研究、演化仿真研究、基于用户数据集的机器学习研究。可用性测试是研究人员预先设置好测试任务,用户到现场操作产品并记录结果的一种研究方法[16],它无法随机抽取样本并严格地控制额外变量;演化仿真研究采用系统动力学建模仿真来分析因变量的变化[17],但实验中并没有真实用户的参与;基于用户数据集的机器学习研究并不关注用户体验,用户只提供数据集来训练并测试算法模型的运行效果。经筛选后共得到174篇文献,这些研究均开展了受控实验,观测并分析了人智交互中的用户体验,包括用户的主观感知和评价,以及客观的行为表现等。
为确保综述内容的质量,本研究对每篇论文进行了质量评估。主要考虑以下因素:①研究目标及研究问题是否明确;②研究方法是否采用了规范的实验法,即严格地控制额外变量,随机选取样本,通过精确地操纵有明确操作性定义的自变量的不同水平来观测自变量对因变量的影响[18];③研究设计是否适用于研究问题且阐述清晰;④实验流程是否清晰且具有可重复性;⑤数据采集方法是否合适,操作过程是否恰当且阐述清晰;⑥数据分析方法是否合适。经过质量评估完成了二次筛选,最终得到了包含114篇高质量研究文献的集合。
本研究采用内容分析法对人智交互体验实验研究进行梳理。内容分析法是对各种信息交流形式的显性内容进行客观、系统的定性或定量描述的一种研究方法[19],包含单元化、抽样、记录/编码、归纳、溯因推理、陈述[20]。本研究严格遵循上述流程,在“实验样本”“实验观测维度”“数据分析方法”既有编码体系的基础上,通过对文献内容的归纳提取出“实验材料”和“实验任务”两个分类,最终形成如附录所示的人智交互体验实验研究的分析编码体系。
实验研究一般都会从目标群体中选择一定数量的典型用户参与实验,这些实验参与者组成研究的样本[18]。如何选择参与者、邀请多少参与者、如何将参与者分配到不同自变量水平中去,都在很大程度上决定了实验的成败[21]。因此,针对人智交互体验实验研究的样本,本研究主要关注抽样方式、样本规模和样本分配方式这三个方面。
任何实验研究均需包含一定的实验任务,它是研究者根据研究问题在实验中为参与者设置的特定实验内容[22]。实验任务的设置首先需要考虑任务环境和任务情景。前者是参与者完成任务时所处的物理环境,可分为线上或线下[23];后者是由研究者设置了真实、模拟或虚构的情景,以增强参与者的临场感,提高实验的外部效度[24]。此外,研究者需要根据特定的研究目的来设置任务的交互模态和类型,即明确参与者在交互过程中的信息交换形式[25],以及参与者在实验中需要完成的具体任务内容。
实验研究需要用到不同实验条件下的实验材料,是精确控制变量的基础。与绝大多数实验研究相比,人智交互体验实验研究所用到的材料主要围绕着AI进行设计。以何种形式呈现AI并实现AI的功能是研究者必须考虑的设计和技术问题。此外,还需要根据实验目标来为AI安排特定的任务角色和任务功能。因此,本研究主要从AI的外观、AI在任务中的角色、AI提供的功能、AI功能的实现途径这四个方面来关注人智交互体验实验研究中实验材料的设置。
实验研究中因变量的测量维度需要根据研究内容和实验条件进行选择[26]。根据实验过程中的观测对象,可以将实验的观测维度划分为对用户的心理测量、行为测量和生理测量。研究人员通过对用户的心理测量收集用户交互过程的主观体验[27],从行为测量得到客观的非介入性数据,借助生理测量来获取用户的生理反应信号,进而能够从不同维度上分析、解释并预测用户体验和行为[28-30]。
一般来说,实验研究可以使用容易接触到的便利样本,也可以根据研究需要选取特定样本[31]。纵观114篇HAII体验实验文献,大多数研究都使用了便利样本(N=78,68%),以高校学生为代表(N=69);部分研究选取了AI所服务的人群对象作为样本(N=26,23%),比如病人、老年人、残疾人等;少数研究并未对抽样方式进行说明(N=10,9%)。高校学生这一便利样本类型在实验研究中十分常见,招募他们参与实验能够有效地提高实验效率、节省实验成本,但由此也带来了结论适用性低的问题[32]。
在样本规模上,采用21~50人(N=43,38%)或51~100人(N=32,28%)的样本规模或即可满足大多数HAII体验实验研究的需求,部分研究的样本量扩大至100人以上的研究占比16%(N=18),20人以下的研究占比14%(N=16),未说明样本规模研究占比4%(N=5)。需要注意的是,在这114篇HAII体验实验研究文献中,有86%的研究在文中未明确说明样本规模的确定依据,过小的样本规模会降低样本的代表性[33],而过大的样本规模则可能存在可疑性研究操作[34]。
实验研究有三种将参与者分配到不同自变量水平中的方式:被试间设计、被试内设计和混合设计。被试间设计是每名参与者只接受一种实验条件;被试内设计是每名参与者需要接受所有的实验条件;混合设计则是综合应用上述两种设计方案,主要用于多自变量实验[35]。人智交互体验实验研究多采用被试间设计(N=78,68%),能够有效避免不同交互条件的相互干扰以及顺序效应;23%(N=26)的研究采用被试内设计,能够减少实验所需样本;只有9%的研究采用了混合设计(N=10)。
任务设计是实验研究中的关键工作。在HAII体验实验中,用户与AI的交互需由适当的任务来触发。根据用户在执行任务过程中的具体活动内容,以往研究所采用的实验任务主要可以分为以下五大类。(1)游戏任务(N=30,26%):用户需要和AI一起玩游戏,比如走出迷宫、拼七巧板或竞技游戏中分出胜负等[36-38]。(2)对话任务(N=27,24%):用户主动或被动地与AI进行交流,通过语音对话或文本聊天的形式,不需要进行其他操作[39]。(3)浏览任务(N=26,23%):用户独自浏览与AI相关的实验材料并在浏览结束后评价AI的表现,或是用户与AI共同浏览实验材料后,用户评价AI在他们共同浏览过程中表现出的智能水平、共情能力、拟人度等[40]。(4)评测任务(N=24,21%):在体验了AI提供的服务(如授课、拿取物品、拥抱等),用户需要对服务和AI进行评价[41]。(5)决策任务(N=7,6%):用户需要在AI给出的选项中做出选择,比如是否接受AI提供建议、是否购买AI推荐的商品等[42]。值得注意的是,很多研究在对实验任务进行描述时缺少必要的细节,71%的研究(N=81)未说明任务时长或实验总时长,这增加了重复评估或重现实验的难度[43]。
线下实验由于其临场感和交互性更强而受到青睐(N=109,96%),但也有少数研究会根据其实验设计的需要而采取线上实验(N=5,4%)。此外,为了提高实验结论的生态效度,实验任务通常会设置在更贴近日常生活的情景中,研究人员会设计具体的场景线索以及指导语来告知参与者其所处的任务情景。现有HAII体验实验研究所涵盖的情景主要包括居家(N=46,40%)、游戏(N=13,12%)、购物(N=7,6%)、医疗护理(N=6,7%)、教学(N=4,4%)、驾驶(N=3,3%)、军事演习(N=2,2%)、旅游观光(N=2,2%)。然而也有部分研究(N=31,27%)并未在实验中指定具体的任务情景。
人类是通过视、听、触、味、嗅等感官接受外界刺激以实现与环境的交互的。在与AI交互时,用户主要在视觉、听觉和触觉通道上与AI进行着信息交换。在已有的HAII体验实验研究中,实验任务所涉及的视觉信息主要包括文本、图片、视频等[44],听觉信息主要包括音乐、AI与用户以语音形式进行的问答对话等[45],触觉信息则主要包括温度、压力、震动反馈等[46],这三类信息分别支持人与AI之间的视觉交互(N=35,31%)、听觉交互(N=26,23%)和触觉交互(N=7,6%)。值得注意的是,复杂的交互情境可能同时调动多个感官通道,从而实现视听(N=18,16%)、视触(N=14,12%)、听触(N=9,8%)双模态交互,甚至是视听触三模态交互(N=5,4%)。
不同于传统HCI研究通常在电脑或移动设备上展示实验材料,HAII体验的实验材料必须以AI为核心。“美即好用效应”(Aesthetic Usability Effect)表明,具有吸引力的AI系统外观对于用户体验的提升发挥了关键作用[47]。本研究根据AI有无物理实体和AI有无具体形象这两个维度将以往研究中的AI外观划分为四种类型:(1)有具体形象的实体AI系统(N=54,47%),如拟人机器人、类动物机器人[38,48];(2)有具体形象的虚拟AI系统(N=28,25%),如虚拟人、虚拟宠物等[41,49];(3)无具体形象的实体AI系统(N=18,16%),如机械手臂、智能拐杖等[50-51];(4)无具体形象的虚拟AI系统(N=14,12%),如个性化推荐系统、自动驾驶系统、手机语音助手等[52]。图2依次展示了前三类AI的外观(已获授权的网络图片)。
图2 a 实体-有具体形象AIFig.2a AI with Physical Body and Appearance
图2 b 虚拟-有具体形象AIFig.2b AI with Virtual Body and Appearance
图2 c 实体-无具体形象AIFig.2c AI with Physical Body Without Appearance
AI在人智交互体验实验任务中的角色可以根据其贡献程度分为主导者、合作者和协作者。作为主导者的AI需要承担实验任务中的大部分工作[53],例如AI独自完成走出迷宫的游戏、AI向用户介绍产品等,用户则只需要评估AI的任务表现。作为合作者的AI则是与用户共同完成任务,例如在驾驶、创意活动中进行合作等[54],完成任务后用户评估AI的任务表现、交互体验以及对AI的印象或态度。作为协助者时,AI通常是在用户执行任务的过程中为其提供一定的辅助,例如帮用户拿取物品、提供提示/意见/建议等[55],旨在提高用户的任务表现。在所有文献中,AI作为合作者的情况最常见(N=59,52%),其次是作为协作者(N=37,32%),最少是作为主导者(N=18,16%)。
为了实现以上角色,AI需要具备相应的功能。在以往研究中,AI的功能可以分为以下五类。(1)建议(N=32,28%):AI根据具体任务情境向参与者提出相应的意见或建议,比如提示游戏线索、提供额外可选选项或方案、表达AI的决策和依据[56]。(2)信息处理(N=26,23%):AI进行信息的筛选、排序、提炼等处理,并向用户展示信息处理结果[40]。(3)物理辅助(N=20,17%):通常由AI为用户提供引路、拿取或抓取物品等辅助[57]。(4)问答(N=18,16%):AI可以向用户提问,但AI不会根据回答进行追问或建议; AI也可以根据用户提问中的关键词作出固定回答,但对关键词之外的问题不予回应[58]。(5)决策(N=18,16%):AI根据具体情境自行作出决策并执行,常见于对弈等人智竞争情境[59]。
在接近一半(N=54,47%)的HAII体验实验研究中,AI的功能是已经实现了的,即研究人员可以使用编程语言实现真实的AI交互功能,通过算法实现简单的判断交互,或者建立有数据输入输出的交互模型来实现数据融合,亦或是搭建交互系统实现具有完备功能的人智交互,从而使得用户与AI之间的真实交互成为可能。其次,有36项(32%)研究通过绿野仙踪(Wizard of Oz)这一手段实现了用户与AI之间的模拟交互,即实验人员远程操控AI与用户进行实时互动,使用户相信自己所面对的是AI而非人类,这样可以探索目前的技术水平尚无法实现的功能[60]。此外,还有24项(21%)研究使参与者处于旁观者视角来实现用户与AI的间接交互,研究人员要求参与者观看其他人与AI交互过程的视频或图片,观看后用户对呈现材料中的AI进行评估。
人智交互体验的实验数据来自于研究人员在实验过程中对用户心理、行为和生理反应三个维度的观测。(1)心理测量:通过问卷或量表来测量用户对AI的感知以及用户的交互体验,感知测量会通过用户对AI的接受度、喜爱度和智能感知的评分来体现[61](N=31,27%),体验测量主要是用户对整体人智交互过程的沉浸感、有效性和交互满意度进行评估[62](N=28,25%)。(2)行为测量:为了提高实验结论的客观性,研究人员会从多个方面观测用户行为[63],包括用户的语言(N=3,3%)、面部表情和肢体动作(N=4,4%)、用户完成实验任务的表现(如得分、耗时、排名)等(N=12,11%)。(3)生理测量:生理反应是心理和行为反应的基础,有研究借助认知神经科学的测量工具对用户进行各个维度的生理测量,包括心率变化率(N=1,1%)、皮肤电反应(N=2,2%)、眼动(N=3,3%)、脑电(N=2,2%)。值得注意的是,另有28项(25%)研究开展了多维度观测,将三类测量结合起来以解决单一维度测量可能存在的局限或偏差。
通过受控实验采集到的人智交互体验数据基本上都是定量的,研究人员会根据研究问题和实验目的选择合适的统计分析方法。大多数研究采用假设检验对不同实验条件下的均值进行差异分析,因此假设检验是以上114项研究使用频率最高的统计分析方法,根据数据总体分布特点,假设检验分为参数检验和非参数检验两大类。参数检验用到了方差分析(Analysis of Variance, ANOVA)(N=31,27%)和t检验(N=14,13%),采用参数检验方法要求总体为正态分布、各处理内方差齐性[64],但仅有11篇研究检验并报告了前提条件。非参数检验主要用到了卡方检验(N=9,8%)、Mann-Whitney U检验(N=9,8%)和Wilcoxon符号秩检验(N=6,5%)。此外,回归分析用到线性回归(N=3,3%)和logistic回归(N=2,2%)两种具体的方法来分析变量之间的影响,相关分析采用Spearman秩相关系数(N=3,3%)和Pearson相关系数(N=2,2%)来说明变量间的相关关系。另外,有35项(31%)研究采用了多种分析方法进行统计分析。
(1)实验样本抽样方式单一
目前人智交互体验实验研究在样本抽样方式上以便利抽样为主,高校师生是最常被选择的样本群体。便利抽样简便易行,能够得到较高的问卷回收率。但此种抽样方式通常会带来较大的抽样结果偏差,使得便利样本通常没有足够的代表性,降低了研究结论的可靠性和普适性[65]。用户和AI作为人智交互的两大主体,其自身特征会对交互过程和结果产生极大影响[3]。而便利样本掩盖了不同用户群体间的差异性,造成现有绝大多数人智交互体验的研究结果缺乏群体针对性,阻碍了相关研究成果面向实际应用的落地转化。
(2)实验材料可复用性低
实验材料作为实验设计的重要组成部分,是实验变量的具体体现,需要在实验任务中与参与者进行交互。人智交互体验研究的实验材料主要就是AI。为此,研究者需要根据实验目的对AI的外观、角色、功能,以及功能实现方式进行设计。然而目前许多人智交互体验实验研究在文中并未对AI的设定进行详细说明,这就导致后续研究难以通过复刻或参考这些实验材料来检验已有实验结论的稳健性,或是开展新的相关研究课题,不利于人智交互体验研究的规范性和持续性发展。
(3)客观的实验观测手段使用不足
人智交互体验的观测维度较为多样,但客观的实验观测手段使用不足。本研究综述的文献中,超过一半的研究仅仅采用问卷对用户进行心理测量。然而,问卷难以精准地度量用户与AI的交互体验。首先,问卷收回的数据具有高度的主观性,不同参与者对于同一问题的理解往往不尽相同;其次,由于问卷是一种自我报告式方法,参与者可能会出于个人原因拒绝真实回答某些题目,这会严重干扰到实验结果;最后,参与者通常是在完成实验任务之后填写问卷,因而问卷对用户体验的测量有所延迟,无法捕捉且精确度量某一交互时刻的用户体验。
(4)实验设计的报告缺乏细节
以往人智交互体验实验研究在论文中报告实验设计时存在以下问题。①实验样本信息说明不足:41%的研究未说明样本的性别组成,47%的研究未说明招募和补偿方式。②未明确说明样本规模的确定依据。③缺少实验伦理信息的说明,包括在实验后为参与者解释实验目的。例如,基于绿野仙踪法的实验需在实验结束后向参与者说明这一情况[66]。④实验材料中AI的外观、功能参数、功能实现方式并未清楚说明。⑤实验的具体设置不清楚,包括实验任务的数量、任务时长和实验总时长、实验采用的指导语等[67]。
(5)实验任务前瞻性强
本研究发现,在三种主要的AI功能实现方式之中,绿野仙踪和旁观者视角都不依赖于具体的AI技术。这极大地拓展了实验任务的设计空间,研究者可以根据具体的研究目的和需求,在严格控制实验变量的基础之上,较为灵活地对实验任务进行设计,而无需过多考虑技术的实现与否。凭借于此,人智交互体验研究的实验任务能够具备高度的前瞻性,支持研究者对可能存在的人智交互情景中的具体问题进行探索,更加聚焦于用户与AI交互体验的提升,为AI的交互设计和技术发展提供方向。
(1)用户群体多元化与样本规模合理化
受控实验虽然已经在人智交互体验研究当中被较为广泛地应用,但其中的科学性和合理性仍有待提高。多数人智交互体验的实验研究选择了便利样本,且在论文中并未明确说明样本规模的确定依据。但实际上,标准的实验研究在样本抽样方式和样本规模的选择上已有既定的规范。研究者应首先根据具体的研究目标选择用户群体,若人智交互体验是针对某些特殊群体进行优化,则应通过合理的方式招募这些参与者;若无群体限制,则应在满足具体招募要求的基础之上(如听力正常、有语音助手使用经历等),尽可能地覆盖更为多元的用户群体,从而提高研究结论的普适性。在样本规模的确定上,一方面可参考实验设计类似的已有研究的样本量,另一方面可使用G-power等软件来确定样本量大小。
(2)多模态交互支持实验任务的精细化设计
近年来伴随着AI技术的巨大进步,用户体验设计迎来了新的挑战与契机。用户与AI的互动从视觉、听觉等单一模态向多模态转变,容纳了触觉、嗅觉乃至味觉等通道。多模态交互(multimodal interaction)是指融合了人的多个感官通道,通过语音、手势、触摸、面部表情等其他方式来实现人机之间的交流[68],重新定义了用户与智能产品的交互模式。现有人智交互体验研究中的实验任务虽已涉及视觉、听觉、触觉三种模态,但在实验任务的精细化设计和交互模态的丰富性上仍有巨大的探索空间。人类与世界的交互本质上就是多模态的,未来的人智交互体验研究可最大程度地模拟甚至突破用户的真实交互环境,充分挖掘多感官信息在提升交互体验上的潜力。
(3)生理测量推动主客观观测手段相结合
受控实验在很大程度上提升了用户体验度量的精准性,科学揭示了变量间的作用关系。但现有人智交互体验实验研究中的观测以心理测量为主,主观性较高,限制了研究结论的客观性和可靠性。随着学科发展的融合,认知神经科学使用的测量工具和手段被越来越多地用于研究人与计算机乃至AI的交互,以眼动追踪、皮肤电、脑电图、心电图为主。生理测量能够直接客观地测量情感、认知、决策等引发或伴随的机体活动,有效克服了心理测量在数据收集过程中的测量偏差[69]。然而受限于成本、实验复杂度等原因,生理测量在人智交互体验研究中的应用目前并不广泛。但值得肯定的是,主客观观测手段的结合将是未来实验研究的必然趋势,生理工具能够实时监测用户生理指标的变化,验证自我报告数据的有效性,并揭示行为背后的心理生理机制;而主观数据能够为解释这些生理测量数据提供一个良好的出口。
近年来,HAII研究发展迅速,旨在增进人类福祉。本研究首次采用系统性综述方法,聚焦HAII实验研究,构建出实验设计的基础框架,对114篇文献中报告的样本、实验任务、实验观测维度和数据分析方法进行内容分析。梳理了各个部分研究现状并提出相应建议。本研究有助于未来人智交互体验实验研究的发展,为未来开展人智交互体验实验研究提供了清晰指引。
作者贡献说明
姜婷婷:提出研究思路,设计研究方案,论文修订与定稿;
田慧溢:收集与梳理文献,撰写部分论文;
许艳闰:撰写部分论文,论文修订;
傅诗婷:论文修订。
附录1
Appendix 1
人智交互体验实验研究文献内容分析编码体系(实验设计基本框架)Coding System of Literature Content Analysis for Experimental Research on HAII Experience(Basic Framework of Experimental Design)