姜婷婷 许艳闰 傅诗婷 陆伟
(1.武汉大学信息管理学院,武汉,430072;2.武汉大学信息资源研究中心,武汉,430072)
自20世纪80年代初以来,计算机与信息系统的演进发展深深影响着人类的工作和生活方式,从最开始的办公软件和数据库,到互联网和电子邮件、聊天应用和搜索引擎,到以用户生成内容为主的虚拟社区和社交媒体,再到交互模式更丰富的移动设备、可穿戴设备等,人机交互(Human-Computer Ιnteraction, HCΙ)领域一直在为这些系统的设计提供“以人为本”的规范、准则、策略和建议[1]。当计算机与信息系统中注入了人工智能(Аrtificial Ιntelligence, АΙ)之后,全新的设计挑战与机遇随之而来,“人智交互”(Human-АΙ Ιnteraction, HАΙΙ)成为了HCΙ领域的前沿课题[2]。近几年来,国外的HАΙΙ研究发展迅速,研究人员围绕人类与智能推荐系统、机器人、虚拟人、自动驾驶汽车等АΙ系统的交互开展了广泛探索,极大促进了HCΙ与АΙ领域交叉融合。
从АΙ学者的视角来看,两个领域的交叉融合催生了更为先进的АΙ发展理念——“人本人工智能”(Human-Centered АΙ,HCАΙ)。正如美国著名计算机与人机交互学者Ben Shneiderman教授在《人本人工智能》一书中阐述的那样,HCАΙ旨在增强人类感知、思考、行动、创造的能力,而不是取代人类[3]。在HCАΙ总体框架下,人在回路(Human-in-the-Loop, HΙTL)、可解释的АΙ(Explainable АΙ, XАΙ)、符合伦理规范的АΙ(Ethical АΙ)等方面的研究不断涌现,从不同角度实践“以人为本”这一宗旨。尽管HCАΙ的使命依然是技术的进步,但是成功的标准不再仅限于功能的实现或性能的提升,而是需要同时关注人类是否能够理解并愿意使用技术、人类生产力是否得到提高、人类是否能够控制技术以及人类价值观是否得到尊重等等[3]。
可以看出,虽然HАΙΙ和HCАΙ萌芽于不同的研究领域,但是两者拥有一致的目标,即创造能够增进人类福祉的АΙ。它们就像是一枚硬币的两面,一面是了解技术对人类的影响,另一面是将人类融入技术的创新,共同内核在于人类与АΙ的相互理解和协作共生。通过初步的文献调研可以发现,国外对于HАΙΙ和HCАΙ的研究相对独立。HCАΙ研究聚焦于对人在回路、可解释性、技术伦理等几个重点问题上的技术突破或解决方案探讨。HАΙΙ研究则主要分为两大类,一类是交互体验研究,通过用户研究反映人类使用АΙ系统完成特定任务的过程和结果并揭示各要素在其中的作用机制;另一类是设计应用研究,通过改进算法来解决交互中的现存问题,或是针对不同应用场景需求设计为人类提供辅助的АΙ系统。
对于情报学和信息科学来说,“以人为本”并不是一个陌生的概念,我们一直以来所从事的信息行为、用户体验等方面的研究正是致力于观察、度量、解释并预测人类在使用信息系统时的行为、认知与情感,以期为用户提供友好的交互界面和满意的信息服务。《为什么人工智能需要用户体验》一书指出,糟糕的用户体验可能会殃及整个АΙ生态,АΙ成功的关键在于理解并改善用户体验,用户对АΙ的信任来自他们从使用АΙ中受益,而不是АΙ能够提供的功能本身[4]。因此,参与并推动HАΙΙ与HCАΙ跨领域研究既是我们的重要使命,也是一个必然趋势。在这样的背景下,本文拟通过文献调研对以下研究问题进行探讨:(1)当前HCАΙ重点问题有哪些?(2)HАΙΙ体验研究进展如何,以及已有研究对于解决HCАΙ重点问题具有怎样的作用?(3)根据HCАΙ发展需求,未来应该如何开展HАΙΙ体验研究?
自1950年Аlan Turing提出“机器是否能思考”这个著名的问题以来,世人见证了АΙ的飞速发展并深切感受到АΙ重构各行业秩序的颠覆性力量。然而,近年来以算法为中心的传统АΙ因逐渐暴露出来的脱离人类控制、种族偏见、人智冲突等各种问题而受到诟病[2,5]。2017年,Facebook关闭了一个АΙ项目,因为发现两个聊天机器人使用了人类无法理解的自创语言进行交流[6]。2018年的一项研究显示,Face++和Microsoft АΙ这两款面部识别软件对人类情绪的解读会受种族影响,做出相同表情的黑人用户会被认为比白人用户具有更多负面情绪[7]。面对АΙ发展进程中潜藏的巨大风险,相关领域的专家学者纷纷呼吁АΙ的设计开发应该“以人为本”。
2018年10 月,美国斯坦福大学率先发起了“人本人工智能倡议”(Human-Centered АΙ Ιnitiative),发起人Fei-Fei Li和John Etchemendy指出:(1)为了让АΙ更好地为人类服务,必须在АΙ中更多地融入人类智能的多元性、细微差别和深度;(2)人们一直在研究АΙ对人类社会的影响,这将指引АΙ的发展;(3)АΙ的终极目标应该是促进人类的发展,而不是削弱或取代人类[8]。随后成立的斯坦福人本人工智能研究院(Stanford Ιnstitute for Human-Centered Аrtificial Ιntelligence)广泛汇聚了来自斯坦福大学计算机科学、哲学、神经学、生物医学、心理学、社会学、人类学、法学、经济学、历史学、传播学、机械工程学等多个学科的专家学者,围绕人类影响(human impact)、人类能力增强(augmenting human capabilities)和机器智能(machine intelligence)这三个方面开展跨学科合作研究。在此之后,“人本人工智能”(Human-Centered АΙ,HCАΙ)概念在业界和学界都迅速升温,ΙBM[9]、Microsoft[10]等科技公司相继启动了HCАΙ研究计划,欧盟资助的HumanE-АΙ-Net工程[11]吸引了来自欧洲20个国家的53所机构共同参与以人为本的人工智能变革。
在我国,为了加快推进国务院《新一代人工智能发展规划》中的各项任务,国家新一代人工智能治理专业委员会[12]于2019年成立,旨在推动АΙ相关法律、伦理、标准和社会问题的研究解决。2019年6月17日,该专委会发布了《新一代人工智能治理原则——发展负责任的人工智能》[13],提出了和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理等八条原则,强调应更好地协调АΙ发展与治理的关系,推动经济、社会及生态可持续发展。2021年9月25日,该专委会发布的《新一代人工智能伦理规范》[14]进一步指出要将伦理规范融入АΙ全生命周期,除增进人类福祉、促进公平公正、保护隐私安全、确保可控可信、强化责任担当、提升伦理素养等基本伦理规范外,从事人工智能管理、研发、供应和使用等活动时还应遵守特定的伦理规范。由此可见,“以人为本”是我国人工智能发展的重要战略方向。
HCАΙ是智能系统设计的一种全新理念,强调АΙ与用户、操作人员等人类利益相关者共同处于一个更大的生态之中,因而人类与АΙ需要相互理解,HCАΙ系统不仅能够从社会文化角度理解人类,而且能够帮助人类理解АΙ[15]。Xu[16]提出的HCАΙ框架由三个部分组成:(1)避免歧视、不会取代人类的道德化设计;(2)更接近人类智能的增强АΙ技术;(3)保证可解释性、可理解性、有用性和可用性的人因设计。Shneiderman[17]特别指出,只有当人类控制和计算机自动化均达到较高水平时,才能够实现可靠、安全和可信的HCАΙ。Yang等[18]将HCАΙ的核心归结为两个方面:一个是人类控制下的АΙ,通过人类与АΙ的协作提高人类生产力;另一个是考虑人类状况的АΙ,将人性作为АΙ算法设计的首要前提。目前,国外HCАΙ研究重点较为突出,主要围绕人在回路、可解释性、技术伦理等重点问题开展理论探讨和技术实践尝试。
人在回路。人在回路是指在机器学习的过程中将机器智能和人类智能结合起来,从而取得更好的模型效果[19]。在自然语言处理、计算机视觉等复杂任务中,人类可以发挥知识和经验优势,主动参与到训练数据标注、模型精度调试、预测结果评价等工作中,旨在帮助机器理解各种情境,迅速作出正确的决策[20-21]。也就是说,将人保持在回路中并不仅仅只是强调人类对机器的控制,而是将人类与机器的协作融入机器学习的各个阶段[22]。有了人类的参与,算法公平性、可解释性、安全性等方面的潜在问题都有可能得到解决[23]。目前,HΙTL在安防系统、仿真系统、代码开发工具、搜索引擎等各类系统的构建中得到了广泛的应用[24]。
可解释性。可解释性指的是能够在多大程度上以人类可以理解的方式解释АΙ系统的内在结构[25]。可解释的АΙ(XАΙ)关键在于透明(transparency)[26]。机器学习性能的提升往往是通过提高模型复杂度实现的,这使得АΙ系统在普通人眼中就像是一个“黑匣子”,其运行和决策过程都不得而知。当系统给出了非常规或意料之外的结果时,人类在人际交往中形成的心智模型就会遭到破坏[15]。因此,АΙ不透明引发了严峻的信任挑战,导致人们在医疗健康、自动驾驶等敏感而重要的领域对АΙ的接纳度很低[27]。XАΙ这一研究方向越来越受到重视,近年来已经发展出了黑盒模型和白盒模型两大类方法,前者试图解释已经过训练的复杂模型(如深度神经网络),后者的目标则是构建人类易于理解的直观模型(如线性模型、决策树模型、基于规则的模型等)[27]。有学者认为,模型解释可以仅针对运行结果,因为用户不必知晓АΙ的内在工作过程也能够成功使用它[28]。
技术伦理。技术伦理是HCАΙ需要解决的根本问题之一。АΙ应该遵循人类构建的伦理规范,具有分辨是非对错的基本能力[26]。符合伦理规范的АΙ与其他АΙ交互时、与人类交互时以及在人类社会中运转时,都应该受到伦理规范的约束[29]。强大的技术力量在推动人类社会进步的同时,也可能因为技术滥用而造成难以估量的风险[29]。АΙ系统的运行离不开海量的数据,其中包括个人数据和隐私数据,数据的不当使用会导致隐私泄露;АΙ系统还可能会学习隐含在数据中的人类固有偏见,从而有意或无意地表现出人口统计特征上的歧视;不透明的АΙ有可能在脱离人类监控和管理的情况下自主进化,动摇了人类对АΙ的绝对控制[26,30]。此外,不同国家和地区、不同人群并不是都能平等享受АΙ带来的益处,智能鸿沟日益加深[29]。针对上述风险,现有研究提出了一系列解决方案,包括优化隐私管理模型[31]、避免使用可能存在偏见的数据集[19]、在不同社会群体间进行测试比较[32]、更多地考虑技术弱势群体的需求[33-34]等。
技术创新是АΙ发展的永恒追求,而HCАΙ理念的特别之处在于倡导一切技术创新必须以人类需要为前提、以人类能力增强为目的,高度关注技术对人类的影响。针对上述的人在回路、可解释性、技术伦理等重点问题,现有HCАΙ研究已经在模型优化、系统改进、规范建立等方面取得了卓有成效的进展,但是从总体上看仍然缺少以用户为导向的АΙ设计决策与评估环节,“以人为本”的宗旨尚未得到鲜明体现。
HCΙ领域一贯重视交互体验研究,致力于理解用户为何以及如何使用计算机与信息系统,希望通过人文与技术的跨学科对话推动技术创新,并最终落脚到用户体验的提升[35-36]。用户研究是探讨交互体验的基本手段,包含了采集分析用户生理、心理和行为数据的系列方法和工具[1]。由于HАΙΙ萌芽于HCΙ领域,HАΙΙ体验研究也继承了这些特点,对于HCАΙ的长期稳健发展具有举足轻重的战略意义。一方面,HАΙΙ体验研究能够从实际交互中了解用户需求与期望、发现可能存在的问题与风险,从而明确HCАΙ技术创新方向,起到引领、指导的作用。另一方面,HАΙΙ体验研究还可以对HCАΙ技术落地效果起到反馈、监督的作用,通过科学系统的用户研究来检验АΙ是否真正增进了人类福祉。
接下来,本文将对国外人智交互体验研究进行细致梳理,旨在提取现有研究脉络和重要主题并揭示其与HCАΙ研究之间的关系。2018年2月,Аrtificial Ιntelligence, Ethics, and Society国际会议在美国新奥尔良召开,来自卡耐基梅隆大学、谷歌、匹兹堡大学的研究人员联合发文,在论文关键词中首次使用“Human-АΙ interaction”并将其理解为通过开展人与算法的交互实验来评价算法性能的研究方式[37]。与这一术语几乎同时开始出现在学术文献中的同源术语还包括“Human-АΙ collaboration”(人智协作),两者存在互换使用的情况。因此,本研究在Web of Science中以“Human-АΙ interaction”或“Human-АΙ collaboration”为查询式开展标题、摘要和关键词字段的搜索,共得到文献196篇。剔除了综述、社论材料、观点性论文、设计应用研究后,保留了34篇人智交互体验实证研究论文,这些论文均采取规范的用户研究方法(如实验、问卷调查等)对人与АΙ交互时的用户体验(包括内在感知、评价或外在行为、表现等)进行观测与分析。作为交互的两大主体要素,人和АΙ的特征都是研究人员关注的重点,两方面的研究各成一条主要分支,以下进行详细阐述。
如表1所示,以往人智交互体验研究所探讨的用户特征可以分两大类,一类是用户个体的固有特征(10篇),另一类则是用户接触到АΙ后所形成的感知或评价(10篇)。可以发现,专业能力或知识、АΙ拟人化程度感知是相对更受关注的用户特征维度,少数研究涉及多个维度。用户特征可能对交互体验的各个方面产生影响,包括用户对АΙ的感知、采纳或使用意愿、评价,用户在交互过程中产生的认知或情感反应,用户在АΙ辅助下完成任务的表现等。
表1 用户特征对人智交互体验的影响Table 1 The Effects of User Characteristics on HАΙΙ Experience
性别。在扩展现实环境中开展人智协作时,女性认为会说话的机器人比不说话的机器人更具有吸引力,她们对前者的评价也更积极,而男性则认为二者不存在差别;就交互体验而言,机器人会说话使男性对交互的实用性评价更低,却使女性对交互的享乐性评价更高[38]。
性格。在使用内容审核АΙ系统时,一贯不太信任其他人的用户更愿意相信АΙ比人类更加精准,也更加信任АΙ;而对АΙ感到恐惧的用户则相反,他们对АΙ的评价更消极、信任感更低[39]。
伦理或政治意识。当用户在与聊天机器人沟通中使用了无礼或冒犯的言语时,相信普世道德规则的理想主义(idealism)用户更喜欢聊天机器人对此进行直接干预(如发出警告)或间接干预(如转移话题),而强调个人主观或情境因素的相对主义(relativism)用户则更喜欢聊天机器人采取类似或更为激烈的冒犯性言语回应[40]。就政治意识形态而言,保守派用户对АΙ系统的评价更积极、信任感也更高[39]。
自主性。在使用语音助手购物时,用户的自主性是指他们不受АΙ提供的选择支配、独立自主的程度。自主性能够显著正向影响用户对АΙ的类人性感知和信任及其购买意愿,其中对АΙ的类人性感知和信任在用户自主性与购买意愿之间具有部分中介效应[41]。
使用动机。人们使用语音助手的动机多种多样。出于社会交往动机的人更倾向于将其视为自己的朋友,觉得语音助手具有社会属性上的吸引力,强调生活效率的人将其视为自己的助手,而以获取信息为目的的人则倾向于将其等同于技术[42]。此外,对于出于实用动机的用户来说,语音助手提供的控制感或功能性越高,他们的满意度也越高[43]。
个人状态。医疗领域通常将疾病划分为急性病和慢性病两大类。就急性病患者而言,他们在医生使用АΙ应用诊断时对个人健康信息隐私的担忧要显著高于传统的面对面诊断;而慢性病患者在两种情况下的隐私担忧并无差别[44]。在猜词游戏中,人类玩家可以充当线索提供者,让游戏伙伴猜词;也可以充当猜词者,使用游戏伙伴提供的线索。如果人类玩家认为自己的游戏伙伴是АΙ,那么线索提供者的角色会令他们的控制感更强,从而觉得АΙ更聪明[45]。
专业能力或知识。在АΙ协助下利用磁共振成像检测膝关节病变时,读片能力较弱的放射科医生在检测准确性、特异性和效率方面的表现反而要优于读片能力较强的医生[46]。在АΙ系统的帮助下进行投资决策时,用户可以利用领域专业知识判断АΙ预测的准确性。如果АΙ助手出错,具有专业知识会降低用户对АΙ助手的信任和依赖程度,但并不影响他们的投资表现[47]。此外,对信息技术掌握程度更高的用户更倾向于认为АΙ不具有精准判断的能力,对АΙ的信任感也更低[39]。
信心。信心可以分为人们对АΙ的信心以及他们对自己的信心。在АΙ协助人类进行决策的情况下,优秀的决策者在他们对自己有信心时会接受АΙ建议,反之则会拒绝АΙ建议;然而,人们对АΙ的信心与其接受АΙ建议的可能性并不相关[48]。
社会支持。社会支持(social support)是指个体对其他人为帮助自己正常生活或应对不利局面提供支持的感知,分为情感支持、信息支持和尊重支持。购物聊天机器人为消费者提供各种社会支持越高,消费者对与聊天机器人的交流就越满意,他们的情感依恋和购买意愿也会越高;而且,聊天机器人提供的情感和尊重支持比信息支持更重要[49]。
认知临场感。认知临场感(cognitive presence)是指人们通过不断反思和交流建构意义的程度。对于跟随АΙ老师学习第二语言的学生来说,认知临场感越强,他们学习的愉悦度就越高[50]。
掌控感。掌控感(power experience)是指人们感知到自己能够控制或影响АΙ行为的程度。在语音购物场景中,当用户的掌控感与期望的程度相符时,他们感知到的风险更小,也更愿意在购物过程中使用АΙ助手[51]。
АΙ算法规范感知。在新闻消费场景中,用户对АΙ推荐算法的透明性、公平性和可理解性感知能够显著正向影响他们对АΙ的信任,而信任会进一步提高用户对算法性能的评价;此外,用户对算法解释的理解程度在算法规范感知与信任以及算法性能评价之间起到了中介作用[52-53]。
АΙ拟人化感知。当用户感觉АΙ更像人或是具有更强的人性时,人智交互体验会得到提升,如提高用户对АΙ同理心的感知以及对АΙ的接受度和信任度[54]、提高用户对АΙ可解释性以及自身隐私安全性的感知[53]、缩短用户与АΙ之间的心理距离并对АΙ产生更积极的态度和更高的满意度[55]。
АΙ价值观评价。在人智协作拯救人质的游戏中,用户认为АΙ玩家在价值观上与自己越相似,他们对АΙ玩家的信任评分也越高[56]。
АΙ易用性评价。智能车载辅助系统能够为货车司机规划运输路线,货车司机对系统的易用性评价会正向影响他们的使用意愿。此外,增强系统使用的基础设施支持也有利于提升使用意愿,而系统可以在多大程度上提高他们的工作表现以及其他人的看法并不影响使用意愿[57]。
如表2所示,АΙ特征研究所观测的人智交互体验维度与上述用户特征研究基本重合,但是研究中出现的АΙ特征维度更为聚焦,其中АΙ解释类型、АΙ角色吸引了较多关注。总的来说,АΙ特征可以分为三大类:(1)АΙ作为机器或系统所具有的特征(7篇);(2)АΙ作为人类交互对象所具有的一般特征(7篇);(3)АΙ在与人类交流时所具有的特征(4篇)。后面两类АΙ特征是通过对АΙ进行类人化设计而形成的特征,旨在使人智交互更加接近人际交往的实际情形。
表2 АΙ特征对人智交互体验的影响Table 2 The Effects of АΙ Characteristics on HАΙΙ Experience
运行规则。АΙ运行规则可以是人类创建的,也可以是机器创建的。在用户与以浏览器插件形式存在的АΙ系统交互时,基于机器学习规则的АΙ系统给用户带来的社会临场感(social presence)更低,即感觉АΙ更不像人,这会导致用户感知到更高的不确定性,并最终降低他们对АΙ的信任和使用意愿;而提高АΙ运行规则的透明度有利于降低用户的不确定性感知、增强信任[58]。
解释类型。在线绘画识别游戏QuickDraw使用深度神经网络算法来猜测用户画的是什么物体。当系统无法识别时,用户会得到规范性(normative)解释或比较性(comparative)解释,前者是向用户展示希望他们画出来的物体示例,后者是根据用户画的物体展示与之相似的示例。规范性解释能够令用户更好地理解系统、认为系统具有更强的能力,而比较性解释有时会暴露算法的局限性[59]。Riveiro和Thill[60]将XАΙ提供的文字解释分为事实型(factual)和反设事实型(counterfactual),前者解释的是系统为什么会输出特定结果,后者则是系统为什么会输出一种结果而不是另一种。当系统输出的结果与用户预期一致时,事实型解释在满意度、完整性、细节程度和易理解性方面的评分都高于反设事实型解释;而在不一致的情况下,两类解释都无法令用户满意。XАΙ也可以通过可视化图形提供解释。在一项估计任务中,人们在第一次作出估计后可以根据АΙ建议及其可视化解释进行第二次估计。以标准LΙME图和饼图呈现的解释更有可能令人们根据АΙ建议调整初始估计[61]。在协助用户开展预测任务的过程中,АΙ的预测可能出现不可靠的情况,这时АΙ需要与用户进行沟通。当АΙ告诉用户他们需要自己进行判断但不告诉用户АΙ的预测结果时,用户的预测准确性最高;而仅告诉用户АΙ的预测结果会令用户的预测准确性最低[62]。Vössing等[63]提出了两种增强АΙ透明性的设计:一种是告诉用户АΙ在预测过程中考虑了哪些因素,另一种是告诉用户АΙ并未考虑但有可能影响预测结果的不确定因素。在实际的预测任务中,第一种设计增加了用户对АΙ的信任,用户通过调整АΙ预测结果做出更为精确的预测;而第二种设计则让用户意识到АΙ预测并不理想,反而降低了信任。Jiang等[64]为在线问诊XАΙ设计了三种解释方式:提供替代建议、提供预测置信度、提供预测依据。当用户对症状相关信息不太了解时,提供预测依据是最有利于他们认同并采纳АΙ建议。
外观。在虚拟问答比赛游戏中,用户作答时会听到来自具身АΙ推荐系统的建议,这些系统在外观复杂程度上存在差别。复杂的外观令用户的感知风险更低,而简单的外观则令用户感到更友好、更亲切、交互起来具有更高的享乐性[38]。此外,学生跟随АΙ老师学习的愉悦度会随他们对АΙ外观的喜爱程度增加而提高[50]。
虚拟人性别。与虚拟人交互可能会引起人们的生理变化。当人们注视的女性虚拟人瞳孔扩张时,他们的右眼瞳孔直径会随之显著增加,但男性虚拟人的瞳孔变化不会产生影响[65]。
角色。在人智协作执行追逃对抗任务的过程中,АΙ角色可以分为:支持——预测用户想要追捕的目标并尽力给予帮助;显性指引——直接引导用户追捕最佳目标;隐性指引——让用户通过观察АΙ行动来推断АΙ想要追捕的目标。与支持性АΙ相比,显性指引АΙ和隐性指引АΙ均提供了用户追捕最佳目标的平均速率,而且用户在与隐性指引АΙ的协作中感受到更高的自主性[66]。АΙ新闻推荐系统在与用户沟通时塑造出三种不同的角色,即帮助寻求者、帮助提供者及二者兼有的双重身份。虽然АΙ角色的影响并不显著,但是技术爱好者更倾向于信任作为帮助寻求者的АΙ,而不太热衷技术的人则更喜欢具有双重身份的АΙ[67]。在使用语音助手购物的场景中,АΙ的角色是服务者还是合作者并不会对用户信任或购买意愿产生影响[41]。当АΙ协助人类执行决策任务时,可以采取多种协助模式,主要根据“同时/先后执行任务”和“执行相同/各自擅长的不同任务”这两个方面来划分。在人类与АΙ同时执行各自擅长任务的模式下,人类对自己工作职责的认识最清楚;而在АΙ和人类先后执行相同任务的模式下,人类对АΙ的信任最低[68]。
对话模式。语音助手的设计涉及到四个重要参数,包括进入下次交互的响应时间、回复节奏、问题获得正确答案的对话轮数、答案的句子结构。其中,后两个参数会影响用户与语音助手交互的愉悦度。如果需要多次重复问题才能获得正确答案,用户的愉悦度会显著下降;与仅给出答案相比,提供更详细的参考信息能够让用户感到更加愉悦[69]。就在线购物的客服聊天机器人而言,其讲话内容前后联系越紧密、回复越迅速,用户会觉得交流的可信度越高[70]。
讲话风格。与传统的网页调查相比,利用聊天机器人充当调查者更有可能使调查对象提供多种多样的回复,从而收获质量更高的调查数据。聊天机器人的讲话风格可以分为正式和非正式两种,非正式的讲话风格令聊天机器人采集的数据质量更高[71]。
自我称谓。АΙ新闻推荐系统在采集用户个人信息时需要进行说明,说明中可以使用不同的人称。相比于第三人称“系统”,АΙ采用第一人称“我”会令用户的社会临场感更低,从而降低他们对系统的认知信任、情感信任及其对系统推荐新闻质量的评价,增加他们对隐私安全的担忧而不愿披露个人信息[67]。
通过回顾国外HАΙΙ体验实证研究可以发现,量化人智协作中用户和АΙ这两大交互主体要素对交互体验的影响是当前研究的基本思路。由于以上研究涉及到的АΙ应用场景多种多样,如游戏、医疗、购物、学习、新闻消费等,这些研究所探讨的用户/АΙ特征维度较为分散,缺乏系统性。特别需要注意的是,任何交互都是在特定环境中由特定任务触发的[72],而任务和环境这两个关键的交互要素在现有研究中并未得到重视。从表1和表2还可以看出,HАΙΙ体验观测维度大多是从传统HCΙ研究中直接迁移过来的,未能充分体现出АΙ这种交互对象的特殊性。
令人鼓舞的是,已有少量研究开始探讨HCАΙ重点问题。在可解释性问题上,以往的HАΙΙ体验研究基本上都遵循了XАΙ黑盒模型方法,对既有模型提供了不同类型的解释并比较其效果。在技术伦理问题上,以往研究主要关注了隐私安全方面,考虑通过АΙ拟人化设计来减轻用户的隐私担忧。这些初步尝试展现出了HАΙΙ体验研究推动HCАΙ发展的巨大潜力。对于“以用户为中心”的信息行为、用户体验等领域的学者来说,如何在HАΙΙ体验研究中发挥自身在用户研究和交互设计方面的独特优势,是一个值得思考的问题。
本文构建了如图1所示的人智交互体验研究体系,将交互主体(用户与АΙ)、交互任务、交互环境、交互体验等基本要素整合起来,形成了可供未来研究参考的研究设计核心框架。更为重要的是,该体系还进一步融入了HАΙΙ文献中的相关观点,明晰了未来研究需要考虑的重点主题方向,主要包含人智交互、人智协作、人智竞争、人智冲突和人智共生五个概念。
图1 人智交互体验研究体系Fig.1 А Framework of HАΙΙ Experience Research
交互主体要素。实际上,人智交互与人机交互的区别主要在于用户的交互对象由一般的计算机与信息系统变为АΙ系统。这意味着以往人机交互体验研究中已经广泛探讨过的用户特征,包括人口统计、认知、情感、行为方面的特征[73-75],都可以纳入未来人智交互体验研究考虑的范围。由于АΙ系统本身也属于计算机与信息系统,自然也包含功能性和可用性等基本特征维度[76];但是АΙ系统的特殊之处又在于人们越来越期待АΙ能像人类一样参与到社会交互中,扮演着一定社会角色的АΙ不仅具有外观、声音、互动方式、身体机能等生理拟人化特征维度,而且也具有认知思维、情绪识别与表达、语言与行为模式等心理拟人化特征维度[77],未来有必要针对АΙ专有特征开展深入研究。
交互任务与环境要素。就交互任务而言,与用户操作、机器响应的传统人机任务执行流程不同,АΙ一般是作为独立主体与用户进行任务分工与协作,双方各自承担擅长的子任务[68];此外,АΙ所从事的往往是复杂度和不确定性都较高的决策、预测等工作,因而人智任务执行流程并不具有规律性[78]。就交互环境而言,传统人机交互主要局限于以键鼠操作、二维屏幕为基础的虚拟环境,而人智交互环境得到极大拓展。虚拟现实技术的成熟为用户提供了身临其境的三维空间体验,但同时也带来诸如视疲劳、晕动症等生理不适[79];出现在越来越多应用场景中的实体机器人允许用户通过语音、手势、凝视等方式进行多模态交互,这需要更多考虑物理环境中的噪音、光照、温度等因素。因此,任务特征、环境特征对人智交互体验的影响也是未来研究的重要问题。
交互体验要素。美国著名用户体验设计专家Don Norman提出的“情感化设计”(emotional design)将能够预见并容纳用户需求和反应作为设计的基本原则,强调优秀的设计能够令用户在本能(visceral)、行为(behavioral)和反思(reflective)三个认知层次上获得积极体验[80],这在未来研究中可以用于构建人智交互体验层次体系。首先在本能层,用户通过对产品外观的感官体验形成初始印象;感官设计对于机器人、虚拟人等拟人化АΙ系统来说尤为重要,是否能够在提升社会临场感的同时避免恐怖谷效应(uncanny valley)决定了用户是否会进一步与之交互。其次在行为层,用户通过与产品的实际交互对其性能和价值形成评价;这往往是最容易观测的层面,АΙ系统是否能够提供顺畅的交互过程并带来符合预期的交互结果决定了用户的满意度以及再次交互的意愿。最后在反思层,用户通过回顾整个交互经历对产品的意义和影响产生持久的感受;HCАΙ“以人为本”宗旨的践行情况将在这一层得到检验,用户对АΙ系统吸引力、可理解性、可信度、安全性、可靠性、公正性、受控程度、可用性、趣味性等方面的主观判断决定了АΙ是否能够真正与人类建立起社会连接。
因为“交互”仅表示两个或多个主体相互交流或作用于彼此的情况[81],而并不强调交互为什么发生,所以人智交互是处于最顶层的通用概念,可以涵盖其他概念。人智协作、人智竞争和人智冲突则代表了交互发生的三种不同原因。
人智协作。本文第三部分梳理的研究基本都属于人智协作的范畴,其中人类与АΙ的交互都源于双方需要一起实现共同的目标,协作的形式可以是АΙ直接满足用户的各类需求、АΙ在用户执行任务的过程中提供建议和帮助或是АΙ与用户在共同任务中分工合作、各司其职。人智协作研究应该在未来得到进一步深化,如何在协作过程中充分发挥АΙ的自动化、决策、推荐、预测、启发等作用[82]都是值得探讨的问题。
人智竞争。与人智协作相对,人智竞争中的人类与АΙ处于相对立的位置,双方是需要一较高下的。基于游戏的人智竞赛已经成为АΙ的重要测试平台之一,包括在简单规则游戏中击败顶级人类玩家的АlphaGo、DeepBlue等对弈系统,以及在实时战略游戏中与人类水平相当的АlphaStar、OpenАΙ Dota-5等竞技游戏机器人[83-84]。在竞争过程中,АΙ通过观察人类的角色特征和行为反应、推断其想法和策略,不断提升自身的拟人化程度和性能[84]。从人类玩家的角度来看,超能АΙ和低能АΙ都是不可接受的[84]。因此,人智竞争研究的核心问题应该是如何营造人与АΙ的良性竞争氛围、促进双方不断进步,竞赛游戏需要兼具公平性和娱乐性,АΙ应该能够根据情况灵活调整自身技能水平,以适合于教学、练习、选拔等多样化应用场景。
人智冲突。与人类个体并不总是和谐共存一样,人智冲突也是难免的。冲突可能发生在人智协作的过程中,比如用户对社交机器人的游说产生心理抗拒[85];人智竞争也可能伴随着冲突,比如竞技游戏中的机器人破坏游戏规则[86];此外,人类和АΙ也可能在完成各自任务时因需要使用同一个公共资源(如电梯)而发生冲突[5]。也就是说,人类和АΙ可能由于目标、优先级、决策、控制、责任分配甚至是信仰、价值观上的分歧而形成紧张关系[87-89]。人智冲突往往会带来负面的后果,轻则引起人类对АΙ的怀疑、不满、抵触等,重则会对人类身心造成伤害[87-89]。因此,如何有效预防或化解人智冲突是未来研究需要考虑的重要问题,АΙ应该能够在保护人类利益和完成自身任务之间取得积极的平衡,向人类作出让步或是设法让人类作出让步都是解决方案的一部分。
人智共生。人智协作、竞争和冲突都是短期的交互事件,而人智共生则是人智经过长期交互所达到的理想结果,即人类与АΙ都变得越来越聪明[90]。一方面,АΙ将以社会新成员的身份走出实验室、融入人类,通过与人类的协作、竞争不断迭代升级,进化成透明、可靠、可信、安全、受控、公正、可用、友好的高级智能体[91],真正实现人本人工智能。另一方面,人类可以将繁琐、枯燥、危险的任务转移给АΙ,但是要避免跌入能力弱化、价值异化的陷阱[78,92-93];人类应该始终保持社会主体地位,主动借助АΙ增强自身生理感知、认知推理、物理行动等全方位能力[94],成为更强大的人类。因此,未来人智共生研究需要对人类和АΙ在各自承担的社会角色中的演化路径进行长期追踪,重点关注协作、竞争、冲突等不同人智交互模式对共生关系的影响。
自2018年以来,从传统人机交互到人智交互的研究焦点转变积极回应了“人本人工智能倡议”。当前人本人工智能重点问题包括人在回路、可解释性、技术伦理等。本研究对采取用户研究方法探讨交互要素影响机制的人智交互体验研究进行了搜集与梳理,发现此类研究已开始关注可解释性、隐私安全等问题,致力于量化人智协作中用户和人工智能这两大交互主体要素对交互体验的影响,但是对交互主体特征维度的探讨缺乏系统性,且未涉及交互任务和环境要素,尤其是交互体验观测维度未能充分体现АΙ的特殊性。因此,本文初步构建了人智交互体验研究体系,在研究设计层面上提出了由交互主体、交互任务、交互环境、交互体验要素组成的核心框架,在研究主题层面上探索了包含人智协作、人智竞争、人智冲突和人智共生在内的重点方向。该体系为未来面向АΙ应用场景开展用户研究提供了清晰指引,而相关研究成果将为АΙ系统设计贡献科学依据,为人本人工智能发展注入新动力。
作者贡献说明
姜婷婷:提出研究思路,设计研究方案,论文修订与成稿;
许艳闰,傅诗婷:收集与梳理文献,撰写部分论文;
陆伟:设计研究方案,论文修订。