喻国明 苏健威 黄哲浩
【摘要】生成式人工智能时代的一个重要特征,是自然交互正在逐渐取代图形控件交互成为主流的人机交互范式。其对媒介传播的影响在于:一方面使媒介超越个性化的范畴,能够以极为细微的需求为基础形成资源的聚拢以及与用户的细密连接;另一方面,自然交互范式允许媒介以无界的方式融入用户情境中。自然交互范式存在三个主要的发展阶段,分别是初期话语沟通、中期模态拓展与数据汇通、远期心智融通,这本质上是自然交互范式从模拟人类交往到超越人类交往的过程。
【关键词】生成式人工智能 人机交互 自然交互 媒介实践
【中图分类号】G206 【文献标识码】A 【文章编号】1003-6687(2024)3-058-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.3.008
人机交互是研究人、计算机之间相互影响的技术,其研究重点是用户界面,即人与计算机之间传递、交换信息的媒介和对话接口。[1]20世纪70年代,美国施乐公司研究人员艾伦·凯发明了重叠式多窗口系统,形成了图形用户界面,[2]随后基于触摸屏的交互,例如iOS、Android的系统交互界面,在交互学习成本和易用性方面做出了重大改进,使得图形界面交互得到了极大普及,成为移动互联网媒介时代人机交互的主要形式。
自然交互是区别于图形控件交互的一种崭新形态,它颠覆了图形控件交互所依赖的键盘、鼠标或触摸屏交互逻辑,通过自然语言、表情、行为等方式,使用户与计算机形成交流,催生了智能音箱、智能客服、语音助手等诸多媒介形态。伴随着以ChatGPT为代表的生成式人工智能技术的成熟,自然交互进一步实现了从堪用到好用的质变。一方面,ChatGPT通过持续与用户对话,不断对用户的个性化要素进行识别、学习和整合,并将输出要素进行结构化处理,以贴近用户的方式进行有机呈现,实现了对人类交往方式的深度模拟。[3]另一方面,ChatGPT能够实现连续性人机协同。用户可以在个人账号中保存人机对话记录,并基于该记录实现长期连续性对话。[4]这种前所未有的技术特性驱动了人机交互范式的变革——自然交互将逐渐取代图形控件交互成为主流。
由于交互界面是用户(人类)调用数据、算力、算法等机器智能要素的关键中介,因此人机交互范式的革新标志着机器智能可供性的提升以及人类借由媒介增强自身实践能力的拓张,这是整个社会深度媒介化进程中一个极为重要的变化。据此,本文聚焦生成式人工智能时代的自然交互范式,在其概念特征的基础上,探讨自然交互范式如何影响现有媒介实践,及其未来走向何处。
一、自然交互范式:定义、特征及其与媒介的关联
1. 自然交互:以先天习得、符合直觉的方式与机器交流
自然交互即基于自然用户界面的交互范式。自然用户界面是人机交互界面的新兴范式,通过研究现实世界的环境和情况,利用新兴的技术能力和感知解决方案实现物理和数字对象之间更准确和最优化的交互,从而达到用户界面不可见或者交互的学习过程不可见的目的,其重点关注传统的人类能力(如触摸、视觉、言语、手写、动作)和更重要、更高层次的过程(如认知、创造力、探索)。[5]自然用户界面被认为是下一代交互界面的主流。用户只需以最自然的交流方式(如自然语言和肢体动作)就能与计算机进行交互,与计算机交流就如同和一个真实的人交流一样。在基于自然用户界面的交互时代,键盘和鼠标等将会逐渐消失,取而代之的是更为自然、更具直觉性的科技手段,如触摸控制、动作控制、自然语言控制等。[6]
自然交互具有通用性、规范与有效性、经验性三个基本特征,这三个基本特征诠释了自然交互区别于以往交互方式的关键之处。
(1)通用性:机器拓展人类实践的全功能。作为自然交互的基础,語言是一种生活形式上的一致,[7]是人们可以相互理解的基础,是意义的载体。尽管并非所有人都共享同一套语言系统,但是人们对语言的运用模式,语言的构成要素是大同小异的,都展现了人类对事物的理解与逻辑推理,都承载了绝大部分的意义,实现了大部分的交流,而并不是某一种语言系统只能实现某一个或几个功能。因此,生成式人工智能的核心即让人工智能步入通用性实践,能够处理多范围任务,解决多领域问题,[8]表现出自然交互的通用性。
(2)规范与有效性:机器对人类认知机制的深度模拟。语句的意义是为了某种目的而产生的,并且个体只有理解使用者的目的,才能真正理解语句的意义,自然交互才有可能产生。若人工智能无法理解使用者的意图,它就无法对使用者进行合适有效的反馈,自然交互就不可能实现。因此自然交互必须具有规范性。在人际传播中,符号互动论与社会行为等理论都指向了双方主体共享同一套规范体系。在自然用户界面上,这种规范性更为凸显,使用者组织的语言必须遵守所使用语言的语法,要构建合适恰当的语境,要真实明确地反映自己的需求,这样才能实现有效的自然交互。
(3)经验性:人类个性化交互的惯习累积与模式形成。“语言游戏论”指出,人类在场景中学会表达,在场景中理解语义。在此基础上,语句逐步脱离特定场景,话语套着话语,一个词的意义由另一个词或一串词来解释。[9]这充分表明,人们在自然交互中会积累一定的经验,并运用到之后的自然交互中。然而,经验性除了表现为交互语言蕴含的个体在之前的知识积累外,还能体现为在交互过程中个体根据反馈实现的调节与修正。在与生成式人工智能的交互中,这一特性更为明显,用户可以对人工智能进行预训练,使其对某个板块的知识完成汇聚和积累,再通过指令促成其对问题的准确回答,若回答不能让用户满意,用户可以给予反馈,此时人工智能将根据反馈进行解释、调整或纠正,从而完成多轮交互。
2. 自然交互范式下的媒介:细微的连接与无感化的中介
为了更好地理解自然交互范式对媒介的影响,我们有必要先回顾自然交互的基础——自然语言之于传播的意义。维特根斯坦曾提出“语言图像论”,将世界的本质看作“事态”,即对象关系的连接。因为具有相同结构,所以语言可以描绘世界、表达心灵。“语言游戏论”则认为语言作为一种原始形式的活动而存在,是和人类其他活动编织在一起的。[9]比如老师指着一块石头,学生说出对应的“石头”一词,在这一层面上,语言是一种对世界的直观反映与描摹,是一种不可逆的同外界的交互形式。未经分析的语言表达式是我们正常的交际工具,其意义在使用中被赋予。[10]这里的关键在于,维特根斯坦以语言的工具观揭示了人类与世界交互的连续性、发展性。奥斯汀与塞尔的“言语行为论”在此基础上强调语句的意义是由使用者(人)在某种语境下,为了某种目的而产生的。因此个体只有理解使用者使用语句的意图时,才能真正理解语句的意义。[11]它将语境、行为等非语言要素引入意义的交流。这些理论共同揭示了自然语言之于交流的关键意义在于,其实现了用户外部经验世界的解析和内心世界的演绎,帮助交流的双方理解领会彼此的意蕴。
从自然语言之于传播的意义出发,自然交互范式对媒介与传播的影响可以归结为:一方面,自然交互范式构造了传播场域中更加细密的连接。从传播学的核心概念“受众”被更具有交互主动性色彩的“用户”所替代可以窥见,在媒介(中介形式)不断迭变的过程中存在着一条重要的规律——人类与媒介的交互程度是在不断加深的。人类通过与机器越来越深入地交互,不断驱动机器输出与自身更加匹配的内容。例如卫视频道的切换使得用户能够自主选择心仪的节目,检索词的输入帮助用户快速定位到需要的信息等。媒介交互范式进化带来的最为显著的影响是媒介中介的粒度加细,即从大众传播到分众传播,再到针对每一个用户的个性化传播,用户能够使用越来越丰富、多元、立体的信息来描摹自身以及自身的需求,驱动媒介对相关的信息、资源、服务等形成针对性的聚拢。这是理解人机交互范式的变革如何改变媒介的一个重要视角。自然交互范式的兴起意味着用户无须再受图形控件交互可供性的限制,能够以自然语言的指涉范围和建构能力形成更为广阔的信息输入,使媒介超越个性化的范畴,能够以极为细微的需求(或语义)为基础形成资源的聚拢以及与用户的细密连接。
另一方面,自然交互范式允许媒介以无界的方式融入用户情境中。正如Valli提出,自然交互是人们通过手势、表情、动作自然地交流,并通过环顾四周和操纵物理事物来发现世界;这里的关键假设是,应该允许他们与技术交互,因为他们习惯于在日常生活中与现实世界交互,正如进化和教育教他们做的那样。[12]这意味着自然交互范式下的媒介与用户形成了更加深刻的技术具身关系,从而无感地、系统地增强人类的实践能力和实践自由。
二、基于自然交互范式的媒介实践:双向预设、场景解析与会话行为
生成式人工智能技术的应用热潮带动了自然交互范式的兴起,使得以图形控件交互为特征的媒介应用逐步呈现出新的特征——人们能够用平日里自然表达的语句与人工智能交流,从而达到自己的目的,不必再将自己的意图转译成指令或高度凝练成词块或控件。这种新兴的媒介趋向将深刻地影响媒介进化的逻辑。因此,对基于自然交互范式的媒介实践进行分析是十分必要的。
语用学为分析这种新兴媒介实践提供了一个有效的框架。该学科是与自然语言交互关系最为紧密的几个学科之一,主要关注“在不同语境中寻找并确立使话语意义得以恰当地表达和准确地理解的基本原则和准则”。[13](15-16)在语用学研究中,一般将会话划分为语境、指示词语、会话含义、预设、言语行为和会话结构几个部分。[13](13)这些要素并不是完全独立的,在自然交互的过程中,不同的要素不断交互,表现为一定程度的交织样态。语用学的框架为分析基于自然语言的自然交互提供了一个有益的框架。在此,本文借助这一框架,将自然交互范式构造下的媒介实践分为媒介与用户的双向认知(对应预设)、媒介的用户场景解析(对应语境)、媒介与用户的会话协同(对应指示词语、言语行为与会话结构)三个部分进行分析(见图1)。
1. 媒介与用户的双向预设:将用户(媒介)介绍给媒介(用户)
预设指言语交际过程中说话人对听话人和自己已有知识的推测,是说话人认为听话人听到话语之后总能根据语境或常识等推断出来的信息。[14]比如“丈夫”或者“妻子”在作为指示词使用时,其假设是对应人物已婚。基于自然交互范式,用户与媒介交流过程中的预设,呈现为媒介对用户的预设以及用户对媒介的预设,这两种预设均在交互过程中发挥作用。
(1)媒介对用户的预设。媒介对用户的预设主要是指在会话开始之初(或在媒介执行任务之前),媒介基于生成式人工智能技术的自然语言处理功能,确定针对每一位用户的内容生成、资源匹配策略,从而实现自身对交互过程与使用者的预设。媒介对用户的预设通常涉及对用户兴趣、需求、知识结构、文化背景等方面的假设。诸多生成式人工智能应用已经做出尝试。比如GPT-4的“Custom instruction”功能允许用户自行介绍自己,并说明希望GPT扮演何种角色以及如何响应。这种预设会体现在用户设置后的所有对话之中。此外一些应用也尝试以问答的形式来获取更多用户数据,形成对用户更个性化、多维化的认知,比如百度的文心一言大模型就采取了问答形式,通过基本的设问获悉用户使用习惯与偏好。
目前,媒介对用户预设的实践仍然不够成熟。一方面,仅仅基于文本或语音模态信号进行分析精确度有限。比如仅依靠文本交互很难准确判断用户的性别、年龄、文化背景等特征,这与人类交流中依靠多模态信息的融合来构建印象相去甚远。未来人工智能在接入三维数字虚拟空间的交互情境后,有望获得更多的识别信号,从而生成更为细腻的内容和服务响应。另一方面,大模型需要哪些用户数据,如何对用户数据进行维度化和结构化,如何使用户更轻松有效地告诉大模型“自己是一个什么样的人”,这些问题仍然有待相关理论与技术的进一步探索,比如需要考虑不同用户群体(如老年人、儿童等)数据采集方式的问题,以及不同文化背景的用户会侧重关注哪些方面的自我信息等。
(2)用戶对媒介的预设。用户在与媒介交互时,也会基于自己的经验和认知,对媒介可供性、价值倾向、交互方式等形成预期和预设,并相应调整自己的交互策略。例如,首次使用智能助手聊天机器人的用户可能会默认其只能进行有限的问答,不具备复杂交流的能力。这种预设会导致用户选择简单的提问方式。经过一段时间的互动后,用户发现聊天机器人可以进行更深入的讨论,他们的提问才会逐渐变得更开放和复杂。
学界对这种预设的研究可以追溯至用户对计算机的社会反应。比如早期部分学者认为拟人化是个体对计算机反应的重要机理。这一观点认为个体会在本质上认为计算机是人类,即将计算机“拟人化”,因此用户在与计算机交互时会使用人类社会的交往规范。[15]其后著名的“计算机为社会行动者”范式(the computers are social actors paradigm, CASA)也在诸多实验证据的基础上表明,个人会无意识地将社会规则和期望应用于计算机,例如性别刻板印象、种族认同、礼貌、互惠、认知承诺、个性尊重等。[16]这些研究都指向这样的结论,即用户在与计算机交往时,即使其不具备自然交互的特征,用户也不仅仅将其视为无社会属性的机器,而是在无意识中形成某种预设。
进入生成式人工智能技术时代,一个十分显著的特征是自然交互范式赋予媒介以具身性的功能角色(见图2),目前有关具身角色的媒介实践呈现为两种思路:
一是媒介应用自身作为具身角色。比如字节跳动的豆包、小米的小爱同学(大模型版)、接入大模型的游戏NPC等,它们直接利用大模型生成对话内容,赋予自身一个具体的角色属性。这可以帮助用户更好地建立对媒介的预设,增加交互的代入感。二是大模型自身作为工具并内嵌聊天机器人,这些聊天機器人绑定着具身角色。比如Poe内置的“Chat Assistants”,以及ChatGPT的“My GPTs”都允许用户使用已经设计好的具身角色或自行创建具身角色。这些聊天机器人配合大模型生成对话,同样帮助用户建立预设。相较于没有具身角色的自然交互,具身角色更有利于减少用户的使用门槛,引导用户形成对会话有建设性的媒介预设,从而提升用户体验。
2. 媒介的用户场景解析:通过场景匹配、应用开发、嵌入系统形成会话语境
语境即“运用自然语言进行言语交际的言语环境”。索振羽将语境划分为三部分,分别为:上下文语境,即存在于语用上下文中的语言因素;情景语境,即除了语言因素外的非语言因素;民族文化传统语境,该语境关注历史与国族方面的因素对语言交际的影响。[13](23)语境对于有成效的会话极为重要,它蕴含着对应语境下的行动框架。个体基于既往社交经验发展出了常见序列行为的知识结构,并将其保留在记忆中。一旦遇到类似情境,这些社交脚本就会被激活,[17]从而指导用户的会话实践。因此,清楚的语境可以帮助生成式人工智能更好地预测用户意图,做出符合预期的回应。否则就可能出现脱离语境的回答,降低交互效率。
目前诸多媒介实践是围绕解析用户的会话语境而展开的。其中,上下文语境包括对时空特征、主题、文化背景、参与者角色的构建,主要依赖于用户的提示词和会话历史而形成;民族文化语境依赖于预训练过程中对用户认知偏好相关语料的训练以及会话过程中对用户特征的识别。相较于前两者,依赖于非语言要素的情景语境是解析用户会话语境的难点,目前的媒介实践呈现为以下几类。
(1)基于专用型媒介所对应的场景形成会话语境。这是一种较为简单和粗放的路线,不涉及用户场景性数据的读取。比如基于生成式人工智能技术的游戏NPC就能准确地匹配其扮演角色和所处情景,与玩家形成会话,为玩家提供沉浸式游戏体验。基于生成式人工智能技术的导购机器人也可以根据自身所处的时空特征为用户提供精准推荐服务,提供更人性化的沟通方式。
(2)媒介接入专用型插件(应用)读取场景数据。通过开发插件,媒介能够直接匹配用户场景,并获取更多细粒度的数据。比如ChatGPT-4已经支持以购物、餐饮、学习为目的的插件;百度的文心一言大模型也正在创建插件生态,提供可视化界面和API接口,支持开发者进行自定义模型与插件开发(见图3)。用户在使用专门型插件或应用的过程中定位自身情景,并通过行为数据反映会话语境,帮助媒介更快、更准确地解析所处的会话语境。
(3)将生成式人工智能技术植入计算机操作系统(或应用平台)采集场景数据。这一策略可以保障媒介读取用户场景数据的权限,并可以在对应功能场景下接入智能服务。采用这一路线的包括小米的“小爱同学”语音助手、微软的智慧办公应用“Microsoft 365 Copilot”、金山的智慧办公应用“WPS AI”等。
(4)媒介基于实时联网的响应。由于生成式人工智能技术的底层模型都由预训练完成,而会话语境往往具有即时性,因此实时联网有助于智能媒介识别会话语境。目前百度的文心一言通过接入百度搜索实现实时联网获取信息,ChatGPT以及NewBing亦接入Bing搜索等。
3. 媒介与用户的会话协同:多模态交互与提示工程
媒介与用户的会话协同主要涵盖了语用学的三个研究领域,即指示词语、言语行为以及会话结构。指示词语将具体的人物、地点、时间等信息简化,使语言高度凝练。[18]言语行为则是将指示词语组织成句进行发声发音、表意行事,并对会话主体产生影响。[13](152-155)会话结构涉及的是语言之外的对话组织方式,包括开头语、结束语、话轮替换,以及对话中的其他结构特征如插入序列、由受话者打断发话者话段引发的分岔序列、以及发话者自己的补救办法等。[19]媒介与用户的会话同样包含以上机制,自然交互范式下的媒介实践也按照以上类别机制展开。
媒介侧的媒介实践主要是基于多轮会话窗口形成的多模态交互方式。除了生成式人工智能技术深度模拟人类认知机制生成的文本模态外,媒介应用也在探索其他模态的交互。目前ChatGPT已经能够基于“VoiceOver”等插件实现与用户的高质量语音对话;自定义的GPTs允许用户上传自定义的图像作为头像,内置的DALL·E模型也可以帮助用户在任意对话中生成图像、读取图像,从而使基于ChatGPT的交互表现出高度的拟真度和拟人化。在未来,更多模态比如语音、语调、实时表情、动作、姿态等模态也有望成为会话的基础,并在多轮会话的机制下形成更加全面的可供性。
在这样的自然交互媒介界面下,如何使用语言或非语言符号有效表达需求是用户侧的关键任务,这一工作由于需要提供提示词,因而也被称为“提示工程”。提示工程直接影响交互的质量。如果用户提供的提示模糊不清,生成式模型就难以准确理解用户意图。反之,如果用户提示设计得当,能够充分利用语言和非语言符号传达自身目的,生成式模型就能快速捕捉其意图并作出正确回应。目前大多数用户尚缺乏提示能力,为此,一些自然交互界面也在探索辅助提示的功能设计,如显示历史提示、关联提示以及提示模板等。
时至今日,自然交互范式已经在智能音箱、智能客服、AI语音助手等媒介实践中得到彰显,但其本身仍不完善,需要在技术、法规、伦理、文化等诸多方面调试和落地。尽管如此,自然交互范式所具有的革命性的可供性为媒介融合发展提供了巨大的想象空间,其有望成为未来媒介交互的主流范式,突破现有媒介交互甚至是人际交互的局限,开创人类对外连接的崭新局面。
三、自然交互范式的实践进路:初期话语沟通,中期数据汇通,远期心智融通
本文认为自然交互范式至少存在初期话语沟通、中期数据汇通、远期心智融通三个主要的发展阶段。
1. 话语沟通:初期基于文本模态的自然语言,满足最基本的交互可供性
(1)自然语言具有基本的交互可供性。“可供性”概念在刚提出时强调环境的客观品质与生物行动的可能性之间的相互协调,[20]随着理论的发展,可供性已被延展到设计、媒介、新媒体等多个方面,而在自然语言交互中,语言这一承载内容的形式也为人类与机器之间的互动提供了广泛可能,体现出交互可供性。由于人类与机器的生理及机理构造不同、认知模式不同,人机交互存在障碍。随着技术的发展,人类与机器可以通过自然语言这一媒介,在交互中达到一种协同状态。自然语言以最基础通用的方式在界面中呈现,使人机交互成为可能,让其得以存在与赓续。
(2)语言交互是自然交互的早期和基础范式。话语沟通是人与机器交互的基础模式。在计算机刚问世时,冯·诺依曼所设计的人与计算机沟通的模式是机械地编码与解码自然语言的模式:人将自己想要传达的命令或信息以计算机指令语言的方式表现出来,输入计算机,计算机再对指令语言进行理解,形成二进制代码,从而执行相应的操作(比如运算或逻辑处理),输出以自然语言为表现形式的结果。尽管市面上已经涌现出各式各样能以不同形式感知人类、理解人类的模型,但直到现在,因语言独有的特征,最为人们所关注、使用的通用人工智能仍然是ChatGPT、Llama、Claude这种以提示词语言为交互纽带的模型。人机交互范式仍然以语言交互为主,这与人际交互的主要方式是一致的。
需要说明的是,基于文本模态的初期自然交互范式主要通过自然语言完成所有交互所需要素的设定,即用自然语言描绘所有的预设、语境、指示词语、言语行为……人类只有使用模块化的语言、精准的提示词才能达到交互目的。这也暴露了当前人机交互中自然语言交互的短板,即人类每次与机器展开交流时,都需要进行过于完整的、相对不自然的叙述才能实现对相应功能的调用,否则可能出现较大偏差。因此,初期的基于文本模态自然语言的自然交互范式表现为“可用”,而非“好用”,与用户熟悉的人际交流仍有较大差距。
2. 模态拓展与数据汇通:中期极大缩短人机协同的逻辑链条,实现人际交往的基本模拟
为了弥补媒介自然交互范式发展初期对人类交往的模拟不足,促使媒介产品从“能用”变为“好用”,自然交互范式在中期更加强调交互信息模态的拓展以及交互数据的融汇,以更加精确地识别人机交互环境中的非语言信号,从而极大缩短人机协同的逻辑链条,实现人际交往的基本模拟。
(1)话语沟通的局限性。除了自然语言交互在人机交互中体现出的不足,我们还需要认识到话语沟通模式本身的局限性——人际传播中的话语沟通应当是多感官、多模态的。语言符号学家艾伯特·梅拉比安为此提出了一个公式:传播信息达到相互理解=语调(38%)+表情(55%)+语言(7%)。[21]由此可知,目前人际交互中仅停留在界面上的文字式语言沟通,远远没有使人机交互达到充分理解的程度。尽管现在计算机领域已经开始关注语音识别的相关分支,如语音情感识别,[22]但目前在人机交互的应用中相关技术还略显单薄。交互的过程除了调动视觉与听觉外,还应存在其他的要素在其中发挥作用,如交互主体的姿态与动作可以调动触觉,具身交互可以实现更多感官的调动甚至是融合,感官的调动激发又与主体内生的情感、所处的外在环境相联系,这些都为人机交互未来的发展提供了可能。
(2)拓展交互模态。媒介在人机交互发展中期需要拓展更多的交互模态以输入更多要素、产生更细腻的连接、形成更高水平的可供性。在这一层面,技术需要对自然交互中的情绪进行拆解,通过面部表情特征提取、语音情感特征提取等技术,完成对多模态情感的识别;[23]同时,需要对自然交互中的非语言符号进行拆解,通过人脸跟踪、姿态跟踪、语音识别等技术,[24]最大限度地理解用户在交互中传达出来的有意识或无意识的信息。最后,机器需要通过特征级融合或者决策级融合或者混合融合的方法,完成对人机交互多模态信号的融合,以实现数据的整合分析,[25]得出更加精准的分析结果并以恰当的方式输出,从而使用户与人工智能能够进行更加深入的交互。
(3)通过数据与算法的融汇极大缩短人机协同的逻辑链条。有学者结合语义三角形模型,提出了基于语义三角形的自然人机交互模型。[26]如图4所示,用户与计算机具备相同的概念体系,并且计算机能直接完成对用户界面设定的符号表示(LH)或具象呈现(OH)的识别,并将其转化为计算机概念(GC)。
实现如上交互方式的重要前提是实现人机交互的概念共享、认知共通。首先在大模型的产业层面,用户或模型训练者需要提供非常充沛的、专业的预训练材料,完成大模型或者机器本身对场景、语境、社会惯习、社会文化等非言语符号的认知塑造,从而避免用户在交互时对机器进行背景阐述或角色塑造。此外,目前OpenAI、Meta、Google等互联网公司都在改进并创新运用微调、神经网络、强化学习等多项人工智能技术,投入制作插件与AI原生应用的工作中,完成对大模型的拓展,以进行更高效更自然的信息读取与理解,甚至形成对用户的个性化感受。
自然交互范式中期发展本质上是对人类交往方式的进一步模拟,正如熟人彼此交谈一般不需要问及各种细枝末节的预设或情景信息,处于自然交互范式中期的用户与媒介交往也将不再依赖繁重的提示工程,而是媒介能够敏锐地捕获用户多模态的、内隐的非语言信号,促使人机协同的逻辑链条进一步缩短,人机协同的体验进一步趋向人际传播或人际交流。
3. 心智融通:超越语言局限以触达心灵
即便基于自然交互范式的人机交往能够不断接近人际交往的自然体驗,但其始终存在一个根本性问题——就如人际交往一般,交往主体在充分交流后可能依然难以理解彼此。这是由于语言本质上并不能完全反映心灵,这就容易导致同一指示物在不同的交互体系下有着偏离甚至相反的指称,或者在同一环境下,一种指称可能指向多个指示物。同时,语言是片面的,自然语言对话反映了一个人的结构,但它无法支撑起一个人的完整角色,[27]这加大了人被误解的可能。这种情况在人际传播中非常常见,会引起传播失效。
目前的人工智能从本质上来说是一种基于概率的很生硬的智能,而人类智能是一种相对比较精致、细腻、复杂的智能。不论是人类智能与人工智能之间的交互过程,还是从人工智能过渡到人类智能甚至更高维度的进化,都缺少了一个中间态的、连接与调度的接口,这个接口决定了人类如何调度和使用机器智能。
因此,媒介或人工智能仍然需要一次重要的技术革命,以实现人与机器的“心有灵犀”。这种技术革命需要一种全新的、呈现为硅基文明的技术基座,而不是简单地运用通过计算和概率实现的大模型。有研究认为,信息作为高层次基础的感受性关系,是智能的根本基础。[28]因此我们可以设想,在硅基文明创造的赛博格世界里面,人类可以完全摆脱身体束缚,接入网络系统,一切都是信息的传播,[29]一切也都成为数字化的意义交换、心智流动。此时,在与硅基系统持续不断的适配过程中,生命的“含硅量”不断上升,[30]人机融合的形态逐步浮现,智能成为人类的延伸。
在通用智能、赛博格化的世界,人类智能与人工智能的相互作用完全可以如现实一般,甚至因为新技术突破了交互形式的局限而超越现实,以数字化的心灵相通达到心流状态。[31]硅基智能的最大优势是碳基智能无法比拟的进化速率,[28]因此人类与人工智能心智融通的时候,时间是非常短暂的,但由于用户极其投入在这种状态中,所以感觉不到时间的流逝。从这层意义上讲,用户心流状态可以作为一个心智融通状态的关键评量指标。
结语
伴随着生成式人工智能技术的迅猛发展,传统人机交互中广泛排布的控件、模块乃至图形交互界面逐渐被消解,自然交互范式被引入人们的媒介生活,通过多模态的感知、智能代理交互、知识处理、可视化的显示,机器与人类已经几乎能够实现与人际传播同等维度的交互。[32]“非受限性”成为新型人机交互技术的主要特性,即机器给人以最小的限制并对人的各种动作做出反应,人是主动参与者,可以自由地操作机器,就像日常生活中人与人之间的交流一样自然、高效和无障碍。[33]这是媒介交互范式的重大进步。
这种媒介交互范式的革命将驱动整个媒介生态和人机关系的改变。正如麦克卢汉将媒介称作“人的延伸”,媒介是人类对外实践的中介,当中介的模式从图形控件交互转变为自然交互,这意味着人机交流与协同走向全新范式,意味着筑建于原有范式基础上的传播样态、人机关系也将迎来嬗变。在这种变局中把握人机关系,把握媒介演进的关键逻辑,将成为未来传播研究的重要课题。
参考文献:
[1] 董士海. 人机交互的进展及面临的挑战[J]. 计算机辅助设计与图形学学报,2004(1):1-13.
[2] 马卫娟,方志刚. 人机交互风格及其发展趋势[J]. 航空计算技术,1999(3):16-20.
[3] 喻国明,苏健威. 生成式人工智能浪潮下的传播革命与媒介生态——从ChatGPT到全面智能化时代的未来[J]. 新疆师范大学学报(哲学社会科学版),2023,44(5):81-90.
[4] 史安斌,刘勇亮.聊天机器人与新闻传播的全链条再造[J]. 青年记者,2023(3):98-102.
[5] Glonek G, Pietruszka M. Natural user interfaces (NUI): review[J]. Journal of Applied Computer Science, 2012, 20(2): 27-45.
[6] 范俊君,田豐,杜一,等. 智能时代人机交互的一些思考[J]. 中国科学:信息科学,2018,48(4):361-375.
[7] 维特根斯坦. 逻辑哲学论[M]. 贺绍甲,译. 北京:商务印书馆,2019:132.
[8] 郭全中,袁柏林. AI能力新突破下的AIGC:内容生产新范式[J]. 青年记者,2023(13):66-69.
[9] 陈嘉映. 语言哲学[M]. 北京:北京大学出版社,2003:184.
[10] 崔凤娟,苗兴伟. 语用学的哲学维度[J]. 外语学刊,2007(4):67-72.
[11] 盛晓明. 话语规则与知识基础——语用学维度[M]. 上海:学林出版社,2000:87-88.
[12] Valli A. The design of natural interaction[J]. Multimedia Tools and Applications, 2008, 38(3): 295-305.
[13] 索振羽. 语用学教程[M]. 北京:北京大学出版社,2004.
[14] 北京大学外国语学院语言学研究所. 语言学研究(第三辑)[M]. 北京:高等教育出版社,2004:67.
[15] Stephen·R. Barley. The Social Construction of a Machine: Ritual, Superstition, Magical Thinking and other Pragmatic Responses to Running a CT Scanner[M]//Lock M, Gordon D.Biomedicine Examined. New York: Springer, 1988: 497-539.
[16] Nass C, Moon Y. Machines and Mindlessness: Social Responses to Computers[J]. Journal of Social Issues, 2000, 56(1): 81-103.
[17] 徐琦. 超越“计算机为社会行动者”范式:智媒时代人机传播理论创新的突破点[J]. 现代传播,2023(6):160-168.
[18] 劉森林. 语用策略与指示词语[J]. 解放军外国语学院学报,2004(6):21-24.
[19] 祝畹瑾. 社会语言学概论[M]. 长沙:湖南教育出版社,1992:173.
[20] Gibson·J. J. The ecological approach to visual perception[M]. Boston: Houghton Mifflin, 1979: 127.
[21] Mehrabian A, Ferris·S.R. Inference of Attitudes from Nonverbal Communication in Two Channels[J]. Journal of Consulting Psychology, 1967, 31(3): 248-252.
[22] 王怡,王黎明,柴玉梅. 融合多特征的语音情感识别方法[J]. 小型微型计算机系统,2022,43(6):1232-1239.
[23] 何俊,刘跃,何忠文. 多模态情感识别研究进展[J]. 计算机应用研究,2018,35(11):3201-3205.
[24] 杨明浩,陶建华,李昊,等. 面向自然交互的多通道人机对话系统[J]. 计算机科学,2014,41(10):12-18,35.
[25] 张亚洲,戎璐,宋大为,等. 多模态情感分析研究综述[J]. 模式识别与人工智能,2020,33(5):426-438.
[26] 刘胜航,陈辉,朱嘉奇,等. 基于语义三角形的自然人机交互模型[J]. 中国科学:信息科学,2018,48(4):466-474.
[27] Gaines·B. R, Shaw·M. L. Foundations of dialog engineering: the development of human-computer interaction. part ii[J]. International Journal of Man-Machine Studies, 1986, 24(2): 101-123.
[28] 王天恩. 论广义智能进化[J]. 江汉论坛,2023(4):5-12.
[29] 刘海龙. 传播中的身体问题与传播研究的未来[J]. 国际新闻界,2018,40(2):37-46.
[30] 刘涛,汤志豪. 死亡的媒介化配置:赛博格与数字资本主义的生命政治[J]. 湖南师范大学社会科学学报,2023,52(3):112-122.
[31] Csikszentmihalyi M, Csikszentmihalyi·I. S. Optimal experience: Psychological studies of flow in consciousness[M]. New York: Cambridge University Press, 1988: 3.
[32] 袁保宗,阮秋琦,王延江,等. 新一代(第四代)人机交互的概念框架特征及关键技术[J]. 电子学报,2003(S1):1945-1954.
[33] 杜广龙. 面向多自由度机器人的非受限智能人机交互的研究[D]. 广州:华南理工大学,2013.
Media's Natural Interaction Paradigm and Practical Approaches in the Generative AI Era: An Analysis Based on the Perspective of Pragmatics
YU Guo-ming, SU Jian-wei, HUANG Zhe-hao(School of Journalism and Communication, Beijing Normal University, Beijing 100875, China)
Abstract: An important characteristic of the generative artificial intelligence era is that natural interaction is gradually replacing graphical control interaction as the mainstream paradigm in human-computer interaction. Its impact on media communication lies in enabling media to transcend the realm of personalization and form resource aggregation when intricating connections with users based on highly granular needs on the one hand; on the other hand, allowing interaction paradigm media to integrate seamlessly into user contexts. There are three main stages for the development of natural interaction paradigm: initial discourse communication, mid-term modality expansion and data convergence, as well as long-term mental integration, which is essentially a process for the natural interaction paradigm evolving from simulating human communication to transcending it.
Key words: generative artificial intelligence; human-computer interaction; natural interaction; media practice