重思对话:智能传播背景下人机语言交互中的“对话”赋能

2024-08-13 00:00:00高贵武刘亚龙
新闻爱好者 2024年7期

【摘要】人工智能技术的发展,将我们带入了一个智能传播的时代,智能传播中的人机语言交互丧失了有关“人”的因素之对话本质的思考,学界亦存在对人机“对话”一词的误解和误用。基于此,应以语聊机器人的现状分析作为研究基础,站在人文主义的新起点上,重思人类对话的内涵特性,总结机器主体的“对话”桎梏。最终通过回望柏拉图、巴赫金、海德格尔等人的研究理路得出,只有重归人类对话本身,借助对话的力量赋能人机语言交互,才能让用户最大限度地体察到“交流感”与“对话感”,促使人“感同身受”地接纳AI与技术合成语音。

【关键词】智能传播;人机语言交互;对话;人机“对话”;“对话”桎梏

一、问题的提出

人工智能技术的发展已将我们带入了一个智能传播的时代。在智能传播时代,人与机器、人工智能技术与传播系统相互融合,但是这种融合并非简单加减,其背后存在诸多未知性与风险性,对人及“人”的因素形成诸多挑战与阻碍。智能传播发展至今,其传播主体越发丰富,不仅在传统广电媒体中出现了“康晓辉”“AI王冠”(中央广播电视总台)和“小漾”(湖南卫视)等虚拟主播,而且在直播平台上也涌现了由ChatGPT模型接入的虚拟数字人“朏朏”(天娱数科)、直播带货数字人“冬冬”(阿里巴巴)等。2023年2月,微软推出一款由ChatGPT驱动的聊天机器人Bing Chat(必应聊天),但很快就在与用户的聊天中翻车,该机器人在聊天中不断重复“我是,我不是”等胡话,甚至前言不搭后语,面对用户的日常提问,输出“怂恿记者离婚”等怪诞内容。随后,微软以最快速度控制Bing Chat,并通过检测异常的方式直接切断其与用户的聊天。因此,诸多网友对ChatGPT等聊天机器人表示质疑,认为大部分聊天机器人容易陷入“精神错乱”,甚至认为OpenAI及其他科技公司的相关人员存在故意训练其学舌“左派”的非正常言论。

从现状来看,目前市面上的大部分聊天机器人仍未真正理解人类对话,尽管其声音的一切形式种类已经相当丰富。例如在音色上可以自由选择四郎音①、元气少女音、蜡笔小新音等,但依旧无法实现与用户(人)交流的自然化、流畅化、共情化等目标,并引起诸多用户的反感。当前的语聊机器人仍处在一种“论机器以形似,见于儿童邻”的阶段,并未习得对话神韵。即语聊机器人仅具备与人相似的声音,掌握人类语音及聊天的一切形式,但失却了人类声音与对话的自然性、情感性、辩论性、思想性等神韵。往往这些本质化的核心特性才是人类交流与对话的灵韵和本真,才能达到人机语言交互的理想状态,让用户体察到“交流感”与“对话感”,促使人“感同身受”地接纳技术与AI。

造成这一现状的原因之一在于:部分开发者对技术及其产物存在过度的迷思与崇拜,故而忽略了人文的力量和“人”的因素。因此,有关学者指出,“智能传播极大地‘剔除’了‘人’的因素,而且具有深入各类产品和服务的强大技术渗透性和扩展性,对人类生存方式和社会运行方式都将产生颠覆性影响”[1]。人机语言交互发展近20年来,研究者们仍主要关注以深度学习、自然语言处理等为代表的技术表象,而对包含“对话”与“交流”在内的“人”的因素并无更深入的观照。致使人机语言交互越发疏离“对话”的本质,脱离了最早有关人机“对话”的原意。因此,若想在一定程度上趋近于人类对话,实现AI与人的琴瑟和鸣、美美与共,就不能不从对话的追思入手,借此回望人类对话与人机“对话”的内涵、重思对话的力量。

二、“对话”与机器的“对话”力演进

“对话”作为一个广为关注的研究主题,曾在诸多社会学家、语言学家及哲学家的讨论中留下痕迹,最终在巴赫金的对话理论中被赋予了涉及人与社会的实际内涵。当前计算机科学界多引用“人机对话”②一词描述人机语言交互,但对于究竟什么是对话,以及对话的核心特性为何却无更进一步的深思熟虑。现有的人机“对话”则在一定程度上打破了涉及对话的原生标准,偏离了人机“对话”的原意,剥离了某些“人”的因素体现。社会是由人与人的对话和互动所形成的结构系统,对人类对话的深思既能赋能人与机器的语言交互,亦能帮助人类主体回视“人”的因素,促进人与机、人与人和人与世界的链接。

(一)对话及人机对话的内涵

对话理论的奠基者巴赫金最早从苏格拉底对话与梅尼普讽刺中思考对话的内涵,且希冀从历史、社会与互动中寻找到对话的源头、过程和意义。但发展至今,人文主义学者与计算机学者在对“对话”一词的理解上存在较大偏差。毫不夸张地说,计算机科学界对人机“对话”一词的使用与真正对话的原意背道而驰,在某种程度上是一种对真正对话的抛弃和否定。在巴赫金的定义中,对话是“日常生活的普遍现象,交际活动最根本的方式”[2]。而“对话交际才是语言的生命真正所在之处”[3]。对话作为一种人际交往活动,它反映和影响着人类关系的发展。若将对话的内容抽象出来,具体至对话的内部形式,则可将其对话结构关系概括为一种包含“同意或反对关系,肯定和补充关系,问和答的关系”[4]的综合体。目前的语聊机器人及其人机“对话”明显多停留在问和答的单一关系层面,从而剥离了另外两层关系结构。进入人工智能时代以来,由于人类身体的离场和具身关系的衍变,在很长一段时间里,人们一直模糊掉了交流和对话的概念,甚至直接将其等同,同时“又将对话当作治疗现代性病症的药方,然而这个药方本身却常常是那致病的病毒”[5]。如果仅用交流一词囫囵吞枣地描述人类生活和各类社会关系(包括人机关系在内),那么“人”的因素将悄无声息地离场,“非人”的因素将如滔滔洪水般汹涌而来。但实际上对话的要求远比交流更高,运用交流的概念来“搪塞”对话和人机“对话”是一种对人类活动的轻视。毕竟对话仅发生在人与人之间,而交流“并非人类所独有……是我们与动物、电脑、地外生命和天使之间的共享物”[6]。因此,从巴赫金、伽达默尔、马丁·布伯、海德格尔等人有关对话与交流的经验总结中可以得出:对话始终作为一种体现“人”之因素的社会交往活动,围绕对话主体——人而展开,具备主体间性、对话性、辩论性、关联性等多种核心特质。

在计算机科学界中,人机“对话”作为人工智能领域的重要研究内容,是人与机器的一种新型交互方式。人们通过计算机终端来使用机器,向机器发出指令要求,机器以“对话”的形式执行命令,就好像人和机器在“对话”。“人机对话系统的目标是使人机对话像人人对话一样有效、快捷和自然。”[7]参考计算机科学界对人机“对话”的定义不难发现,相关人员只是学习和依据人类对话的形式(或曰问答形式)将人机语言交互囊括为人机“对话”,但对人类对话的内涵和核心特性却并无更进一步的思考。需始终明确的是,机器主体只是一种对人类主体的模仿,实际上并非对话主体。尽管语聊机器人依靠人类主体而存在,但充其量只是一种巴赫金口中的“自我的客体化的事物”。因此,当前所谓的人机“对话”一词从内涵上来说“有名无实”,而只是计算机科学研究人员的误解和借用。但若真想视“对话”为人机语言交互的理想目标,促进和优化人与机器及人与人的互动,则需进一步厘清对话的核心特性,思考和化用对话的力量,使其无限趋近于“对话”的状态。

(二)对话的核心特性

在哲学中,对话通常被理解为一种交流和思想交换的方式,对话中的参与者将共同探讨和思考各种问题、观点和理念。在笛卡尔看来,语言应答能力测试和动作的多样性测试是人类和动物的分水岭。虽然技术之物“如鹦鹉可以清晰地模仿人类说话,但它们不能‘表达思想’”[8]。参考柏拉图、笛卡尔、本雅明、马丁·布伯、巴赫金等人的理解,对话是属人的产物,具备某些不可复制的核心特性,如主体间性、对话性、辩论性和关联性。在巴赫金看来,对话的基础条件之一是存在他者与他人话语,即在说话者(我)之外,还需存在另一个对话主体(人)。化用巴赫金的理解,“一个意识无法自给自足,无法生存,仅仅为了他人,通过他人,在他人的帮助下我才展示自我,单一的声音什么也解决不了,且难以形成对话”[9]。对话由自己(说者角度)与他人(对方)的表述构成,其形成必须依托于“我”和“他人”这两个人类主体来进行,且必须通过其间的思想交流活动反映两者的主体间性,形成各自言说的对话基础。因此,两个真正属人的有生命的声音和隐含其中的主体间性是对话的最低条件,亦是“生存的最低条件”[10]的哲学内涵。于对话性而言,对话性是叙事艺术的核心,是从人类对话中提取出来的本质性因素。对话性更多关涉对话的内容,强调对话内容本身需反映出可对话的价值。往往这一要求还与诸多哲学家所言之对话的“思想性”相类似,因为“说话人应该被‘艺术地’描绘出来而不是简单地传达出来和‘复制出来’……它是思想的载体”[11]。对话中的“一切话语都具有内在对话性,和对话的外在布局形式”[12],或可言正是对话性造就了话语和对话本身。对话性是巴赫金对话理论的中心,在其理论阐释中,对话性包含多个实质性的要素,如对话性关系、对话者、指向性、内部对话性完成过程等。

在《柏拉图对话录》中,柏拉图通过描绘苏格拉底与其他人之间的对话来表达他的哲学思想,对话的形式使得哲学观点可以通过不同人物之间的交流和辩论来呈现。柏拉图认为,对话是一种探索真理的方式,通过在对话中提出问题、辩论和讨论,人们可以更好地理解复杂的哲学概念。且对话结构本身即包含巴赫金所强调的“同意或反对关系”的原意,听者既可以通过回答理解和支持说者,也可以雄辩地说服说者。对话中的双方“应该较为全面而深入地提出一切言语交际领域中存在的他人言语的问题”[13],体现此类自由辩论关系的对话才是真正的对话,才能促进两个主体间性的相互作用和共同协作。除此之外,马丁·布伯将对话视作一种人际关系的核心,对话在布伯的哲学世界中被定义为一种交流方式。在他看来,对话不仅是思想交流的方式,也是人们之间建立联系和理解彼此的重要途径,理解言说者(人)的话语能在交流的过程中深化人与人的精神交往。与此同时,“人所经历的关系,乃是与生俱来的‘你’在相遇之人身上实现的产物……这一切都可用关系的先验前提来解释”[14]。总之,对话的主体、内容及形式与个人及外在世界的一切事物关系匪浅,对话中的一切呈现亦在有形与无形中与个人的形神气韵和对世界的理解相关联,即对话的呈现时刻“散发着各种样式格调的气息,与世界观方面的、流派方面的、社会方面的特定评价相联系”[15]。

一言以蔽之,尽管前人对对话的定义不尽相同,但他们基本都涉猎了对话特性之主体间性、对话性、辩论性与关联性等,其阐释活动也主要围绕这几点来进行。另外值得肯定的是,进入20世纪以来,所谓的人机“对话”在语言能力优化上确实存在诸多技术上的突破,其对人类语言和言说能力的理解亦实现了多个阶段的迭代升级。

(三)机器的“对话”力演进

在计算机学界中,人机语言交互涉及语音识别、语音合成、情感识别、对话系统等方面,其中,“对话系统过程一般包括自动语音识别、自然语言理解(或称口语理解)、对话管理、自然语言生成、语音合成五部分”[16]。进入数智时代以来,计算机科学界不再仅把人机“对话”(或称人机交流)视为一种语言上的交互,而是将其视作一种社会技能(社会互动),借此完成了对人机“对话”理解上的重大转变,实现了机器主体的理解力升级。自1966年发展至今,机器“对话”主体历经了从“对话智能体”(如人机“对话”软件“ELIZA”)到“涉身对话智能体”(如软件“房产经纪人”REA)再到“数智对话智能体”(如AI王冠、小漾)的更迭演进,并以此完成了从计算机科学到心理学[17]、从文本到图形、从一方到多方的技术革新和对“对话”的理解与把握。“数智对话智能体”指的是通过数字化技术和数据分析来获取洞察力和智能化决策的机器“对话”主体,是智能传播中的传播主体之一。在对“对话”的理解与把握上,相较于早期的“对话智能体”与“涉身对话智能体”而言,广泛应用于传媒领域的“数智对话智能体”在语音延迟和语音情感识别方面有所完善,另外还加入了对副语言信息的研究。其在语音延迟上主要通过两种方式优化设计,一方面研究流式语音识别,边听边识别;另一方面研究非自回归语言识别,摆脱解码时序依赖以加快识别速度。在情感识别方面,先进行特征提取,再进行分类器设计的方式优化情感因素,但在特征提取阶段仍依赖于前期人工设计的与情感相关的声学特征。

尽管改善语音延迟和语音情感识别已让机器主体在人机语言交互上大有提升,但以“数智对话智能体”为代表的机器主体仍无法与巴赫金所言之“他者”相提并论,其交互方式和语言理解相较于人际沟通而言更多只是照本宣科、生搬硬套。概言之,尽管技术的创新已为人机语言交互带来诸多收益,但“人”的因素和对话因素的离场已为人机“对话”埋下更大的社会隐患。因此,若想在智能传播时代实现自然化的人机语言交互,则需结合对话的真正内涵,挣脱人机语言交互中的“对话”桎梏。

三、“对话”桎梏:人机语言交互中的无言、和声与失联

对于智能传播与语音合成技术而言,需始终强调的是,智能传播时代中的“一切人造物(包括有形和无形)都是技术……一切技术都是文化”[18]。总的来看,目前有关人机“对话”的关注欠缺涉及社会文化与人类对话本质的“预习”和考量,有关人机语言交互的数字事故正在不断上演,相关技术的革新难以满足人类对话主体的其他精神需求。对数字技术的过度迷思和崇拜已然背离了柏拉图、巴赫金和马丁·布伯等人对人类对话特性之对话性、辩论性与关联性的强调。

(一)无言:工具理性影响下的真空式答复

1950年,图灵在《计算机器与智能》一文中提出用人机“对话”来测试机器的智能水平。针对当前的人机“对话”现状,不管是任务驱动的限定领域对话系统还是无特定任务的开放领域对话系统,从生成内容来看,机器主体多立于工具理性的视角,陷入真空式答复状态,输出失却“对话性”的浅层语音。这一点尤其体现在以人机合作类视听节目、AI直播带货为代表的一对多式人机“对话”场景中。探讨语言与对话,可以通过工具主义理论(工具观)与建构主义理论(建构观)两种视角展开。工具观对应作为工具的语言与对话,建构观即认为语言与对话不仅作为某种工具式的衍生品来表象事物,相反,语言和对话构成了事物(包括人在内)的意义和现实性。可见,人类的语言和对话本身具备一定的创造性,且无时无刻不影响着对话的接续展开和话语意义的生成。但当前的人机“对话”多基于工具观的视角视技术、语言与对话为工具,技术合成语音作为工具的产物,具备明显的“物”性,与对话中的“人”性——对话性相对立。换言之,正是因为建构性对话的存在,人类主体的对话性才有枝可栖,人类才得以借助对话时刻确证自身的在场。于用户而言,当前的技术合成语音仅具有直观、简单的使用价值(给人提供答复),并无任何引导继续“对话”的对话结构。该对话结构可类比接受美学所言之“召唤结构”,即在人类的对话中,话语本身就存在或多或少的召唤听者去对话的欲望和结构,也即巴赫金对话理论的核心——对话的对话性(或可言“可对话”性)。而工具理性的思维和真空式答复的存在则在一定程度上消解了对话的核心特征之对话性。

因此,当前的机器语音更像是一种毫无生机趣味的真空式答复,对话性的因素在其中无法寻找到生存的养料和栖息的空间,机器答复的生成往往直接伴随着某一话题的中断,从而使得“对话”的另一方——人被迫陷入“无言”的状态。例如冬奥数字人“冬冬”在采访武大靖时,有关“冬奥期间最难忘的事儿”“头盔上的图案为什么选择华夏战神孙大圣”“金墩墩拿回家会放在哪里”等一系列采访问题,“冬冬”似乎仅设定了单次问答结构,每当武大靖对一个问题作出简略且意犹未尽的答复后,“冬冬”却直接跳转下一个话题,全然不给对方留下继续“对话”的机会和空间。与此同时,此类令人“无言”的状态也直接暴露出了“机器所存在的系统设定的‘自我主义倾向’,此类‘自我主义倾向’也会诱导受众在工具理性的思维定式中像机器一样思考,频繁陷入‘被编程的自我意识’之中”[19]。在这一过程中,人类的对话欲望会越来越小,人对机器的印象也将越来越差。机器的这一倾向不仅是对人类对话的漠视,还会对用户(人)造成误导,使得对话中的一切“人”性逐渐被“物”性和“机”性所取代。

(二)和声:问答关系影响下的自证式陷阱

海德格尔曾在《论媒介》中以“在手性”和“上手性”来剖析技术,并用“显著性”“突兀性”和“不可回避性”来描述上手之体验,“在手性”对应工具的用具属性与故障的发生,技术完美主义则指向“上手性”的狂热追求。在“上手性”的追求浪潮中,计算机研究人员希望机器完全按照人的模样去发展(包含人的对话在内),但似乎对于巴赫金所强调的对话结构关系之“同意或反对关系”“肯定和补充关系”以及“问和答的关系”却存在较为单一片面的理解,使得机器多陷入同意、肯定和答复的状态。毕竟AI自诞生起就是作为为人提供服务的语音助手而出现,只需针对用户的问题提供包含肯定和同意倾向的满意答复。因此,市面上的大部分语聊机器人似乎全然不敢表现出否定和追问的举止。而仅当机器的答复“在手”时、发生故障时,人才会意识到这一关系的问题所在。也即海德格尔所言,至此,“事物会失灵,会崩溃,它原本顺手的、具有上手性的正常功能会被打断,仅在这时,他才会成为在手的”[20]。

2023年,马斯克旗下公司xAI推出一款名为Grok的语聊机器人,并声称经过训练的Grok拥有“一点叛逆的性格”,会自主拒绝回答某些不想回答的“尖锐问题”。但尽管如此,X(原名Twitter)上的部分右派人士仍抱怨其不那么叛逆,对部分明显判断失误的敏感问题(如种族歧视、性别歧视等)仍始终附和用户保持相同观点。故而目前的人机“对话”更像是一种人对机器的“训话”,人在潜移默化中将机器圈禁在对自己的肯定与认可当中,从而去掉了机器任何有关异议的倾向。一方面,驱使人类主体在“对话”中陷入一种没有说服力的自证式陷阱;另一方面,也使得机器主体在发展同意、肯定与答复的“征途”中迷失了“对话”的方向和指引。具体至人机合作类视听节目中,作为“对话”主体的智能机器似乎是人类对话主体的另一种附庸物,人对机器的过度提问(往往是设问的形式)导致机器之音时刻作为人类语音的某种“和声”,人对机器的持续训话使得人机“对话”陷入“异口同声”的僵局,从而淡化了人类对话特性之辩论性的呈现。例如在人机合作类视听节目《你好,星期六》(原《快乐大本营》)的元旦首秀中,主持人对数字人“小漾”发出连环设问,“小漾你是我们的实习主持人对不对”“你会努力学习的对不对”“你想学什么呢,是认真学好普通话的态度对不对”[21],一连串的提问直接暴露出机器主体的附庸式存在和人类主体的“自证式”陷阱。

(三)失联:技术“次反映”下的不对称现象

由于智能机器的背后依然是人在操作,人与机器之间看似可以搭建起某种对话的桥梁,但是技术始终作为理解人类话语的中介而存在,技术合成语音在本质上不同于人的语词与对话。而“在某种较难理解的意义上来说,语词几乎就是一种类似于摹本的东西”[22]。语言是人类原型的摹本,是人心灵与欲表达之冲动的载体和反映,是理解得以完成的形式。语音合成技术以人类语言为样本,是人类原型与欲表达之冲动的反映(即语言)的反映(即次反映),遂与真正的语言和对话关联甚少或者毫无关系。在此前提下,以次反映为特征的语音识别在理解人类对话的过程中引发了“对话”的不对称现象,从而与“对话”对象和上下文失联。这一不对称现象可以类比海德格尔在论媒介时所提出的技术“去远性”,不对称现象和“去远性”的到来在某种程度上意味着与对话特性之关联性的失联。

2018年,新华社和搜狗在乌镇峰会现场发布的全球首个AI主播在交流中误将阿里巴巴创始人马云的名字“Jack Ma”误读成了“Jack Massachusetts”。原因在于语音合成系统在读到这部分文字稿的时候,并未联系现场的对话情景及对话上下文对该词进行分类,便简单判断“MA”两个字母为美国马萨诸塞州的缩写。随之,以CNN、BBC、The Verge等为代表的国外媒体曾对此进行多番冷嘲热讽。尽管过去了多年,此类挑战人类底线的数字事故仍在不断上演,同时遭到了人类的抵制与反感。2023年5月,超过350名AI行业的高管及行业领袖等共同签署了一封联名公开信,恳请社会阻止此类人工智能技术继续毁灭世界。基于此,目前人机“对话”中的“不对称”表现主要可以概括为“对话”对象不对称与上下文不对称两个方面。“对话”对象不对称主要发生在一对多式人机“对话”中。在一对多式人机“对话”中,说话对象的变化影响着“对话”风格的变化,而在目前的人机语言交互中,机器本身面临“一仆多主”的现状,智能机器在“对话”中容易陷入“六神无主”和“对空言说”的境地,故多存在言说对象不明确与不对称的隐患。此外,目前的大部分机器回答多是在问题分类后直接从数据库中提取,且每次提问均重新重复该过程,较少联系对话的上下文和对话的情景对容易产生歧义的问题作出分类答复,致使机器生成话语存在言说内容无价值与上下文不对称的嫌疑。

概言之,由于未理解对话的实际内涵和进入对话的真正状态,计算机只是在模仿人类的对话行为与形式,“ChatGPT也只是在大数据的基础上对人类行为进行模仿,但并未真正理解对话的内容和本质”[23]。而若想通过有效的人机交流优化人与人的沟通、深化人与机器和人与人的联系,则必须持续回望对话本身,借鉴对话的力量赋能人与机器的语言互动,缓解人机“对话”中的一系列技术桎梏。

四、以对话的力量赋能人与机器的语言交互

“智能传播涉及三种新的人机关系:人机协同、人机交流与人机共生。”[24]智能传播中的人机交流研究不仅需要创新以自然语言处理和神经网络分析为代表的技术基础,还应关注包含对话内涵特性在内的其他“暗物质”补充。即“在思考已有的技术基础时,计算机科学界研究人机对话应以人类对话为模本,回归到‘对话’本性的反思上”[25]。尽管按照柏拉图、巴赫金等人的理解,人机语言交互已然不能发展成为真正的对话,但是人类对话的某些核心特性和对话灵韵亦能为缓解人机语言交互中的问题提供本质上的参考与帮助。

(一)创造对话中的召唤结构

本雅明曾经多次提醒大众应时刻注意文化的细腻本体,要培养在其具象化的过程中所体现出来的对微小变化具有的敏感性。在此前提下,从细微处着手关注对话的本源、冲动与结构具有深刻的意义。沃尔特·翁曾经提出人类语言的分析性,认为“在一定程度上可以说,一切语言和思想都具有分析性,因为它们把结构紧密的经验连续体分解开来”[26],也即人类话语本身具备明显的可分析性,这一分析性会在不知不觉中将听者带入一个思考的世界,且因循思考活动的展开催生后续的对话冲动。因此,为改善人机“对话”中的“无言”窘境,可以借鉴学习巴赫金对对话指向和对话性的深入阐释,从说者对听者的预测、听者的统觉背景、尾白三个层面细化对话的内部构成,最终在机器生成话语中创造对话召唤结构,体现人类对话的核心特性之对话性。对话性的指向一定是一个往返程的指向,说者和听者(可以是机器)在其中应就某一话题来回穿梭、反复“对话”。

首先,应帮助机器加入说者对听者的预测环节,这一尝试类似于帮助机器主体构建某种“期待视野”③和预测对话中的“隐含的听者”,再根据用户的不同背景切换合适的回答方式和话语效果,且在这一过程中始终保留回答和反驳的“权力”。其次,应补充听者的“统觉背景”。巴赫金将这一“统觉背景”称之为“一种指物的表现背景,包含两个方面:一是社会上各种不同意见、观点、评价,用各种话语复合而成的对某一事物的指向,或叫定义;二是具体语境中,给定的表述的语言意义,两者合起来,成为听者对理解该事物的背景知识”[27]。简而言之,即通过各类方式扩大对事物和话语本身的理解,通过定义指向和具体语境指向给予听者更多思考空间和对话空间。最后于尾白而言,巴赫金的原意是指“说者话语中对听者答话的指向,而听者的答话是说者话语的衔接”[28]。机器的生成语音既要在一定程度上包含对听者答话的指向,也要在每一次对人的答复中衔接好人的答话,这样一种循环的“对话”结构才是完整的“对话”表述。通过对以上三者的思考补充或许可以改善概率化的隐患,优化人机语言交互中的反馈机制,为机器语音嵌入和创造对话中的召唤结构,唤醒听者(人)的对话冲动,划破人机“对话”中的真空式答复空间。

(二)构建机器追问的辩论基础

“当人工智能技术演化为一种非正式权力,甚至有可能透过‘用技术言说’的方式带来异化时,需通过交往理性与人文价值等正式权力来矫正技术导致的越轨行为。”[29]面对机器对人类对话特性的消解和当前人机“对话”所呈现出来的“和声”境况,我们可将对话特性之辩论性视为一种抵制易形技术文化的方式,从机器提问和追问的过程中构建人机“对话”的辩论性基础。需加以说明的是,构建辩论性的前提基础是发现问题、提出问题,这一声明要求人机语言交互转而关注对话结构中的“反对关系”与“补充关系”。强调对话中的辩论性并非引导人与机器陷入人机纠缠甚至是人机对峙的僵局,而是期望通过机器主体的提问反馈激活人机语言交互,避免人们陷入自我言说和自问自答(以设问为主)的尴尬局面。

在伽达默尔眼中,提出问题比回答问题更加困难,提问本身代表着某种话语权的过渡,有效提问意味着有效对话的展开。进入数智时代后,一方面,此处的提问应更多强调机器主体对人的追问,而非任务型提问或设问式提问;另一方面,任何提问和追问都应具有开放性,“提问就是进行开放”[30]。但问题的开放性又非无边界,其中包含了“由问题视域所划定的某种界限,没有这种界限的问题乃是空的问题”[31]。机器提问的开放性和边界感主要体现在外部知识的输入输出上,“被提问东西的开放性在于回答的不固定性,被提问东西必须是悬而未决的,才能有一种确定的和决定性的答复”[32]。伽达默尔所言之不固定性和悬而未决可类比中国传统美学中的“言外之意”与“韵外之致”。“状难写之景,如在目前;含不尽之意,见于言外”。提问中的似说非说之意和意犹未尽之感(与前文所提到的巴赫金所言之“尾白”和“双边性”相关联)亦为持续性的人机语言交互留下了无限的想象空间和“对话”空间。因此,可在智能体的“对话”管理中嵌入“言外之意”的外部知识参数,以此完成提问机会的过渡和提问基础的构建,收获自然“对话”的“韵外之致”,体现人类对话的辩论性。与此同时,需要注意的是,在为人机“对话”交换问答角色和补充有关反对、补充和提问的关系结构时,也需要及时规避机器出现“反客为主”的倾向和其他一切越轨行动,避免机器进一步驯化人类主体,奴化人类的“人”的因素。

此外,需要确证的是,即使对技术的极致追求和对机器的人性化完善会给人类带来一定的威胁与挑战,但人类始终不能也无法抑制技术的突破,“比野蛮人破坏机器的任何行动更可悲的是野蛮人转移人类发展动机的威胁……是对于促成主要人类技术成就的无私研究的阻碍”[33]。但是就辩论性本身与智能化程度而言,无论语音合成技术的进化程度如何,人必须比机器更智能、更善辩。“如果人不能够做到比机器更强的话,那么他就被降格到了机器的水平,就是一个麻木、奴性、卑微的生物。”[34]

(三)优化人机“对话”中的对称关系

在技术的加持下,“所有的事物看起来都聚得更近了,不过事物的本质……却更难以触及了”[35]。面对“人”的因素和“对话”因素的消逝,在智能传播时代重思巴赫金、伽达默尔及海德格尔等人对语言和对话的研究具有深远的意义。它能引导人类将反映人性的对话带到人的身边,帮助其建立起与对话、与人、与社会之间的联系。在巴赫金看来,对话指涉相互关系,“言语的语言实际单位不是孤立的个体的独白,而至少是两种话语的相互关系,即对话”[36],这一经验见解也似与马丁·布伯所言之对话的关联性不谋而合。就建立关联性本身而言,机器首先需全方位地理解人类语音,在确保无误的前提下先与人类话语建立联系,才能进而与人类本身及与围绕人展开的社会文化建立亲密关系。

针对前文提及的人机“对话”中的不对称问题,应结合计算机学界与哲学界的同步思考从言说对象和回复内容上优化其中的问题所在。与双方语言交互相比,多方语言交互中的对象明确更为迫切,以人机合作类视听节目为代表的多方人机“对话”多存在说话人未明确指定言说对象的问题。因此,可在机器“对话”管理中为其添加对象标签,在机器生成话语中言明交流对象。显示说话对象能够减少歧义的发生,缓解人机语言交互中的对象不对称的问题。同时可参考部分学者的观点,“对复杂的多方‘对话’历史进行结构分离,进而采取有针对性的回复。或将多方‘对话’中的上下文按照‘@’式回复关系,构建成树状结构,并将其分割成多个序列组合,再使用言说对象所在的树状分支中的回复话语来进行‘对话’”[37]。除此之外,还应结合社会文化的补充锻造智能机器的文化互动力,帮助机器建立与社会文化的深度链接,尽管早期的“产业家和工程师们本身并不相信机器体系具有生活和文化方面的特性”[38],但真正具有永恒价值的收益应当是非物质性的文化元素与文化资源。社会文化是一个复杂的集合体,人类的对话与其他“默会知识”等文化元素已经成为人之为人和对话之为人之对话的本质组成部分。

参考古希腊的理解,人类对话已然成为践行“认识你自己”的这一忠告的重要场所,只有通过体现对话性、辩论性和关联性的人机“对话”,才能够将我们的关系世界同经验世界联系在一起,借此缩小人机“对话”和人际对话之间的知识差距,抵御智能传播中的一系列风险冲击,深化人与机器、人与人、人与社会文化之间的联系,实现人机语言交互的自然化发展。

五、结语

海德格尔曾言:“语言可以被视为内在情感的外在表达,一种人类行为。”语言和对话作为一种人类高级智能活动,能够帮助我们认识某种人之特性的东西。机器与技术合成语音作为人的镜中映像,永远是某种虚幻存在。当前的人机“对话”已经发展为一场不可避免且效果难测的世纪探险,伴随各种智能机器的普及化和人工智能技术的发展,这一探险将对“对话”中的一切“人”的因素造成直接剥削。

在智能传播的背景下,关注人机“对话”能够反过来帮助我们认识人类本体。研究机器“对话”主体与人机“对话”,除了可从技术角度切入,拓展人工智能技术的疆域之外,还可从社会文化着手,借助人文主义价值理念重思对话的内涵与核心特征。结合对话特性中的对话性、辩论性和关联性等本质要求,以创造对话中的召唤结构改善人与机器的“无言”窘境;以构建机器追问的辩论性基础规避人与机器的“和声”境况;以对称关系的优化加深人与机器和人与人之间的密切关联。

综而述之,面对新时代下技术与文明的新挑战,应始终回望“人”的因素及人类对话本身,结合对话特性的思考缓解人机语言交互中的一系列“对话”难题,共创适应时代需求的人机语言交互。

[本文为中国人民大学“双一流”建设项目“中国人民大学马克思主义新闻观研究中心课题”(项目编号:RMXY2021C021)的阶段性研究成果]

注 释:

①四郎即大型清宫剧《甄嬛传》中的皇帝雍正,是其纯元皇后和甄嬛对雍正的爱称。四郎音即扮演者陈建斌的角色声音,该角色声音在自媒体平台曾引起网友的一度模仿与二创,随后该音源被录入各大互联网平台,命名为四郎音。

②此处的人机“对话”一词,实际上是计算机学界对“对话”一词的误解和借用(抑或是误用),与文中的“人机语言交互”属同一意思。另外,还有部分学者以人机交流一词解释人机对话和人机语言互动,实际上也稍有不妥。但为了便于理解,自第二部分开始,涉及机器主体的分析部分多采用计算机学界常用的人机“对话”一词描述“人机语言交互”。

③“期待视野“和“隐含的读者”的概念由接受美学代表姚斯提出,主要针对文本阅读活动。期待视野即依据之前的审美经验、素养趣味等综合形成的一种潜在的审美期待。随后的“隐含的听者”借鉴了“隐含的读者”的概念,隐含的听者即在语音生成之前,说话主体所预设的可能或应该出现的听者,并在其说和听的全过程中纳入对这一听者的考虑。

参考文献:

[1]方兴东,钟祥铭,顾烨烨.从TikTok到ChatGPT:智能传播的演进机理与变革路径[J].传媒观察,2023(5):39-47.

[2]董小英.再登巴比伦塔:巴赫金与对话理论[M].北京:生活·读书·新知三联书店,1994:18.

[3]巴赫金.陀思妥耶夫斯基诗学问题[M].白春仁,顾亚铃,译.北京:生活·读书·新知三联书店,1988:252.

[4]董小英.再登巴比伦塔:巴赫金与对话理论[M].北京:生活·读书·新知三联书店,1994:3.

[5]约翰·杜翰姆·彼得斯.对空言说:传播的观念史[M].邓建国,译.上海:上海译文出版社,2017:328.

[6]约翰·杜翰姆·彼得斯.对空言说:传播的观念史[M].邓建国,译.上海:上海译文出版社,2017:328.

[7]俞凯,陈露,陈博,孙锴,朱苏.任务型人机对话系统中的认知技术:概念,进展及其未来[J].计算机学报,2015(12):2333-2348.

[8]约翰·杜翰姆·彼得斯.对空言说:传播的观念史[M].邓建国,译.上海:上海译文出版社,2017:334.

[9]董小英.再登巴比伦塔:巴赫金与对话理论[M].北京:生活·读书·新知三联书店,1994:21.

[10]巴赫金.陀思妥耶夫斯基诗学问题[M].白春仁,顾亚铃,译.北京:生活·读书·新知三联书店,1988:344.

[11]孙先科.说话人及其话语[M].上海:上海文艺出版社,2009:6-7.

[12]钱中文.文本对话与人文[M]//巴赫金全集:第4卷.白春仁,晓河,周启超,等译.石家庄:河北教育出版社,1998:208.

[13]钱中文.文本对话与人文[M] //巴赫金全集:第4卷.白春仁,晓河,周启超,等译.石家庄:河北教育出版社,1998:207.

[14]马丁·布伯.我与你[M].徐胤,译.天津:天津人民出版社,2018:29.

[15]钱中文.文本对话与人文[M] //巴赫金全集:第4卷.白春仁,晓河,周启超,等译.石家庄:河北教育出版社,1998:213-214.

[16]赵阳洋,王振宇,王佩,杨添,张睿,尹凯.任务型对话系统研究综述[J].计算机学报,2020(10):1862-1896.

[17]Joseph Weizenbaum.“ELIZA-AComputer Programme for the Study of Natural Language Communication Between Man and Machine”[J].Communications of the ACM,1966,9(01):36-45.

[18]何道宽.媒介环境学辨析[J].国际新闻界,2007(2):46-49.

[19]高贵武,赵行知.进化中的异化:人工智能主播的言说之窘[J].传媒,2023(4):12-14.

[20]戴维·J.贡克尔,保罗·A.泰勒.海德格尔论媒介[M].吴江,译.北京:中国传媒大学出版社,2019:127.

[21]刘亚龙.从人机对话走向数智对话:AI主播的对话策略与跨界实践分析[J].视听界,2023(2):44-46+54.

[22]Walter J.Ong.口语文化与书面文化[M].何道宽,译.北京:北京大学出版社,2008:103.

[23]冯志伟,张灯柯,饶高琦.从图灵测试到ChatGPT:人机对话的里程碑及启示[J].语言战略研究,2023(2):20-24.

[24]彭兰.从ChatGPT透视智能传播与人机关系的全景及前景[J].新闻大学,2023(4):1-16+119.

[25]张帆.人机对话系统的困境与解决[J].哲学分析,2022(6):124-134+193.

[26]Walter J.Ong.口语文化与书面文化[M].何道宽,译.北京:北京大学出版社,2008:103.

[27]董小英.再登巴比伦塔:巴赫金与对话理论[M].北京:生活·读书·新知三联书店,1994:41.

[28]董小英.再登巴比伦塔:巴赫金与对话理论[M].北京:生活·读书·新知三联书店,1994:42.

[29]高贵武,赵行知.进化中的异化:人工智能主播的言说之窘[J].传媒,2023(4):12-14.

[30]汉斯-格奥尔格·伽达默尔.真理与方法哲学诠释学的基本特征[M].洪汉鼎,译.上海:上海译文出版社,2004:471.

[31]汉斯-格奥尔格·伽达默尔.真理与方法哲学诠释学的基本特征[M].洪汉鼎,译.上海:上海译文出版社,2004:472.

[32]汉斯-格奥尔格·伽达默尔.真理与方法哲学诠释学的基本特征[M].洪汉鼎,译.上海:上海译文出版社,2004:471-472.

[33]刘易斯·芒福德.技术与文明[M].陈允明,王克仁,李华山,译.北京:中国建筑工业出版社,2009:266.

[34]刘易斯·芒福德.技术与文明[M].陈允明,王克仁,李华山,译.北京:中国建筑工业出版社,2009:284.

[35]戴维·J.贡克尔,保罗·A.泰勒.海德格尔论媒介[M].吴江,译.北京:中国传媒大学出版社,2019:21.

[36]钱中文.巴赫金全集:第2卷[M].石家庄:河北教育出版社,2009:460.

[37]Zhang H,Chan Z,Song Y,et al.When less is more: using less context information to generate better utterances in group conversations. [C].In Proceedings of the 7th CCF International Conference on Natural Language Processing and Chinese Computing,Hohhot,2018(08):76–84.

[38]刘易斯·芒福德.技术与文明[M].陈允明,王克仁,李华山,译.北京:中国建筑工业出版社,2009:282.

作者简介:高贵武,中国人民大学新闻与社会发展研究中心研究员、新闻学院视听传播系主任,教授、博士生导师(北京 100872);刘亚龙,中国人民大学艺术学院艺术传播与管理方向硕士生(北京 100872)。

编校:董方晓