王亿本 程思梦
AI主播凭借诸多优势逐渐被运用于企业营销、新闻传播、教学实践、直播带货、网络游戏等多个领域,引发广泛社会关注。AI主播能够弥补传统主播的一些局限性,具有补偿性媒介特征。1979年,保罗·莱文森(Paul Levinson)在其博士论文《人类历程回顾:一种媒介进化理论》(Human Replay: A Theory of the Evolution of Media)中首次提出补偿性媒介(Remedial Medium)的概念[1]。1984年,保罗·莱文森在《媒介进化与理性对媒介决定论的钳制》(Media Evolution and Rationality as Checks on Media Determinism)一文中再次提出“补救媒介的媒介”(media-remedial media)的观点[2]。1988年,他在《思想无羁:技术时代的认识论》中解释,“任何一种媒介,都是一种补救措施,都是对过去的某一种媒介功能的补救和补偿”[3]。补偿性媒介理论表明,任何一种新媒介刚推出时只是相对完美,存在着未暴露的缺陷,强调媒介始终处于不断进化,满足人类的新需求,同时产生新问题,再继续探索解决路径的过程。在AI主播热的现实语境下,本文将探索AI主播作为新生媒介的补偿功能及其依然存在的缺憾,为后续媒介技术演化及其研究提供参考。
从英国PA New Media公司推出阿娜诺娃(Ananova),到以二次元形象出现的绊爱、科大讯飞携手相芯科技打造了虚拟主持人“康晓辉”,再到东方卫视主持天气播报的虚拟主持人“小冰”、央视网络春晚推出AI虚拟主持人团队、两会期间新华社推出AI虚拟主播“新小萌”、人民日报推出AI虚拟主播“小晴”、央视“五四青年节”晚会推出AI虚拟主播“小灵”……国内外AI主播的发展势头势不可挡。AI主播从最初的单一模式、低水平应用到不同场景的个性化定制、高仿真下的拟人化,再到现在的定制化生产、高质量应用、情感交互的发展过程。近年来,AI主播凭借技术优势丰富了电视节目形态,提高了节目制作效率,也重塑了内容生产业务链。自2021年国家广播电视总局在《广播电视和网络视听“十四五”科技发展规划》中提出推动虚拟主播广泛应用,提高制播效率和智能化水平。
技术革命也引发学界的关注,相关研究主要从以下两个维度展开:
有研究者关注AI主播技术的先进性。向子旭认为AI主播的应用丰富了节目形态、提高了节目制作效率、重塑内容生产业务链[4]。AI主播是对传统主播的一种有效补偿,王可欣和史蒙苏从现象层面解释媒介补偿机制,探讨补偿的边界条件、补偿的发生过程等[5]。
也有研究者聚焦AI主播技术的反思。喻国明等对于技术革命下身体的媒介化范式进行技术反思,认为未来媒介技术的发展逻辑会沿着身体媒介化的逻辑进行迭代与创新,而人的主体性将面临被身体性取代的趋向,甚至有可能成为技术浸润的赛博人[6]。张莎莎认为AI主播存在技术伦理、法律责任、职业冲击等现实问题,应当建立完善的算法和数据监管机制、明确AI主播的报道边界以规避AI主播所带来的伦理风险[7]。未来AI主播应在明确目标,完成清晰定位;推动应用,形成粉丝社群;理清思路,重视文化创新等方面发力,以更好地演进发展[8]。也有学者从补偿性媒介角度探讨AI主播对传统的主持行业带来的技术创新补偿、情感赋能补偿、个性类型补偿等方面,但是缺少对于AI主播技术演进优势与缺陷的探讨。
目前,AI主播的相关研究主要以乐观的态度探索其技术补偿优势,却对目前技术补偿的局限性思考不够。因此,本文重点从补偿性媒介理论视角探讨AI主播对传统主播的补偿优势以及补偿缺憾。
莱文森指出,“面对面的传播是一切传播的起源”[9]。媒介进化逐渐重现面对面传播特征,满足人的渴求和幻想并弥补失去的东西。早期媒介技术的发展只是对传播进行功能性的补偿,但是新媒体的迭代发展不仅是在功能上对人感觉器官的简单延伸,更是对受众心理需求的补偿。
以“事实—观点”分离、免于偏见、尊重新闻事实为核心内涵的客观性被众多媒体和新闻工作者奉为圭臬。但是大多数新闻工作者无法摆脱媒体立场以及新闻工作者个人的价值取向等诸多因素,难以保持客观的报道立场。比如,2008年5月14日,中央电视台新闻频道的主持人赵普在直播汶川大地震新闻时,眼含泪水,几度哽咽,引发网友对其专业性的质疑。同样,9·11事件爆发24小时内,美国三大广播公司主播播报相关新闻时也有个人情感植入[10]。比较而言,AI主播在报道新闻事件时“根据事实来描写事实”,而不是“根据希望来描写事实”[11],能够向公众提供客观的新闻事实,以一种超然、公正、独立的态度进行新闻报道,避免个人情感植入,避免诸如种族歧视、性别歧视等问题,满足受众对新闻真实性的需要。
相比传统主播受到人体生理限制,AI主播在时间维度上的全时段工作和空间维度上的场景延伸,让受众可以更加多样灵活地选择和接收信息。
一方面,相较于传统主播容易疲惫,有上下班时段限制,不能完全满足受众全时段信息服务需求,AI主播可以实现24小时不间断直播,全天候内容输出,用户接受信息不受时间和地点的限制。
另一方面,AI主播可以结合3D虚拟场景、AR、VR、MR等技术,实现新闻报道的场景延伸。先进的虚拟现实技术不仅可以让AI主播根据不同的主题和场合调整播报风格和语气,还可以“走出”演播厅,根据播报内容搭配不同场景,让受众从视觉上感受新闻现场。
此外,AI主播能够进行多语种播报,依靠机器强大的翻译能力进行多语种语言翻译,拓展国际传播的时空范围。
面对面传播是原初的感官平衡状态。无论是传统媒体时代还是新媒体时代,技术发展的最终目的在于实现感官平衡。从报纸到广播再到电视,媒介技术演进弥补了人类听觉、视觉的缺失。在互联网时代,人类通过媒介化补偿丰富感官体验:表情包弥补了人类表情和身体语言受制于传播中介的缺点,网络直播技术为观众身体在场的时空限制提供了补偿,让主播和观众双方的身体均可以视作是即时在场。这种对身体的媒介化补偿本质体现了人类对面对面传播的追求,即对于身体在场的追求。
而在新媒体时代,层出不穷的新技术虽然延伸了用户对外部世界的感知,让用户感知信息的边界不断扩大,但用户信息获取的中介化程度不断加深,呈现出“离身性”的特点,个人和真实世界的距离越来越远。因此,人们试图利用技术手段弥补真实身体离场的遗憾,通过营造虚拟现实实现人的“在场”。AI主播能够代替受众进入情景,以虚拟身体的方式实现在场,通过大数据和智能技术打通多重空间,拉近受众与外部世界的距离,将受众的视听感官延伸到自己无法前往的信息空间。从某种程度上来说,电视对现场的“再现”功能让“物质与传播的分离”成为可能,AI主播的发展不仅拓宽了身体影像化的维度,还再次提升人类传播活动的抽象能力,实现了“数字在场”[12]。
除此之外,AI主播通常会与其他新媒体技术结合起来,让观众在观看时全身心参与,形成更强的互动感。依靠AI主播的动态真人三维重建技术,并利用5G、3R、超高清视频技术作为辅助,提升观众的听觉和视觉感受,营造出更具有真实感的媒介环境。如新华社数字记者小诤作为全球首位太空记者,在空间站进行“现场报道”,摆脱了现实空间的束缚,利用媒介算法给受众带来超越现实的空间力,以虚拟的手段进入真实场景进行内容生产,给受众带来超越真实的观感体验。
媒介发展的动力来自社会需求,媒介补偿研究也不应止步于对现象的描述和解释。AI主播不仅在外形、语种、音色、背景等方面都可以根据受众不同喜好和需求进行变化,还可通过智能算法、大数据分析等人工智能技术,为用户精准画像,并进行个性化分析,与用户建立专属的情感陪伴,使之成为用户信任的、依赖的、有影响力的智能主体[13]。
老年化社会应重视老年人的需求,他们离开工作岗位后,可能感到孤独、被抛弃,对心理健康造成影响。国外有机构制作为独居老年人提供非面对面服务的虚拟人,可以和独居老人进行互动。也有医疗机构开发具有医疗保健和陪伴功能的虚拟人陪伴老人,可以实时监测和记录老年人的身体状况,还可以陪伴老人,减少孤独感。残障人士和儿童也需要陪伴,AI主播对于弱势群体的陪伴和情感补偿可以帮助他们更好地适应社会。
喻国明、滕文强等指出媒介补偿逻辑的实质是“扬弃”,从而得出未来媒介要坚持“以人为本”的底层逻辑进行媒介互动[14]。新媒介势必在某些方面要领先于旧媒介,但它在其他方面可能是落后于旧媒介的。同理,AI主播在信息传播与情感陪伴方面具有优势,但也无法突破技术既有的缺陷。
虽然AI主播在形象和音色上都有了极大的改进,但仍然无法与真人主播相比。在人类说话的过程中,语流音变的存在让相邻的语音音节通常会互相影响,比如元音的位置和发音方式等,这种变化会增加语言的表现力和节奏感。而AI主播在播报过程中大部分都是多音节词语的无变化持续输出,语流音变不足,导致言语表达显得僵化。
其次,真人主播播报信息时,会根据相关语句的语法和含义选择语音停顿的位置。这种停顿往往是说话者为了强调某个语意,或表达某种感情,在词语或句子之间所作的停顿,能引起听者的联想,进而使双方产生共鸣。如果在播报时停顿出现错误,就会引起语义的改变,造成语义混淆。
同时,重音也是人与人沟通过程中准确表达不可缺少的方式。重音的使用方式有两种:一是语法重音,这是按照句法结构特点说出的重音,一般没有特殊用意;二是强调重音,是为了突出某个语意,或表达某种强烈情感,将句中某些词语音量加大。比如新闻联播在报道“巫溪县茶山村是重庆市最偏远的地区,也是脱贫攻坚中最难啃的硬骨头”时,主持人加重了两个“最”字的读音,突出反映了脱贫攻坚的伟大成就,实现稿件“目的”展现的最大化。AI主播不能理解脱贫攻坚的艰难,在读稿时会显得过于平淡,无法唤起受众的共情。
在AI主播进行新闻播报中,无论是语音变化、语音停顿还是重音的选择都远不如真人主播言语表达来得自然生动。究其根本还是AI主播未能把握内容的深层含义,不能感受现场语境,仅停留在传递表层意义阶段。
心理学教授艾伯特·麦拉宾(Albert Mehrabian)研究发现:在人们交流过程中,55%的信息是通过视觉传达的,如手势、表情、外表、装扮、肢体语言、仪态等等;38%的信息是通过听觉传达,如说话的语调、声音的抑扬顿挫等等;剩下只有7%来自语言表达。通过麦拉宾法则,非言语交际的重要性可见一斑。与传统主播比较,AI主播具有零失误、不间断、海量信息储备以及多语种播报等优势,但在神态、肢体语言等非言语交流方面存在不足。从只有头部动画、表情也略显僵硬的2D虚拟人物阿娜诺娃(Ananova)到3D形象、语音、动作、表情上都有很大进步的绊爱(Kizunaai),从利用虚拟形象生成技术制作的高度拟人化的“康晓辉”,再到通过情绪仿真引擎,为其赋予了如同真人情感表情,其形象气质、语音语调、口唇表情、肢体动作跟真人的相似度达到97%的“时间小妮”[15],AI主播无论是面部表情还是肢体动作虽然已经尽可能的拟人化,但是还做不到完全等同于真人主持人,只做到了“形似”并没有达到“神似”。AI主播技术试图还原人际交流效果,让其更具有真人主持人的“神韵”,非言语交际的不足仍需继续技术补偿。目前,AI主播表情缺少变化,语气语调灵活不高,手势不够协调,体态语比较呆板,总体非言语交流能力明显不及言语交际能力。
AI主播人格包括两个层面:一个是形象和声音的类人层面,另一个是个性化层面,即不仅拥有解决问题的能力和智慧,而且可以形成自己独特的个性[16]。目前,AI主播仍然缺乏真正的个性化特征。比如:情感丰富、有些冒失、天然呆、比较内向的洛天依,多才多艺、傲娇、容易嫉妒、可爱、喜欢自夸的小冰,性格温和、喜欢音乐的吃货赫兹,活泼可爱、自信心膨胀、喜欢吐槽的绊爱……随着人工智能技术进步,AI主播越来越被赋予了具有人类自然属性和生命属性的人格,也开始具备情绪表达、逻辑推理等更高层次的人类特征[17]。但是这些看起来具有个性化、风格不一的人格设计,只是情感计算框架和智能编排的“系统”运行下的一串串代码,其技术设置的载体即AI主播带给受众的是互动的假象[18],由技术带来的伪个性化,缺乏真人主播具备的人格魅力。
当前,AI主播对信息处理能力有限,对信息进行编码、储存和检索能力有限,其智能特征仍有待完善,仅能够传递表层意义,缺乏情感基调变化,难以表达言语深意。AI主播的创作过程是机械化、程序式的,其与观众的实时互动受到限制,难以实现真正的情感互动,缺乏人类的情感深度和复杂性。
保罗·莱文森认为媒介技术的应用一般会经历“玩具—镜子—艺术”三个阶段。目前AI主播拥有诸多优势,但仍然以简单的“玩具”功能为主,能否进化为复刻现实的“镜子”,甚至更具有创意性的“艺术”手段,还有待技术的继续进步。那么AI主播补偿的参照物是什么?补偿的目标是什么?
第一,AI主播补偿的参照物是什么?前文已述,“面对面的传播是一切传播的起源”[19],当前媒介朝着重现面对面传播特征的方向演进。鉴于此,AI主播补偿的参照物是真人主播的相关特征,包括鲜活的非言语传播、真实的传播个性等。
第二,AI主播补偿的目标是什么?AI主播具有较明显技术优势,但仍有待优化,“一种媒介与现实世界是否契合,关键在于重现现实世界环境的精准度如何,而非范围大小”[20]。当然,诚如莱文森所强调的,人性化趋势不仅是再现前技术环境,还要超越原来的生物局限[21]。AI主播补偿的目标是,“继续不断地复制人类传播的自然模式,继续跨越时空的演化”[22]。AI主播可以复制真人主播的诸多优势,并超越真人主播的生理局限性。比如,更广泛的时空延展、更客观的报道立场、更丰富的感官体验等,这些也是AI主播技术补偿的目标。
第三,作为“玩具”的AI主播,其技术补偿有待优化。尽管AI主播可以突破时空限制,全天候服务受众。但难以摆脱自身的生硬和机械感,未能传达新闻应有的温度,也难以与观众形成情感共鸣。未来AI主播应朝着人性化趋势发展,补偿自主学习、场景理解和情感识别等能力。
第四,作为“镜子”与“艺术”的AI主播,其应用领域有待拓展。如金融服务、医疗陪伴、政务服务等,“24×7”不间断的精准服务将成为现实。
综上,基于补偿性媒介理论,我们既要厘清AI主播的技术优势,又要审慎思考AI主播技术的局限性。我们要合理利用AI主播技术优势服务人类社会,并积极探索AI主播技术短板的应对路径。