王梦颖,李怀苍
(昆明理工大学 艺术与传媒学院,云南 昆明 650504)
人工智能的缩写是AI,它指的是模拟、延伸和拓展人的理论、方法和技术。它包括模拟识别、机器学习、数据挖掘等多个分支。人工智能的发展主要经历了五个阶段,以申农为首的科学家共同研究了机器模拟的相关问题,人工智能就此正式诞生。早期的人工智能主要以语言翻译、证明等研究为主,发现机器具有模仿人类思维的功能,随着互联网技术的逐渐普及,人工智能已经逐步为更多的领域提供了新的方向。在步入互联网时代之后,“人工智能”加快了替代手工劳动的步伐,并从基础的体力劳动层面渐渐转向创意、创作的层面。2001年,传媒业终于迎来了开天辟地的创举——世界上第一个虚拟主持人阿娜诺娃(Ananova)的诞生。这是一个可播报新闻、体育、天气等的虚拟播音员,堪比一个真实的有血有肉的主播。此后,日本推出了寺井有纪(Yuki),中国推出了歌手虚拟主持人阿拉娜(Alana),美国推出了薇薇安(Vivian),韩国推出了露西雅(Lusia)。从2D到3D,从只有头部到拥有全部身体,从只有虚拟人物播报到拥有演播室进行播报,虚拟主持人日渐成熟,被越来越多媒体关注和使用,并引发了全社会对“主持人要下岗”的担忧。在2004年,央视CCTV-6频道推出了国内首位虚拟电视节目主持人——小龙。它采用三维形象技术,拥有高挑的身材,集合了刘德华、梁朝伟和金城武的“脸部精华”,并单独主持了《光影周刊》栏目。小龙的上岗,点燃了国内CG技术从电影级走向消费级的星星之火。到2016年,当一位自称“超级AI”的虚拟主播绊爱在YouTube上首次亮相时,也许谁都没想到,她会成为照亮“黑暗时代”的第一缕曙光。与早期虚拟主持人不同,绊爱是由真人扮演而成。但从播报状态上来看,无论是3D形象,还是语音、动作,绊爱相比早期主持人都明显更胜一筹。2016年,阿尔法狗(AlphaGo)以1:4打败围棋世界冠军李世石的事实,让人们意识到,已经诞生了几十年的人工智能,处在了可全面商业化的临界点,AI时代正加速到来。同年,科大讯飞、搜狗、百度先后召开发布会,对外公布语音识别准确率均达到97%。科技自媒体人阑夕曾说,一旦语音识别的准确率达到99%,那将直接进入产业爆发的黎明。巧合的是,这一轮AI虚拟主播热潮的兴起,与AI,特别是语音识别技术的飞跃,几乎是同步的。到2018年5月,科大讯飞携手相芯科技打造了虚拟主持人“康晓辉”。这位虚拟主持人有着与真人相似的外形,不仅与央视记者江凯一同主持了《直播长江》安徽篇,还在现场进行了实时互动。同年11月,全球首个“AI合成主播”诞生;在2019年3月全球首个“AI合成女主播”诞生;同年春晚AI虚拟主持人团队诞生。在这套AI虚拟主播的方案中,只需输入一段既有的新闻文本,主播就可实时进行播报,且发音与唇形、面部表情等也完全吻合,无论是看上去还是听上去,似乎都与真人一模一样。进入全面AI化,虚拟主播走入千家万户。在电影《西蒙妮》中,人们曾描绘过AI虚拟主播的理想形态:她是一个由计算机虚拟合成的、高度逼真的三维动画人物。她美得令人无法拒绝,一言一行都与真人一样,并可以完成一切表演、播报,且不会有任何绯闻,妥妥的一枚“完美代言人”,可以取代人类,且不会出现任何差错,也不会有负面新闻,这是很多人眼中的完美AI虚拟主播。但之后的十多年,不论是影视业还是AI虚拟主播行业,都不得不面对一个现实:虚拟形象“像真人”并不简单。人工智能能够灵活运用复杂的大数据网络,对不同的语言和副语言进行解读,最终创造并稳定的输出所需要的播读内容。如今的AI主播能够完成坐着、直立、行走等动作的模拟,完全做到与真人主播的融合。
人工智能主播需要进行真人主播人脸识别,并进行个人面部档案的建立。为了让人工智能主播高度逼真,新华社与搜狗公司进行了强强联合,并以新华社主播邱浩、屈萌为原型,录制了大量的高质量视频,通过对邱浩和屈萌的面部文件、照片文件进行扫描分析,形成人脸面像文件面纹编码(Faceprint),对人脸面纹进行采集和检测,将人脸的皮肤色调、面部毛发、表情姿态等进行特征提取,并有效识别,系统将人脸有用的信息采集出来。真人主播在高清镜头的放大下,不难发现会有“大小脸”“大小眼”“高低眉”的问题,三庭五眼的分布也更加贴近国人所欣赏的“东方美”,无论是静态还是动态,都不会出现表情崩坏或是五官不对称的情况。主播吸收了人工智能的这些特点,不管是播报什么新闻,总是能以完美端庄的状态出现在大众面前,给人以美的享受。
在现实生活中,一个主播只能每天工作8小时,人工智能主播却能实现无间断直播,只要输入文本就能自动生成相应视频,能保持唇形、声音、神态的一致,不会有情绪变化,也不会生病,能够极大地减轻真人主播工作任务,还能节约生产成本。比如在新华社的客户端中,可以看到2019年3月2日的最后一条新闻《北京启动149场线上专场招聘》发布于23:41:29,而2019年3月3日的第一条新闻《北京:日均出动8.3万余人保障城市干净整洁》发布于00:45:59,无论何时都能在岗位上严阵以待。不仅如此,更是在十三届全国人民代表大会和全国政协十三届会议中不间断地播报最新情况,播报稿件达到了86条,极大地保证了新闻的时效性。让许多网友纷纷感叹科技的力量实在是太强大了!甚至有媒体报道除了嘴唇动作稍显僵硬外,她几乎可以以假乱真。
人工智能主播是通过对真人主播的声音、唇形等特征学习建模设计而成,换言之,人工智能主播是“克隆”真人主播,并且学习真人主播的动作神态和播报语调。他们没有学习过任何播音主持的知识,就能够达到与真人主播无异的信息传达效果,甚至在语言方面有着超越真人主播的趋势。
英文播报素材取自于新华社的英语主播张朝,通过对张朝的音频进行学习,人工智能主播能够流利的使用英语播报新闻,极大地扩大了对海外的影响力。不仅在播读新闻方面能够很快地掌握有声语音的表达的技巧,在副语言上也有着不断地革新,从最开始只能坐在播音台前播报新闻,通过技术的升级,从台后走到台前,能够站立着播报新闻,还能“手舞足蹈”,运用起肢体语言进行表达,这一切都让新华社的员工们惊叹着人工智能主播的强大学习能力,直呼是不是再过不久自己就会失业了。
以2019年1月10日的《叮咚!请开门,你的年度外卖大单到了》这条新闻为例,“各位宅男、宅女,过去的一年,窝在工位或者床上点外卖是否已经成了你的日常?各位吃货们在外卖单上到底备注了什么?点了这么多外卖,你爸妈知道吗?”从新闻内容中可以看出,新闻的基调是轻松有趣的,但人工智能主播的播报状态还不够积极,重音方面也存在问题,如“数据江湖”应该确定为重音,但“新小浩”的播读太过于一马平川,甚至在有些字词的处理上还略有些僵硬,没有播出这条新闻的趣味性,不能够引起受众的注意,但随着技术的革新,人工智能主播也在不断地学习中,现在的人工智能主播不论是有声表达、肢体动作还是表情等方面都越来越自然,强大的学习能力使其与真人主播的差距越来越小。
1.社会大众的需要
随着技术的不断发展,人工智能在生活中应用的越来越广泛,比如近几年大众能接触到的如“天猫精灵”和“小爱同学”这类的智能音响,以及手机上的语音助手,让人们感受到了人工智能技术为生活带来的便利,也对人工智能技术越来越好奇,而人工智能主播无疑是一项新兴的产物,当人工智能被“人物化”的时候,人们往往会想人工智能主播长什么样呢?是否和真人主播一样?那么大众到底对“AI主播”持什么样的态度,笔者在对近30人的调查后得知,大部分人都对人工智能抱有极大的兴趣。以往电视机里的主播往往很难激起人们的兴趣,人们也很少会为了主持人而去关注一档节目,但人工智能主播的出现却打破了这一点,激发了人们对新闻的好奇心,从而进一步扩充了人们对信息传播的选择,满足了人们的心理需求,更是专门开辟了人工智能主播的专题报道。
2.精准的播读技术
在新闻的播报中,从眼睛看到嘴巴说需要经过大脑的有机整合,稍有注意力不集中,或是看错看漏,便会出现播读错误,这在真人主播中几乎是无法避免的问题,就连央视的主持人也会出现读错字音的现象,在网上疯传的《主持人失误锦集》中就有许多的字音出错片段,看得众多网友捧腹不已,观众也能理解,毕竟一台节目的口播有时多达好几千字,拗口的地名、人名识读起来也实属不易。而在直播节目中主持人不仅要读好手里的稿件还要顾及众多方面,如提词器的显示、耳麦中导播的指示、副语言的运用、显示器的监视等,可谓是眼观六面耳听八方。一旦哪一方面出现错误都可能会使主播的播读出现卡顿。但人工智能主播只要输入文本,便能按照既定的文本进行播报,相较真人主播,不会出现字音和语调上的错误,并且能对语流音辨识、多音字的识别正确,不会出现读错字、卡顿的问题。播报精准,成为人工智能主播的显著优势。
3.减少节目制作成本
一档节目的诞生不仅需要主播,还需要庞大的制作团队,如灯光师、摄影师、化妆师等,真人主播在上节目前需要化妆、备稿,从准备到录制需要一定的时间,而人工智能主播却只需要一名工作人员简单配合即可,提前输入需要的文本便能自动生成视频,极大地解放了劳动力,减少了节目的制作成本。[1]两会期间当真人主播还需要等前方记者传回稿件才能出新闻时,人工智能主播使新华社第一时间就能发出关于两会新闻最新的解读。
不仅如此人工智能主播还能一人多用,可以同时“分身”到不同的节目中,极大的提高了新闻的传播效率。不计较工资,不间断的播报,以一敌百的劳动力,这些都是真人主播无法做到的。
1.无法引起情感共鸣
播音员常被称为连接党和人民群众的桥梁,作为桥梁光有播音的技巧不够,还要使自己的声音有情感,有温度。在节目中播音员常常要做到“以声传情”,比如在播报欢天喜地迎新春这样的新闻,播音员要播报出给人以轻松、愉快的感觉,而在播报一些特殊的新闻,如汶川地震、新冠肺炎时,要播报出给人以庄重、严肃的感觉,这一点是需要播音员具备扎实的基本功底,并且经过长年累月的训练才能够达到。而人工智能主播却只能机械地播读新闻内容,虽然没有出过错误,但无论是什么主题的新闻,总会让人感到千篇一律,无法产生情感共鸣。
播音工作的二度创作,要求主播对稿件进行自我理解,真人主播可以挖掘字里行间的深层语义,对播报内容进行深层次的认知和情感的表达。但是人工智能主播只能通过人工指令对稿件进行语言输出和口型、表情的匹配。目前的人工智能主播还停留在学习阶段,并不具备情感,也不能做到对新闻的感性认知。举例来说,央视主持人朱广权常常以他幽默风趣的播报让观众捧腹不已,以2019年的一篇播报为例:“最近的天气‘冻力’十足,你是不是很怀念温暖的日子?你想劝天气重抖擞,天气却对你大声吼,这样的要求休出口,风雪来了我也抖。”这一段新闻消息倘若由人工智能主播来播报会大大地降低语言的趣味性,不能使观众共情。针对传统主播来讲,人是具有情感的,那么由他抒发的事物也是具有情感的,不会生搬硬套,能够与观众产生共鸣。
2.不具备应变能力
在录制节目时,播音员主持人常常要和现场的观众进行互动,从而调动节目氛围,激发自己的播讲愿望,这就要求播音员不仅要具备调动气氛的能力,还要有掌控全场的大局意识,真正的播音员主持人在这里可以发挥出自己的最大潜能,游走在观众与嘉宾之间,适时抛出问题,增加观众与嘉宾的互动,即便是出现突发状况,基本也能依靠随机应变的能力带过。但是人工智能主播只能通过预设好的文本生成播读内容,很难与观众进行互动,即便与观众进行互动,如果出现突发状况,也难以解决,所以就导致人工智能主播的应用局限性。相对来说,传统主播更加具有临场应变能力,能够处理突发的状况,针对事件进行相应的调整,保证新闻事件顺利进行。
人工智能主播所使用的人脸三维重建技术和语音识别技术都是未来AI业界的发展方向,在媒体市场竞争逐渐加大的背景下,有资本和技术的传媒集团更青睐于使用技术提升自身在业界中的影响力。[2]该技术可以应用于以下播报和主持工作。
第一类,重复性高的主持工作,此类工作程序化很强,并且具有一定的话语模板,例如天气预报的播报。
第二类,人才海选面试,根据各类比赛的流程分析,参赛人员在比赛初选的时候,流程都基本相似:工作人员将参赛人员的报名回执单信息(选手编号、姓名)录入计算机,人工智能主持人报编号和选手姓名,并且引导选手进行自我介绍、才艺展示。在时间结束后,虚拟主持人提醒时间结束,并暗示评委进行点评,最后提示选手退场。
第三类,简单的儿童主持播报,此类主持不需要很高的技巧性,并强调趣味性,在儿童主持中具有较高的应用价值。同时虚拟化的主持人对儿童来说较为新颖,且有较大的吸引力。
第四类,风险高的特殊主持,例如一些灾难现场的播报或者人类难以到达的地带,可以利用人工智能技术快速生成播报新闻,代替真人播报。
人工智能要想在虚拟化主持中广泛应用,需要解决以下问题。
第一是随机应变能力。人工智能主播采取文字录入、信息处理、音视频融合、视频输出的方式工作,因此仅局限在生硬的念稿层面上,不具有播报的生动性,尤其是其不适合用于突发情况较多或者现场类的主持播报活动,要想将其应用于虚拟化主持,还要赋予人工智能主播更智能的“大脑”。[3]
第二是恰当的交流动作,要将主持播报展现得更加生动灵活,就要有更为灵活的动作支撑,例如微微蹙眉的动作、微笑等可以给观众更具亲和力的播报体验。
第三是与人的情感交流,这一点是摆脱人工智能主播的机器人特点的关键,因此需要技术支持,给予系统更加高效的大脑,提升信息处理水平,并且提升机器和真人的自然一致性。
新事物的发展总是要经历由不完善到完善的过程,随着人工智能等数字化技术的不断成熟和广泛应用,在一些有规律可循的范围内,机器可以比人类做得更好,但是在一个没有先验知识的,没有规律可循的阶段,机器还是达不到人类该有的推断能力。人工智能不会取代人,只会让我们的生活更便利,AI在教育、医疗、政法、智慧城市、智能客服等方面,都给我们带来了一些新的面貌,人工智能给媒体行业带来的机遇或者挑战,使得作为媒体人的我们必须与时俱进。进入新媒体时代,既要拼速度更要拼服务,通过大数据的积累,将海量信息利用人工智能,就能很好地应对人类的问题。[4]新媒体的发展需要一个强大的保护盾,与此同时,随着智能媒体的更新换代,应该正确看待新媒体时代下的人工智能主播发展。