人工智能是当下科技发展的热门领域,智能语音技术在人工智能领域中也占据着重要地位,随着人工智能技术的不断发展,智能语音技术也日趋成熟。微软公司AI(人工智能)语音合成技术是目前市面上应用很广泛、十分接近人声的AI配音,不仅可以自由选择语速、音调、音色,甚至可以按照不同的情感朗读播报,几乎与真人配音无异。因此,对于以声音为主的播音主持专业来说,无疑带来了巨大的机遇与挑战。
一、智能语音技术的发展现状
智能语音技术并不是近几年才诞生的,其实它早已出现在我们的生活中,只是起初的人工智能配音大多出现在机场车站的客运信息播报、驾驶证科目考试语音播报、餐厅或医院的排号播报等场景,且语气较为刻板僵硬、缺乏情感,与人声差别较大。2017年,国务院发布《新一代人工智能发展规划》,显现出国家对人工智能技术发展的重视。人工智能技术的不断进步,也带来了AI语音合成技术的迅猛发展,在大数据算法的精密计算下,AI语音合成技术合成的声音越来越接近人声。直至今天,以微软AI配音为代表的AI语音合成技术已经广泛应用于人们的生活中。例如许多短视频的配音解说,皆由AI语音合成技术完成。尤其是当下最热门的微软AI配音中云希的声音,更是火遍全网。它的声音不仅音色干净,而且可以自由调控语速、音调、情绪,甚至说话时具备正常人说话时的喘气声,十分逼真,配音效果几乎与真人无异。当然在情感的把控、声音细节的处理上,AI语音合成技术尚且不能达到真人的水准,尤其对于情感变化比较大、需要夸张艺术化处理的声音表达时,人工智能合成的语音缺陷明显。
二、智能语音技术的优势与不足
(一)配音效率高,制作成本低
传统配音一直存在很多弊端,比如配音效率低、配音费用高、容易口误出错、录制声音环境要求高等。但是,利用AI语音合成技术,便可以很轻松地解决以上问题。例如使用微软AI配音,只需要把想要配的文字输入文本框中,然后还可以自由调节想要的音色、语速、音调、说话风格等,之后直接点击导出即可,配音效率极高。AI语音合成技术合成的声音,只要文本设置没有问题,便不会出现错字、漏字、加字等问题。智能语音技术合成的配音相比于真人配音,价格成本优势十分明显。在2020年,全球首位3D版AI合成主播亮相新华社演播室,不仅能随时变换发型、更改服装,而且能穿梭于演播室的不同虚拟场景中,和前一代AI合成主播相比,它实现了从单一景深机位到多机位多景深、从微笑播报到多样化精微表情播报等进步,播报形态可通过不同角度全方位呈现,立体感和层次感明显增强。只需要在机器上输入相应文本内容,AI合成主播就能播报新闻,并根据语义生成相对应的面部表情和肢体语言,能够不知疲倦地工作24小时,只要将文本输入系统,它们就能随时工作,并且一直工作下去。
(二)配音种类丰富,满足各种需求
配音员的年龄、性别、音色等的不同,导致每位配音员能配音的类型相对比较局限,加上不同场景、人物下,甲方需要各种不同声线甚至不同语言表达形式的配音员。因此,一部音频视频作品往往需要多人配音共同完成。而对于智能语音技术来说,只要语音资料足够完整丰富,便可通过AI语音合成技术,复刻出与其音色极其相似的声音,甚至其表达时的重音、停连、节奏等都十分相似。同时AI语音合成技术也可以做到多国语言配音播报,不仅可以中文朗读,而且可以录制英语、法语、日语等语言。[1]以微软AI配音为例,上面有云希、云杨、晓晓、晓辰等超二十位不同音色的配音员,他们都是经过大量声音数据资料训练出的声音,与真人声音高度相似,并且可以自由改变其说话风格。微软AI配音可以使用跨140种语言和变体的400种神经网络语音。极具表现力和类似人类的声音,神经网络文本转语音支持多种朗读风格,包括新闻广播、客户服务、呼喊、耳语以及高兴、悲伤等情感。相比于传统配音方式,不同年龄、性别、音色的角色,可以由一个智能语音系统来完成,优势十分明显。
(三)难以理解语境,缺乏真情实感
语境即使用语言的环境,同一句话,在不同的语境下,所表达的语气、情感、停连、重音都是不同的,说话时不同的停顿重音有时表达出的意思也不尽相同,而AI语音合成技术目前并不能很好的识别语境。因此,在影视剧配音、广播剧配音、文艺作品演播等情景中,智能语音技术与真人配音尚且有较大差距。机器与人类最大的差别在于情感,人类天生拥有情感,而机器即使赋予它情感,目前也只能在发出情感指令的情况下,被动地做出情感态度,机器并不能自由根据情景语境表达出正确且富有感染力的情感色彩。有声语言表达也并不是简单的见字发声,是需要提前做大量备稿工作,利用语言表达技巧结合当下语境、环境,并结合真情实感,由情感带动声音的表达,这是目前智能语音技术所欠缺的。比如由AI配音的纪录片《创新中国》中,在介绍“天眼之父”南仁东去世时,智能语音技术合成的配音对于感情的表达很生硬,难以让观众体会到缅怀之情,这和李易老师本人所配音的其他纪录片作品有很大的差距。[2]当下如何让人工智能配音更富有情感,同时在不同的语境下用对情感,是它未来能否走得更远的关键。
(四)版权伦理问题有待解决
人工智能技术发展到一定阶段,便会带来一些伦理问题。智能语音技术的发展应当止步于伦理红线。在目前的智能语音合成技术下,只要采集到个人音频数据,便可复制出相似度较高的声音。比如科大讯飞公司只需要花5分钟的时间对真人语音进行采样复刻,便可復刻出相似度极高的声音,而用户复刻声音后,便可以在讯飞客户端中收听由用户自己的声音播报的新闻、早报、公众号文章等。但在智能语音技术发展的同时,便不可避免地带来一系列问题。比如私自使用他人声音是否涉及侵权问题,并且此前便有利用人工智能合成声音进行诈骗勒索的案件发生,如若此项技术被不法分子所利用,势必会产生一定的安全隐患。同时假音频内容可能大量出现,如同AI换脸引发的假视频、假新闻一样,AI语音引发的版权争端和伦理问题也为监管带来新的挑战。
三、对播音主持未来发展的建议
(一)提高综合素养,发挥情感优势
在人工智能时代下,播音员主持人必须具备一定的思想水平和政治理论水平,具有较高的政治敏锐性和清晰的思辨能力;同时要具备扎实的专业素养和文化素养,无论人工智能技术如何发展,扎实的专业素养和文化素养都是未来发展的基石。人类与机器最大的不同在于情感。当下,智能语音技术短期内很难拥有识别情感的能力,无法自行对文本进行情感分析,无法表达出有感情、有温度的话语。那么对于以声音表达为主的播音主持工作者来说,表达出有感情、有温度、有深度的话语是人类相比于人工智能的优势所在。播音主持是以人的形象和身份来和受众进行信息的传递和交流,而AI主持人没有思想、没有灵魂、没有情感,受众更希望面对一个人来交流,而不是一個机器人。近些年来,尽管播音主持要被人工智能取代的说法引发热议,但笔者认为,只会见字发声的播音主持工作者可能会被取代,但优秀的播音主持工作者无法取代。一名优秀的播音主持工作者需要有温度、深厚的文化素养、强大的共情能力,并且在需要创新和思考的能力上,人工智能和人还是有很大差距的。
(二)形成自身独特风格,打造个性化表达
在互联网时代,随着人们生活节奏的加快和思想观念的转变,人们逐渐厌倦刻板说教式的表达,更倾向于富有个人特色的、极具个人魅力的表达方式。虽然当前的人工智能技术不断发展,AI语音合成技术合成的声音已经与真人配音有很高的相似度,但毕竟是机器合成的声音,即使拥有与真人高度相似的音色和语调,但仍缺乏真人独有的个性化声音特征,无法与真人相媲美。无论是AI语音合成技术合成的声音,还是具有外在形象的AI主持人,其本质上都是模仿学习人类的声音和动作。尽管它可以模仿播音主持工作者的声音、外形和动作,但是它无法形成自身的个性化表达,更无法形成具有自身特点的播音主持风格。在新时代下,我们培养的不是千篇一律的播音主持工作者,而应该是具有自身独特风格、富有个人魅力的、优秀的播音主持工作者。比如风趣幽默的朱广权、沉稳大气的任鲁豫、亲切端庄的海霞等,他们每个人身上都有自身独特的个人魅力,因此被受众所喜爱,这是人工智能所永远无法取代的。[1]
四、结语
智能语音技术的发展,确实大大提高了播音主持工作的效率,不仅给播音主持工作者提供了许多工作上的便利,而且满足了许多普通人对于配音的要求,使得更多的人可以更加方便、快捷地接触到高质量配音。当然在人工智能技术发展尚未完全成熟之前,仍有难以理解语境、版权伦理等许多问题有待解决。在这样的契机下,作为播音主持工作者,不应一味地抗拒和抵制,应该以一种开放包容的心态去对待智能语音技术的发展,不断提高自身的各方面能力,发挥自身独特的情感优势,着重提升自身的专业技能和文化素养,才能在人工智能飞速发展的浪潮下立于不败之地。
[作者简介]韩志浦,男,汉族,河南叶县人,哈尔滨师范大学硕士研究生在读,研究方向为播音主持。