智能语音技术下播音主持的探索与思考

2023-10-18 06:31韩志浦
文学艺术周刊 2023年16期
关键词:真人语音语境

人工智能是当下科技发展的热门领域,智能语音技术在人工智能领域中也占据着重要地位,随着人工智能技术的不断发展,智能语音技术也日趋成熟。微软公司AI(人工智能)语音合成技术是目前市面上应用很广泛、十分接近人声的AI配音,不仅可以自由选择语速、音调、音色,甚至可以按照不同的情感朗读播报,几乎与真人配音无异。因此,对于以声音为主的播音主持专业来说,无疑带来了巨大的机遇与挑战。

一、智能语音技术的发展现状

智能语音技术并不是近几年才诞生的,其实它早已出现在我们的生活中,只是起初的人工智能配音大多出现在机场车站的客运信息播报、驾驶证科目考试语音播报、餐厅或医院的排号播报等场景,且语气较为刻板僵硬、缺乏情感,与人声差别较大。2017年,国务院发布《新一代人工智能发展规划》,显现出国家对人工智能技术发展的重视。人工智能技术的不断进步,也带来了AI语音合成技术的迅猛发展,在大数据算法的精密计算下,AI语音合成技术合成的声音越来越接近人声。直至今天,以微软AI配音为代表的AI语音合成技术已经广泛应用于人们的生活中。例如许多短视频的配音解说,皆由AI语音合成技术完成。尤其是当下最热门的微软AI配音中云希的声音,更是火遍全网。它的声音不仅音色干净,而且可以自由调控语速、音调、情绪,甚至说话时具备正常人说话时的喘气声,十分逼真,配音效果几乎与真人无异。当然在情感的把控、声音细节的处理上,AI语音合成技术尚且不能达到真人的水准,尤其对于情感变化比较大、需要夸张艺术化处理的声音表达时,人工智能合成的语音缺陷明显。

二、智能语音技术的优势与不足

(一)配音效率高,制作成本低

传统配音一直存在很多弊端,比如配音效率低、配音费用高、容易口误出错、录制声音环境要求高等。但是,利用AI语音合成技术,便可以很轻松地解决以上问题。例如使用微软AI配音,只需要把想要配的文字输入文本框中,然后还可以自由调节想要的音色、语速、音调、说话风格等,之后直接点击导出即可,配音效率极高。AI语音合成技术合成的声音,只要文本设置没有问题,便不会出现错字、漏字、加字等问题。智能语音技术合成的配音相比于真人配音,价格成本优势十分明显。在2020年,全球首位3D版AI合成主播亮相新华社演播室,不仅能随时变换发型、更改服装,而且能穿梭于演播室的不同虚拟场景中,和前一代AI合成主播相比,它实现了从单一景深机位到多机位多景深、从微笑播报到多样化精微表情播报等进步,播报形态可通过不同角度全方位呈现,立体感和层次感明显增强。只需要在机器上输入相应文本内容,AI合成主播就能播报新闻,并根据语义生成相对应的面部表情和肢体语言,能够不知疲倦地工作24小时,只要将文本输入系统,它们就能随时工作,并且一直工作下去。

(二)配音种类丰富,满足各种需求

配音员的年龄、性别、音色等的不同,导致每位配音员能配音的类型相对比较局限,加上不同场景、人物下,甲方需要各种不同声线甚至不同语言表达形式的配音员。因此,一部音频视频作品往往需要多人配音共同完成。而对于智能语音技术来说,只要语音资料足够完整丰富,便可通过AI语音合成技术,复刻出与其音色极其相似的声音,甚至其表达时的重音、停连、节奏等都十分相似。同时AI语音合成技术也可以做到多国语言配音播报,不仅可以中文朗读,而且可以录制英语、法语、日语等语言。[1]以微软AI配音为例,上面有云希、云杨、晓晓、晓辰等超二十位不同音色的配音员,他们都是经过大量声音数据资料训练出的声音,与真人声音高度相似,并且可以自由改变其说话风格。微软AI配音可以使用跨140种语言和变体的400种神经网络语音。极具表现力和类似人类的声音,神经网络文本转语音支持多种朗读风格,包括新闻广播、客户服务、呼喊、耳语以及高兴、悲伤等情感。相比于传统配音方式,不同年龄、性别、音色的角色,可以由一个智能语音系统来完成,优势十分明显。

(三)难以理解语境,缺乏真情实感

语境即使用语言的环境,同一句话,在不同的语境下,所表达的语气、情感、停连、重音都是不同的,说话时不同的停顿重音有时表达出的意思也不尽相同,而AI语音合成技术目前并不能很好的识别语境。因此,在影视剧配音、广播剧配音、文艺作品演播等情景中,智能语音技术与真人配音尚且有较大差距。机器与人类最大的差别在于情感,人类天生拥有情感,而机器即使赋予它情感,目前也只能在发出情感指令的情况下,被动地做出情感态度,机器并不能自由根据情景语境表达出正确且富有感染力的情感色彩。有声语言表达也并不是简单的见字发声,是需要提前做大量备稿工作,利用语言表达技巧结合当下语境、环境,并结合真情实感,由情感带动声音的表达,这是目前智能语音技术所欠缺的。比如由AI配音的纪录片《创新中国》中,在介绍“天眼之父”南仁东去世时,智能语音技术合成的配音对于感情的表达很生硬,难以让观众体会到缅怀之情,这和李易老师本人所配音的其他纪录片作品有很大的差距。[2]当下如何让人工智能配音更富有情感,同时在不同的语境下用对情感,是它未来能否走得更远的关键。

(四)版权伦理问题有待解决

人工智能技术发展到一定阶段,便会带来一些伦理问题。智能语音技术的发展应当止步于伦理红线。在目前的智能语音合成技术下,只要采集到个人音频数据,便可复制出相似度较高的声音。比如科大讯飞公司只需要花5分钟的时间对真人语音进行采样复刻,便可復刻出相似度极高的声音,而用户复刻声音后,便可以在讯飞客户端中收听由用户自己的声音播报的新闻、早报、公众号文章等。但在智能语音技术发展的同时,便不可避免地带来一系列问题。比如私自使用他人声音是否涉及侵权问题,并且此前便有利用人工智能合成声音进行诈骗勒索的案件发生,如若此项技术被不法分子所利用,势必会产生一定的安全隐患。同时假音频内容可能大量出现,如同AI换脸引发的假视频、假新闻一样,AI语音引发的版权争端和伦理问题也为监管带来新的挑战。

三、对播音主持未来发展的建议

(一)提高综合素养,发挥情感优势

在人工智能时代下,播音员主持人必须具备一定的思想水平和政治理论水平,具有较高的政治敏锐性和清晰的思辨能力;同时要具备扎实的专业素养和文化素养,无论人工智能技术如何发展,扎实的专业素养和文化素养都是未来发展的基石。人类与机器最大的不同在于情感。当下,智能语音技术短期内很难拥有识别情感的能力,无法自行对文本进行情感分析,无法表达出有感情、有温度的话语。那么对于以声音表达为主的播音主持工作者来说,表达出有感情、有温度、有深度的话语是人类相比于人工智能的优势所在。播音主持是以人的形象和身份来和受众进行信息的传递和交流,而AI主持人没有思想、没有灵魂、没有情感,受众更希望面对一个人来交流,而不是一個机器人。近些年来,尽管播音主持要被人工智能取代的说法引发热议,但笔者认为,只会见字发声的播音主持工作者可能会被取代,但优秀的播音主持工作者无法取代。一名优秀的播音主持工作者需要有温度、深厚的文化素养、强大的共情能力,并且在需要创新和思考的能力上,人工智能和人还是有很大差距的。

(二)形成自身独特风格,打造个性化表达

在互联网时代,随着人们生活节奏的加快和思想观念的转变,人们逐渐厌倦刻板说教式的表达,更倾向于富有个人特色的、极具个人魅力的表达方式。虽然当前的人工智能技术不断发展,AI语音合成技术合成的声音已经与真人配音有很高的相似度,但毕竟是机器合成的声音,即使拥有与真人高度相似的音色和语调,但仍缺乏真人独有的个性化声音特征,无法与真人相媲美。无论是AI语音合成技术合成的声音,还是具有外在形象的AI主持人,其本质上都是模仿学习人类的声音和动作。尽管它可以模仿播音主持工作者的声音、外形和动作,但是它无法形成自身的个性化表达,更无法形成具有自身特点的播音主持风格。在新时代下,我们培养的不是千篇一律的播音主持工作者,而应该是具有自身独特风格、富有个人魅力的、优秀的播音主持工作者。比如风趣幽默的朱广权、沉稳大气的任鲁豫、亲切端庄的海霞等,他们每个人身上都有自身独特的个人魅力,因此被受众所喜爱,这是人工智能所永远无法取代的。[1]

四、结语

智能语音技术的发展,确实大大提高了播音主持工作的效率,不仅给播音主持工作者提供了许多工作上的便利,而且满足了许多普通人对于配音的要求,使得更多的人可以更加方便、快捷地接触到高质量配音。当然在人工智能技术发展尚未完全成熟之前,仍有难以理解语境、版权伦理等许多问题有待解决。在这样的契机下,作为播音主持工作者,不应一味地抗拒和抵制,应该以一种开放包容的心态去对待智能语音技术的发展,不断提高自身的各方面能力,发挥自身独特的情感优势,着重提升自身的专业技能和文化素养,才能在人工智能飞速发展的浪潮下立于不败之地。

[作者简介]韩志浦,男,汉族,河南叶县人,哈尔滨师范大学硕士研究生在读,研究方向为播音主持。

猜你喜欢
真人语音语境
James Legge’s Translating Chinese Classics into English:An Examination of Translational Eco-environment and his Multidimensional Adaptive Selection
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
Imaginations and Reimaginations of National Origin—A Case Study of the Two Times that the Gaxian Cave was Discovered
对方正在输入……
传播真相 追求真理 涵育真人——我的高中历史教育之梦
语言学习中语境化的输入与输出
COCO×读者 真人亲身拍摄体验
跟踪导练(三)2