智能语音技术下播音主持的探索与思考

2023-10-18 06:31:58韩志浦

文学艺术周刊 2023年16期

人工智能是当下科技发展的热门领域，智能语音技术在人工智能领域中也占据着重要地位，随着人工智能技术的不断发展，智能语音技术也日趋成熟。微软公司AI（人工智能）语音合成技术是目前市面上应用很广泛、十分接近人声的AI配音，不仅可以自由选择语速、音调、音色，甚至可以按照不同的情感朗读播报，几乎与真人配音无异。因此，对于以声音为主的播音主持专业来说，无疑带来了巨大的机遇与挑战。

一、智能语音技术的发展现状

智能语音技术并不是近几年才诞生的，其实它早已出现在我们的生活中，只是起初的人工智能配音大多出现在机场车站的客运信息播报、驾驶证科目考试语音播报、餐厅或医院的排号播报等场景，且语气较为刻板僵硬、缺乏情感，与人声差别较大。2017年，国务院发布《新一代人工智能发展规划》，显现出国家对人工智能技术发展的重视。人工智能技术的不断进步，也带来了AI语音合成技术的迅猛发展，在大数据算法的精密计算下，AI语音合成技术合成的声音越来越接近人声。直至今天，以微软AI配音为代表的AI语音合成技术已经广泛应用于人们的生活中。例如许多短视频的配音解说，皆由AI语音合成技术完成。尤其是当下最热门的微软AI配音中云希的声音，更是火遍全网。它的声音不仅音色干净，而且可以自由调控语速、音调、情绪，甚至说话时具备正常人说话时的喘气声，十分逼真，配音效果几乎与真人无异。当然在情感的把控、声音细节的处理上，AI语音合成技术尚且不能达到真人的水准，尤其对于情感变化比较大、需要夸张艺术化处理的声音表达时，人工智能合成的语音缺陷明显。

二、智能语音技术的优势与不足

（一）配音效率高，制作成本低

传统配音一直存在很多弊端，比如配音效率低、配音费用高、容易口误出错、录制声音环境要求高等。但是，利用AI语音合成技术，便可以很轻松地解决以上问题。例如使用微软AI配音，只需要把想要配的文字输入文本框中，然后还可以自由调节想要的音色、语速、音调、说话风格等，之后直接点击导出即可，配音效率极高。AI语音合成技术合成的声音，只要文本设置没有问题，便不会出现错字、漏字、加字等问题。智能语音技术合成的配音相比于真人配音，价格成本优势十分明显。在2020年，全球首位3D版AI合成主播亮相新华社演播室，不仅能随时变换发型、更改服装，而且能穿梭于演播室的不同虚拟场景中，和前一代AI合成主播相比，它实现了从单一景深机位到多机位多景深、从微笑播报到多样化精微表情播报等进步，播报形态可通过不同角度全方位呈现，立体感和层次感明显增强。只需要在机器上输入相应文本内容，AI合成主播就能播报新闻，并根据语义生成相对应的面部表情和肢体语言，能够不知疲倦地工作24小时，只要将文本输入系统，它们就能随时工作，并且一直工作下去。

（二）配音种类丰富，满足各种需求

配音员的年龄、性别、音色等的不同，导致每位配音员能配音的类型相对比较局限，加上不同场景、人物下，甲方需要各种不同声线甚至不同语言表达形式的配音员。因此，一部音频视频作品往往需要多人配音共同完成。而对于智能语音技术来说，只要语音资料足够完整丰富，便可通过AI语音合成技术，复刻出与其音色极其相似的声音，甚至其表达时的重音、停连、节奏等都十分相似。同时AI语音合成技术也可以做到多国语言配音播报，不仅可以中文朗读，而且可以录制英语、法语、日语等语言。[1]以微软AI配音为例，上面有云希、云杨、晓晓、晓辰等超二十位不同音色的配音员，他们都是经过大量声音数据资料训练出的声音，与真人声音高度相似，并且可以自由改变其说话风格。微软AI配音可以使用跨140种语言和变体的400种神经网络语音。极具表现力和类似人类的声音，神经网络文本转语音支持多种朗读风格，包括新闻广播、客户服务、呼喊、耳语以及高兴、悲伤等情感。相比于传统配音方式，不同年龄、性别、音色的角色，可以由一个智能语音系统来完成，优势十分明显。

（三）难以理解语境，缺乏真情实感

语境即使用语言的环境，同一句话，在不同的语境下，所表达的语气、情感、停连、重音都是不同的，说话时不同的停顿重音有时表达出的意思也不尽相同，而AI语音合成技术目前并不能很好的识别语境。因此，在影视剧配音、广播剧配音、文艺作品演播等情景中，智能语音技术与真人配音尚且有较大差距。机器与人类最大的差别在于情感，人类天生拥有情感，而机器即使赋予它情感，目前也只能在发出情感指令的情况下，被动地做出情感态度，机器并不能自由根据情景语境表达出正确且富有感染力的情感色彩。有声语言表达也并不是简单的见字发声，是需要提前做大量备稿工作，利用语言表达技巧结合当下语境、环境，并结合真情实感，由情感带动声音的表达，这是目前智能语音技术所欠缺的。比如由AI配音的纪录片《创新中国》中，在介绍“天眼之父”南仁东去世时，智能语音技术合成的配音对于感情的表达很生硬，难以让观众体会到缅怀之情，这和李易老师本人所配音的其他纪录片作品有很大的差距。[2]当下如何让人工智能配音更富有情感，同时在不同的语境下用对情感，是它未来能否走得更远的关键。

（四）版权伦理问题有待解决

人工智能技术发展到一定阶段，便会带来一些伦理问题。智能语音技术的发展应当止步于伦理红线。在目前的智能语音合成技术下，只要采集到个人音频数据，便可复制出相似度较高的声音。比如科大讯飞公司只需要花5分钟的时间对真人语音进行采样复刻，便可復刻出相似度极高的声音，而用户复刻声音后，便可以在讯飞客户端中收听由用户自己的声音播报的新闻、早报、公众号文章等。但在智能语音技术发展的同时，便不可避免地带来一系列问题。比如私自使用他人声音是否涉及侵权问题，并且此前便有利用人工智能合成声音进行诈骗勒索的案件发生，如若此项技术被不法分子所利用，势必会产生一定的安全隐患。同时假音频内容可能大量出现，如同AI换脸引发的假视频、假新闻一样，AI语音引发的版权争端和伦理问题也为监管带来新的挑战。

三、对播音主持未来发展的建议

（一）提高综合素养，发挥情感优势

在人工智能时代下，播音员主持人必须具备一定的思想水平和政治理论水平，具有较高的政治敏锐性和清晰的思辨能力；同时要具备扎实的专业素养和文化素养，无论人工智能技术如何发展，扎实的专业素养和文化素养都是未来发展的基石。人类与机器最大的不同在于情感。当下，智能语音技术短期内很难拥有识别情感的能力，无法自行对文本进行情感分析，无法表达出有感情、有温度的话语。那么对于以声音表达为主的播音主持工作者来说，表达出有感情、有温度、有深度的话语是人类相比于人工智能的优势所在。播音主持是以人的形象和身份来和受众进行信息的传递和交流，而AI主持人没有思想、没有灵魂、没有情感，受众更希望面对一个人来交流，而不是一個机器人。近些年来，尽管播音主持要被人工智能取代的说法引发热议，但笔者认为，只会见字发声的播音主持工作者可能会被取代，但优秀的播音主持工作者无法取代。一名优秀的播音主持工作者需要有温度、深厚的文化素养、强大的共情能力，并且在需要创新和思考的能力上，人工智能和人还是有很大差距的。

（二）形成自身独特风格，打造个性化表达

在互联网时代，随着人们生活节奏的加快和思想观念的转变，人们逐渐厌倦刻板说教式的表达，更倾向于富有个人特色的、极具个人魅力的表达方式。虽然当前的人工智能技术不断发展，AI语音合成技术合成的声音已经与真人配音有很高的相似度，但毕竟是机器合成的声音，即使拥有与真人高度相似的音色和语调，但仍缺乏真人独有的个性化声音特征，无法与真人相媲美。无论是AI语音合成技术合成的声音，还是具有外在形象的AI主持人，其本质上都是模仿学习人类的声音和动作。尽管它可以模仿播音主持工作者的声音、外形和动作，但是它无法形成自身的个性化表达，更无法形成具有自身特点的播音主持风格。在新时代下，我们培养的不是千篇一律的播音主持工作者，而应该是具有自身独特风格、富有个人魅力的、优秀的播音主持工作者。比如风趣幽默的朱广权、沉稳大气的任鲁豫、亲切端庄的海霞等，他们每个人身上都有自身独特的个人魅力，因此被受众所喜爱，这是人工智能所永远无法取代的。[1]

四、结语

智能语音技术的发展，确实大大提高了播音主持工作的效率，不仅给播音主持工作者提供了许多工作上的便利，而且满足了许多普通人对于配音的要求，使得更多的人可以更加方便、快捷地接触到高质量配音。当然在人工智能技术发展尚未完全成熟之前，仍有难以理解语境、版权伦理等许多问题有待解决。在这样的契机下，作为播音主持工作者，不应一味地抗拒和抵制，应该以一种开放包容的心态去对待智能语音技术的发展，不断提高自身的各方面能力，发挥自身独特的情感优势，着重提升自身的专业技能和文化素养，才能在人工智能飞速发展的浪潮下立于不败之地。

[作者简介]韩志浦，男，汉族，河南叶县人，哈尔滨师范大学硕士研究生在读，研究方向为播音主持。