人工智能配音在短视频创作中的作用及影响
——以抖音为例

2023-04-22 20:33:17伊峻宇金丽娜

西部广播电视 2023年20期

伊峻宇金丽娜

（作者单位：长春师范大学传媒学院）

随着智能手机的普及和移动互联网的快速发展，短视频以“短、平、快”的特点迅速风靡网络，成为人们日常生活中重要的娱乐形式和信息来源，而随着人工智能技术的不断发展，AI配音作为人工智能技术中的一种应用，越来越多地被应用到短视频的创作中。

抖音短视频平台作为全球用户量最大的短视频平台之一，在改变人们观看习惯的同时，也影响着短视频的创作方式。为了方便用户创作、满足用户多样化的需求，抖音App引入AI配音技术。该技术通过人工智能算法分析文本和视频内容，并自动生成相应的配音，使得用户无须花费额外的时间和精力来录制音频。这不仅提高了用户的创作效率，还增加了视频的多样性，使得用户可以更加灵活地表达自己的创意和想法。

1 AI配音的概念和基本原理

1.1 相关概念

配音，主要指“画外之音”，即配合画面的有声语言，无论是新闻、专题、广告，还是人物、事件、景观，一切以画面为基础，通过有声语言加以诠释展现的都可以称其为配音[1]。而AI配音是指通过人工智能技术对文本进行语音合成，实现文字转化为声音的过程。它采用了语音合成技术，在保留语音自然度的同时，能够为用户提供高质量、个性化的语音服务。

1.2 基本原理

AI配音的基本原理包括文本处理、语音合成和音色调整三个环节。首先，系统需要对输入的文本进行处理，将其分析成语义信息，并进行模型训练和优化。其次，利用文本处理后得到的语义信息，采用生成模型进行语音合成，生成符合语法规则和习惯的语音内容。再次，根据用户需求和个性化设置，通过音色调整技术对合成的语音进行音色调整以满足用户的要求。

AI配音技术依赖于强大的人工智能技术支持。其中，深度学习是重要的技术手段。它使用神经网络将输入的文本转化为符合特定语言规则和习惯的声音信号。同时，语料库作为训练数据源，也起到了非常重要的作用。通过大量的训练样本，系统可以学习到不同语种、不同口音和发音习惯的特点，提高语音合成的质量和自然度。

目前，AI配音技术在教育、娱乐、无障碍服务、智能客服、语音广播等多个领域均有广泛的应用。而在短视频领域，AI配音也为用户的创作提供了更多的便捷性、可能性和多样性。

2 抖音App中AI配音的类型及应用

从广义上来看，抖音App中的AI配音功能包括智能音乐和文本朗读两部分。

2.1 智能音乐

智能音乐又称为歌曲配音，是通过智能技术自动识别和分析短视频的画面内容，抓取画面特征，并根据画面风格为其搭配合适的音乐和歌曲。用户只需要录制或上传视频，AI算法就能够自动识别画面内容，并根据画面呈现的场景、情感等要素与音乐库中的曲目进行智能匹配。这为用户创作带来了更多的可能性，让他们能够更加轻松地制作出高质量的音乐短视频。

2.2 文本朗读

文本朗读具有将文字转化为音频的功能，在短视频制作过程中制作者只需要输入文字，再在文本朗读功能区选择合适的语言风格和音色，人工智能便可以快速完成配音。该功能使得制作配音更加高效，还能够满足用户对不同语言风格的需求，因此深受用户喜爱。

本文所提到的AI配音主要指后者，即文本朗读。借助先进的语音合成技术和深度学习算法，抖音App的AI配音能够将文字转化为自然流畅的音频，用户只需输入所需的文字，并选择适合的语言风格和音色，即可快速完成配音过程。

目前，抖音App的文本朗读功能区主要分为特色方言、萌趣动漫、女生音色、男生音色、趣味歌唱五个版块，可供用户选择的声音风格和音色多达上百种。在用户使用过程中，不同的风格与音色也被应用于不同的短视频类型之中。当然，何种风格和音色应用于何种短视频之中并没有一定之规，用户可以根据自己的需求自由选择，不同声音形式的特点不同，要根据需要选择合适的声音表达形式，以达到最佳效果[2]。

3 AI配音在短视频创作中的作用

3.1 提高创作效率

AI配音可以自动将文字转化为语音，节省了创作者录制声音的时间和精力，加快了短视频制作的速度。传统的短视频制作中，创作者需要花费大量的时间和精力来录制声音。采用AI配音技术，创作者只需将配音文本编写完成，即可一键听取配音效果，快速生成短视频，大大提高了短视频的生产制作效率，提升了视频的整体呈现效果[3]。同时，创作者可以更专注于其他重要的创作环节，提高整体创作效率。

3.2 改善用户体验

AI配音可以根据用户的喜好和短视频内容的特点，选择合适的声音风格和语气，让观众更好地理解内容，提升观看体验。人工智能配音可以应对多语言环境下的不同要求，AI合成语音技术支持多语言混读，只要声音样本库的储量够大就可以满足这样的需求。在合成效果方面，良好的人工智能配音可以媲美真人的声音，仿真度极高，能够为受众提供悦耳的聆听体验[4]。

3.3 扩大创作者群

AI配音使得没有配音基础的创作者也能够参与到短视频创作中，扩大了创作者群体的规模。传统的音频制作需要创作者具备一定的声音基础和技巧，才能录制出高质量的声音。然而，借助AI配音技术，没有配音基础的创作者也能够参与到短视频创作中。他们只需将文字输入系统，就能够得到高质量的语音输出。基于此，短视频创作的创作者群体得到了扩大，进一步推动了短视频创作的发展。

3.4 为创作者提供更多创作灵感

众所周知，声音在短视频中具有很强的表达能力和情感传递作用。AI配音技术能够根据视频的内容和情感，生成适合的声音，进一步提升短视频的观赏性和沉浸感。创作者可以通过调整配音的语气、节奏和音调来强调视频的重点，增加戏剧性或幽默感。同时，AI还可以模拟各种声音，如动物叫声、车辆噪声等，为短视频创作提供更多元化的可能性。这些丰富多样的声音选择激发了创作者的创意，增加了短视频作品的吸引力。

4 AI配音对用户观感和创作者创作方式的影响

4.1 提升用户观感

AI配音可以根据短视频的内容选择合适的配音风格，提高观众对短视频的喜爱度。首先，AI配音可以实现批量处理，大大提高短视频的生产效率。传统配音需要耗费大量时间和人力资源进行录制与剪辑，而AI配音可以自动完成这些任务，减少了工作量和成本。其次，AI配音可以消除人为的主观因素。传统配音的效果受限于配音演员的个人理解和表达，可能会存在差异和主观偏差。而AI配音完全基于算法，不受主观因素的影响，能够更加准确地把握角色的声音特点和情感表达。通过选择合适的配音风格，配音声音与视频内容更好地融合在一起，使得观众能够更好地沉浸在故事情节中，大大提升了用户的观感。

4.2 影响创作者创作方式

AI配音技术的出现，极大地改变了传统录音的制作方式，使创作者能够更加专注于视频素材和剪辑。传统的音频制作过程通常会涉及寻找配音演员、录制配音以及后期剪辑等烦琐的步骤。这不仅耗费了大量时间和精力，还需要花费额外的预算。而随着AI配音技术的广泛应用，创作者可以将更多精力投入视频素材的选择和剪辑上，从而提高创作效率和品质。在传统的音频制作中，为每个场景和角色寻找合适的配音演员是一项艰巨的任务。寻找合适的演员不仅需要花费时间和精力，还需要保证他们的声音与角色的特点和气质相匹配。然而，有了AI配音技术，这一问题迎刃而解。创作者只需通过AI系统选择适合的配音风格，便能轻松实现音频内容的创作。这样，AI配音技术就能够大幅缩短整个音频制作的周期，使得创作者将更多的时间用于构思和制作视频内容本身。

5 AI配音的启示与建议

5.1 不断精进语音识别技术，避免信息传递错误

由于目前语音识别技术尚未完全成熟，AI配音有时会出现漏译或误传的情况，可能导致传递错误的信息给受众。世界各国文字与读音都十分复杂，如面对一字多音时，AI配音目前并不能准确地在不同语境中准确判断字词的读音；语音识别系统在处理特定领域的专业术语时可能存在漏译的问题。尽管一些通用领域的词汇和短语可以被准确地识别与转化成声音，但是在特定领域，例如医学或法律，由于术语的复杂性和多义性，语音识别系统可能无法准确地转译这些术语，从而导致内容错误。

为了克服这个问题，我们建议开发者要不断改进语音识别技术，提高准确性和可靠性，这意味着需要进行更多的研究和开发，以改进算法和模型，使其能够具备更多语音数据，更好地适应不同的特殊场景。同时，收集和标注更多的训练数据也是提高准确性的重要步骤。通过引入更多的方言、口音和语速等数据，系统可以更好地适应各种情况，并减少错误识别的情况。同时，对于重要信息的传递，可以考虑使用人工审核和校对的方式，虽然这可能会增加一些成本和时间，但可以从根本上改善AI配音的质量。

5.2 增加个性化选项，避免视频内容同质化

由于AI配音可以自动生成语音，可能导致很多视频的语音部分都非常相似，缺乏个性和差异化。为了解决这个问题，我们建议在AI配音的应用中加入更多的个性化选项。

首先，可以增加不同的语速选择。语速是人们表达个性和情感的重要元素。因此，为AI配音提供不同的语速选项，可以使得声音更加生动、灵活，改善机器声音的单调感。

其次，可以增加不同的音调选择。音调可以影响人们对话语的理解和感受，不同的音调可以传达不同的情绪和态度。因此，为AI配音提供不同的音调选项，将为短视频制作带来更多可能性，使得配音更加个性化和生动。

此外，还可以增加不同的语气选择。不同的语气可以传达不同的人格特点和情感表达。给AI配音提供不同的语气选项，可以为短视频制作带来更加丰富、多样化的配音效果，使得每个短视频都能够呈现出独特的个性。

通过增加这些个性化选项，AI配音技术能够提供更加丰富和多样化的配音效果，使得每个视频都能够呈现出个性和差异化。这不仅可以提高观众的审美体验，也可以提升视频制作的创意和表现力。

5.3 加强审核，鼓励原创，避免版权纠纷

音频资源的版权问题是一个严峻的挑战。“AI配音技术简单，成本低廉，吸引了大量制作者入场使用，而这其中，极少有人对声音版权有所意识。”[5]因此，开发者和平台必须对音频资源进行严格审核和甄别，确保其符合版权法律的要求。这意味着需要投入更多的人力和技术资源，建立起高效可靠的审核机制，避免不法分子利用这一技术进行盗版或侵权行为。

同时，为了避免版权问题，平台要鼓励创作者使用自己原创的音频素材，以降低版权纠纷的风险。原创作品具有独特性，创作者拥有完全的版权。通过鼓励原创音频素材的使用，可以减少对他人作品的依赖，从而减少侵权的可能性。

此外，平台和开发者还应加强同版权机构与相关法律部门的合作。通过与版权监管机构建立密切的联系，及时了解最新的版权法律和规定，以确保用户生成的内容不会侵犯他人版权。此举可以提高用户对AI配音技术的信任度和依赖度。

6 结语

通过对抖音App中AI配音的研究，我们可以看到AI配音在短视频创作中发挥了积极的作用，提高了创作效率和用户观感。未来，短视频内容创作仍是AI配音的主要应用领域之一。然而，我们也要注意AI配音带来的负面影响，并就其挑战提出相应的解决方案，保障用户的权益，优化创作者的创作环境。未来应深化AI技术与短视频的融合发展，同时规范AI配音应用，使其成为推动短视频发展的重要力量。总之，AI配音正逐步成为短视频创作中不可或缺的手段，其对短视频内容的创作产生着深远的影响。

人工智能配音在短视频创作中的作用及影响——以抖音为例