智能合成声音在有声出版中的生产实践及发展路径

2023-12-02 12:11:56董海润

传播与版权 2023年22期

［摘要］现今，人工智能技术与有声出版不断融合发展。智能语音合成技术在有声出版中的应用日益加深，扮演生成式人工智能的内容生产角色，呈现一种基于熟人声音传播的“声音超市”，同时在重塑有声出版产业链，推动有声出版在智媒时代朝着更加智能化、专业化的方向发展。但智能合成声音在有声出版中存在生成内容的有限性、缺少伴随性以及难以规避隐形版权问题等困境。面对有声出版的创新发展，学术界需要对人工智能声音进行辩证思考，从而推动有声出版的高质量发展以及深度融合。

［关键词］智能合成声音；有声出版；生产实践

有声出版是以声音为主要表达符号，基于听觉认知规律，用有声语言创作、传播知识性音频内容产品的出版类型［1］。随着人工智能时代的不断发展，基于智能语音合成技术（Text To Speech）的智能合成声音被应用于有声读物的出版中，通过模拟人声进行读物播报，进一步发挥声音在有声读物中的知识价值、文化价值及伴随价值等。在听觉回归的时代下，深入剖析智能合成声音在有声出版中的生产实践及发展路径，有助于挖掘智能合成声音所含的听觉价值，推动有声出版朝着更智能化、专业化的方向发展。笔者通过综合平台影响力、智能语音合成技术运用程度、真人声与AI人声对比等进行目的性抽样，选取喜马拉雅FM平台真人声@单田芳评书、@喜道公子，智能合成声音@喜小道_喜道公子AI、@单田芳声音重现四个账号（具体数据如表1所示）进行案例对比分析，探究智能合成声音运用到有声出版生产实践的策略，以及其未来发展路径。

一、声声相传：智能合成声音与有声出版

从早期口头朗诵、印刷书到磁带、CD再到现在的移动数字音频平台，有声读物作为一种融合产物经历新旧媒介的竞合与迭代［2］。国外数字有声书的正式诞生是1997年美国Audible网站推出世界第一款便携数字音频播放器，而我国有声出版业主要开始于改革开放时期音像出版物盛行。目前，以喜马拉雅FM、荔枝FM等聚合类音频客户端为代表的有声平台正不断壮大有声出版领域，而智能合成声音的加入为有声出版的发展提供新的活力。

当前，基于各大平台的有声朗读主要分为两种：人工朗读和机器朗读。人工智能合成声音是机器朗读的进一步升级，通过已有的语言训练模型无限接近人声，如喜马拉雅FM中的@喜小道_喜道公子AI，基于真人账号@喜道公子的声音合成，已发出4万多个作品，并拥有达9万的粉丝量。人工智能合成声音不仅助推有声出版的流量变现，而且进一步反哺有声出版的成本支配以及产业链的衍生发展。有声出版已从过去纸质书籍的外围副产品转变为基于人工智能和沉浸式技术的阅读新形式［3］。除了提供智能朗读，语音唤起功能也正赋能有声出版的智能发展，通过智能语音交互功能，用户可以即时地获取相关收听内容，在平台抑或智能音响等提供的声觉空间中满足情感需求。发展至今，有声读物在人工智能技术的支持下，更多的是以一种超媒介的形式存在，通过“补偿”重新发挥听觉的价值，在视觉中心主义下，以一种“人机共声”的方式为有声出版谋求融合创新的发展之道。

二、智声入耳：智能合成声音在有声出版中的生产实践

智能语音合成技术让声音不再单调，也让有声出版的创新发展有了更多的可能性。不同于视觉所具有的方向性、距离感、客观性、外部性，听觉提供了更为沉浸、更具主体感受的传播体验，给予听者涉身的经验和情感察觉［4］。从内容生产的类型到传播方式再到产业链生产等，智能合成声音在有声出版中都有别于传统有声出版流程的繁杂。在智能媒介环境下，智能语音合成技术为有声出版构建了新的智能场景，在高速流动的声音景观中重塑有声出版的生产实践。

（一）生成式人工智能的内容生产

生成式人工智能（Artificial Intelligence Gen-erated Content，AIGC）指利用人工智能技术生成內容的新型生产方式，其技术主要包括机器学习、自然语言处理等，通过学习大量已有的文本、音频，进而生成新的内容，其所生成的内容与人类创作的内容极为相似［5］，同时可以借助已有的语料库与数据模型等对已有文本进行有声化朗读。

智能语音合成技术在有声出版的实践运用中，从简单地将文本转换为语音内容到自动生成语音内容，增强了有声读物产品的多样性、丰富性［6］。当前，AIGC的内容生产主要体现在在线数字出版，针对一些已有的评书、小说等进行自动化转换。AIGC的内容生产节省了前期配音、后期剪辑的漫长过程，其超强的流动性大大提高了内容文本的转换率。例如，喜马拉雅FM平台利用智能语音合成技术和特定的音韵模块，将评书演员单田芳的智能合成声音应用到不同风格的图书中。当前，喜马拉雅FM的@单田芳声音重现账号拥有38万粉丝，已发布2万多个作品，该账号借助AI语音，让评书大势单田芳的声音重现，在独特的场景中呈现“书接上回”。AICG的内容生产模式大大丰富了有声出版的内容类型，人工智能技术在有声出版中的实践应用正推动内容生产角色的多元转化。

（二）呈现基于熟人声音传播的“声音超市”

基于声纹合成的智能语音合成技术的发展，声音与其固定的发生空间和场所分离，这使得满足用户个性化需求的声音出现多种选择，“声音超市”也因此生成。不管是对单田芳的声音重现，还是基于喜马拉雅签约主播喜道公子的声音技术合成，两者都有固定的音源。听觉—发音的循环原理指出：人只能发出他所能听见的声音［7］。在有声作品的呈现中，用户在听到熟悉的声音可以进一步激发其发音意愿，这也使得用户倾听甚至产生认同感从而进行分享的行为成为可能。

具有高度拟人化、人格化的智能合成声音也可以在同一部有声作品中实现互动式的有声播放。在这样的互动与分享过程中，用户通过对话完成故事情节的描绘与叙事场景的构建。@喜小道_喜道公子AI首次推出《深空彼岸》的AI真人互动有声剧，由AI完成大部分旁白，真人对其中部分对话进行录音，完成小说的互动播报。目前，该作品共有227.1万的播放量，266条评论，尽管相较于真人声音，AI语音仍较生硬，但是首部AI真人互动有声剧让声音空间增添了生活气息或文学内涵，弥补了AI声音生硬等不足。智能合成声音通过构建声场，再次复现原生口语文化时代互动的场景。这样的有声出版场景既是高度流动的，也是随时定格的，在收听中，用户会根据对真人声音播报的情感需求转移到由智能合成声音组成的有声读物上。

（三）重塑出版产业链的可能性

AIGC的内容生产模式正在进一步影响出版产业链的运作，智能语音合成技术增强了出版产业链的流动性。有声出版物的更新周期较长，其编辑需要经过文本选择、后期配音及剪辑等全流程才能完成，同时需要接受出版审查规范等，成本高且流程烦琐。基于人工智能技术的智能合成声音等功能可以简化有声出版的流程，大幅度削减出版成本。结合有声出版中涉及的主体与环节可发现，其产业链主要由内容提供方、音频制作方、传播渠道方与用户构成［8］。在喜马拉雅FM平台，AI主播的作品生成数量均达到万级别，如@喜小道_喜道公子AI作品数量达4.7万个。相比于传统的有声出版模式，基于智能语音合成技术的在线有声出版可实现生产、分发一体化。智能语音合成技术是声音在有声出版运用中的一种再媒介化，拥有让“逝去”或“远处”的声音“复活”的魔力，可激起用户的好奇心以及满足其情感需求，并强化产业链之间的整体联动性，进一步加快产业链内外的双向流动，为人工智能时代下重塑出版产业链提供更多可能性。

三、以声助力：智能合成声音在有声出版中的应用困境

人工智能技术赋能有声出版的发展，加快有声出版产业链的流动。但目前智能合成声音仍然无法解决固有的机器性、内容生产创作的有限性、声音所缺少的伴随性，以及隐形版权争议等问题。

（一）智能合成声音生成内容的有限性

相较于纸质出版物或电子阅读，有声出版物本身已将文本内容扁平化，多是对既有文本进行“二次创作”。有声出版平台的内容生产过程是一个二次选择的过程。二次选择，也被称为二次出版，即在文本内容的基础上再制作成音频产品。但是受限于文本内容、制作成本以及模拟合成声音，并非所有文本内容都能进行AI声音的转化，同时智能合成声音转化多是对照文本进行直接输出，缺少由人工朗读所需要考虑的文字语音加工改造等要素，也难以考虑朗读时所要包含的人文内涵、文化价值、艺术价值和美学价值等［10］，导致最终呈现的有声作品过于有限。相较评书演员单田芳的声音，@单田芳声音重现的声音还是难以准确达到人声中的抑扬顿挫的效果，这也导致该账号不仅在二次创作中呈现内容的扁平化，而且在后续的多次延伸中难以丰富内容的层次和叙事表达。尽管目前AIGC的声音转换模式角色不断丰富，但这种非人类的生产模式容易使用户在自我联想的情景化过程中形成对原著本义的差异理解甚至误读。

（二）智能合成声音缺少伴随性，难以留住用户

尽管智能合成声音在成本和生产速度上优先于人工配音，但是在声音的强伴随性以及情感感染上仍有所缺失，声音的出版价值如文化价值、情感态度价值、伴随价值等难以发挥。有声出版物如睡前音频读物、相声段子等可以帮助用户纾解郁闷，提供一种有温度的陪伴［11］。声音的伴随性恰恰满足了用户对高效率的追求，但是经过智能合成语音转换后的语调、音速以及所传达的二次情感正在消磨声音的伴随性。

声音的文化价值多是在内容转换上呈现，而情感态度价值与伴随价值的衡量多是从用户感知行为出发。@喜小道_喜道公子AI对小说《囚龙霸天诀》进行AI声音转换，尽管拥有3040.2万的收听量，但仅获得158条评论。相比于真人@喜道公子的多部作品，@喜小道_喜道公子AI的用户黏性较低，用户对喜小道的喜爱多限于对真人主播的情感迁移以及文本本身的影响力。再者，从声音的伴随价值来看，不仅在于语音、语速以及语言包含的情感，还包括声音所在的声场和空间，AI合成的有声出版多只有生硬人声，缺少背景音乐的加持，整体合成声音较为干涩，用户的沉浸式体验感较差，这难以激发用户的后续情感价值。

（三）智能合成声音难以规避隐形版权问题

有声出版的版权问题一直亟待解决，智能合成声音的多角色以及合成模型更难以规避隐形版权问题。智能合成声音的快速流动带来版权的问题，想要加快智能合成声音在有声出版中的融合发展，明晰版权归属是必须的。智能语音合成技术逐渐成熟，但是相关法律中对声音生产的主体仍限定于自然人，基于该技术合成的声音作品面临授权主体模糊、侵权责任划分困难等困境［12］。目前，智能合成声音有声出版物的法律性质尚不明确，AI生成的有声书属于何种类型？是否受到著作权的保护？声音是否受到人格权的影响？基于智能语音合成技术的AI声音多具有拟人化的性质，根据知名主播等进行声音重现，不管是评书演员单田芳，还是喜马拉雅FM平台签约主播喜道公子，都经过真人的声音模拟合成，由于国内没有单独“声音权”的规定，因此智能合成声音的版权更多需要考虑是否有“人格权”的隐患。重视智能合成声音在有声出版的版权问题，有助于进一步规避有声出版产业链中出现的版权问题。

四、声声相融：智能合成声音在有声出版中的发展路径

收听有声读物已成为当下听觉文化的主流形式之一，随着人工智能、语音交互等智能技术的发展以及移动设备和智能播放器等传播载体的变迁，有声读物更富交互性和沉浸感［13］。将智能合成声音广泛运用到有声出版的产业链中，进行普及化生产，有助于在人机协同下推进“人机共声”，推动有声出版的高质量发展。

（一）基于文化价值丰富内容生产

有声出版受文化逻辑与技术逻辑的双重支配。基于智能语音合成技术的有声出版可以充分发挥声音的文化价值，进一步弥补文本内容二次转化的扁平化及有限性。文化遗产、方言文化以及历史文化的有声化生产，借助技术重现过去的瑰宝可以最大限度地发挥智能合成声音的价值。许多文化遗产或方言文化是通过口口相传的方式传承下来的，而这些传统文化知识的有声化可以为其保护和传承提供更好的途径。数字出版融入文化数字化已成为国家发展的重要战略，将数字出版与文化数字相结合，可推动数字出版内容与服务创新升级，有助于探索有声出版的数字文化新模式［14］。现今，仅依靠智能合成声音推动有声出版朝着智能化出版发展仍远远不够，在人机协同的智能理念下，将真人主播与智能主播相结合进行相互演绎，有助于进一步扩大声音的传播范围。真人主播与智能主播相互补充，一方面可以憑借真人主播的专业度打造精品付费内容；另一方面通过智能主播扩大其他内容的传播范围，在内容质量与内容生产速度的相互补充中丰富有声出版在智能合成声音下的内容生产。

（二）利用场景再现增强声音的伴随性

听觉空间不仅有声音，还具备社会属性，声音应当参与广义的文化和社会空间的再生产［15］。基于平台不断的发展，有声出版不再仅靠“内容为王”取胜，而是打通社群化运营的场景联通，实现场景再现。除了考虑物理空间的跨越时间与位置，有声出版还需要融入用户的生活空间，将用户的社交意愿、生活习惯、喜爱程度等结合有声书的文本内容进行社群营销，以培养用户更深层次的阅读行为习惯，增强用户黏性。在基于智能语音合成技术的有声作品中，为了吸引用户往往采取部分音频内容免费收听的机制。在@喜小道_喜道公子AI的有声作品中，《囚龙霸天诀》免费有声化小说的播放量超3000万，相比真人主播@喜道公子的部分作品，AI有声作品的播放量较高，这也意味着应用一定的内容营销策略可以激发用户的好奇心，增加有声作品的点击播放量。尽管智能合成声音在播放语音情感中有一定缺失，但通过社区运营以及后期的数字营销，实现用户的场景再现，可以有效地补充情感空缺，形成语音社交氛围，提升用户对智能有声读物的接受度与包容度。

（三）明晰智能合成声音的有声出版权责划分

随着智能语音合成技术的深入发展，有声书的制作成本将有所降低，面对市场化的扩大，有声出版平台明晰智能合成声音的有声出版权责划分有助于更好地扩大应用范围，防止后续有声出版产业链中出现版权纠纷等问题。有声出版平台要明确智能合成有声书的著作权定位，完善有声书出版中的著作权许可机制，尽可能基于声音授权选取更丰富的语料库进行文本有声化。除了制度层面的法律完善，有声出版平台还要借助技术支持对智能合成声音进行溯源，通过使用数字加密技术进一步提升版权保护的效能，通过利用区块链技术明确版权的归属和保护，提升版权管理的透明度和可信度。在有声出版的产业链中，将区块链技术应用到智能合成声音中，能有效地溯源有声读物及智能合成声音的具体流向与源头，为后续有声出版的营销等提供可靠的数据支持，并有效地保护原作者的作品，减少有声读物高速流动带来的内容泛滥和版权纠纷问题。

五、结语

随着人工智能技术的发展，有声读物不再是简单地将文字内容转化为音频，而是以平台为依托进行原创音频内容生产，对既有文本进行智能合成声音的二次转化，丰富有声读物样态。有声出版平台将智能语音合成技术运用到有声出版中，是在人机协同理念下推动有声出版的产业链更迭，朝着高质量方向发展融合的重要手段。但有声出版中早已存在版权问题，智能合成声音中更有不可规避的内容泛滥及版权纠纷等问题。在有声读物的传播过程中，有声平台明确其出版权责划分，做到句句皆有源头可查，才能推动有声书产业的健康有序发展，也才能推动有声出版朝更加智能化、耦合化的方向发展。

［参考文献］

［1］李舒，张寅.移动互联背景下有声出版的特点、难点与突破点［J］.出版广角，2021（20）：44-47.

［2］屈高翔，梅雨浓.迭代、再造与想象：有声读物再媒介化逻辑与未来场景［J］.中国出版，2022（14）：36-40.

［3］沈悦，金圣钧.智媒时代有声出版的作用机理及优化路径［J］.中国编辑，2022（11）：86-91.

［4］李武，谢泽杭，杨飞.AI有声书：价值优势与未来进路［J］.科技与出版，2023（06）：41-47.

［5］王峻峰.人工智能生成内容（AIGC）及其在图书出版中的应用探讨［J］.传播与版权，2023（10）：48-51.

［6］赵礼寿，马丽娜，杨佚琳.我国有声读物出版产业发展模式创新研究［J］.出版广角，2022（21）：71-75.

［7］希翁.声音［M］.张艾弓，译.北京：北京大学出版社，2013.

［8］李芳馨.再现、表现与实现：有声出版发展中的技术赋能［J］.科技与出版，2020（07）：61-67.

［9］刘宏，滕程.口语传播视角下有声出版的知识传播探析［J］.出版发行研究，2020（08）：33-38.

［10］张颂.朗读美学［M］.北京：中国传媒大学出版社，2009.

［11］彭颖，龚华静.有声出版：让声音从“幕后”走向“台前”［J］.科技与出版，2021（04）：52-56.