[摘要]随着有声书市场规模的持续扩大,当前有声书市场面临高质量有声书产品匮乏的问题,加之富媒体时代的到来,有声书还需要应对广播剧、博客、戏曲乃至有声漫画的竞争与冲击,因此有声书产品的升级迫在眉睫。文章从AI语音合成技术的相关概念与研究入手,通过分析有声书的现状及存在问题发现,有声书当前存在内容之忧、富媒之争、版权之困。基于此,文章结合实际案例,探究AI合成语音技术的使用对有声书产业的影响,即“内容生产成本降低,制作高效”“创作者门槛降低,质量提升”“平台用户可触达率提升”“AI合成语音,人文情感弱化”。
[关键词]AI语音合成技术;有声书;AIGC
精神生活的丰富离不开阅读,从传统媒体时代的纸质书刊到数字媒体时代风靡的电子书,再到有声阅读市场的快速增长,用耳朵代替眼睛去阅读已然成为一种全新的趋势。在多线任务中解放眼睛和双手,帮助视障人士获取信息,助力老年人跨越数字鸿沟等都是耳朵经济的独特优势。耳朵经济兴起,促进了有声书行业的快速增长。根据《艾媒咨询|2020年中国有声书行业发展趋势研究报告》,中国的有声书市场规模达63.6亿元,持续三年增速高于30%。基于此,喜马拉雅、荔枝FM、蜻蜓FM等专业音频应用与网易云音乐、QQ音乐等音乐软件逐渐深入有声书领域,参与有声书作品的生产与传播。
随着ChatGPT的发布,人工智能时代已然拉开序幕。当前,人工智能热点应用涉及多个领域,在有声书行业显著推动了音频内容检索、语音内容识别和语音内容生成等技术的发展。文章旨在针对当前有声书行业的现存问题,引入AI语音合成技术,分析这一技术给有声书生产与传播带来的影响。
AI语音合成技术被称为“TTS”(文本到语音),是一种将计算机生成或外部输入的文本信息转换为可听、流畅的音频的技术[1]。这种技术能够将用户输入的文本转换为流畅自然的音频,并支持语速、音调、音量和音频的调节。据统计,2022年,全球AI语音生成市场规模约达12亿美元,预计在2032年,该数据将增长至49亿美元。2018年,中国电子科技大学与微软亚洲研究院等机构联合推出Transformer TTS模型,该模型采纳了基于自注意力机制的Transformer架构,取代了以往的内容驱动的传统注意力机制,从而实现了非自回归式的语音合成。VITS模型是2021年发布的一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型,当前各大自媒体平台上使用的语音合成器大多由该模型构成[2]。VITS是首个真正实现了端到端的语音合成模型,它能够直接将字符或音素映射为波形。这种通过隐变量而非频谱串联语音合成的声码器和声学模型,丰富了语音合成的多样性。从语音识别激活命令,让应用程序做出相应的响应,到利用TTS引擎训练出匹配特定书籍风格和音调的自然音色,再到利用AI算法为用户定制个性化收听体验[3],随着AI技术的不断迭代和通用大模型及专业小模型的开发,机器语音逐渐具备了情感表达能力,并在个性化语音生成、方言及外语处理等方面持续优化,能更好地满足用户对有声书的个性化需求。
一、相关研究
我国学者对AI合成语音技术的研究主要聚焦AI语音合成技术对播音行业带来的机遇和挑战,其中,王海东认为,在AI语音合成技术发展的背景下,播音主持人应当重视情感制胜策略;符云柯等则结合具体的案例分析,认为在播音的吐字发声、语流音变、语言表达等方面,AI虽然准确清晰,但其吐字发声也存在声不随情动等问题;王俊杰等认为,在智媒时代,AI的应用是必然趋势,通过人机协同传播实现优势互补是最佳途径;杨鑫悦结合新华社手机客户端的AI合成主播和新闻联播主播的播音音频,从汉语语音学的角度探讨了智能语音技术在新闻播报中的优势和不足;张泽宇从声音景观的视角深入探讨了AI合成语音的构建问题,指出在用户创作与传播个性化声音产品的过程中,应用后台通过分析用户偏好获得了更多控制权,这最终将导致更多同质化AI合成语音内容的涌现。
我国学者对有声书相关的研究基本是在喜马拉雅和蜻蜓FM等几大有声书平台崛起之后才兴起的,如:诸葛寰宇通过对比两大有声书平台的特点、发展脉络以及阻碍因素,肯定了移动阅读的发展前景;李丹阳从内容制作、营销、硬件等方面详细解读了喜马拉雅的发展策略;张雪基于疫情期间有声读物平台所推出的疫情专题页面,分析了移动音频客户端表现亮眼的因素;任晓琳以云听App为例,详细分析了音频类App的营销策略;王子硕以帆书平台为例,详细分析了其商业运作模式和营销策略;童云等通过问卷调查与深度访谈,探究了有声读物用户需求的新变化及特征,并据此提出了相应的媒介生产策略,强调这些创新路径为新广播价值链的重构与转型发展提供了有力支撑;宫承波等认为,在智媒时代,技术的迭代带给用户新的体验,音频产品只要顺应技术的东风,重视内容的质量,必能吸引更多的用户;朱赫男认为,有声书在流动空间内的叙事模式不断优化,展望有声书在元宇宙中也将成为重要的阅读载体;高文萱研究了有声书在促进文学经典作品传播上的创新性作用。
目前,针对语音合成技术在有声书行业应用的相关研究较少,如:姜泽伟通过微信读书平台的研究发现,用户在“AI语音—文字有声化”与“真人语音—口语传播”这两种声音表达形式上的使用频率基本持平,据此认为AI语音在未来传播史上的地位或将与印刷术相提并论;孙艳华的研究认为,智能合成语音技术的优点毋庸置疑,但是其在用户的情感感知、情感需求等方面很难替代真人有声书;李武等人从媒介可供性角度审视,认为AI有声书正逐步展现甚至超越传统认知中真人有声书所难以匹敌的生产与社交优势。
二、有声书产业现状与存在问题
(一)有声书产业发展模式
音频内容的移动化与文学生产的数字化并非新现象,在广播时代,音频内容已实现移动化传播,而文学生产与传播的数字化与电脑、电子书的流行有关[4]。在全媒体时代,移动设备的普及为有声书发展注入了驱动力。在智媒时代社会化力量的激活下,有声书的生产与制作门槛得以降低,从而打破了文学生产与音频内容制作专业化的传统格局。主体性的觉醒和新技术的支撑促使有声书产业不断发展,既为用户带来更加生动立体的深层体验,也更加适应当前碎片化、多元化的信息传播场景。
有声书主要指运用现代数字技术,以文字作品为主要内容,由固定的单个或者多个表演者用声音演绎文字内容,并存储为数字文件,再利用网络平台向公众传播的音频产品[5]。由网络平台主导的有声书内容生产流程涵盖文稿录音、后期制作、内容聚合和整合、以及产品传播等环节。具体步骤为,有声书的文字内容主要被分为“出版”与“原创”两类,网络平台选购合适版权后,邀请制作方进行配图校对、文稿录音与后期制作,并上传至平台。随后,网络平台基于书名进行检索,为有声读物添加相应标签以进行分类,再依据分类将其投放至流量池,并策划相关活动,以吸引用户收听。
当前,从作者、出版方、音频制作商、音频供应商再到用户已然构成了一条完整的产业链,但基于不同平台的定位,有声书知识付费模式各有不同。近年来,部分网络平台逐渐构建“传统的流量—广告投放向产品—用户的知识付费”的销售模式。部分平台选择以免费内容换取用户行为数据,以“免费畅听”或“限时免费”的名义提高访问量与播放量,实现间接盈利。当前,直接的盈利模式大致可分为三类:一是由平台为付费会员提供优质的PGC(专业生产内容)与PUGC内容(专业用户生产内容)进行消费,如喜马拉雅;二是借助UGC(用户生成内容),并采用音频直播等形式来构建粉丝经济,如荔枝FM;三是采用单本读物或小说章节付费收听的模式来获取经济效益,如懒人听书。知识付费的盈利模式包括内容价值化、社交网络化、场景生态化等。我国大多数有声书平台主要依赖内容增值策略,即通过提升有声书的数量、质量及制作水平,以此作为知识付费业务的核心盈利途径[6]。
(二)有声书行业痛点
1.内容之忧
尽管网络平台会自行策划出品有声书产品,但在各个网络平台依然存在大量的用户自行生产的有声书。与专业配音演员、播音员及内容制作团队相比,普通用户既缺少高质量的录音设备,也未掌握专业的录音技巧,更不具备后期制作的专业能力。此外,部分用户受限于自身文化水平,创作时常有错字、漏字情况发生,导致有声书作品的内容质量欠佳。即便是平台自制的PUGC内容,也可能因合作团队的能力水平而导致内容质量不高。由于有声书体量相较广播剧更为庞大,审核团队通常采用抽样聆听的方式进行审核,面对其中出现的语病、错字,可能因返音、后期过于麻烦而选择不进行修改。因此,有声书的内容质量大多参差不齐。同时,当前有声书的主题重合度较高,内容高度同质化。为了获取更高收益,各出版社或版权方倾向于将内容同时授权给多个平台,由于这些内容多为高度模式化的网络小说,不同平台间的内容大同小异,导致作品间的差异性亦不显著。
2.富媒之争
在互联网时代,随着各类社交平台与应用软件不断涌现,信息的丰富性与传播形式的多样化促使阅读行为趋向泛化,进而使得碎片化阅读逐渐流行起来。一方面,有声书凭借较短的单期时长填补了用户碎片化的时间,从而获得广泛认可;另一方面,有声书的特性在一定程度上削弱了其相对传统阅读所承载的阅读价值。当前,有声书的单集时长大约在五到二十分钟,以迎合用户的阅读习惯。然而,用户注意力的快速转移导致声音形式的阅读往往停留在较浅层次。对适合深度阅读的高质量书籍而言,用户在聆听过程中可能会面临思考缺失的风险。在富媒时代,有声书面临大量其他品类声音媒体的竞争,无论是来自外部,如广播剧平台猫耳FM、播客平台小宇宙等其他平台的竞争,还是平台内部,如相声、戏曲、播客等其他板块的引流,都对有声书造成了一定程度的威胁。
3.版权之困
随着传播科技的不断发展,移动网的崛起赋予了用户前所未有的主体性,每个人都可借助移动设备实现信息的获取和内容的创作。然而,专业壁垒的打破使得多种问题应运而生。一般有声书制作涉及文字作品著作权人的复制权、改编权、表演权等,AI语音背后使用的声纹归属也同样存在一定的争议,未经许可擅自录制或传播有声书或将面临侵权风险。同时,蜂拥而入的、参差不齐的草根制作者并未接受过专业的教育和培训,版权意识薄弱,完全意识不到通过自行录制读物来吸引流量甚至盈利的行为可能造成侵权,这也使得有声读物相关的侵权案件频繁发生。此外,纸质书籍向电子产品转化,版权应当属于原作者还是制作方?有声读物相关版权的界定在我国尚未形成统一标准。
三、AI语音合成技术的使用对有声书产业的影响
随着AI语音合成技术融入有声书产业,产业链发生了若干变化:一方面,音频制作与传播渠道出现了融合趋势,网络平台能直接运用AI语音合成技术录制有声书;另一方面,内容提供与音频制作的角色有所重叠,这意味着AI技术不仅限于合成语音,还能参与内容创作。总的来说,AI语音合成技术的应用对有声书的制作与传播产生了一定的冲击与影响,具体表现在以下几个方面。
(一)内容生产成本降低,制作高效
AI内容生产模式具有显著的规模递减优势,其成本支出主要在于模型算法开发与硬件购买等固定领
域[7]。数字化形式简化了选择声音演员、制作道具、录音、剪辑等多个环节,能够更高效地生产高质量的有声作品,满足不同用户的需求。例如,喜马拉雅平台在拥有“喜小道”“苏小刀”“喜小迪”等多位AI主播的基础上,联合其他机构打造AI主播配音演播的作品。这些AI语音不同于以往卡顿、沉闷的机械音,其经过升级训练,声调音色更加自然、柔和。鉴于此,相较传统的音频生产方式,AI内容生产模式大大提高了音频内容制作的生产效率与质量,能够给用户带来更优质的体验。
(二)创作者门槛降低,质量提升
根据2020年中科网联数据有限公司进行的全国音频用户专项调查,用户在选择有声书平台时最看重的五个因素依次是:有声书资源的丰富度(占比51.2%)、播讲质量(占比46.4%)、是否有自己喜爱的有声书(占比39.1%)、免费内容的多少(占比32.4%)以及有声书内容的分类情况(占比31.1%)。由此可见,有声书的内容质量对用户的消费选择产生重要的影响。以百度语音合成技术为例,其研发的端到端细粒度建模技术使得普通用户只需要录制30分钟的声纹,就能够生成媲美真人原声的合成音频。对普通用户而言,借助AI“一键文字转语音”进行有声作品创作,既可以规避错读、漏读等常见错误,也能消除录制时产生的口水音、噪声等降低有声书质量的因素,大大降低了后期制作的难度。由此,有声书录制的专业性被逐渐弱化,创作门槛显著下降。同时,基于用户个性化声线生成的声音具备多样性,有助于在庞大的有声书市场中缓解用户审美疲劳,从而吸引更多的用户参与创作,最终推动有声书市场的持续发展。
(三)平台用户可触达率提升
用户可触达率指用户在特定时间段内接触到特定内容、产品或服务的比例。一方面,AI语音合成技术使得有声书的制作成本不断降低,制作时间也大大缩短,有利于网络平台推出免费有声书产品来吸引用户。例如,网易云音乐有声书板块推出的片花模块,鉴于其内容趋向模版化、时长较短,且采用固定配音演员录制、后期制作要求不高,适宜采用AI语音合成技术。AI语音合成技术可负责写作、配音及配乐,生成时长三十秒至一分钟的内容。此举既减轻了工作人员负担,使他们既能专注于精品内容的创作,又规避了文案作者经验不足导致的片花质量波动问题,还确保了原有的引流效果。另一方面,AI语音合成技术可应对多语言需求的环境。相较人类掌握一门新的语言所需要的时间,AI语音合成技术显然具有更大的优势。AI合成语音技术只要拥有足够的样本量和数据库,就完全可以实现多语言混读。鉴于此,网络平台利用AI语音合成技术可生成多语言版本的有声书产品,无须专门聘请外国配音员,在不增添额外成本的前提下,即可实现不同语言有声书的制作,有助于促进文化的广泛传播,让更多国家的用户接触有声书,从而扩大有声书的用户覆盖范围。
(四)AI合成语音,人文情感弱化
在有声书的演绎中,情感始终贯穿于声音中,构成了作品的文化底蕴和艺术精髓,而这正是AI语音合成技术当前难以全面实现精准复制的重要难题。传统影视作品大多通过画面与声音的结合来酝酿情感,当视觉画面成为用户关注的焦点时,作为辅助元素的声音,其情感饱满程度的要求就相对较低。而有声书完全依赖声音来营造戏剧冲突,通过声音叙述故事情节、描绘多样化的角色性格以及展现不同情境下的情感起伏。鉴于此,一部优质的有声书,其配音必然不能脱离情感的表达。AI语音合成技术在多方面促进了有声书的发展,尽管它能通过算法和大模型训练模仿不同人的音色特征,但模型化的生成方式却难以捕捉并再现人类复杂多变的情感。同时,AI语音合成技术缺乏自我思考能力,仅依赖大数据和算法中的信息描述,以及按照预设编程进行运作,这仅能处理简单的词句逻辑。在处理语音文字内容的情感丰富度上,AI语音合成技术仍存在诸多不足,容易削弱用户接收作品时的情感能量,难以激发用户的情感共鸣,从而影响有声书的传播效果。以喜马拉雅的AI系列作品“单田芳声音重现”专辑为例,有用户就评论其“没有单老的节奏神韵,干巴巴的感觉”“只模仿了嗓音,学了个形似”。由此可见,文学和美学重视的艺术创造性和想象力,是AI语音合成技术难以突破的壁垒。
四、结语
随着AI语音合成技术的日益成熟与优化,将电子书大规模、自动化地转化为有声书已成为现实,这不仅降低了成本、提升了质量,还扩大了用户的覆盖范围。尽管当前人工智能在语音合成方面还有很大的提高空间,在版权方面也存在一定争议,但相信随着技术的进步,未来,AI语音合成技术在有声书领域的应用将更加自然流畅,从而吸引更多平台与用户将其应用于内容创作领域。随着实践的深入,相关法律法规和平台管理体系都将不断优化,进而促进有声书产业的健康发展,助力有声书产品在更广泛领域内传播。
[参考文献]
[1]郭栋,肖爱云.“互联网+”趋势下人工智能在配音中的应用[J].西部广播电视,2018(20):186-188.
[2]陈志业,张智骞,王兵,等.AI语音合成技术的应用与展望[J].影视制作,2023(03):51-55.
[3]李洁,张书勤.人工智能赋能音频产业功能路径研究[J].视听界,2023(04):36-42.
[4]HJARVARD S,HELLES R.Going Digital:Chan-ging the Game of Danish Publishing[J].Northern Lights Film and Media Studies Yearbook,2015(01):49-64.
[5]马晓明,周欣月.有声读物该如何避免侵权风险[N].中国新闻出版广电报,2017-12-14(7).
[6]王宇,孙鹿童.2CM理论视野下的有声书发展模式及营销策略[J].中国广播,2022(04):9-13.
[7]王诺,毕学成,许鑫.先利其器:元宇宙场景下的AIGC及其GLAM应用机遇[J].图书馆论坛,2023(02):117-124.
[基金项目]基于语音识别的数字人交互关键技术研究(项目编号:Z421A23013)。
[作者简介]赵远杰(1999—),女,新疆沙雅人,浙江传媒学院硕士研究生;宋霄钰(1999—),女,浙江杭州人,浙江传媒学院硕士研究生;秦振宇(1997—),男,河南南阳人,浙江传媒学院硕士研究生。