AIGC赋能下的智慧有声阅读：服务特征和应用场景

2024-02-22 07:28郭愚方堃

出版广角 2024年1期

郭愚方堃

【摘要】在政策引导、技术赋能及用户需求的合力作用下，有声阅读呈迭代发展态势。AIGC技术拥有内容丰富性和阅读易得性、交互智能化和场景延伸性、服务定制化与体验个性化三大服务特征，未来可应用于智慧有声图书馆和全景声沉浸服务、泛声音社交空间和大众有声共创两大应用场景。科学、合理地使用AIGC技术可以促使智慧有声阅读向善向好发展，社会多元主体需要从不同领域合力共建技术应用规范，以引导AIGC技术更好地赋能智慧有声阅读，打造智慧时代的有声阅读新生态。

【关键词】AIGC；智慧有声阅读；服务特征；应用场景

【作者单位】郭愚，新疆大学新闻与传播学院；方堃，新疆大学新闻与传播学院。

【基金项目】国家社科基金西部项目（22XXW013）研究成果。

【中图分类号】G230.7 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.01.012

我国自2014年以来连续10年将“全民阅读”写入政府工作报告，多个部门也出台政策为全民阅读保驾护航。除政策引领外，人工智能、虚拟现实等新兴技术强势赋能，也使社会大众的阅读习惯、阅读方式和阅读介质等发生翻天覆地的变化。据第二十次全国国民阅读调查结果和《2022年度中国数字阅读报告》，2022年我国有三成以上（35.5%）的成年国民有听书习惯，有声阅读市场规模已达95.68亿元，前景可期。

当前，以ChatGPT为代表的新一代生成式人工智能技术已被视为各行业领域新一轮产业革命的催化剂，其对有声阅读领域同样产生巨大影响。2023年云栖大会，喜马拉雅联合西北工业大学Aslp Lab推出珠峰语音生成式技术，通过AIGC机制赋能，重新定义有声阅读的内容、形式及服务体验，打造智慧时代的有声阅读新生态。基于此，文章就AIGC赋能下的智慧有声阅读的趋向动力、服务特征与应用场景展开深入探讨。

一、AIGC赋能下智慧有声阅读的趋势动力

相较于视觉阅读，有声阅读的伴随性、流动性、便捷性等特征为大众阅读提供了新选择，促使现代大众的游徙性与声音的弥散性相勾连，创造多元丰富的声音景观［1］。有声阅读从1.0到3.0的发展历程，也是其智慧化转型的过程。

1．有声阅读的智慧化发展趋势

在有声阅读1.0阶段，有声阅读的覆盖面广，但内容可选择性较差，并受时空限囿。在有声阅读2.0阶段，有声阅读的移动性得以强化，但有声读物制作者对声音场景的营造是机械化、标准化和单一化的，带给听众的想象空间和阅读效果有限。在有声阅读3.0阶段，声音的智能化传播与智慧化服务得以实现，用户可充分享受个性交互的智慧阅读服务带来的全景声体验。

从1.0阶段到3.0阶段，有声阅读实现了从固定时空下的内容场景到基于个性化定制的全景声场景的发展转变，整体呈现智能化甚至智慧化的进阶特征。当前的有声阅读服务是创造性嵌入AIGC机制并向用户提供更多元、优质、个性的智慧阅读，其范围、规模、形式和服务效果远超以往。

2．有声阅读的智慧化发展动力

第一，政策引领。国家相关政策为有声阅读的智慧化发展注入了重要动力。2017年国务院印发《新一代人工智能发展规划》并强调，要促进“人工智能在生产生活、社会治理、国防建设各方面应用的广度深度极大拓展”，其目的在于进一步提升社会信息化发展水平，为智慧城市、智慧乡村乃至智慧社会建设提供引领。在此背景下，推动有声阅读的智能化乃至智慧化发展，无疑是全民阅读事业新的目标和任务。

第二，技术赋能。以人工智能为代表的新一代高精尖技术的研发及应用，是有声阅读智慧化发展的核心动力。正如麦克卢汉在《理解媒介：论人的延伸》一书中所言，技術的影响不是发生在意见和观念的层面上，而是坚定不移、不可抗拒地改变人的感官比率和感知模式［2］。目前，随着生成式AI技术的成熟和AIGC机制的强化，多模态呈现、软硬件结合、全景声服务正在成为有声阅读的新引擎。《2022年度中国有声阅读影响力研究报告》显示，随着生成式人工智能技术的普及应用，有声阅读产业将迎来新一轮变革。

第三，需求刺激。用户个性化需求是推动有声阅读智慧化发展的又一大重要动力。随着社会信息化发展程度不断加深，越来越多的用户更加青睐于数字阅读、听书等智慧阅读方式。据观研报告网发布的《中国有声读物市场发展态势分析与投资战略调研报告（2023—2030年）》，2022年我国有声读物行业用户数量约为4.2亿名。在旺盛的市场用户需求刺激下，各行业主体开始探索有声阅读领域，通过持续的技术创新优化阅读效果，提升用户体验，发掘市场价值空间，助推有声阅读智慧化发展。

二、AIGC赋能下智慧有声阅读的服务特征

伯格曼的“装置范式”理论认为：生活依赖于技术进步催生的各种装置，它们成为社会生活范式；技术进步在构成新的生活范式的同时，也深刻改变传统生活方式［3］。随着人工智能、云计算、区块链等新一代技术群落的迭代升级和普及应用，AIGC将全面重塑人们的听书习惯和听书方式，智慧有声阅读呈现与以往全然不同的服务特征。

1．内容丰富性和阅读易得性

以人工智能技术为核心驱动力的智慧有声阅读已初步具备自主生产能力，可将海量内容资源瞬时转化为有声阅读文本，再利用“AIGC+TTS”技术（将计算机产生的文字内容转变为声音内容的技术）组合实现有声阅读内容生产与服务目标，如谷歌公司的Tscotron和OpenAI公司的WaveNet，在AIGC的赋能下已能自主生成自然流畅、多元丰富的有声阅读内容产品。我国有声阅读头部平台之一的喜马拉雅，现已利用AIGC机制创作了超过3.7万部有声书专辑，其内容丰富性不言而喻。凭借生成式AI技术，AIGC的内容生产能力再次提升，其基于大型语言模型和海量预训练数据的赋能，可自主创作新的文本内容，并能根据用户的指令需求实现从文本到音频的全流程、一站式生成与服务目标。

传统有声阅读产品生产周期较长，且真人录音、对轨审听都需要人工参与，制作成本高昂，因而提供给听众的有声阅读服务多以付费模式为主，阅读易得性较差。AIGC的强势赋能，加上TTS、ARS（语音识别技术）的创新运用，促使智慧有声阅读逐渐普及，其采用AI录制、自动对轨、AI辅助人工审听等方式，能在缩短有声阅读产品生产周期的同时取得降本增效的理想效果。据互联网公开信息可知，喜马拉雅珠峰语音实验室的文语转换速度现已达到3000字/分钟，Reflect Audio旗下的有声读物制作平台的AI主播制作速度更是超过500万字/天。有学者言，以往将一本200万字的长篇小说制作成真人有声书至少需要花费10万元，而AI有声书的录制成本则可节省90%以上，且生产周期也能大幅缩短［4］。如此，未来低价甚至免费的智慧有声阅读产品必会接踵而至，在扩大智慧有声阅读潜在用户规模的同时，也会显著提升智慧有声阅读的易得性。

2．交互智能化和场景延伸性

传统有声阅读主要是单向的用户收听服务，即出版商制作好有声阅读产品交由平台，向用户提供有声阅读及相关服务。在AIGC的赋能下，智慧有声阅读可实现双向交互，即用户参与有声阅读内容生产与制作环节，通过及时沟通和定向指令，以強交互实现智慧阅读服务目标。例如，2021年中央广播电视总台打造的新型有声阅读平台——“云听”利用人工智能技术和5G时代的传输优势，推出首档角色互动悬疑有声读物《真相街21号》，听众可化身为故事主角的好友，替主角作出选择，推动不同剧情向多个方向延伸，以此感受智慧有声阅读的沉浸式推理体验。除此之外，“云听”还与中央广播电视总台农业农村节目中心共同打造AI语言互动版块——“乡音博物馆”，不同省份的听众通过AI交互测试方言的种类，便可收听地方传统文化精品有声内容。随着生成式AI技术的迭代和应用，AIGC对智慧有声阅读的赋能作用更甚。目前，以Vall-E、喜马拉雅珠峰语音生成式技术等为代表的新一代AI语音工具，不仅采用ToC的用户交互模式，而且较以往的技术应用更易理解人类语言的模糊性，能在深度学习算法和海量数据“饲喂”的过程中与用户进行实时对话和交流。未来，当生成式AI技术应用于智慧有声阅读领域，其带来的有声阅读体验感和用户参与感必将更甚。

在AIGC的强势赋能下，智慧有声阅读的服务场景将得到进一步延伸，听书不再局限于图书馆、移动阅读平台等，而是借由新兴技术的支撑全面覆盖用户日常生活的各种碎片化场景，使用户能够随时随地享受智慧有声阅读服务，满足全场景消费时代的智慧阅读需求。目前喜马拉雅已经与杜比实验室联手打造杜比全景声专区并上线蔚来汽车，首发上线内容包括科学、悬疑、儿童等品类的精品有声书，旨在为不同的用户群体打造高品质的有声阅读体验场景。随着AIGC的全方位、常态化应用落地，智慧有声阅读的应用场景将不断延伸，从而支持更多听众在多元场景中随时悦享高品质的智慧有声阅读服务。

3．服务定制化与体验个性化

依托人工智能、大数据等技术，AIGC可收集、整理与分析用户在进行阅读行为时产生的数据，精准提供用户需要、关注的阅读内容，以此实现阅读服务定制化目标。同理，当AIGC赋能智慧有声阅读平台，其亦能根据内容和用户精准画像为用户提供定制化服务。例如，喜马拉雅车载版基于AIGC技术，可向用户提供智能化、定制化内容推荐和导览功能，用户可根据自身的阅读偏好，以语音指令实现智慧有声阅读目标。不仅如此，当服务终端了解用户偏好后，还能自主为用户推荐同类或同主题的有声阅读内容，以此实现“千人千面”的服务初衷。可见，基于AIGC技术，智慧有声阅读服务的用户指向性更高，定制化程度更深，既能在实现用户“所想即所得”的同时全面发挥智慧有声阅读服务平台的核心生产力，又能以高拟人度的悦听体验和实时交互赢得用户青睐。

良好的个性化体验，是AIGC赋能智慧有声阅读服务的又一重要特征。所谓智慧阅读，通常是指运用智能技术为读者提供智慧服务的一类阅读方式，其核心价值是关注读者的阅读需求及其满足程度，个性化服务是根本［5］。基于AIGC技术，智慧有声阅读平台或终端能精准识别用户的需求，按照用户的阅读偏好及用户习惯，向其提供个性化推荐服务。喜马拉雅珠峰语音生成式技术作为国内AI有声阅读领域的最新技术之一，不仅为AIGC全面应用于智慧有声阅读赛道提供了新的支撑，还具备快速实现个性化语音音色和风格定制的能力。该项语音生成式技术已应用于喜马拉雅APP的“爸妈讲故事”功能板块，家长只需录制5段文本，便能在系统模型中训练生成个性化声音，可在“爸妈讲故事”页面或支持AI转音的专辑中用自己的声音为孩子讲述中外名著、诗词国学、神话传说等，为亲子共读提供个性化的有声体验。

三、AIGC赋能下智慧有声阅读的应用场景

在AIGC的赋能下，智慧有声阅读在形塑大众阅读习惯、阅读体验的同时，也会导致阅读场景产生巨大变化。场景的本质是以人为中心的连接方式，它实现了人与物、用户与产品、需求与供给的有效连接，并以此达到随时随地地被激活、创造、界定和满足的目的［6］。在AIGC时代，阅读场景成为继阅读内容、阅读形态之后的又一大核心要素，不仅决定了阅读价值效力，也是内容及技术平台等阅读服务机构转型升级和高质量发展的必经之路。结合AIGC的技术特色和智慧有声阅读的服务特征，其将在个人和社会两大层面实现场景创新目标。

1．个人层面：智慧有声图书馆和全景声沉浸服务

（1）智慧有声图书馆场景

在AIGC的赋能下，根据用户的个性化需求为其精准提供优质内容及服务，打造个人专属的有声图书馆，必将成为智慧有声阅读服务应用的基础场景。在人工智能技术的赋能下，AIGC的内容生产效率、生产周期得以不断优化，且内容品类及数量规模也将大幅拓展。同时，其能够结合大数据、云计算等技术群落不断细化用户精准画像，捕捉用户在阅读过程中产生的真实数据并予以深度分析，从而增加为不同场景、不同内容需求下的用户提供有声阅读服务的可能性，真正实现个人智慧有声图书馆的服务目标。特别是生成式AI技术的问世和大型自然语言模型的应用，将再次为智慧有声阅读赋能，即平台或系统应对不同用户需求场景的内容自主生产能力得以显著提升。借由海量优质资源和TTS、ARS等技术，用户可获得的有声阅读内容将无穷无尽，并在语音指令下充分享受高效、精准、个性的悦听体验。2023年10月，喜马拉雅珠峰语音生成技术正式亮相，现已步入初步应用阶段。该平台早在2020年4月便与26家专业出版机构达成“有声图书馆”合作计划，未来其将在“专业机构权威资源+前沿语音生成式技术”的合力作用下，重新定义智慧有声阅读的应用场景，以用户为服务核心的个人专属声音图书馆即将成为现实。

（2）全景声悦听服务场景

在AIGC的赋能下，全景声悦听服务将成为智慧有声阅读的又一大实践应用场景。在AIGC的多模态、软硬件结合、全景声技术的通力协作下，用户能更便捷地享受高品质的内容消费体验，并能在不同的需求场景下无缝切换，不断延伸智慧有声阅读的边界。作为国内首家探索有声阅读全景声服务的互联网平台，喜马拉雅凭借自身的技术领先水平和跨界合作优势，目前已经在车载场景领域初步实现全景声悦听服务目标，如该平台与WANOS联合打造的全景声有声剧作品已经上线理想汽车的L系列车型，搭配理想汽车自主研制的7.3.4音箱工具，为交通出行场景下的全景声悦听服务提供了有效支撑。此外，有声阅读的消费形式和内容场景也将更加丰富，车载、露营、游戏等都有机会成为有声阅读的“主阵地”，全景声悦听服务是平台或企业在不同的消费场景中快速实现价值变现目标的核心。未来，基于AIGC的各种智慧数智人的问世及应用，将成为连接用户和智慧有声阅读内容及服务的“桥梁”。

2．社会层面：泛声音社交空间和大众有声共创

（1）泛声音社交场景

AIGC的赋能必将为全民智慧有声阅读解锁新的场景。其中，搭建泛声音社交场景正在成为诸多内容平台新的发力点。有学者从社交可供性的角度指出，作为声音媒介的AI有声书，除了提供信息获取功能和消遣娱乐等功能，还能打破基于血缘关系的熟人社会，形成更多基于地缘、趣缘、业缘关系网络的能力，服务于社会层面的大众交往需求［4］。艾媒数据调研结果显示，在2020年我国移动社交用户偏好的社交产品中，语音配对和直播连麦占比达到32.8%，这说明泛声音社交是新时代大众社会与文化交往的重要组成部分。有声阅读平台也是声音社交的主要发生地之一，如“云听”、喜马拉雅等移动音频平台，它们以人工智能、5G、云计算等新兴技术，提升声音社交的语音质量，降低延迟性并增强互动性，塑造成熟高效的泛声音社区。“云听”通过“AIGC+语音社交”的互动模式，依托总台和合作伙伴的海量内容资源吸引用户关注，其中既有针对中小学用户群体的“云听朗读评测”自交互系统（用户与平台交互），也有针对全年龄段社会大众的“乡音博物馆”全交互系统（用户与平台、用户与用户之间的全面交互），旨在以技术赋能和媒介赋权打造泛声音社交生态空间，促使智慧有声阅读全民化、大众化发展。值得一提的是，随着AIGC的赋能作用日益深化，泛声音社交场景下的智慧有声阅读将呈现细分化、垂直化发展态势。如头部长音频平台喜马拉雅、荔枝的语音直播业务，主流音频平台“云听”的有声互动板块，它们将在个性化阅读服务的基础上根据用户身份标签进一步细化垂直群体的特征，尽可能将声音打造成新时代全民社交的新紐带，并不断挖掘新的应用场景，以此实现智慧有声阅读的服务延伸和增值。

（2）全民有声共创场景

与有声阅读服务模式不同，基于AIGC的智慧有声阅读主要以用户共创为服务模式，有效提升智慧有声阅读服务的用户黏性，进一步拓展其场景边界，为全民共创下的有声内容增值和智慧阅读提效发挥积极作用。从大众角度来看，AIGC拥有的自主内容生成能力，为社会大众按需定制有声阅读产品及服务提供保障，如喜马拉雅珠峰语音实验室研制的新一代语音生成式技术在自有APP“爸妈讲故事”板块的应用，打造了用户个性化、定制化的有声阅读场景空间。当下，AIGC技术实现了PGC与UGC机制的完美结合，即“喜马拉雅专业权威内容产品”与“用户有声阅读DIY呈现”在同一消费场景下彼此贯通，形成用户与平台共创的场景服务机制。基于AIGC的场景共创，平台与大众、大众与大众之间的阅读关联性和自主参与感会更强，以此强化用户黏性和阅读效果。

现阶段的有声场景共创和用户服务创新还处于起步和探索阶段，未来，随着人工智能技术的不断迭代，AIGC将开发更高阶的智慧有声阅读共创场景，且在内容规模、服务功能、呈现方式等方面不断优化。从文化角度来看，基于AIGC的共创场景将不断提升有声阅读的内容体量和用户黏性，创造更多更具智慧的声音文化产品，并在技术赋能、媒体赋权和内容赋值的合力下加速向社会各领域传播渗透，让主流文化和非主流文化、大众文化和精英文化“百花齐放”，恢复听觉文化与视觉文化的传播平等性，促使有声阅读的价值回归。

四、AIGC赋能下的智慧有声阅读平台发展思考

AIGC赋能智慧有声阅读的本质，是技术对阅读内容、形式和效果的深层影响和全面改写。然而，技术在赋能智慧有声阅读向善向好发展的同时，也可能导致诸多风险挑战，我们需要对AIGC赋能下的智慧有声阅读新形态作出必要反思。

第一，AIGC赋能下的智慧有声阅读平台收集大量用户阅读偏好数据，可能存在个人隐私泄露风险。第二，AIGC尤其是生成式AI技术的落地应用，可能由于技术隐蔽操纵加重有声阅读领域的版权危机。公开数据显示，头部有声阅读平台喜马拉雅仅2021—2023年的侵权司法案件就高达520起。目前，以ChatGPT为代表的生成式AI技术应用工具也相继出现版权侵权问题，生成式AI应用于有声阅读平台领域是否会加剧有声作品版权侵权程度，甚至造成行业及市场的发展危机，需要持续关注。第三，AIGC赋能可以强化智慧有声阅读的服务效力，但也可能造成技术过度崇拜，导致用户乃至社会大众忽略有声阅读的内容价值，消解阅读作为人类和社会发展进步手段的本质意义。此外，AIGC处于初步发展阶段的技术成熟度、安全性等问题也有待考量。

面对上述问题，社会多元主体需要从不同领域合力共建技术应用规范。国家立法部门应出台技术规制方案，确保技术合理使用；行业机构及有声阅读平台应加大自审自查力度，确保AIGC赋能智慧有声阅读服务的同时尽可能避免版权侵权、隐私泄露等现象和过度技术崇拜导致的阅读价值消解等问题；社会大众应在不断强化自身技术理性和智慧阅读素养的同时，积极参与有声阅读的监督管理活动。马克思·韦伯曾比喻，科学技术就像一张地图，他可以告诉你到某一个地方怎么走，但是它不能告诉你往什么地方去。AIGC是智慧有声阅读的核心驱动力，但前提是它能得到科学、合理、规范的应用。

｜参考文献｜

［1］许加彪，张宇然. 耳朵的苏醒：场景时代下的声音景观与听觉文化［J］. 编辑之友，2021（8）：12-17.

［2］马歇尔·麦克卢汉. 理解媒介：论人的延伸·增订评注本［M］. 何道宽，译. 南京：译林出版社，2011.

［3］王佑镁，宛平，南希烜，等. 走向数字阅读3.0：智能阅读的特征、应用与发展［J］.现代远程教育研究，2021（5）：26-32.

［4］李武，谢泽杭，杨飞. AI有声书：价值优势与未来进路［J］. 科技与出版，2023（6）：41-47.

［5］吴赛，刘思危.智慧阅读发展与出版智能化升级研究［J］. 出版广角，2022（19）：82-85.

［6］张莉. 移动有声阅读场景分类与场景应用路径探析［J］. 出版科学，2020（2）：103-107.