李 洁 张书勤
从便携式盒式磁带播放器、MP3 播放器、iPod、智能手机、智能音箱,到智能车载等载体介质的发展,“公共场所的私人收听”成为当代文化景观中熟悉的元素。狭义上数字音频包括在线音频和在线音乐。广义的音频包括播客、有声书、音频知识付费、数字音乐、音频直播、现场音频及音频硬件等。截至2021 年12 月,中国在线音频行业用户规模达6 亿人,网络音乐用户规模达7.29 亿,在线音频行业活跃人数规模达3.39 亿,中国在线音乐行业市场规模达到395 亿元。[1]2021 年我国移动端用户使用在线音频的日均时长为131.2 分钟,高于长、短视频和在线音乐。[2]我国音频产业市场规模稳定增长,发展潜力巨大。数字音频唤醒了听众的陪伴需求,调度听觉互动对社会整体情感的建构不可缺少。[3]音频解放了眼睛和双手,开启了用户多线程任务模式。它不仅丰富了消费者的精神生活,还帮助视障人士和老年人跨越生理缺陷和数字鸿沟来获取知识和信息。因此,声音经济值得关注。
近来,作为人工智能领域的热点应用,ChatGPT引起了社会各界的广泛关注。如今,人工智能深度应用于音频行业,显著推动了音频内容检索、内容识别和内容生成。如AIGC 音频创作、AI 主播+AI 续写、ASR 自动语音识别、SP 音频处理、内容推荐、内容鉴权等。人工智能赋能音频产业的核心优势包括准确性、高效率、定制化和可访问性。技术加持下,耳朵经济的声音价值愈发凸显。(见表1)
表1 人工智能赋能音频的核心特征
人工智能与其他智能技术协同还会产生新效应。5G 和AI 技术下音频传播新场景与产业链形成了有效对接。[4]伴随AI 技术与5G 时代的叠加出现,通过对用户数据的挖掘进行内容生产与精准分发已成为当下文化产业发展的常态。[5]基于自动化语言识别、可接近性、云计算技术及自然语言处理等技术崛起的智能音箱和语音助手,运用算法模型和机器技术迭代提升了语义识别准确度,还可以根据用户后台数据绘制画像进而精准分发音频信息。[6]AI 在文字识别、语音播报的融合应用,使有声书产品的内容场景设计有了先进的突破升级。[7]艾媒咨询数据显示,2022 年我国车载音乐市场规模达169.8 亿元。AIoT 时代开启了音频的智能家居和车载新场景。[8]通过人工智能、大数据、云计算等技术,相关组织对数字版权交易链条上的数字版权信息做全网扫描,可以分析数字文化产品的流转与侵权状况。通过文献回顾,现有研究在人工智能技术赋能音频产业,即具体各细分行业的功能路径建设方面的研究略显空白,因此本研究致力于探索AI 赋能音频各行业的功能路径。(见图1)
图1 网络音频产业标志性事件
人工智能在播客行业中扮演着越来越重要的角色,从制作到分发,帮助自动化和改进播客过程的各个方面。AI 技术帮助播客提高了内容质量,接触新受众,更有效地盈利。(见图2)
图2 人工智能赋能播客领域的功能路径
自动转录:AI 驱动的转录工具可以帮助播客快速准确地转录音频内容。与手动转录相比,这节省了大量时间,还可以通过将其作为文本提供来提高内容的可访问性。
音频增强:人工智能驱动的降噪算法可以通过去除背景噪音、调整音量级别和提高整体音质增强播客的音频质量,让听众更享受播客,并改善整体的收听体验。人工智能还可用于恢复旧的或损坏的录音,消除嘶嘶声、砰砰声和其他失真,并提高其整体音质。
内容分析:人工智能可用于分析播客的内容,并对所讨论的主题、表达的情感和播客的整体基调提供见解。这有助于播客了解他们的受众并改进他们制作的内容。
个性化:人工智能可用于个性化听众的收听体验,根据每个听众的兴趣、收听历史和其他因素推荐相关播客,这可以帮助播客获得更广泛的受众,并提高内容的参与度。
广告:AI 驱动的工具可以帮助广告商根据人口统计、兴趣和收听行为,更有效地将广告投放到播客,这可以提高播客广告活动的投资回报率ROI,并帮助播客更有效地将其内容变现。
人工智能正在改变有声读物领域,使制作流程更加高效,改善增强用户的听力体验,并为个性化和定制提供新的机会。(见图3)
图3 人工智能赋能有声读物领域的功能路径
语音识别:AI 驱动的语音识别技术用于为有声读物应用程序启用语音激活命令。用户只需说出自己的命令,例如“播放”“暂停”“跳过章节”,应用程序就会做出相应的响应。
文本到语音:AI 驱动的文本到语音(TTS)技术可用于将书面内容自动生成有声读物,减少人类叙述的时间和成本。TTS 引擎可以被训练以产生与人类叙述者无法区分的自然声音,甚至可以定制匹配特定书籍的风格和音调。
质量控制:AI 可以通过自动识别和纠正错误(如发音错误或背景噪声)来提高有声读物录音的质量。这可以在制作过程中节省时间、精力、金钱等资源,并确保用户获得更好的聆听体验。
个性化:AI 算法可根据用户的偏好和行为为用户提供个性化收听体验。例如,一个AI 驱动的有声读物应用程序可以根据用户的收听历史提出新的标题,或者根据用户的阅读水平调整播放速度。
人工智能可能彻底改变数字音乐领域,实现新形式的音乐创作和发现,并使分析和理解音乐变得更容易。(见图4)
图4 人工智能赋能数字音乐领域的功能路径
音乐分析:人工智能可以用来分析音乐,并提取有关其结构和特征的有用信息。例如,AI 算法可以分析歌曲的音调、节奏和和弦进行,这对音乐制作人和艺术家很有用。音乐识别技术PDM(Predictive Model Transformer)算法模型可以预测新歌是否动听且容易流行。
音乐创作:人工智能正在被用来创作新的音乐作品。通过在现有音乐的大型数据集上训练人工智能算法,人工智能驱动的软件可以分析大型音乐数据库,以学习不同流派的模式、风格和特征,分析和分类不同的声音。AI 利用这些知识创作原创音乐或生成模仿特定艺术家或流派风格的新曲目。这种能力节省了音乐制作人的时间和精力,并可以在音乐制作中开辟新的创意可能性。如索尼公司开发的AI 写歌系统可以创作具有乐队风格的音乐作品。
音乐转录:人工智能也可用于转录音乐,或将音乐录音转换成书面符号,这对于想要学习特定歌曲的音乐家或想要学习特定音乐的音乐学家来说都是有用的。
音乐推荐:Spotify 和Pandora 等流媒体服务正在使用AI 算法,根据听众的收听习惯和偏好向他们推荐音乐。这些算法考虑了用户的收听历史、喜欢的歌曲的特点以及其他用户的收听习惯等因素。
人工智能在现场音频领域的应用显著提高了现场音频体验的质量和可访问性,并为表演者和观众创造新的互动方式,改善了听力障碍者的可及性。(见图5)
图5 人工智能赋能现场音乐领域的功能路径
音频优化:人工智能在现场音频中的主要用途之一是音频处理、声音处理和优化。AI 算法可以实时分析音频信号,识别声音,实时自动调整音量分离音频源,分析空间的声学特性并相应地调整音响系统,从而优化有多个音频源和复杂的音频环境的现场演出或特定空间音质,提高声音的清晰度、平衡性和整体质量,使听众更加享受。
音频增强表演:人工智能可以通过实现实时声音操纵和效果来增强现场音乐表演。如,人工智能可以用来改变音乐家乐器或声音的声音,添加滤镜、混响和其他效果来增强演奏,这可以为观众创造更具活力和吸引力的体验。
声音合成:基于AI 的系统可以用于创建新的声音和修改现有的声音。人工智能算法可以分析和复制特定乐器的声音,从而创建用于现场表演的真实虚拟乐器,创造更具沉浸感和互动性的现场音频体验。AI算法还可以用于创建空间音频,这允许声音在3D 空间中定位和移动,为听众创造更真实、更吸引人的体验。
音频自动化:人工智能也可以用于音频自动化,控制现场音频制作的各个方面,例如混音、掌握和音效。这帮助声音工程师自动化重复任务,并专注于声音现场制作过程中更具创造性的方面。
实时分析和反馈:人工智能可以用于实时音频分析和反馈,提高现场音乐家的表现。例如,人工智能算法可以用于分析人群噪声,并向表演者提供实时反馈,帮助他们根据观众的反应调整表演。AI 算法可用于实时分析歌手的声音和鼓手的节奏,检测音调,并提供反馈以帮助表演保持状态。人工智能还可以用于分析和分类大量的现场音频数据,例如现场事件的记录,帮助识别观众行为的模式和趋势,并为不同声音处理技术的有效性提供见解。
语音识别:即使在嘈杂的环境中,人工智能算法也可以被训练成准确的转录实时语音。例如,AI 驱动的系统可以提供实时隐藏字幕或口语转录,让听力困难的人更容易理解,在现场音频中获得内容。
人工智能通过为音频处理、合成、自动化和分析提供新的工具和技术,可能彻底改变声音直播领域。AI 改变了我们消费和创作音频内容的方式,改善了用户体验、提高参与度和简化内容创作。(见图6)
图6 人工智能赋能音频直播领域的功能路径
语音识别:在人工智能的帮助下,在线音频广播结合语音识别技术来理解用户输入并做出相应响应,可以增强用户体验并创建一个更具互动性的平台。
观众参与:人工智能聊天机器人可用于在直播过程中与观众互动,回答问题并实时提供信息,提高用户参与度,创造更具互动性的体验。
内容生成:AI 算法可以基于特定标准(如音调、声音和风格)生成和编辑高质量音频内容,包括音频直播流中的亮点和剪辑。这有助于简化内容创作流程,并使创作者更容易制作高质量的内容,便于随后创建播客、有声读物等。
推荐引擎:AI 驱动的推荐引擎算法可以分析用户数据,根据用户的收听历史和偏好向用户推荐个性化或相关音频内容,并创建量身定制的收听体验。这可以提高用户长期参与度,帮助内容创作者和音频直播平台接触更广泛的受众;帮助用户发现新内容,并让他们与平台保持联系。
自动转录:人工智能可用于将音频内容自动转录为文本,使其更容易被更广泛的受众访问。这也有助于内容适度,并有助于识别潜在的有害或冒犯性内容。
内容适度:AI 算法可用于实时自动检测和删除不适当或冒犯性的内容。自动语音识别(ASR)技术也可以应用在智能审核、AI 文稿上。这对于音频直播平台监测实时创建和广播内容尤为重要。如云听APP在2022 年卡塔尔世界杯期间应用人工智能技术监测,自11 月21 日开赛,截至12 月8 日18 点,共发现近440 起涉嫌直播侵权、70 余起涉嫌点播回听侵权。
人工智能在音频硬件中有许多应用,从改善音频设备的音质到提高其整体性能。(见图7)
图7 人工智能赋能音频硬件领域的功能路径
语音识别:AI 算法用于识别和理解人类语音,应用于智能音箱、虚拟助理和其他语音控制设备(智能车载、智能家居等)。语音识别可以高精度地识别和转录口语。从Siri 和Alexa 这样的虚拟助手到企业的自动转录服务,人工智能正在改变我们与设备交互的方式,使使用语音命令和其他应用程序控制工具成为可能。主打语音交互的智能音箱、智能家居作为家庭和各种互联网服务的入口,打通了音频全场景应用的重要一环。
设备音质性能提升:人工智能提升设备音质性能,包括噪声消除、均衡、音频放大、声场控制和自动音频校准。AI 算法被用于消除耳机、扬声器和其他音频设备中的背景噪声,可以分析音频信号并调整音频硬件的频率响应,以产生更好的音质。AI 算法通过填充缺失的音频数据和增强音频信号来改善低质量音频文件的音质。AI 算法用于控制声波在空间中的分布,将音频设备校准到他们所在的特定房间,并根据房间声学和扬声器位置等因素进行调整,改善整体聆听体验。
扬声器设计:AI 算法用于设计能够产生特定音质的扬声器,同时考虑扬声器尺寸和形状、材料和位置等因素。
然而,技术是把双刃剑,人工智能技术也不例外。
首先是著作权、版权问题,内容创作机器人或机器程序的专利权问题,即AI 内容生产的著作权问题亟须被提上议程[9]。人工智能生成音频的作品归属权问题各国仍没有统一标准。英国1988 年实施的《版权、设计和专利法案》,不但对作品的著作权进行界定,还强调“作者”是指创造作品的人,如果是计算机生成的作品,则作者为创作作品所需安排的人员。[10]美国2019 年实施的《美国专利客体审查指南》、我国2020 年实施的《专利审查指南》、日本政府的知识产权战略本部及澳大利亚的版权审议委员会认为计算机生成的内容不具有著作权。[11]英美法系把自然人创作的作品视为受著作权保护,植根于法国著作权法和《伯尔尼公约》的大陆法系将独创性解释为作者人格的体现。因此人工智能生成音频,达不到演绎、表演或改编作品要求的独创性标准。而基于算法具体应用的机器程序是具有专利权的,美联社Quakebot、腾讯Dreamwriter、百度Wrinting-bots、微软小冰、阿里鲁班等内容生产机器程序都拥有专利权。[12]总之AI 内容生产所引发的著作权、版权等问题需要制度层面的规约。
其次是训练数据缺乏多样性问题,AI 算法创新需要以大量数据积累为基础。詹姆斯·凯利追求媒介的动态平衡,使我们注意媒介偏向造成的伤害,他研究具体的媒介关怀、市场价值与民主精神融合的问题,主张抵抗技术的知识垄断偏向。[13]今天可用的大多数音频数据集都是在受控环境中收集的,限制了它们在现实世界中的适用性。训练数据缺乏多样性可能导致有偏见的模型,这些模型无法推广到不同的声学环境、语言或口音。偏见问题:如果用于训练它们的数据不够多样化或精心策划,支持人工智能的音频技术可以复制语言和社会中现有的偏见。模型的可解释性有限:虽然深度学习模型在音频相关任务中取得了令人印象深刻的成果,但它们通常被视为黑匣子。了解模型如何做出决策并确定有助于输出的特征可能很困难,这限制了模型的可解释性。人工智能技术超越人类认知、不确定性巨大、不具备道德决策能力,从信息爆炸、数据安全、隐私保护到算法歧视,各种科技负面问题不容忽视。对用户数据的分析乃至滥用也容易造成个人隐私泄露等问题,亟须制度创新协同跟进。[14]
最后是安全问题。艾吕尔认为,追求效率范式,默许把一切任务交给更加有效的技术的倾向,最终会把道德话语驱逐出公共政策,直接间接地使人类社会失去人性,自主的技术至上破坏了人的反躬自省和人生质量。[15]数据的大规模运用使数据安全问题逐渐凸显。正是有海量数据作为AI 的“食物”,才使AI可以生产出更高质量的内容。由于AI 文化生产与传播的发展得益于大数据的积累和算法的不断迭代,文化内容生产与传播所涉及的大数据是用户数据的聚合。用户隐私处于黑箱状态,在界面的持续监听方面存在隐私和安全的问题。福柯提出了“全景监狱”的概念,像谷歌Nest 这样的智能家居全方位监视着用户。过度的广告营销充斥着网络音频界面,用户的使用行为偏好被日趋成熟的大数据算法系统看透并进行诱导式的推演,实施了大数据杀熟。AIGC 音频,也称为合成或深度伪造音频,是指使用人工智能生成或操作音频记录,使其听起来像真实的人类语言。虽然这项技术可以有积极的应用,例如为残疾人改进文本转语音系统或创建听起来逼真的虚拟助理,但它也有可能用于有害目的,例如传播错误信息或被不法分子利用实施电信欺诈等犯罪。由于对智能技术监管的缺失,网络音频产业还存在一些私利驱动下的非逻辑和非理性内容,如色情淫秽。与任何新兴技术一样,人工智能赋能音频产生的同时带来监管挑战。
综上,各方必须意识到风险并采取措施减轻风险。应对这些挑战需要创新研究和开发大型和多样化数据集的结合。
首先,本文提出通过法律和技术手段,规范音频产品的版权授权与保护。如人工智能(语音识别)协同区块链技术能够追溯每一位著作权人,版税的分配结构将公平地按合同执行,让存证公开透明,避免版权纠纷,拓宽优质作品来源。各国颁布数据保护法律,既可以确保个人数据和网络数据的安全,也使AI 技术及相关产业得以安全发展。[16]如2018 年欧盟提出的《通用数据保护条例》(GDPR),强调保护欧盟境内的用户数据安全[17];2019 年我国提出的《新一代人工智能治理原则——发展负责任的人工智能》,强调将尊重隐私、安全可控作为人工智能的重要原则。政府通过制定法律或指导方针,禁止为某些目的(如政治运动或金融欺诈行为)创建或传播深度伪造音频的风险。我国《民法典》规定了对自然人声音的授权和保护;第一千零一十九条强调对声音权的侵害行为包括:丑化、污损或者利用信息技术伪造他人声音;未经同意擅自录制、使用、公开他人声音。[18]2020年全国“扫黄打非”办公室约谈查处涉色情低俗问题的ASMR,存在传播色情低俗歌曲、青少年模式形同虚设等突出问题。
其次,AI 领域各方应坚持价值理性(践行传播伦理规范和价值准则)纠偏,建立科技伦理,引导科技向善,即科技发展要以人为本、造福人类,用科技解决可持续发展问题。通过规制算法偏向以实现技术归化,坚守智能传播伦理以重建人机关系,从系统上根本性解决信息安全问题,助推和规范AI 技术与音频产业的健康发展。2021 年中国国家互联网信息办公室曾就未履行安全评估程序的语音社交软件和涉“深度伪造”技术的应用,督促相关企业开展安全评估,完善风险防控机制和措施,切实履行企业信息内容安全主体责任。[19]开发和部署支持人工智能的音频技术的公司应优先建立防止恶意使用的保障措施。包括开发可以检测深度伪造音频的算法,创建用于验证音频录音真实性的透明过程,并为该技术的可接受使用建立明确的指南。决策者应与技术公司和其他利益相关者合作,为负责任地使用人工智能音频技术制定最佳实践和标准。
最后,音频内容创作者应该警惕使用深度伪造音频来歪曲他们的作品或传播虚假信息的可能性,采取措施保护他们的内容,如添加水印或使用数字签名来验证他们的录音。社会要不断地促进媒介素养教育,在享受技术带来的便捷性同时,用户应考虑使用事实核查工具(如时间戳或上下文信息)或从可信来源寻求更多信息,以在共享之前验证音频的准确性。
乌托邦里的人说,技术和媒介本身就具有解放的效应,但它不会给人太多道德引导。麦克卢汉应用实用批评去唤醒人们的媒介意识。机器意识形态的基础是秩序、控制、效率和权利。[20][21]开发工具和机器的目的,既是为了延伸有机体依傍工具的能力,也是为了在人体之外造就一套有利的条件,以维护有机体的平衡并保证其生存。[22]芒福德和艾吕尔共同的目标是“去除技术文明的神化色彩,还原技术适当的但具有建设性的角色,使之进入人生一个更加有机的视野,进入为人谋利的更加广阔的视野”。[23]在技术赋能和人机共生的多元化发展下,对人类主体性的探讨逐渐被弱化,人们在技术演化的途径中需要逐步找到“人机物共存”的均衡状态。[24]通过采取积极的行动来解决与该技术相关的风险,各方协同合作,确保以负责任和道德的方式使用它。这也是人工智能技术赋能音频产业希冀的未来。