解析音频智能化发展的新态势

2021-04-02 23:10:17殷乐殷宇婷
中国广播 2021年12期
关键词:智能化

殷乐 殷宇婷

【摘要】声音媒体的智能化发展,不仅深化了用户的听觉体验,拓展了日常场景对接,还增强了社交属性,发掘了音频社交新的可能。本文从智能音箱的技术升级、报业面向智能音频的新突破和音频社交三方面,解析音频智能化发展的新态势。

【关键词】智能化  智能音箱  音频社交

【中图分类号】G221     【文献标识码】A

智能音频行业近年呈现上升发展态势。艾迪森调研机构报告显示,在12岁以上的美国人中,2021年有至少51%的人与其他人一起听过音频,这一比例在12至34岁的美国年轻人中上升到69%。音频的平均收听时长也比去年增加了一小时,智能音箱的拥有量更是同比增长了22%以上,近一半主要在家工作的人现在都拥有一个智能音箱。①其实,这一快速发展变化不仅发生在美国,全世界皆有案例。

本文即以智能音箱、报业的智能音频策略和音频社交为例,结合各国实践来探究音频智能化发展的新态势。

一、终端革命:智能音箱的技术升级

智能音箱在声音媒体的智能化发展中具有革命性意义。作为智能语音服务所倚赖的载体和联通个性化场景的桥梁,智能音箱在嵌入人们生活的同时也使得用户以前所未有的方式将技术拟人化。美国福布斯公司一本商业杂志《福布斯》(Forbes)将其称为一种技术、网络和世界互动的新方式,并认为如今的智能音箱正在展开一个潜在的更大的转变,而我们正经历着智能音箱技术的指数级增长。②

有两大要素促进了智能音箱技术增长。

第一,源于越来越多智能设备供应商的入局。

2019年是全球智能音箱市场创纪录的一年,销量达到1.469亿台,同比增幅增至70%。虽然亚马逊和谷歌仍是其中排名第一、二位的品牌,但它们的销售额与2018年相比都有了不同程度的下滑。③究其原因,主要是百度、阿里巴巴、小米等中国供应商的增长,其他國家的强势企业也在陆续推出自己的智能音箱。

各国本土智能音箱与内置语音助手的推出,给智能音箱的发展带来更多技术可能性。智能音箱可搭载的语言模式不再局限于英语,俄语语音助手Alice、法语语音助手HomeSound、汉语语音助手天猫精灵和小爱同学等陆续挤占本国市场。各国企业也在依据自身优势,尝试开发语音助手的更多功能与本地服务。如俄罗斯的Mail.Ru将语音助手Marusya与旗下的社交媒体平台整合,让注册该社交平台账号的用户可以直接通过智能音箱进行数字通话,通过语音助手进行线上社交活动,并实现信息询问、食物订购、智能家居设备控制以及第三方语音应用程序运行等。④百度推出的小度在家系列,借助其对应手机软件的家庭互动功能,使得用户能够远程监控家中老人、孩子的生活动态,满足了中国青年白领群体顾家、工作的双向需求。⑤

JBL(全球最大的专业扬声器生产商)、哈曼卡顿(Harmon Kardon)、贝尔金(Belkin)等硬件厂商的到来提升了智能音箱的音质,其更高的声学配置也使内置语音助手的指令识别能力得到提高。JBL推出的智能音箱大多拥有超越市场水准的音质,全频扬声器、四麦克风阵列与先进的麦克风降噪技术的搭配也能让智能音箱更加准确地识别语音指令。⑥贝尔金联合帝瓦雷(Devialet)最新推出的智能音箱Soundform Elite采用了多项声学专利技术,在提供更具立体感、沉浸感的音乐体验的同时,依靠拾音阵列强化了其对各项语音操控的识别能力。⑦

第二,归于行业领跑者对产品的不断开拓。

以亚马逊、谷歌为代表的市场头部企业,利用人工智能技术对智能音箱进行着持续升级与拓展。

首先是内置语音助手的技术更新。智能音箱背后都有智能语音助手的支撑,语音助手赋予智能音箱拟人化的交互意义,是音箱智能化的核心。依靠深度学习技术,亚马逊的语音助手Alexa在2019年增添了更自然的新语音,并专为双语家庭设计了多语言模式以及在收到错误请求时道歉的“挫折检测”功能。2020年,Alexa已经能够通过了解对话的上下文调整语气,辨别相互交谈与直接寻址,还能自主地向用户提出澄清性问题并记住问题的答案。⑧同样进行着拟人化探索的还有谷歌,2021年5月,谷歌在其神经网络架构之上构建出了最新的语言模型LaMDA。⑨LaMDA可以让语音助手将自己代入不同角色与用户进行对话,在保持对话自然开放的同时给出尽量明确的回答,实现更加无缝、舒适的语音交互体验。其理解对话语境的能力也为语音助手带来了理智、敏锐、幽默等人类特质,技术升级让语音助手与人类形象越来越接近。

其次是智能屏的出现。有市场研究机构发布的最新报告显示,2021年第2季度全球智能音箱市场,前50名畅销机型占该季度总出货量的88%,而前50款机型中有19款是百度的小度在家智能屏X8、在家1C和谷歌的Nest Hub主导的智能显示器系列。⑩美国国家公共广播电台(NPR)与艾迪森联合发布的智能音频报告也表明了类似的屏技术需求:在18岁以上的美国人中,2020年有65%的人更喜欢带屏幕的智能音箱,74%的人认为屏幕可以让智能音箱的使用更加方便。⑪从单纯的智能音箱过渡至智能屏,这一转变在增加视频输出的同时也为人机交互带来了更多可能性。一方面可以提供直播、通信、教育、家庭互动游戏等多种内容服务,另一方面基于不同技术基础,还可以实现手势控制、眼神唤醒、远场语音交互、人脸识别等多种交互模式,用户可以在多种应用场景采用不同方式完成人机交互。可以说,智能屏的出现,拓展了智能音箱的应用边界,也推动了其人机交互的多样性发展。

再次是应用场景的不断开拓。科技公司对智能语音的愿景远超音箱本身,智能家居是其设想中典型的嵌入场景。除适应于各个场景的智能音箱外,亚马逊以语音助手为核心,将其产品线向智能家居不断铺开。目前,亚马逊已将语音助手嵌入微波炉、挂钟、插座、路由器、恒温器、家居机器人等多个品类。在国内,小度智能音箱所支持的家居用品几乎覆盖了整条家居产品线,阿里巴巴旗下的天猫精灵也开始提倡家庭场景升级,与多家物联网平台、智能硬件和家电厂商展开了合作。

教育、酒店、汽车、娱乐等场景也陆续加入进来。2020年,谷歌与连锁酒店合作,将智能显示器和智能助手陆续整合至酒店客房中。住客能够通过语音助手控制房内环境和娱乐、通信,向智能音箱询问当地的旅游信息和活动建议。新冠肺炎疫情期间,语音助手还能与酒店系统相连,安排叫醒服务,满足住客的日用品需求并处理退房事宜。⑫国内市场方面,在小度智能屏试水教育领域后,百度公司便对各类场景进行布局,强调“全场景智能生活”,阿里巴巴公司也在尝试让天猫精灵走入各类生活情境。

智能音箱正在逐渐破除形态的边界,将核心的智能语音服务融入人们生活的方方面面。其日益开放的发展态势,有助于满足用户多场景、多样化的需求,实现全场景生态和无缝隙服务。

二、策略转向:传媒业的智能化音频新突破

当前,智能音频正在成为全球传媒业关注的重点。路透新闻研究院对以报纸、广播为主的全球26家主流媒体的管理者进行访谈,大多数人表示他们正在围绕智能音频采取各种策略。⑬广播电视机构积极参与智能播客的内容生产,建设播客平台,跟进智能音箱的发展趋势,报业也紧跟着布局播客产业,并在提供独家内容、自建音频应用、文字与语音融合等方面有突出表现,显示其发展的独特性。

《纽约时报》推出音频栏目《每日》(The Daily),是报业向智能播客迈出的重要一步。栏目为用户提供热点事件汇编、新闻事件的细节补充与跟踪报道以及主持人的观点等,一经播出便广受欢迎。截至2019年,The Daily的下载量已达10亿次。The Daily不仅是美国最受欢迎的新闻播客之一,也是2014至2020年本地每日新闻播客数量增长曲线的拐点。不少报纸受到该形式的启发,纷纷在智能播客应用上推出自己的The Daily。 路透新闻研究院《2021数字新闻调查报告》显示⑭,新冠肺炎疫情给传统报业带来了沉重一击,但疫情则又是报业向智能音频发展的重要催化剂。在过去的一年里,报纸或暂停或减少印刷发行,许多报业公司都面临减薪、裁員、关闭等窘况。为了生存,报纸不得不加速数字化转型,而疫情下人们对音频新闻的依赖给这一转型提供了方向。艾迪森调研机构关于智能音频的报告称,音频新闻成为人们了解情势的重要途径,尤其年轻人会收听更多新闻。⑮于是,我们可以看到越来越多的纸媒出现在智能播客应用上,并通过与科技公司的合作在一定程度上实现了音频转向的智能化创新。

智能播客之外,报纸业还有更为广泛的智能音频策略。一是自有音频应用,《纽约时报》于2020年收购了音频应用“奥德姆”(Audm),陆续发布了《黑色剧院》(Black Theater)、《伯尼·桑德斯》(Bernie Sanders)等多篇本报杂志的音频故事;正在开发的新音频应用“纽约时报音频”(The New York Times Audio)收录了《纽约时报》的各类播客与文章,并从《纽约时报》新闻室的新音频格式中提取内容。与此同时,《纽约时报》也开始尝试将更多标志性音频故事编入核心的新闻应用程序中。⑯二是文本转语音技术。2021年5月,《华盛顿邮报》整合了亚马逊的Polly。Polly拥有全新的机器学习方法,能够以较高的速度将文本转换为逼真的人类语音。凭借这一智能语音服务,用户可以在跨平台收听报纸的报道时获得不错的音频体验。未来,用户还可能通过该技术接触到《华盛顿邮报》更多的音频功能,如播放控制、西班牙语音频、音频播放列表等。除《华盛顿邮报》外,《今日美国》《环球邮报》等报纸的出版商也在整合Polly,通过引入成熟的文字转语音技术,以更优质、便捷的方式用音频解锁书面新闻。⑰三是沉浸式音频体验。2020年11月,《华盛顿邮报》品牌工作室(WP BrandStudio)与佛罗里达官方旅游营销公司合作推出沉浸式音频平台“佛罗里达之声”(The Sounds of Florida),借助高互动界面图标后的音频通道,用户无须离家就能被“传送”到该州的各个景点,借助多音轨分层声音置身地标性景点之中,在视觉识别之外通过声音增加与该地的情感联系。⑱工作室还为上班族打造了一种沉浸式音频驱动体验“声音圣地”(The Sound Sanctuary),以对冲工作场所的数字噪音干扰。有录音师将各地的自然声音收集制成双耳录音,通过模拟在大自然中的实际听感,缓解用户在工作中产生的倦怠,探索声音对创建更专注且人性化的工作方式的意义与作用。⑲

报业向智能音频的融合发展,值得广电业借鉴。

三、社交加速:面向音频交往的新聚焦

疫情影响下,智能音频领域迎来的不仅是报业的加速转向,还有音频社交的复兴。音频社交不是一个新概念,却恰好满足了人们在特殊时期的交际需求:隔离在家的人们既想建立超越文字之上的人际联系,又疲于屏幕的过度使用,而纯语音交流音频技术因其认知负荷低而在很大程度上促成了音频社交的加速发展。

引起这场潮流的是音频社交应用——Clubhouse(直译是俱乐部房子或者会所的意思),这也是目前全球唯一一个可以实时和科技、金融、艺术、文化领域的高层人脉沟通交流的平台。2020年4月,Clubhouse首次上线。在该应用中,每个人都可以创建语音房间,也可以跳转到任何他们感兴趣的房间,若想发言则按“举手”键申请成为嘉宾参与对话。实时聊天激发了语音社交的情绪价值优势,陌生人社交则在提高社交新鲜感的同时降低了交际成本。低门槛、高自由、近距离和质量上佳的内容分享让越来越多的人进入应用。研究报告称,Clubhouse的注册用户在2020年10月初就达到了1万名,截至2021年2月该数字已超过1000万且注册用户数量仍在加速增大。⑳

Clubhouse的兴起让科技界看到了音频社交的新可能。推特(Twitter)、脸书(Facebook)、声破天(Spotify)等科技公司都察觉到音频在社交领域迸发的巨大能量。于是,过去的一年里,“推特空间”(Twitter Space)、“休息室”(Greenroom)、“语音聊天室”(Voice Chats)等音频社交产品如雨后春笋般出现。国内,复制的中国版Clubhouse也不断出现。天眼查数据显示,中国目前约有270家企业发布过音频社交相关产品,㉑其中很多都是Clubhouse的模板风格。

随着科技公司的大量涌入,其带入的人工智能技术正在使音频社交以更智能化的面貌呈现于市场。

其一,智能语音技术增进语音服务。2021年3月,廷科夫(Tinkoff)公司在Clubhouse应用中推出智能语音助手Oleg。㉒它具有成熟的语音识别和人工智能驱动交互技术,可以在聊天室中执行各种秘书任务,如主持讨论、刷新房间、提醒人们有关讨论的时间限制和规则等,还可以实时转录对话,将对话流传输为文本。廷科夫公司称,Oleg将被开发出更多适应俱乐部/会所社交情景的语音助手功能。语音助手的加入满足了用户要求获得更多智能服务的呼声及其隐私需求,使应用以更为智能的面貌呈现在用户面前,一定程度上展示了音频社交智能化发展的一种可能性。

智能语音技术的加入,讓用户可以在对话中使用表情符号,并记录对话与他人分享;实时字幕功能的增加,也让听力障碍人士在收听时更加方便。“房间”中的音频对话还可以链接TikTok(抖音海外版)上的创意音频剪辑功能,用户可以利用包含语音转文本、语音变形等技术在内的音频创建工具剪辑、编辑音频对话,将其生成为录音剪辑并通过算法进行推广。

其二,算法推荐提高用户社交效率。目前,市场中的音频社交应用主要解决的是陌生人社交问题,而陌生人社交中,声音更多地被视作一种用户身份的核心组成部分、人与人互动的媒介,意在助推用户互动的成功。在这一目的性极强的社交过程中,快速匹配/推荐就成为了重点。到了2021年9月,有科技公司又推出了通信新功能——My Friends(我的朋友),这项基于算法的推荐功能,优化了用户间的匹配路径,用户能够更为便捷地找到具有相似社交意愿和实时动态的朋友,并可以在平台内一键加入其他朋友的房间,通过实时语音参与多种主题活动。用户的兴趣、标签等成为推荐的坐标。精细化标签让人们对用户的了解更为全面、详细,也有助于商家观察到更明确的用户需求,从而开发定制化匹配功能。

与注重创建语音派对、营造社区氛围的Clubhouse一类应用不同,强调算法推荐的音频社交应用意在实现语音向社交链的完全嵌入,除实时聊天外,用户可以关注好友、发布动态、建立私人关系等。应用内的主要链接方式不是以音频内容为中介的兴趣社区,而是人与人的直接相连。语音实是作为手段而非主体建立社交场景来满足人们的快节奏交际需求,可以促进陌生人间的社交联系。算法推荐的加入提高了用户的社交效率,也推动着音频社交朝着强社交属性的方向不断发展。

四、结语

总体而言,智能音频的发展呈现了三个基本方向:深化听觉体验、拓宽场景入口、增强社交属性。智能音箱对智能语音技术在听觉层面应用的深入挖掘,使智能音频在互动体验方面获得技术升级。而智能音频社交的强势兴起则将声音嵌入交际链,切入不同的社交场景,为音频的智能化发展带来强有力的新驱动。

但智能音频的发展亦存在隐忧,高速前进的另一面是与智能音频相关的安全隐私问题:个人语音数据泄露导致的信息骚扰或安全隐患,以及语音合成技术引发的语音诈骗和信息失实,都成为用户担心的主要方向。同时,智能音频产品的过快更迭也模糊了重点,让其发展变得细碎、多面,缺乏计划性的优势挖掘。因此,如何创造一个健康、有效的生态环境与总体计划是智能音频发展应着重考虑的问题。

注释

①⑮Edison Research and Triton Digital: The Infinite Dial 2021, March 11, 2021, https://www.edisonresearch.com/the-infinite-dial-2021-2/.

②Saeed Elnaj. The Rise Of AI-Enabled Smart Speakers And Their Future In Our Lives, July 8, 2019, https://www.forbes.com/sites/forbestechcouncil/2019/07/08/the-rise-of-ai-enabled-smart-speakers-and-their-future-in-our-lives/?sh=2708e7b335ab.

③David Watkins. Global Smart Speaker Vendor & OS Shipment and Installed Base Market Share by Region: Q4 2019, February 13, 2020, https://www.strategyanalytics.com/access-services/devices/connected-home/s.

④mart-speakers-and-screens/market-data/report-detail/global-smart-speaker-vendor-os-shipment-and-installed-base-market-share-by-region-q4-2019.

⑤Eric Hal Schwartz. Russian Social Media Platform VKontakte Integrates Marusia Voice Assistant, May 27, 2021, https://voicebot.ai/2021/05/27/russian-social-media-platform-vkontakte-integrates-marusia-voice-assistant/.

⑥ ZOL中关村在线:《JBL TOWER SMART 音乐城堡全新上市》,知乎,2019年6月12日,https://zhuanlan.zhihu.com/p/70177739.

⑦我爱音频网评测室:《贝尔金SOUNDFORM ELITE智能音箱评测:联合帝瓦雷重现高保真音质》,百度,2021年7月12日,https://baijiahao.baidu.com/s?id=1705046563698486596&wfr=spider&for=pc.

⑧Jon Porter. Alexa's latest upgrades help it listen to multiple people and ask clarifying questions, September 24, 2020, https://www.theverge.com/2020/9/24/21452313/alexa-voice-assistant-ai-upgrade-amazon-echo-smart-speaker-multiple-people-tone-questions.

⑨Eli Collins & Zoubin Ghahramani.LaMDA: our breakthrough conversation technology, May 18, 2021, https://blog.google/technology/ai/lamda/.

⑩David Watkins. Global Smart Speaker and Smart Display Vendor Shipments, Wholesale Revenue, ASP and Price Band by Model: Q2 2021, August 30, 2021, https://www.strategyanalytics.com/access-services/devices/connected-home/smart-speakers-and-screens/reports/report-detail/global-smart-speaker-and-smart-display-vendor-shipments-wholesale-revenue-asp-and-price-band-by-model-q2-2021?slid=1684678&spg=7.

⑪Edison Research and NPR: The smart audio report, April 1, 2021, https://www.nationalpublicmedia.com/uploads/2020/04/The-Smart-Audio-Report_Spring-2020.pdf.

⑫Eric Hal Schwartz. New Google Hospitality Program Adds Nest Hub Smart Displays to Hotel Rooms, August 26, 2020, https://voicebot.ai/2020/08/26/new-google-hospitality-program-adds-nest-hub-smart-displays-to-hotel-rooms/.

⑬Nic Newman. The Future of Voice and the Implications for News, Reuters Institute for the Study of Journalism, November 2018, https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2020-01/Newman%20-%20Future%20of%20Voice%20FINAL.pdf.

⑭Nic Newman. Reuters Institute Digital News Report 2021, July 2021, https://reutersinstitute.politics.ox.ac.uk/digital-news-report/2021.

⑯The New York Times Is Building a New Audio Product, The New York Times Company, October 12, 2021, https://www.nytco.com/press/the-new-york-times-is-building-a-new-audio-product/.

⑰Robin Dautricourt. Breaking news: Amazon Polly's Newscaster voice and more authentic speech, launching today, July 30, 2019, https://aws.amazon.com/cn/blogs/machine-learning/breaking-news-amazon-pollys-newscaster-voice-and-more-authentic-speech-launching-today/.

⑱The Washington Post's brand studio adds immersive audio to its suite of innovative storytelling capabilities, The Washington Post, November 30, 2020, https://www.washingtonpost.com/pr/2020/11/30/washington-posts-brand-studio-adds-immersive-audio-its-suite-innovative-storytelling-capabilities/.

⑲Jerrid Grimm. The Top 100 Branded Content Partnerships of 2020, December 16, 2020, https://www.pressboardmedia.com/magazine/the-top-100-branded-content-partnerships-of-2020.

⑳Bret Kinsella. MrBeast Join and Starts Drawing More Scrutiny, February 23, 2021, https://voicebot.ai/2021/02/23/clubhouse-surpasses-10-million-users-after-musk-zuckerberg-rogan-and-mrbeast-join-and-starts-drawing-more-scrutiny/.

?天眼查数据研究院:《中国版Clubhouse频出?数据显示我国目前约有270家企业发布过语音社交相关产品》,澎湃新闻,2021年2月25日,https://www.thepaper.cn/newsDetail_forward_11443347.

㉒Eric Hal Schwartz. The First Bot on Clubhouse Speaks Russian–Will the Voice Assistant’s Presence Change Social Audio Dynamics, March 12, 2021, https://voicebot.ai/2021/03/12/the-first-bot-in-clubhouse-speaks-russian-will-the-voice-assistants-presence-change-social-audio-dynamics/.

【本文系国家社会科学基金国家应急管理体系建设研究专项“新冠肺炎疫情期间的舆论传播及引导研究”(项目编号:20VYJ038)、中国社会科学院国家高端智库课题“全媒体时代的新闻发布与国家治理”(项目编号:〈2021〉C-69)的阶段性研究成果】

(作者殷乐系中国社会科学院大学教授、中国社会科学院新闻与传播研究所研究员、广播影视研究中心主任、博士生导师,殷宇婷系中国社会科学院大学新闻传播学院硕士研究生)

(本文编辑:李静)

猜你喜欢
智能化
智能化战争多维透视
军事文摘(2022年19期)2022-10-18 02:41:14
探讨智能化技术在电气工程自动化中的应用
大型公共建筑智能化系统造价控制
智能化的“世界观”
印刷工业(2020年4期)2020-10-27 02:46:02
印刷智能化,下一站……
印刷工业(2020年4期)2020-10-27 02:45:52
餐厅智能化该如何进行?
中国储运(2019年5期)2019-05-15 09:37:40
风电智能化时代开启
能源(2018年10期)2018-12-08 08:02:52
汽车营销如何智能化?
汽车观察(2018年10期)2018-11-06 07:05:08
基于“物联网+”的智能化站所初探
高速公路智能化的前景
中国公路(2017年12期)2017-02-06 03:07:25