智能语音交互媒介的发展及创新研究

2021-12-04 21:13邹希豪
卫星电视与宽带多媒体 2021年21期
关键词:发展问题

【摘要】伴随深度学习、大数据和云计算的的发展,人工智能近十年经历一段突飞猛进的发展,并在智能语音交互等领域成功落地。智能语音交互技术与新闻传播的结合,给传媒界带来了声控智媒这一全新的媒介形态。本文试探究智能语音交互媒介的特点、发展问题并分析目前的创新趋势,以期对智能媒介的可持续发展提供参考。

【关键词】智能语音交互;发展问题;创新趋势

中图分类号:TN94                                  文献标识码:A                          DOI:10.12246/j.issn.1673-0348.2021.21.035

智能语音交互技术作为人工智能领域的的重要突破技术,通过与新闻传播的结合,带来了声控智媒这一全新的媒介形态。声控智媒目前主要有两种存在方式:其一是嵌入电视或手机之中,如苹果公的siri和小米的小爱同学,其二是独立存在的智能设备,如智能音箱等。作为新一代的传播媒介,其发展及创新受到了学界与业界的广泛关注。

1. 特点

1.1 互动性

声控智媒作为一种新型的人机交互终端,不同于手机的触控交互,也不同于之前报纸、广播与电视的单向交互方式,声控智媒为用户提供了语音对话交互,用户不是被动的接收信息,而是基于自身的需求,向智能设备发出请求获取信息,同时随着连续对话技术的进步,用户可以深度体验与智能设备的对话,从对话中获取更多的信息,满足自身的信息获取需求。

1.2 场景性

用户使用声控智媒往往是基于特定的场景,获取当下场景中最需要的信息。以不同时间段信息需求为例,各大品牌的智能音箱都会设置早上与晚上场景,用户早上起床后,智能音箱会播报早间新闻和一些健康资讯,晚上回家后,智能音箱也会为用户播放当天新闻和放松音乐。当然在不同的地点使用声控智媒的需求也不尽相同,例如在客厅用户会使用智能音箱控制一些家电,如果是在厨房则会想知道如何去制作一道菜肴。不同的场景下,基于用户的不同需求,智能语音交互终端会呈现不同的功能。

1.3 海量性

随着云计算和大数据技术的成熟,声控智媒通过连接互联网就拥有了海量的内容。目前各大语音交互平台的内容主要有平台方搭建的知识图谱和第三方平台提供的各种技能。通过对知识图谱搭建与第三方内容接入整合,目前在智能语音产品上不仅可以听音乐、电台,还可以询问各种百科知识,丰富了人们娱乐与获取信息的方式。

2. 发展问题

2.1 技术方面,唤醒与语义理解体验不佳

智能语音交互技术作为声控智媒的核心,其涉及的技术主要有语音唤醒、语音识别、自然语义理解、智能搜索与语音合成。用户往往通过唤醒词唤醒设备,说出自己的请求,设备通过语音识别将用户的音频转化为文字,同时通过自然语义理解分析用户的意图并翻译为机器语言,并通过智能搜索匹配用户意图最接近的技能进行回答及操作设备。在整个过程中,任何一环节出错,都无法给用户提供满意的体验。例如目前智能语音助手的误唤醒问题,就是在语音唤醒环节,用户最常反馈的痛点问题,指的是用戶并没有讲出唤醒词,智能设备却被自动唤醒。

此外,自然语义理解是整个语音生态的核心技术,也是用户感知设备是否懂自己的关键,其实现原理是将用户的输入映射到预先根据不同场景定义的语义槽中,让机器理解语言的意思。目前此项技术仍存在一定的局限,因为人类的语言是复杂多样的,不同的语境下所表达的意思可能完全不同,例如很多用户反馈有时候语音助手听不懂用户的话,答非所问,甚至会收到不合适甚至完全摸不着头脑的对话。

2.2 内容方面,版权资源割据与实时新闻技能缺乏

智能语音交互产品上汇集了丰富的第三方平台内容,但是由于网络版权问题和各家生态的竞争,导致目前用户真正能听到的内容有限。同时用户往往需要购买多家内容平台的会员,缺乏统一的内容管理及付费机制。此外在音箱上听新闻也是用户最常用的功能之一,目前音箱上的新闻类内容主要分为新闻简报与实时新闻。新闻简报是通常不超过两分钟的新闻报道,实时新闻是用户针对当下热门时事内容进行询问。目前各家平台会与传统媒体定制专门的新闻简报,但是对于实时新闻服务还比较欠缺,例如用户在向音箱发出想看最近新闻的指令,音箱往往回复并不知晓或搜索网页新闻进行播报,这样的机器朗读的内容往往较为生硬,不符合人们的收听习惯。

2.3 数据方面:用户隐私风险凸显

语音助手要准确识别用户意图,不可避免的要对海量的数据进行处理与存储。一般用户向设备说出一个特定的触发词,交互设备就可立即唤醒,并记录用户的请求。所发出的请求会被发送到云端服务器进行数据分析处理,在这个过程中用户的数据将会保存在云端。语音助手需要通过对不同的用户数据训练模型以提高其识别的准确率。此外,由于机器是难以知道自己的准确性,这个时候往往是需要专业人员对机器模型的满足率进行评测并标注,这个时候就必然会涉及到直接听取用户声音数据的情况。由于智能语音设备的误唤醒率还比较高,导致用户不想被记录的声音数据会在无意识的情况下被存储下来。据《卫报》报道,Siri被误唤醒时的录音内容也会被记录下来进行分析,这些录音除了声音之外,还附带了用户数据,包括录音发生的位置、联系方式和app应用数据。随着智能语音产品走入千家万户,语音大数据资源也越积越多,用途越来越广泛。然而,语音数据在收集和利用中的隐私风险也越来越大。

2.4 经济方面,缺乏成熟的商业模式

IDC数据显示,2020年中国智能音箱市场销量达到3676万台,累计下降8.6%,同时我国智能音箱的普及率仅为20%,究其部分原因是因为没有成熟的商业模式导致无法盈利。目前智能音箱的盈利主要来自卖硬件与提供互联网服务。首先,智能音箱的硬件还无法完全盈利。尽管我国智能音箱硬件补贴已进入收缩阶段,2019年的补贴额依然达到15.8亿元。另外智能音箱的互联网服务上也存在着局限,互联网服务的盈利主要分为面向消费者提供内容订阅或会员服务和面向广告主出售音频广告的收入。对于消费者来说,为了听内容而购买不同的会员的体验并不佳,导致智能音箱的会员服务收入实际并不高。同时由于智能音箱播放的内容时长较短,很难在其中插播太多广告,所以来自互联网营销上的收入也并不多。目前智能音箱的商业模式尚不成熟,导致业界无论是人才还是内容投入都不是太多,这样就更无法形成完整的商业闭环。

3.创新趋势

3.1 互联化,协同唤醒改进交互体验

近年来,随着各个平台语音算法的基础性能不断提高,用户所反馈的识别准确率、时延问题也在不断改进。与此同时,用户希望在多智能设备环节下,各设备能互联互通。在此之前当一个空间存在多台语音交互设备时,往往出现“一呼百应”的现象,2019年以来业界开始重视将声学感知空间的能力与交互系统结合起来,实现多设备的就近唤醒应答,避免多设备重复响应和执行指令。可以预见的是,随着接入互联网的智能设备越来越多,新技术将不断提高语音交互的可靠性,促进万物充分互联互通,带来全新的物联网时代。

3.2 有屏化,拓展新的终端形态

近两年,市场上开始推出带屏的智能音箱,并获得了市场认可,主要原因是相比于声音的展示,多一个触控屏幕,用户能获得更多的交互体验与内容展示。使用的场景也被极大的拓宽,不但可以收听音频还可以看图片和视频,进而拓展到视频辅导等教育场景。另外有屏幕的智能音箱添加摄像头可应用计算机视觉能力,使智能音箱将视觉和语言同时作为语音理解源,不仅通过声音获取信息,同时还可以用眼睛来识别说话者的口型、情绪表情,提升其语音的理解力,更好的满足用户的需求。

3.3 数据离线化,注重用户隐私安全

随着用户对个人隐私越来越重视,再加上政府相关隐私政策的制定,各个语音交互平台开始对自家产品开发离线化处理技能,例如苹果最新推出的ios 15系统中,siri可以在没有互联网连接的情况下,离线处理多种类型的请求,包括电话、消息、应用程序启动等,并且产生的数据将保存在用户自己的终端。同时国内各个厂商也在把离线化及本地化存储作为自家产品重点开发的功能,切实保障用户的隐私。分析数据离线化这个趋势,我们可看到随着产品越来越完善,是可以做到既维持用户的体验又保证用户的隐私安全的。

3.4 人性化,拟人化对话与情感音色

作为语音助手,用户不单单将其看成一个工具,而是一个更偏向拟人化的交流对象。例如在“第七代微软小冰发布会”上,微软小冰就使用了全双工语音交互技术,能够实现用户与人工智能同时边听边说的交互体验。使小冰像人一样学会倾听和倾诉,同时还能对话题进行延伸和追问,使用户与之交流的单次平均对话轮数高达到23轮。不同的用户对语音助手有着个性化需求,通过为语音助手定制不同的音色与人设,可以满足用户情感化需求。例如在小米小爱同学5.0版本,用户可以选择特别定制的女友音色,其声音和人设因为自然真实获得用户的喜欢,并在网络上发起热烈的讨论,究其原因是因为用户希望语音助手成为更人性化的伙伴。

4. 结语

声控智媒作为人工智能新时代的产物,发展过程中必然会面对到来自技术、产品、隐私与商业模式等因素限制,但是随着语音交互技术的不断更新突破,加上各个平台人才与内容的持续投入,声控智能必然跨越创新扩散理论中“早期采用者”阶段,跨入大众化媒介时代。

参考文献:

[1]史安斌,胡宇.声控智媒与新闻传播:现状与前景[J].青年记者,2019(01):79.

[2]李荪,范志琰.AI+趋势下智能语音产业多模态发展趋势研究[J].信息通信技术与政策,2019(06):19.

[3]管佖路,顾理平.智能语音交互技术下的用户隐私风险——以智能音箱的使用为例[J].传媒观察,2021(06):18.

[4]刘德寰,王妍,孟艳芳.国内新闻传播领域人工智能技術研究综述[J].中国记者,2020(03):78.

作者简介:邹希豪,江西吉安人,硕士在读,单位:武汉大学新闻传播学院,研究方向:数据新闻。

猜你喜欢
发展问题
方言文化类APP平台的发展问题和推广策略
企业养老保险体制的发展问题分析
治理视域下武汉市养老机构发展问题研究
对灵璧县近期发展的研究
发展农村电子商务的几点建议
基于小额贷款公司可持续性发展的问题探索
我国商业银行私募股权基金业务发展问题研究
浅议绿色会计
我国农业物流发展问题与解决对策
网络主播热度化下的冷思考