智慧屏AI人机交互能力评价研究

2021-08-10 02:25:56李玮

电视技术 2021年6期

李玮

（中国信息通信研究院泰尔终端实验室，北京 100191）

0 引言

人工智能是引领新一轮科技革命的战略性技术，是带动产业升级、推动经济高质量发展的动力引擎。伴随着5G、移动互联网、云计算及物联网等技术和基础设施的建设和成熟，人工智能赋能垂直领域已成为新的产业趋势[1]。以人工智能技术为代表的人机交互发生了革命性发展，各厂商纷纷抢占智能家居入口进行战略布局，家庭生活中的电视成为人工智能赋能的最佳载体。

2019年，华为公司首先提出了智慧屏概念并推出了两款智慧屏产品，将智能语音和AI影像搭载在电视上，并与手机App账户绑定，实现更加智能化、友好的人机交互。随后，长虹、联想、海尔及荣耀等多个厂商相继推出智慧屏产品，成为电视领域新的增长点和亮点。整体来看，智慧屏的产品性能和用户体验一直在稳步提升，尤其是在人工智能、5G及物联网等技术和产业发展的趋势下，智慧屏必将是智能产品研发、生态构造及产业布局的新的突破点和升级范例。

1 智慧屏发展史

电视的发展经历了传统电视、互联网电视及智能电视等不同的发展阶段，其发展特点如表1所示。

表1 电视的不同发展阶段及其特点

随着人工智能、物联网以及云计算等技术的不断进步，智能电视创新演进出了新的产品形态——智慧屏，推动智能家居环境多种终端的智能人机交互技术发展。通过更加自然、多模态的交互控制，消费者可以得到更丰富、多形态及定制化的用户体验。

智慧屏“智慧能力”的提升主要体现在影音质感、人机交互、家居控制以及业务场景等方面，其中，消费者感知最直接、最明显的就是人机交互。除了可以使用传统的实体遥控外，智慧屏搭载的智能语音模块和摄像头等设备，为家庭用户提供了多模态的交互能力，如近远场语音交互、手势交互、多屏协同以及姿态识别等AI交互能力，为用户带来更加便捷的交互方式，也使得家庭视频、工作会议以及AI健身等以智慧屏为载体落地到智慧家庭生活中[2]。

2 智慧屏AI交互性能测评

本章将着重介绍基于智慧屏的人机交互技术测评研究，主要包括语音交互和手势交互两大部分。其中，语音交互围绕语音采集与识别、语义理解、语音合成与播放以及语音技能等进行研究；手势交互围绕手势采集、识别以及基本操控等进行研究。

2.1 语音交互性能

2.1.1 语音采集与识别

智慧屏的人工智能语音服务可通过传声器或麦克风阵列等拾音设备对语音、连续语音进行单声道或多声道的采集，一般支持8 kHz或16 kHz的采样率，16 bit及以上的采样精度，并以PCM、OPUS或SPEEX标准进行编码。对于连续性音频，可采用30 s或60 s为单位进行切片分割[3]。智慧屏可对采集的音频进行语言端点检测，以便区分用户说话的自然停顿和主观停止。根据目标用户群体的语言习惯和使用场景，可设置不同的端点检测时长，从而实现语音识别响应速度和交互体验友好的平衡。

智慧屏应支持家庭场景下关键词语音识别，如影视、音乐、健康及教育等领域；应支持数字、电话号码、中英文混合识别及多方言（普通话、闽南语、粤语、四川话等）识别；在不同的噪声环境中识别率应至少达到80%，不同噪声环境声压级下的识别率要求如表2所示。

表2 不同噪声环境声压级识别率

此外，智慧屏还应支持声纹识别即说话人识别，应可根据声纹识别的结果，实现对不同身份用户的差异化服务，如系统访问权限和内容服务的权限等；声纹识别错误拒绝率不应大于10%，错误接受率不应大于5%。

2.1.2 语义理解

智慧屏语音交互应支持对简称、别名、代码及数字的理解；支持用户表达错字、缺字及模糊说法的容错理解；支持多轮、全双工对话的人机交互方式；语义理解正确率应大于90%。

语音交互应支持查询类技能，通过语音播报加信息展示的形式向用户反馈；应支持媒资检索类技能，通过语音播报加搜索结果展示的形式向用户反馈；应支持技能处理遇到异常场景时通过语音或者文本展示的形式向用户反馈。

2.1.3 语音合成与播放

智慧屏语音交互应支持离线语音合成，包括中文普通话和英语语种，宜支持多种方言、多音色合成以及个性化合成，包括女声、男声及卡通等音色，中英文数字等各种混合音，用户自定义读音和分词。平均意见得分（Mean Opinion Score，MOS）应大于或等于4.0（满分5.0）。MOS评估标准如表3所示[4]。

表3 合成语音MOS评估标准表

2.1.4 语音搜索

智慧屏语音搜索需覆盖并同步厂商所合作的媒体内容提供商和用户安装的第三方应用的媒体资源。媒体资源包括但不限于影音、教育、健身、游戏及其他应用内的资源，影视媒体搜索标签应包括名称、主演、上映时间及类型，宜包括季集、导演、简介、评分及热度等信息；音乐媒资搜索标签应包括名称、歌手、音乐来源及类型，宜包括地区、简介、评分及热度等信息；游戏媒资应包括名称和类型，宜包括简介、评分及热度等信息；应用媒资应包括名称和类型，宜包括简介、评分及热度等信息。语音搜索应支持单维度搜索、多维度搜索、对象关系搜索、多轮搜索及模糊搜索等。

（1）单维度搜索。只限定某一个槽值进行搜索，示例如表4所示。

表4 单维度搜索示例

（2）多维度搜索。对多个槽值进行组合搜索，示例如表5所示。

表5 多维度搜索示例

（3）对象关系搜索。通过亲属、朋友等关系进行信息搜索，示例如表6所示。

表6 对象关系搜索示例

（4）多轮搜索。在已经包含一个或多个槽值的情况下，进行槽值新增或替换，示例如表7所示。

表7 多轮搜索示例

（5）模糊搜索。搜索无结果或者无具体槽值信息时，结合语音发出者的年龄和性别信息进行搜索，示例如表8所示。

表8 模糊搜索示例

2.1.5 语音与IPTV的交互

IPTV内已经有各种成熟的直播、点播、回看及应用等内容服务，语音能力在进行落地时，需要充分考虑与已有内容服务的对接，满足用户基本的IPTV功能使用需求。

对于用户基本的频道选择，智慧屏语音可提供实体键的语音交互、唤醒语音交互两种功能之一，用户按下遥控器上的语音按键或讲唤醒指令将智慧屏唤醒，说出频道名称或者频道编号，智慧屏将进入选择频道播放画面。例如，用户对智慧屏说“中央六台电影频道”，智慧屏将直接切换到中央第六频道进行播放。

此外，用户还可以通过点播实现操控智慧屏播放相关视频的功能。例如，用户通过说出音视频内容的名称、主演、类型、国家地区及年份等信息或这些信息的组合，可以搜索到满足条件的音视频内容，并可通过遥控或语音选中目标，实现播放。

2.2 手势交互性能

2.2.1 手势采集

智慧屏应支持使用摄像头模组或具有视频图像采集功能的设备进行手势信号采集，以获取用户发出的手势信号，包括支持各种角度的手势采集和真实室内光照条件（自然光和灯光等）下的手势检测[5]。

2.2.2 手势识别

智慧屏应支持静态手势（如握拳、OK、数字等静态手势）识别，并支持在真实室内光照条件（自然光和灯光等）下的静态手势识别，允许存在一定的角度旋转；应支持动态手势识别，比如手掌张开左右挥动、手掌从张开到并拢等，并支持在真实室内光照条件（自然光和灯光等）下的动态手势识别。静态和动态手势识别要求如表9和表10所示。

表9 静态手势识别要求

表10 动态手势识别要求

2.2.3 基本操控

智慧屏手势交互应可实现上下翻页、返回上级页面等操作；支持通过手势交互实现确认和取消等操作；支持实现音量加、减、静音及取消静音等操作；支持实现音视频的播放操控，如播放、暂停、继续播放、重放、快进及快退等；支持实现对设备的基础控制操作如打开设置页面和关机等。

3 结语

我国智慧家庭产业已经具备一定的基础，随着智慧家庭市场容量的日趋扩大，国内厂商之间的竞争也将越来越激烈，对智慧家庭产品的组网通信、个性化服务、主动交互以及隐私保护要求都会变得更高。因此，行业需不断突破智慧家庭应用服务相关技术，提升智慧家庭产业链关键环节产品、系统及服务质量，不断满足消费者的用户体验需求，为家用智慧大屏市场拓展发展空间。