雷尚仲,张瑞秋
智能电视是移动互联网迅速发展背景下形成的高科技产品,是计算机、网络以及数字技术共同发展和融合的结果[1]。它给用户带来了更好的交互体验、更丰富的视听内容,目前已发展成为家庭主流电视娱乐产品。据智研咨询网发布的《2018—2024 年中国智能电视市场运行态势及投资战略咨询报告》[2]显示,近三年来智能电视销量突飞猛进,继PC电脑、智能手机和PAD 等终端后,智能电视作为大屏终端已引起了人们的广泛垂青。
智能电视具有屏幕大、影音效果好、可参与度高、交互性强、支持个性化和偏好推送优势,也可作为家庭信息生活生态圈的重要入口[3]。然而由于智能电视平台型的特点,其内容日渐增多,操作方式亦愈复杂,从而严重地挑战了用户的认知负荷和使用习惯。如何解决这个难题目前已成为学界和产业界的热点研究方向。近年来,随着人工智能、计算机图形学、语音技术和感性工学等学科技术的发展与应用,可靠高效、自然实时的自然交互逐渐成为人们关注的焦点。
自然交互指利用人的日常技能、意图感知能力实现“人”与“机器”的互动,相比传统人机交互,它更强调交互的自然性、人机关系的和谐性、交互途径的隐含性及感知通道的多样性【4】。自然交互通过听觉、视觉、语音、手势、表情、体态和皮肤触觉等多通道感知实现人机自然、准确和快捷地交流。自然交互将人机交互从二维的桌面交互升级到整个三维物理空间,从而更加符合人们的日常生活习惯。
当前,自然人机交互是计算机领域重要的前沿技术,涉及计算机、心理学、人体工学等多学科交叉领域,自然人机交互建立在对人的认知和行为能力充分理解和建模的基础之上,与图像识别、语音识别、自然语言处理等人工智能技术也有着密切的联系[5]。20 世纪90 年代开始,人机交互进入到了多模态阶段,称为人机自然交互(HMNI)[6]。2008 年,微软总裁比尔·盖茨首次提出了“自然用户界面”的概念[7],并预言人机交互在未来几年内会有很大地改观,键盘和鼠标将逐步被自然的触摸式、视觉型以及语音控制界面所代替。与此同时,“有机用户界面”(Organic User Interface)也开始悄然兴起,它包括生物识别传感器、皮肤显示器,乃至大脑与计算机的直接对接。2009 年2 月,麻省理工学院媒体实验室的Pranav Mistry 博士后,将手势识别、摄像头、投影和云计算结合在一起,并命名为“第六感设备”[8],如图1 所示。这种设备不用携带任何大尺寸的东西,所有的终端都浓缩在胸口的挂饰和贴在手指的“色环”中。当要拍照时,只需要用四根手指摆出一个框的形状;当要玩赛车游戏时,只需用手抓住一张白纸,通过投影仪它会“摇身一变”成为显示屏,可通过改变纸张的倾斜角度来控制方向。2012 年,在国际CHI会议(ACM 人机交互会议)上,微软和华盛顿大学UbiComp Lab 实验室的声波(SoundWave)项目开发了一项实时的传感技术,利用电脑上的扬声器和麦克风来感应周围的手势和动作,如图2 所示。扬声器发出的超声波音波引起的微妙频移的声波。当人们在电脑前做出手势的时候,超声波音波就以轻微的、不同的音量和波长反射回扬声器,随后这些数据可用于测量速度、方位、距离、尺寸以及改变移动的频率。该声波技术能够检测多种多样的手势,还能直接控制现有的应用,无需用户佩戴任何特别的传感器。2012 年7 月,中国科学院深圳先进技术研究院集成所智能设计与机器视觉研究室宋展博士带领的课题组在嵌入式手势体感交互技术研究方面取得新成果,攻克了多个复杂环境下的手势检测与识别技术难题,并完成了嵌入式平台下的算法优化,使其可以在普通智能电视、手机等设备上稳定流畅运行。该课题组所开发的嵌入式手势识别软件已在国内创维智能电视终端上得到转化应用。玩具巨头美泰公司推出的MindFlex,用户只要戴上耳机,便可用意念控制蓝色漂浮小球的高低,如图3 所示。
图1 第六感设备
图2 超声波感知手势动作
图3 意念控制场景
目前,自然交互主要基于视觉、听觉、触觉、嗅觉等人体感官,一般通过多模态、多通道融合实现精确识别,具体涉及的交互方式见表1。
电视的发展是随着其交互方式的改变而发展的。从20 世纪20 年代首台电视的问世开始,电视的交互方式经历了多代发展。近年来,随着互联网的快速发展和计算机、人工智能、图形学、语音等技术的成熟,从2010 年开始自然交互方式在电视上普遍有了应用。目前,智能电视有以下几种常见的自然交互方式:语音控制、手势或体感控制、触摸控制、多屏互动,甚至在特定场合和领域还有人脸、指纹、虹膜识别,眼动、脑电控制,虚拟现实等方式。目前市面上大多数电视都是智能电视,而自然交互是智能电视最基本也是最核心的配置要求,通过调研各主流电视品牌的主要交互方式如表2 所示。
当前市面上的智能电视大部分依靠不同的“关键字”指令来进行交互,但是多个关键词非常高频率容易操作有误。在各大电视品牌中,TCL 作为一家以“创意感动生活”为宗旨的电视品牌,其产品已经进入第三代全场景AI 时代和免唤醒时代。TCL 全场景AI 电视具有的免唤醒功能,支持多种常用指令的免唤醒控制。例如,当用户想看电影时,在唤醒电视之后,只要发出“好莱坞电影”“《复仇者联盟》”“好声音”等连贯性指令,智能电视就会迅速精准识别并执行,能够给用户带来与众不同的交互体验。
更有甚者,2011 年7 月18 日世界首台脑力波电视在“上海卡萨帝新闻发布会”发布[9]。海尔这款划时代电视机的遥控操作是通过一个脑波耳机完成的。这个特别的脑波耳机可以检测到用户的脑电波信号,识别出用户所处的状态并将其转化成电视可以识别的数字信号,由此可以实现以人的意志来控制电视开关机、切换频道等。2012 年4 月,长虹、海信、创维、TCL 等品牌都陆续推出了具备体感游戏功能的智能电视,引入了任天堂推出的体感游戏。2016年7 月28 日,长虹正式推出全球首款人工智能CHiQ(启客)电视,向业界提出了“人工智能电视”的新概念。该人工智能电视的特点是“知道你、响应你、懂你”,不仅能辨别和响应人的指令,还具有学习功能,能自动分析每个人的喜好,找出对应的内容和应用。通过大数据和个人数据积累,人工智能电视就能非常了解人。基于完善的技术逻辑与大数据运营,长虹以物联运营支撑平台为依托,实现了自然语音交互、深度学习和应用软件自动迭代等系统能力的整合。
表1 自然交互方式及其特征
表2 各品牌智能电视可支持的自然交互类型
在学术研究方面,本文通过研读国内外文献资料,发现学界对智能电视交互方式的研究聚焦在体感、手势和语音交互之上,尤其是基于视觉图像的手势交互方式颇多。例如国内文献:2016 年,兰州大学王景山的硕士论文《基于语音交互的电视节目点播系统》介绍了构建基于语音交互的电视节目点播系统的方法。2015 年,西南交通大学陈一新的硕士论文《基于Kinect 的手势识别技术在人机交互中的应用研究》借助Kinect 体感摄像机,提出采用位置相似度权重改进DTW 算法来开发手势识别系统。2014 年,华南理工大学裘索的硕士论文《基于单目摄像头的智能电视手势交互系统》针对创维42E790U 智能电视,基于单目摄像头开发了一套智能电视手势交互系统。2013 年,中国海洋大学王冉冉的硕士论文《基于视觉的手势识别在智能电视上的应用研究》论述了基于2D 摄像头将Eyesight 手势识别技术整合到android 智能电视上,实现手势控制电视。当然随着国内用户体验行业的快速兴起与发展,对智能电视交互体验方面的研究也逐渐增多。例如,2018 年崔婧、刘永翔在《智能电视的交互设计研究》一文中陈述了智能电视的发展现状,从智能电视的使用环境、适用人群和使用场景角度分析智能电视的交互特点,进而总结出智能电视设计时应注重导航设计、使用情景的视觉设计和多种输入方式的设计原则。
2014 年德国达姆施塔特工业大学(Computer Science,TU-Darmstadt)的 Niloofar Dezfuli 提出利用手掌交互表面来作为电视遥控器,从而减少手持遥控器错位和3D 空中手势遥控(如微软的Kinect)视觉上带来的疲劳感。2014 年Chen,Yen-Lin 在台湾台北举行的消费者电子国际会议上提出了一套实时人眼识别和跟踪系统的人机交互机制,它可以通过帮助智能电视用户用摄像头来提高他们的使用经验。该系统通过嵌入式应用omap4430 证明该结构能够有效、实时地跟踪眼睛的位置。即使对于不均匀照明的情况下,该系统可以成功地高精度识别人眼。2013 年 Shen Zhiwen 在其发表在 Journal of Conver⁃gence Information Technology 的论文提出基于UPnP协议对智能电视实现多屏互动操控。2012 年美国达拉斯-沃斯堡大学(University of Texas at Dallas)的Jaeyeon Lee 博士在其论文A Long-Range Touch In⁃terface for Interaction with Smart TVs 提出了一种新的基于触摸交互模型的交互方式,利用远程裸手跟踪模拟触摸动作来识别操控指令[10-15]。
目前,虽然市面上的电视几乎都标为“智能电视”,但是这种“智能化”的程度还是有差别的,尤其在交互体验方面还是有很大的区别。例如语音交互,大多数智能电视的语音交互繁琐,在下达操控指令时,需要不断地频繁唤醒,精准识别能力也有限,对话效率低,因此带来的用户体验并不是很好,这也不符合自然交互的本质与目的。当前受商家利益的驱使和消费者迎合智能化潮流的“推波助澜”等因素的影响,很多情况下自然交互只是一种营销概念或噱头,而在技术实现和用户体验方面还有很大的提升空间[16]。总的来说主要有以下两方面的问题待解决:
第一是用户体验设计方面,智能电视交互的用户体验是核心问题。虽然目前前沿顶尖人机交互技术发展迅速并取得了不错的成绩,但技术应用到具体产品上还需要经过设计化处理。当下智能电视的自然交互可用性、有效性和易用性整体还有提升的空间,主要存在人机交互复杂、界面信息内容杂乱和层级繁多等体验不佳的问题。
第二是精准识别技术优化方面,在精准识别和多模态融合识别方面还有很大提升空间。比如语音、手势和体感在实际操作时,并不是那么灵敏和精确,甚至还会带来一些误操作。目前,智能电视的自然交互方式在设计上基本是单通道,比如语音交互就只作用于语音识别,手势交互就只作用于手势识别,缺乏多感官的融合识别方案和综合处理系统。建议利用人工智能多模态融合处理系统实现精准识别和控制(交互)。
其实智能电视发展到现在还是有很大进步的,在AI 交互体验上也有较大程度的提升。纵观目前市面上的智能电视,在人工智能方面主要有三方面的体现:(1)语音、手势、体感等自然交互控制;(2)智能个性化内容推荐;(3)智能家居系统控制。其中,交互操控是一台智能电视最主要、也是最必不可少的功能,因此大多数智能电视的AI 功能都相当重视自然交互,通过对AI 技术的不断更新迭代,以给用户带来更加人性化、差异化的交互体验。
随着技术的不断发展,智能电视的交互方式也会有所变化,而且随着计算机、人工智能、虚拟现实等相关技术的快速发展和成熟,相信在不久的将来又会涌现出大量新的交互方式,并将不断挑战人的使用习惯。但笔者认为无论交互技术怎样发展,未来的智能电视交互操作将更加自然化,在高度智能化的同时智能电视交互的发展方向必将是多通道的智能融合、更加个性化和情感化,也就是智能电视越来越像一个人,甚至比人还聪明、体贴。
当前最热的语音和手势两种新交互方式将会在近段时间得到快速的优化发展,人工智能和情感交互将成为长期发展的趋势,未来人与电视的交互就像人与人之间的交流那样自然,同时电视也将具有类似人的情感和智慧,可以通过感应人的状况智能化调整与人的交互方式。
自然交互在人工智能时代将是一个具有广阔应用前景的高新技术领域,其研究范围广泛,但目前受诸多因素限制颠覆性突破艰难,仍存在许多有待解决的问题。为了提高智能电视系统的可交互性、逼真性和沉浸感,需要加强新型传感和感知、算法建模、高性能计算和图形图像处理等技术,同时提升在人工智能、心理学、社会学等领域的融合协同研究。本文通过文献研究和考察调研相结合的方式对智能电视的自然交互进行了论述,并对有待解决的问题作了一定的分析,同时梳理了未来的发展趋势,以期为面向万物互联趋势下新的设计机遇与挑战提供依据和参考。相信随着技术的快速发展和成熟,自然人机交互将会带给我们人类在电视产品中更完美的“视听触”等方面的多感融合体验。