目标识别与追踪技术在AR设备上的应用及发展研究

2018-05-14 14:49杨辞源吴诗中
工业设计 2018年6期
关键词:交互设计图像识别

杨辞源 吴诗中

摘要:增强现实技术(Augmented Reality)作为众多学科交叉集成的技术手段近年来发展迅速,其中依托计算机视觉和机器学习的图形识别与追踪技术是AR的关键组成部分。本文以笔者近日开发的一款音乐主题AR应用——Musiable为例,在分析相关的识别追踪技术的同时融入自己的开发经验和思考,着重探讨这些技术在移动场景下的发展和应用会为我们带来哪些新的交互可能。

关键词:AR增强现实;图像识别;交互设计

中国分类号:TB472文献标识码:A

文章编码:1672-7053(2018)06-0013-03

1研究背景以及市场现状

近日,SuperData公司公布的一份数据报告Nowhere To Go But Up: The Future of XR显示,2017年资本市场在沉浸式科技领域的投入同比增长40个百分点。同时这也是市场对AR的投入超过VR的第一年。过去几年里伴随着AR的增长,大量的科技公司投身于开发与识别追踪相关的SDK (Software Development Kit)。2017年6月,Apple随iOS11的发布正式公布了自己的增强现实开发平台ARKit,该SDK支持Unity、Unreal和SceneKit,具备动作追踪以及平面估算等功能,Tim Cook也表示AI和AR是公司未来关注的核心技术。Google于8月份推出了和ARKit对标的ARCore。除此之外,Zuckerberg也在F8会议上宣布把AR作为Facebook的战略方向。

隐藏在这些焦点背后的AR相关技术,无论是SLAM、或者图像和模型的识别跟踪以及3D交互等,到今天为止都已经取得了多项突破,基于Marker或者Markerless的识别和追踪技术已经相当成熟,这些技术的发展大大降低了相关应用的开发门槛。目前在移动端应用最多也是最重要的技术就是目标的识别和追踪,可以说所有具备AR功能的手机应用都离不开此项技术。同时随着半导体芯片、光学组件、电池技术的提升加之巨头的介入和推动,AR的应用潜力十分巨大,这也对软硬件的设计开发提出了新的机遇和挑战。

2 Musicore的理念

与本文相对应的Musicore是笔者基于AR技术开发的一款音乐练习和创作应用。Musicore旨在降低音乐学习的门槛,它能够在发挥乐器即兴创作特点的同时激发用户的兴趣,并提供更好的沉浸式体验。该应用组合了传统乐器真实有效和软件乐器智能便捷的优点,由AR Keyboard、AR Djembe和Composition Kit三个模块组成,分别对应钢琴、打击乐和音乐创作套件,用以满足音乐练习与创作的基本需求。用户通过手机操控打印机获取目标图形并将其进行简单的组合,之后打开应用识别这些图形以获得音乐上的反馈。该方案将主要功能集成于智能手机中,无须配置Switch这样的主机或是Leap Motion类的外借设备实现交互式的AR音乐体验,基本上没有平台和使用门槛的限制。

3 AR识别与追踪的逻辑结构

3.1图形的识别

在AR的识别技术中,图像指纹和汉明距离是其两个关键要素。首先将目标进行特征提取额,然后进行一系列的信息归纳,比如色彩简化、像素灰度比较等,通过感知哈希算法为一个图片建立图像指纹,通常可将这些信息整理为一个64位数字。当上一步完成时就需要利用目标图像的编码值进行全局或是局部的相似度计算,根据上文提到的汉明距离去判定不同对象的哈希值中有多少位是不相同的,一般不同位数不超过5则认为它们较为相似。也可根据需求设定阈值,然后将相似度高的图片预保留下来。目前感知哈希算法处理在图形搜索领域已经比较成熟,例如Google识图等。

笔者在Musicore的开发中调用了大量的Image Target,比如用以触发虚拟乐器的图标、和弦卡片以及控制台上的图形等。这些工作基本上靠已经较为成熟的Vuforia完成,我们可以将自己制作的满足识别条件的图像上传到云端,通过自动分析后能够打包到本地,将这些资源包导入开发软件中即可使用。根据实验结果的反馈,识别精度与图形的对比度和平面构成特征有很大关系。值得注意的是图片中的角点特征比较容易提取,而圆弧在识别的过程中基本不提供有效的特征值,因此在仅由大量圆或弧形构成的图形中难以保证能够获取理想的精确度。识别在笔者开发该应用的过程中是获取信息的第一步,当能稳定抓取这些有效的信息并输入后方能进行后续操作。

3.2图形的追踪

静态图形检测的适用范围是有限的,由于位置、角度改变而产生的形变和透视以及光的变化会影响其特征。所以当同一目标发生以上多种变化时,仍能进行有效识别或者说能够抓取等同的特征值是追踪技术在物理形态上的意义所在。若想对运动的图形或物体进行追踪首先需要目标检测,每一次的追踪都依赖于特征值的提取与匹配。最广泛的使用方法是相邻帧间差分法,它通过计算摄像机捕捉到相邻两帧图像的差别,获取位移物体形态特征和空间位置等信息,OpenCV提供了很多开源的算法可以计算这个过程的特征向量。这一步完成后需要追踪运动目标,也就是在序列图形中定位到目标。在此过程中,计算机通过对场景中获取到的所有内容进行分析,采用特征搜索的方式筛选目标范围,减少计算量并提高效率。目前在追踪的基础上对于三维环境的实时追踪是比较热门的话题,也就是SLAM。在未来AR几乎可能与SLAM是绑定存在的关系,AR的深度应用离不开时间空间对应关系的建立。即时定位与重建一般的应用场景多为移动端,但由于移动端的计算能力有限增加了技术的难度,微软的HoIoLens和谷歌的Project Tango在这方面做了很多尝试。

在本次开发的过程中我主要通过调用ARCamera来解决问题,它是各种SDK的基础构架和连接虚拟世界与现实场景的枢纽,該库封装了AR识别和追踪的算法,可快速达成追踪目标这一效果。

4相关SDK的可用性对比分析

AR的开发和应用与集成了大量算法的SDK息息相关。软件开发商整合了交互设计、识别与追踪算法以及三维建模技术形成SDK,供产业链下游的开发者使用。之前国外做的比较好的有谷歌和高通,另外苹果刚刚推出的ARKit也奠定了iOS系统SDK统一格局。安卓体系的SDK优化和统一性还远远不够,厂商需要基于不同手机推出不同的SDK版本,安卓SDK市场空间还很大。此外安卓和iOS跨平台的SDK会有非常大的机遇,国内部分厂商已投入研发并推出了一系列产品。

经过可用性测试和对已公开数据的分析,我在这里谈一下对各个SDK的认识和理解。Vuforia是经测试后发现的识别能力较为优秀的SDK,在APP Store和Google Play中都占有最高的市场份额。ARKit目前更多的是基于平面检测的识别和交互,尚不支持用户自定的图形识别功能。在众多SDK中有一款名为EasyAR的国内自研SDK值得关注,它对于平面图形有较好的识别,新版本也加入了3D和云识别功能,但是相对来说体验过程中的也有一些问题,使用流畅度仍需提升。

本次开发的Musicore大部分通过调用Vuforia组件的Unity完成。Vuforia 7的Image Target可以支持2D和3D的识别,另外还可以识别文字。其自带的ARCamera组件可以对Target进行追踪。另外,在此基础上比较好的体验在于Unity可以快速通过Virtual Button实现与现实物体的交互。Musicore的音乐创作模块中包含了切换乐器轨道以及和弦小节时值的功能,其控制台上有三组12个Virtual Button,笔者经多次测试发现将按钮建立在目标图形特征点上才能有更加有效的实现控制功能。

5基于识别与追踪的交互方式探讨

5.1新技术推动交互方式的变革

新技术的发展和成熟为多个领域提供了更多的可能性,人机交互学科也在不断发生变化。回顾上世纪60到80年代,个人计算机兴起使得鼠标和键盘成为主流交互方式,随后移动设备浪潮使得触控技术取代传统的交互方式为人们所熟知。VR/AR拓宽了现实与虚拟的边界,基于AR的应用可以实现数字信息和物理空间的链接与互动。从AR的意义和价值来看,AR应用存在的原因是它与现实世界有着某种更好的互动和联系,这些特征催生了交互理念的变革以及随之产生的具体交互方式的推陈出新。新的交互方式和人机界面的迭代使得传统意义上的人机交互界面很可能会缩小应用范围。

5.2 AR在移动端应用场景的特征

场景是交互系统中极为重要的元素,AR中的识别与追踪需要针对这些行为逻辑在相应场景下进行设计规划,并做适应性调整以获取最佳体验效果。AR技术作为增强现实的独特方式可广泛用于多种平台和场景,比如应用在游戏、购物、娱乐上,增强现实的合理运用可以提高带入感和趣味性。目前市场和企业开始迅速将这些技术整合到相关的业务和营销计划中,以尽可能地把握机会和获取优势。宜家提供的AR服务可以使用户在家中模拟产品的体验效果,制造业和医疗教育行业也在快速融入这项技术。笔者认为未来AR和移动端的结合将会更加紧密,这也符合日前移动设备取代固定工作站的发展趋势,因此移动平台将获得更多的机会。

在众多移动设备中AR的应用可以大致分为两类,一类是现在比较成熟的设备,如智能手机和平板电脑等终端,这些终端会根据AR的特质和需求升级硬件配置为内容开发建立良好的环境。这类设备对应的AR应用也会最率先获得快速增长的契机。当然在此期间也需要开发商产出大作去推动平台的完善,比如现象级的Pokermon Go和Ingress等。另一类则是正在开发的更加前沿的移动终端,虽然不太成熟但是却有着很好的前景,例如HoIoLens这样的MR全息计算机设备。它的使用场景受限于CV技术的发展,只能在稳定的环境中使用,比如适宜的光照强度,景深也受到一定的限制。但是类似HoloLens这样的设备的发展会趋近于更加适应人的眼睛和自然使用场景,同时对于人机交互的打磨也会更加人性化。

5.3 AR中的识别和追踪对交互的影响

对象识别和计算机视觉技术正在改变我们与移动设备交互的方式。AR通过实时对现实场景的判别与反馈结合虚实环境来帮助用户完成某项任务以满足我们日益提升的需求。虚拟空间的信息与现实及用户的实时交互向用户传递有效的信息,相比传统的基于平面的交互方式,AR可支持更加丰富的3D交互方式,这些在之前看来更多像是科幻描述。更重要的是这种方式不再仅限于主动的点击,滑动等方式,它还为用户行为的被动交互提供了平台。

由于AR技术的发展,许多需要借助一定设备才可识别的交互方式被打破了平台的界限。比如需要用Leap Motion等外接设备的信息输入才能实现的手势识别,又如Kinect之于动作的捕捉等,如今从技术层面看完全可以通过移动设备等AR应用实现。这一点在我的作品Musicore中得到很好的体现,用户不需要购买新的设备,仅仅利用日常中的材料就可通过AR与音乐产生互动。手势识别在互动性较强的AR应用如游戏中有着非常大的价值。手势识别包括对手势动作的跟踪以及后续的数据处理,涵盖了硬件与软件,用户用手可直接进行操作,方便快捷。同时,对于可穿戴式AR设备来说,AR中的手势识别有着天然的优势,他更像是人类的自然语言。另外AR在移动设备可开启前置摄像头以获取传统应用缺失的大部分信息,比如面部识别,表情变化和眼动等。眼动交互方式目前还不是尽善尽美,距离大规模应用还有一段距离。就前文的分析,合适的应用场景对该交互方式的介入至关重要,我们可能不需要其全方位代替传统的交互方式,而是去发挥它的独特优势,加之HoIoLens等穿戴式设备的发展,该技术与之完美结合或许只是时间问题。

5.4 AR云识别的意义

AR或许可以和云、共享等方式产生奇妙的碰撞。可以想象所有的在线设备通过读取上传或分享的信息以获得更加完善的现实模型。这些AR设备可以被认为是现实与虚拟世界的通用接口和实时界面覆盖了的真实场景。目前手机依据GPS和陀螺仪可以轻松获取设备的空间位移,但是当AR广泛运用后,这个功能就显得难以满足新的需求,比如捕捉和管理3D数据结构,所以需要发展相应的云端来满足设备和设备间的交互。目前对于Musicore的开发尚未进入到协同共享阶段,但是从产品设计的角度来看,多人协同和交互会大大提升该产品的趣味性,同时从音乐本身的特性分析,多人共同排练、演奏或者创作才更加有价值和意义。

6结语

尽管AR目前仍然处于发展阶段,但这项技术的未来是值得肯定的。AR应用的设计和开发要充分考虑用户场景,据此来选择合理的交互方式。同时,笔者在这次开发体验中对图形识别的学习中感悟到AR和AI的结合可能是一个非常好的前景,未来更加精确、智能的识别和追踪离不开人工智能的介入。AR可以作为AI的载体,而AI为AR提升平台价值和提供更加丰富的内容。随着计算机视觉、识别追踪算法和相关软硬件的提升,以市场和用户在这方面的需求为导向的AR有望成为下一代计算通用平台。

参考文献

[1] SuperDataNowhere To Go But Up: The Future of XR, 2018

[2]陈靖,王涌天,郭俊伟,刘伟增强现实技术在智能手机上的应用电子科技大学学报,2010(s1):80 84

[3]郑华斌.基于增强现实的交互式应用系统浙江大学,2013

[4]高翔,安輝,陈为,潘志庚移动增强现实可视化综述计算机辅助设计与图形学学报,2018(1).

猜你喜欢
交互设计图像识别
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
浅谈模式识别在图像识别中的应用
超数字化:网络体育新闻传播的发展趋势
非物质文化遗产数字化研究
浅谈交互设计在工业设计中的运用
莆田电子商务界面设计的艺术研究
交互设计在工业设计中的应用分析