合肥职业技术学院(238000 ) 徐 彬
手势控制技术在汽车上的应用
合肥职业技术学院(238000 )徐彬
现在,各个汽车厂商在动力和排量之间的差异已经不再明显,而科技化的个性功能——车载互联、操作系统及各种科技元素是汽车厂商吸引消费者的重要手段之一。手势控制在人们日常生活中的应用越来越广泛,比如说手势控制电脑、手势控制电视,还有更加智能的是利用手势控制摄像头来隔空玩游戏。目前,手势控制是继语音控制之后另一项受到许多汽车厂商追捧的技术,手势控制可以让驾驶人在驾驶时简单地挥挥手或做出几个动作就能对车载功能进行控制,与语音控制相比,准确率更高,同时也更方便,毕竟有些人觉得语音控制汽车系统,尤其是在有其他乘客时非常尴尬。手势控制汽车就是通过车载摄像头识别特定手势,以此来替代汽车仪表盘上的各种旋钮和按钮。手势控制的最大优势就是可简化操作,让驾驶人可更加快捷地实现各种操作。
手势控制的核心是手势识别技术,就目前的技术而言,大多数手势识别采用的是计算机视觉技术。手势识别技术由简单粗略的到复杂精细的,大致可以分为二维手型识别、二维手势识别和三维手势识别3个等级。二维只是一个平面空间,可用X坐标、Y坐标组成的坐标信息来表示一个物体在二维空间中的坐标位置,就像一幅画出现在一面墙上的位置。而三维则是在此基础上增加了“深度”(Z坐标)的信息,这里的“深度”并不是现实生活中所说的那个深度,这个“深度”表达的是“纵深”,理解为相对于眼睛的“远度”也许更加贴切,就像是鱼缸中的金鱼,它可以在你面前上下左右游动,也可能离你更远或者更近。前两种手势识别技术,完全是基于二维层面的,只需要不含“深度”信息的二维信息作为输入即可,就像拍照所得的相片一样,只需要使用单个摄像头捕捉到的二维图像作为输入,然后通过计算机视觉技术对输入的二维图像进行分析,获取信息,从而实现手势识别。而第三种手势识别技术,是基于三维层面的,三维手势识别与二维手势识别的最根本区别就在于,三维手势识别需要的输入是包含有“深度”的信息,这就使得三维手势识别在硬件和软件两方面都比二维手势识别要复杂得多,当然三维识别也能够识别更多的动作。对于一般的简单操作,比如只是想在播放视频时暂停或继续放映,二维手势识别就足够了,但对于一些复杂的人机交互,则只能采用三维手势识别技术。
1.1二维手型识别
二维手型识别也可称为静态二维手势识别,识别的是手势中最简单的一类。这种技术在获取二维信息输入之后,可以识别几个静态的手势,比如握拳或者五指张开,其代表公司是被Google收购的Flutter。在使用其软件后,驾驶人可以用几个手型来控制播放器,将手掌举起来放到摄像头前,视频就开始播放;再把手掌放到摄像头前,视频就暂停播放。“静态”是这种二维手势识别技术的重要特征,这种技术只能识别手势的“状态”,而不能感知手势的“持续变化”,举个例子来说,如果将这种技术用在猜拳上的话,它可以识别出石头、剪刀和布的手势状态,但对除此之外的手势,便一无所知。因此这种技术说到底是一种模式匹配技术,通过计算机视觉算法分析图像,和预设的图像模式进行比对,从而理解这种手势的含义。这种技术的不足之处显而易见——只可以识别预设好的状态,拓展性差,控制感很弱,驾驶人只能实现最基础的人机交互功能。
1.2二维手势识别
二维手势识别,比起二维手型识别来说稍难一些,但仍然停留在二维的层面上,基本不含“深度”信息。这种技术不仅可以识别手型,还可以识别一些简单的二维手势动作,比如对着摄像头挥挥手,其代表公司是来自以色列的PointGrab、EyeSight和ExtremeReality。二维手势识别拥有了动态的特征,可以追踪手势的运动,进而识别将手势和手部运动结合在一起的复杂动作。这样就把手势识别的范围真正拓展到二维平面上了,驾驶人不仅可以通过手势来控制计算机播放/暂停,还可以实现前进、后退、向上翻页、向下滚动这些需求二维坐标变更信息的复杂操作。这种技术虽然在硬件要求上和二维手型识别并无区别,但是得益于更加先进的计算机视觉算法,可以获得更加丰富的人机交互内容。在使用体验上也提高了一个档次,从纯粹的状态控制变成了比较丰富的平面控制。
1.3三维手势识别
当今手势识别领域的重头戏是三维手势识别。三维手势识别需要的输入信息包含有“深度”的信息,可以识别各种手型、手势和动作。相比于前两种二维手势识别技术,三维手势识别不能再只使用单个普通摄像头,因为单个普通摄像头无法提供“深度”信息。要得到“深度”信息需要特别的硬件,目前世界上主要有3种硬件实现方式——光飞时间(Time of Flight)、结构光(Structure Light)、多角成像(Multi-camera),再加上新的先进的计算机视觉软件算法即可实现三维手势识别。下面阐述三维手势识别的三维成像硬件原理。
1.3.1光飞时间(Time of Flight,简称ToF)三维手势识别
光飞时间(ToF)是SoftKinetic公司所采用的技术,该公司为业界巨鳄Intel提供带手势识别功能的三维摄像头,同时,这一硬件技术也是微软新一代Kinect所使用的。光飞时间的基本原理是加载一个发光元件,发光元件发出的光子在碰到物体表面后会反射回来。使用一个特别的CMOS传感器来捕捉这些由发光元件发出、又从物体表面反射回来的光子,就能得到光子的飞行时间。根据光子飞行时间进而可以推算出光子飞行的距离,也就得到了物体的“深度”信息。就计算上而言,光飞时间是三维手势识别中最简单的,不需要任何计算机视觉方面的计算。由于光的传播速度非常快,基于ToF技术的感光芯片需要飞秒级的快门来测量光飞行时间,这也是ToF技术难以普及的原因之一,因为这样的感光芯片成本过高。利用ToF技术进行手势控制,需要一个3D摄像头进行配合,摄像头的用处是监控并识别手势变化。摄像头内置有红外LED光发射装置与接收装置,根据光线发射与接收之间的时间差来分析出手势的变化。最终得到的数据会传递给车载系统的控制单元,由控制单元调出与识别出的手势相对应的功能。
当然,还有一种方式是将光脉冲改为无线电波,极高频毫米波无线电波也同样可以用来捕捉动作、距离、速度等信息,感应误差精细到毫米。然而,如何把具有如此精度的设备微小化是一件十分艰难的事情,最难的地方在于微小化会影响器件的发射功率和效率、感应灵敏度等。
1.3.2结构光(Structure Light)三维手势识别
结构光技术的基本原理与ToF技术类似,所不同之处在于其采用的是具有点、线或面等模式图案的光。结构光的代表应用产品是PrimeSense公司为微软家XBOX 360所做的Kinect一代。结构光技术的基本原理是,加载一个激光发射器,在激光投射器外面放一个刻有特定图样的光栅,激光通过光栅进行投射成像时会发生折射,从而使得激光最终在物体表面上的落点产生位移。也就是说,激光发射器将结构光投射至前方的人体表面,再使用红外传感器接收人体反射的结构光图案,然后,处理芯片根据接收图案在摄像机上的位置和形变程度来计算物体、人体的空间信息。当物体距离激光发射器比较近时,折射而产生的位移较小;当物体距离激光发射器较远时,折射而产生的位移会相应变大。这时使用一个摄像头来检测采集投射到物体表面上的图样,通过图样的位移变化,就能用算法计算出物体的位置和“深度”信息,进而复原整个三维空间,即可进行三维物体的识别。以Kinect一代的结构光技术来说,因为依赖于激光折射后产生的落点位移,因此在太近的距离上,折射导致的位移尚不明显,使用该技术就不能太精确地计算出“深度”信息,所以1 m~4 m是其最佳应用范围。
1.3.3多角成像(Multi-camera)三维手势识别
多角成像这一技术的代表产品是Leap Motion公司的同名产品和Usens公司的Fingo。多角成像技术与立体成像技术相同,这种技术的基本原理是使用2个或2个以上的摄像头同时摄取图像,就好像是人类用双眼、昆虫用多目复眼来观察世界,通过比对这些不同摄像头在同一时刻获得的图像的差别,使用算法来计算“深度”信息,从而多角三维成像。这里以2个摄像头成像来简单说明其原理,双摄像头测距是根据几何原理来计算“深度”信息的。如图1所示,使用2台摄像机对当前环境进行拍摄,得到2幅针对同一环境的不同视角照片,实际上就是模拟了人眼工作的原理。因为2台摄像机的各项参数及它们之间相对位置的关系是已知的,只要找出相同物体(枫叶)在不同画面中的位置,便能通过算法计算出该物体(枫叶)距离摄像头的“深度”。
图1 采用2台摄像机的多角成像基本原理
多角成像是三维手势识别技术中硬件要求最低,但同时也是最难实现的。多角成像不需要任何额外的特殊设备,完全依赖于计算机视觉算法来匹配2张图片里的相同目标。相比于结构光或光飞时间这两项技术成本高、功耗大的缺点,多角成像能提供“价廉物美”的三维手势识别效果。
图2 2016款宝马7系轿车手势控制功能示例(1)
2.12016款宝马7系轿车手势控制与iDrive、声控相结合
2016款宝马7系轿车首次带来了手势控制功能,如图2和图3所示,驾驶人只需要通过在中控台前方的区域做出相对应的固定手势,iDrive系统就会做出相应的回应,该功能也是业界首次应用在量产车型上,可以说开创了该领域的先河。宝马将手势控制与iDrive、声控相结合,形成了更全面的车内操作环境。在操作过程中,系统会帮助驾驶人提示用何种手势来实现控制。另外,在新宝马7系轿车的后排还有智能触控系统,在后排中央扶手上配备了三星的Android系统平板电脑,它采用可拆卸设计,能取下来拿在手上操作,可以连接车辆系统并提供全面的操作和设置选项,例如可用它来调节后座和前排乘客座椅,还可操作后排空调、通风、座椅加热,以及车内氛围灯、玻璃天窗、百叶窗、娱乐功能等。
图3 2016款宝马7系轿车手势控制功能示例(2)
2.2捷豹路虎车手势反馈触控
捷豹路虎投资了一家名为UltrahapatICs的创业公司,该公司拥有一项名叫ULT003 Mid-air Touch的超酷手势控制技术,该项技术最有趣的一点在于,当你在空中做出触控操作,手可以感受到类似操控物理按钮的触觉反馈。这项技术在触控区域有一个超声波发射设备,通过气压变化,在某个特定位置汇聚几个声波高压点,就能生成一个“摸得着、看不见”的界面。如图4所示,只要手在一个有效范围内运动,设备就会追踪到手部位置变化,在合适的位置凭空“捏造”出一个虚拟的三维立体物件,也可以是一个“旋钮”或“按键”。和一般触控操作相比,按钮会根据手的位置同步移动,没有传统手势控制中看着屏幕寻找触控点位的需要。而且使用者能够通过触摸获得具体信息,手部可以真实感受到按钮的按键力、触摸到平面的质感,对操作效果的判断会有实在的触觉反馈。
图4 捷豹路虎车手势反馈触控
2.3德尔福手势控制系统
德尔福利用光飞时间(ToF)原理,开发了自己的手势识别系统,如图5所示,德尔福将红外线摄像头安装在车辆顶部的一个罩衬之内(通常用来放太阳镜),能够检测出中央扶手、换挡杆到中控屏幕这个范围之内(也就是在腰部到肩部之间的位置)的手势动作。如图6所示,德尔福对这套手势控制系统预设了以下动作(摄像头位于上方,从上往下看),驾驶人坐在车中,只需通过简单的手、臂动作,就能完成对车内信息娱乐系统的调节和控制。
图5 德尔福手势控制实现原理
图6 德尔福对手势控制系统预设的动作
(1)手掌张开向右挥动:挂断电话或者取消操作。
(2)单指前后移动:接听电话、选择或确定提示。
(3)两根手指不动(V形手势):暂停/播放音乐、自定义操作。
(4)一根手指顺时针转动:增大音量、缩小导航地图。
(5)一根手指逆时针转动:减小音量、放大导航地图。
(6)五指收拢成圈,向右移动:下一曲,回到主菜单。
(7)五指收拢成圈,向左移动:上一曲,回到主菜单。
整套动作简单流畅,形同捕风,根本无需动用驾驶人的眼睛,也并不会分散驾驶人的注意力,驾驶人可以专注于驾驶以提升行车安全。汽车制造商在实际配置时,可以直接使用定义好的手势,也可根据不同市场的文化与习惯进行修改或新增。
德尔福在法兰克福车展上推出的手势控制技术在旧有手势控制的基础上作了多项改进,其将语音识别、眼神控制、手势控制和触摸等多种模式整合在一起,为驾驶人提供了一整套多功能交互解决方案。
2.4微软专为汽车环境设计的手势控制专利
微软作为互联网巨头,在车载系统的手势控制上也有自己的思考,而实现这一切的仅仅是一个摄像头。在微软申请的一项专利中,由三位研究人员搭建了汽车娱乐信息系统的手势控制系统,但这些控制动作和常见的抬手、滑动、旋转完全不同,其手势控制动作更加具象化。如图7所示,食指抵住嘴唇表示调低手机外放音量,手张成喇叭状表示使用手机拨打电话,类似思考着的攥下巴动作则表示“我想检索信息”,而点赞动作代表“同意”操作。使用该系统时,需要把智能手机放在仪表盘上方,用手机的内置摄像头来捕捉车内人的手势和体态动作,而背后支持这项功能的则是图像识别技术。在软件层面,三位研究人员对系统的设定是手势控制搭配语音识别一起使用,后者在车内人机交互中更为常见。微软在与丰田合作的Smart Insect概念车中已经通过车内前装摄像头实现了前装版本的手势控制功能。所有手势恢复了常规的抬起落下,多数用来操作车内的二级控制功能,例如娱乐信息系统、导航或拨打与车机连接的手机等。
图7 微软为汽车环境设计的手势控制专利举例
2.5谷歌手势控制
作为无人驾驶汽车的先驱者,谷歌在手势控制技术方面研究颇深,乘客可以利用手势向车载计算机发出与行车方向相关的命令,不过谷歌也表示,在目前,仍需要驾驶人来控制转向盘的时代,手势识别将会是最有用的。在谷歌列出的可以通过手势控制的功能清单(图8)中,包括地点导航、调整车内温度、调整车载音乐音量、选择歌曲、调整座椅位置及改变巡行控制系统的速度等。驾驶人可在一定区域(如转向盘、空调出风口等)内进行手势操作,另外,车内乘客也可以通过手、胳膊、腿部和头部等部位做出任何手势控制。在窗户附近的区域内做出扫手的动作,机动车会确定动作幅度,进而根据手势幅度决定车窗打开的程度;在转向盘附近打响指就可开启刮水器或是指示灯;在汽车仪表盘前扭动手腕就可以打开空调或收音机;手指向天窗,天窗就会自动开启。
图8 谷歌手势控制
2.6福特手势控制系统
福特手势识别系统中,用摄像机获取信息识别用户的指令后,用户可拉取1根虚拟的线或是利用手势控制风窗玻璃上的平视显示器来打开天窗,通过拇指朝上或朝下动作来确认手势指令。另外,一旦汽车识别驾驶人手势,一整套个性化功能就会成为驾驶人的预设装置,比如自动调节车内温度,当车内坐满时,驾驶人旁边的窗户会自动半开。利用驾驶人前方的摄像头对驾驶位的人脸扫描,判断是否为认证驾驶人,有没有启动车载系统的权限。陌生人在做出进一步操作时,车主手机会收到车内人的正面图片,可以在手机端授权。已经获得认证的驾驶人除了可以开启车机系统等一系列功能外,还可以调用系统中保存的个性化设置。
2.7大陆手势控制技术
德国大陆集团正在研发智能红外线技术——“红外线帘幕”,以便未来将控制设计应用在面向大众消费市场的车型上。如图9所示,红外触摸屏的触摸检测部件位于屏幕外部的电路板外框,上面对向排列着红外发射管和接收管。当纵向排布足够密的平行光束后,就在屏幕上方形成了“红外帘幕”。单排LED足以用于单个手指操作,使用触控屏幕时,手指便挡住了所在点位的红外光线,接收管感应到光线阻碍后,识别手指位置并反映为电信号。控制器将前者采集的电信号变化经过转换变为数字量的变化,通过分析和算法处理,得出触摸点的位置数据。大陆集团显示技术研发人员表示,可以将车内的任何表面变成用户界面,识别多点触控手势,比如拖动、缩放等。大陆集团的触控红外屏使用了X、Y横纵轴发射红外线的方式,比单点触控红外屏增加垂直轴。二维红外光束连接起来,在整个屏幕上方形成红外栅格。当多手指操作时,触摸点就解码为多个坐标传送给控制器处理,实现多点触控的功能。有了这项技术,整个人机交互过程可以识别类似缩放等动作。在选择菜单上移动更加容易,改变地图上的选项也会更方便。
图9 德国大陆集团智能红外线技术——“红外线帘幕”
2.8伟世通Horizon概念座舱技术
作为全球知名的汽车零部件供应商,伟世通也发布了一款概念座舱设计,展示了3D手势控制对于汽车内环境的影响。Horizon座舱(图10)概念通过融合3项新兴技术,改变驾驶人对于车内温度、音响及导航等功能的控制方式。
(1)手势控制。Horizon座舱利用先进的摄像系统通过拍下用户的手部动作,虚拟手形复制在中控面板上,由此,置身于Horizon座舱内的驾驶人只需移动手部甚至是手指,而无需接触仪表盘,就可轻松操作特定的车辆控制装置,例如,用一只手做出旋转动作就可调节收音机的音量。
(2)虚拟触摸屏技术。通过搭载压敏型触控板,驾驶人无需真正触碰到中控面板上的控制装置就可实现操作。触摸屏可通过识别对其施加的压强大小提高其响应性。同时,该触摸屏可加载于任何软质材料(诸如真皮或布料)中实现操作,最大程度地实现组装的灵活性。
图10 伟世通Horizon概念座舱技术
(3)双层显示屏。信息通过高分辨率图像显示在2个独立但重叠的显示屏面上,并重点显示驾驶人正在操控的那些信息。驾驶人似乎可以“穿越”第1个显示屏上的图像,立即观察到第2个显示屏所显示的内容。
伟世通利用其在人机交互(HMI)领域的专长将这些技术融为一体,为驾驶人打造出独一无二的驾驶环境。
2.9隔空手势唤醒
图11 隔空手势唤醒
目前,大多数的车载触屏在长时间无操作情况下会自动进入休眠状态,而如果要唤醒显示屏则需要触摸显示屏,而现在则无需直接接触,仅需要将手或手指放置在触摸屏附近便可唤醒触摸屏,比如凯迪拉克旗下的科尔维车所配备的触摸屏就支持此类附近唤醒触摸屏技术。另外,各大汽车零部件公司都在研究开发提高附近唤醒触摸屏技术的唤醒距离限制。其中,Cypress半导体公司开发的CapSense触摸屏传感器探测距离可达到0.3 m,通过采用CapSense触摸屏,驾驶人便可以通过手势向上、向下甚至翻页控制中控显示系统,而无需分心。
2.10手势调整座椅
驾驶人每次上车时都需要不断地调整座椅的前后和方向,非常麻烦。Fraunhofer Institute研究所开发的名叫SILicate Research ISC的座椅(图12),其侧面并没有常见的按钮和调节杆,无法通过手动控制。相反,在座椅的下面隐藏了一系列的传感器,可以检测出上面是否坐人以及驾驶人的手势。当需要开始调整时,驾驶人只需将手放到特定的区域激活系统,能够用手势来控制座椅,只要手简单地在上面滑动,即可像操作智能手机一样操作汽车座椅。无论是想要将座位向前或向后、调整角度或者增高或降低对腿部的支持,驾驶人只需要在座椅的侧面用手势进行控制即可,且一旦座椅调整完毕,各种角度和位置的参数会被保存到座椅中,这样即便是多位驾驶人驾驶同一辆车,也可以通过简单的触控切换成自己最喜欢的角度位置。
图12 手势调整座椅
虽然手势控制被许多汽车厂商和科技公司所看好,但是目前还存在许多问题。比如,一旦手势控制效果不理想,就会让驾驶人更加分心,从而增加造成事故的概率;如果关联操作对于车内距离的判断不够准确,也会导致控制目标的判断错误,譬如是只想把音量调低几格,却不小心打开了刮水器;同一目标物的不同指令动作间需要建立明显区隔,起止动作的设置也存在复杂的逻辑关系。因此,未来想要让手势控制技术在更多的车型上普及,似乎还需要提高精度及平滑度,真正实现让驾驶人更安全、更方便开车的目的。
(2016-03-10)