摄像头，像人类一样看世界

2017-05-16 07:50李嘉文

第一财经 2017年14期

李嘉文

与台湾供应链关系密切的苹果分析师Brain White在给投资者的一份说明中表示，因OLED显示屏和3D传感前置摄像头所需复杂工艺带来的挑战，下一代iPhone将会延迟几周上市。

今年3月，美国多家媒体报道，新一代iPhone将采用“革命性”的3D深度摄像头。普通的摄像头只能获取颜色信息并对其数据化，而3D深度摄像头则不仅能感知颜色，对空间—即三维的位置和尺寸信息也有“感觉”。也就是说，如果电子设备或机器人装上了这种摄像头，它就可以拥有近乎于人类的视觉，能够更好地和外界做各类交互。

截至目前，计算机视觉技术的发展并不十分完善。2015年7月，Google的照片管理应用Google Photos就曾犯下一个严重的错误，它把两名黑人标注为“大猩猩”。当时Google的首席社交架构师Yonatan Zunger对此事专门道歉，并且表示他们正在努力改善肤色识别技术。而很多自动驾驶汽车在路测中遇到事物，也是对迎面而来的物件识别错误，甚至会导致事故。

其实，很多公司已开始投入到视觉领域里，特别是深度摄像领域。比如以色列技术公司PrimeSense，它在2006年研发出3D传感器，随后与微软合作共同开发出体感设备Kinect，最终于2013年又以3.45亿美元的价格被苹果收购。此外，英特尔的RealSense以及Google的Project Tango项目也在做相关技术研究。

深度摄像头可以捕捉人的动作，比如你可以用手势和动作来控制电脑或者电视。目前，这个领域最成熟的技术，使用的是一个单目摄像头加上结构光的方案，Kinect用的就是这个技术结构。结构光是向检测空间内投射经过编码的激光光斑阵列，标定空间并辅助计算三维空间位置，随后经过一系列算法处理形成机器视觉。

不过，类似结构也有不足。由于它完全依赖结构光定位，如果在户外拍摄就容易受到干扰。“尤其是有阳光的地方或者是多设备之间的干扰，这无法避免。”图漾信息科技有限公司的创始人费浙平对《第一财经周刊》说。图漾是一家专业从事计算视觉的中国公司。

为了解决这个不足，以及规避专利侵权—这个领域的几家大公司的技术大多都是封闭的，并没有开放给其他公司使用—图漾正在尝试用“结构光+双目摄像头”的技术实现景深计算，这也被称为主动双目技术。

该技术本质上是一个在结构光系统上叠加双摄像头的系统，因此对三维空间的测算可以不依赖于光，而是依靠左右两个摄像头形成图像后的比较。其实这和人眼感知环境的方式相同—左右两眼捕捉图像，然后通過比较两幅有细微差别的图寻找相对应的点，随后算出被摄物体在深度的距离差别，从而获取景深信息。这样做的精度要超过单摄像加结构光的产品，可以达到毫米级别。

图漾或许是受了硅谷公司Leap Motion的启发，这家技术公司曾受资本热捧，其研发的手势识别产品使用的就是双目摄像头。图漾的区别是，它还保留了结构光，这使设备在黑暗环境下依旧能够保证测算的精度。

“结构光+双目摄像头”需要的是一套全新的算法。单摄像头技术基本上就是与存储好的光编码匹配，只需要不断优化结构光的编码，成像的质量也就能优化，而这个算法已经有了一套相对固定的内容。但如果采用双摄像头，则无法提前知道所要计算的环境如何。

除了体感游戏，深度摄像头还有很多应用领域。比如在安防领域，深度摄像头可对所拍摄人作行为分析，通过这些动作轨迹识别出人背后的意图，从而提前预警。在物流仓储领域，它可以用来实时检测包裹的大小，计算仓库的空间，提供最佳的摆放建议等。

而机器人领域则更加容易想象，可以实现视觉导航、规划路径、避障等功能。例如送餐机器人，它想要自由行走，就需要实时感知存在空间的环境，避免撞到人或者是其他物体，这就需要有机器视觉来帮助。而在无人驾驶领域，目前在这个行业大多使用超声波雷达技术收集周围环境，如果采用3D传感器，也能为车辆提供更为精确的环境感知能力。

但不同的使用场景对深度摄像头的要求并不一样，有时甚至需要“定制”。其关键技术指标主要有镜头视角、最大检测距离、检测精度和检测速度四项。

有分析认为，最为成熟的单目摄像头结构光方案，更适合工业化的产品；双目立体成像是一种比较新的技术，更适合室外强光条件和高分辨率应用，目前主要应用在机器人视觉、自动驾驶等方面。将两种技术做了一定结合的图漾，则会在基础平台上根据客户的应用场景给产品搭载不同的光学系统，光学系统决定了产品使用的距离、角度等。当然，由于既保证了一定的精确度，又可在较暗的环境下拍摄，它也较适合应用在移动端的产品上，不过目前研究这种技术方案的公司并不多。

除了“结构光+双目摄像头”，还有一种更成熟的技术方案也较适合移动端，名为TOF系统，即一种光雷达系统，它可从发射极向对象发射光脉冲，接收器则可通过计算这个过程中的光脉冲，再以像素格式返回到接收器的运行时间来确定被测量对象的距离。TOF系统可确定3D范围影像，再利用测量得到的对象坐标创建3D影像。它同样具有深度信息精度高、不容易受环境光线干扰的优点。事实上，这也是微软第二代Kinect以及Google的Project Tango遵循的技术原理。

如果下一代iPhone使用3D摄像头，它就可以实现诸如3D拍摄、面部识别，甚至是虹膜识别等功能。而现在新一代iPhone推迟上市的消息，也反映了这种技术目前在产品量产上的一些困难，比如工艺的复杂度会增加一些制造流程，同时，对于移动端来说，搭载3D深度摄像头后，其功耗较大，对电池也提出了新的考验。

当然，如果上述功能真的能够在智能手机上实现，这当然是值得等待的—毕竟，iPhone在硬件上已经很久没有“革命性”的创新了。