实习生 / 罗婷 记录
当机器人看懂世界,世界将发生什么?
实习生 / 罗婷 记录
比尔·盖茨认为,计算机视觉技术结合深度学习将成为互联网的下一个风口。
上个月21号,我的同事转给我一个网上很火的视频,说的是东莞一位“女汉子”的银行卡被商场里的ATM机吞了,她盛怒之下几分钟就徒手拆掉了ATM机,周围的人都惊呆了。因为身边没有保安人员阻止,一台十几万的ATM机就这么报废了。
这位“女汉子”的一举一动都被商场的摄像头拍了下来,但是摄像头只是起了单纯的记录作用,如果它在记录的同时能识别出拍摄对象的反常动作,并且发出警报,就能及时避免这样的事情发生了。听起来好像很魔幻,但这就是我和我的同伴们现在在做的事情。2010年我从斯坦福大学毕业,先后担任了两家跨国公司中国区的总经理,最后决定辞职创业。
在创业之初,我就提出了这个问题:如果计算机可以看懂这个世界,我们的生活将会发生怎样的改变? 所谓计算机的“看懂”,应该分两个阶段。一开始应该是感知能力,计算机能够通过视觉、触觉、嗅觉等观感来感知这个世界。那么现在计算机对于声音的感知已经非常好了,视觉的感知更加重要,也更难实现。试想,如果我们人现在必须在各种观感中选择只保留一个,大多数人应该都会选择视觉。失去了眼睛,人类将会怎样?当计算机有了感知世界的能力之后,就到了思考与判断的更高阶段,能帮助人类决策。
2013年,我通过真格基金的创始人徐小平辗转认识了谷歌眼镜的主要研发者赵勇。我和“极客”出身的赵勇一拍即合,创办了格林深瞳,专攻时下炙手可热的计算机视觉。一次我们的投资人徐小平和红杉资本的沈南鹏、联创策源的冯波聊到我们未来的估值,徐小平乐观地说起码5000亿美元,沈南鹏说1000亿美元比较实际。两人争执不下时,冯波给出了一个折中价格3000亿美元。大家看好我们的原因也是因为我们面对的,是一个比手机市场还大的隐形市场。
口述者:何搏飞
职位:格灵深瞳联合创始人兼CEO
天安门广场所有的摄像头每24小时产生的数据量为1800TB (1TB=1024GB),如果把这些数据刻录到4GB容量的DVD光盘里面,这些光盘垒起来比埃菲尔铁塔还要高。
安防领域的需求究竟有多大?我可以提供几个数据:全世界每卖两块硬盘,其中一块就是拿来做安防系统的,也就是全世界50%的硬盘卖出去,就干一件事—存监控数据;天安门广场所有的摄像头每24小时产生的数据量为1800TB(1TB=1024GB),如果把这些数据刻录到4GB容量的DVD光盘里面,这些光盘垒起来比埃菲尔铁塔还要高;有一次我和工程师们讨论首都机场T3航站楼有多少摄像头,大家七嘴八舌,其中一位说至少有5个。我带着工作人员去调研,发现那里一共安装了5万个摄像头。
密布的摄像头背后,并没有足够的人力来24小时盯着监控屏幕看,也缺乏能去自动理解和分析视频内容的技术。
在计算机识别领域,识别人的动作是终极难题。要说精确识别一支笔、一本书,或者是一些人眼无法察觉的东西,这都不难。难的就是读懂人的行为,判断对人的肢体动作、人的轨迹,还有人的运动速度。
但是我们的系统正在解决这个问题,当危险临近时,不需要再像往常那样,靠保安的好运气才能发现中控室里几万个视频中的异常。我们研发的三维传感器将像机器人一样,实时地代替人“看”着每一个场景里的一举一动。
这套系统背后的原理是这样的:通过三维视觉感知技术,实现对人物的精确检测、跟踪,对动作姿态(包括暴力、跌倒等危险行为)和人物运动轨迹(包括越界、逆行、徘徊等可疑轨迹)的检测和分析。在自动场景和人物检测的基础上,自动给安保人员提供预警信号,主动提醒和报告异常,让安保人员“看得到”。
还有一个问题是,一旦发生了异常事件以后,这么多摄像头产生的内容怎么找呢?我们如果很喜欢美剧的某一个情节,按照正常的做法,只有一集一集地找,一点点地看,最多可以快进。安全监控也是一样,上百GB,甚至上百TB的内容是很难人工去找的。而且,现在仍然没有一家搜索引擎提供视觉图像搜索功能。我们可以通过三维视觉感知技术,抽象出人物的特征,从非时间的维度进行监测、跟踪、搜索,真正做到“找得到”。
知名公司研发的计算机视觉技术产品
比尔·盖茨在2014年的达沃斯论坛上说过,IT界下一个大事件是计算机视觉,以及该技术与深度学习的结合。原来我们的机器人是瞎子,以后几乎和人具备一样视觉,这样的机器人可以用在工厂、办公室、在野外等等各种工作环境。这里的“深度学习”指的是机器通过算法,从历史数据中学习规律,并对事物作出智能识别和预测。
也许是因为看好人工智能与计算机视觉,我们成为了今年比尔·盖茨访问中国的第一站。6月19日他来到中国,那天早上他8点多就到了,我给他介绍了我们的设备,带他参观了我们开放的工作环境,听完产品介绍时他说了一句:“This is very cool(这非常酷)!”
实际上,微软在30年前主导了信息革命的第一次变革,但是在后来的移动互联网等几次变革中都没把握住,而谷歌和苹果后来居上。所以这也迫使盖茨想,要抓住接下来人工智能与计算机识别的变革,而且微软本身也在做一些与计算机识别相关的项目,他完全是出于对这种新技术的兴奋而来的。他也特别惊讶,因为通常情况下,中国的创业公司更多的还是集中在模式创新,技术创新和基础性的变革是比较少的。突然造访的外国友人,除了比尔·盖茨外,甚至还有美国纽约警察局。
今年9月,纽约警察局通过各种关系辗转找到我们,此前他们在全世界找了一圈,希望可以为整个纽约城的智能安防找到解决方案。我们也将很快去美国和他们见面,探讨未来合作的可能。我看了那么多美剧,电视里警方拥有那么多高精尖的技术和设备,我以为现实生活中他们也是如此,但其实全世界的警方和政府都是类似的,他们都对安防都极其强烈的需求,而现在的技术远不能满足这种需求。纽约警察局选择了我们,这让我既惊讶又骄傲,对未来充满信心。
除了美国纽约警察局,国内很多机构包括部分地方政府也找到我们,最近来联系我们的就有某省公安厅。天安门广场也对我们的技术产生了兴趣,找我们提了一些安防系统的需求与想法,双方初步建立了合作意向。这个象征着国家安全和荣誉的系统,既庞大又复杂,每天输出以TB计算的海量数据,任何程序都必须完美。中国的四大银行中,也有3家已经成为了我们的客户。
接触下来,我们也发现中国与美国的客户存在一定的差异。中国政府更愿意为硬件买单,如果按照以往单纯销售监控设备的模式,确实只需要购买硬件,但是现在基于我们的计算机视觉技术,需要购买硬件基础设备和软件服务。中国政府还没有这种习惯,所以他们通常做法是把硬件加几年的服务费一次性付清。但美国人就非常习惯硬件、软件加服务的销售模式,这是两国长久以来存在的消费模式的差异。
除了上述安防领域,计算机视觉在别的领域也有很大的发展空间,比如说零售业。通过三维视觉感知技术,我们可以对消费者行动轨迹以及行为模式进行检测、跟踪和搜索,提供客观的消费行为分析数据,精确统计出在设定的范围内的客流量、停留时间、行动轨迹、消费者行为,帮助传统零售客户转向数据驱动的管理方式,提高商业运营效率,在线下实现“电商化”。比如说人们去商场,在哪停过,在哪看过,在哪拿过东西,摸过什么,试过什么,最后买了什么,这些都被记录下来。当然我们不关注你是谁,我们只关注在这个小时来了多少女性、多少男性,他们是一个人来还是两个人来,这些数据对零售商是很有帮助的。
现在还有很多人把互联网思维当做非常新的思路和创新的方法,作为一位互联网创业者,我觉得现在还这么提是一件过时的事情。
在这个时代,我们无论做任何事情都需要以互联网思维来考虑问题,如果这点都没还有明确,那我们的创业和设计都不会成功。现在应该看得更长远一点,当不远的未来,互联网的终极时代到来,所谓的万物互联成为现实,人与世间万物的互动也都会变成双向甚至多向。
特斯拉总裁埃隆·马斯克曾这样评价人工智能:“随着人工智能的发展,我们将召唤出恶魔。”但我对这个说法有不同的见解,人类的科技还远未发展到这个程度,未来还有很长的路要走,我们完全可以边走边看。就像一个刚出生的孩子,我们并不知道他未来会长成什么样子,不应该现在就开始担心他40岁之后会去吸毒或者赌博,我们应该给他成长的空间,也应该拥抱人工智能与计算机视觉的浪潮,这是互联网历史上即将到来的大变革。