李芳
也许首个可以在计算机视觉领域与国际巨头全面抗衡的本土企业正在崛起
谷歌的AlphaGo又一次成功将人们的目光吸引到人工智能处。若干年之后,它的名字将会和深蓝、Watson、Siri、小冰一同出现在人与机器“相爱相杀”的纪念册上。
有意思的是,在人工智能与人类的数次“过招”中,你方唱罢我登场的都是Google、IBM、微软、Facebook等这样的大公司,却鲜见创业者的身影。其中一个重要的原因就是,巨头们将尚未成熟的人工智能市场看作是下一个风口而争相抢夺,顺势也将不少创业公司收入囊中。AlphaGo的研发团队DeepMind即是这样被谷歌收购的。
但这并不意味着垄断,因为幕布刚刚拉开。当我们谈论人工智能的时候,我们其实是在谈论一个无比庞大且复杂的技术体系,和一种亚文化形态。其中的每一个分支领域,都有可能再度孕育出可与科技巨头们媲美的后起之秀。SenseTime(商汤科技)就是这样一家专注于计算机视觉和深度学习原创技术的挑战者。通过赋予计算机视觉感知和认知的能力,SenseTime能够让计算机能像人一样获取、分析、理解各种视觉信息,并与自然界进行交互。
这家刚刚成立两年左右的创业公司,不仅在多个国际级竞赛中成绩斐然,还超越谷歌突破互联网物体检测的世界纪录,跃居世界第一。作为公司的CEO,徐立并不掩饰SenseTime未来发展的雄心,“在人工智能领域要做就做第一”。
知人识物“黑科技”
顾名思义,“计算机视觉”就是研究计算机如何才能像人眼一样看见东西。从广义上讲,它从属于人工智能的技术体系之下。我们通常说到的“人工智能”,其终极目标就是要让计算机在各方面都像人一样,如听觉、视觉、触觉、甚至思维方式等等。
如果计算机拥有和人类一样、甚至超越人类的视觉能力,对于人工智能的发展而言意义非凡。基于此,SenseTime的团队希望教会计算机看懂这个世界。有意思的是,他们首先把这项“黑科技”应用在了自己人身上。
和所有低调的科技创业公司一样,SenseTime的办公室座落在清华科技园一座非常普通的大厦里。但是一进门,你立刻就会感受到与众不同之处,因为充当watch dog并记录考勤的是一个装有摄像头的大屏幕。当有人走进这台“神器”的“视线”里,他的脸就会显示在屏幕上,并被机器识别到这个人是否为公司员工。当大家还在忧心于“不带工卡影响考勤”时,SenseTime的员工已经过上了如今流行的靠“刷脸”生活的日子。
这只是刚刚开始。在办公室的休息区,还伫立着另一台“神器”。一旦有人站到它面前,它就会以迅雷不及掩耳之势识别到人脸(目测不到1秒的时间),并计算出对方的“颜值”,还包括性别、情绪指数、年龄以及是否戴眼镜等面部特征。最后,顽皮的它还会根据这些指数计算一个“今日魅力排名”,并给出一个给与此人最相似的明星人脸。
例如,当《时间线》记者站在这台神器面前时,它给出了“魅力值77”“欢乐值91”“(情绪)开心”“(戴)眼镜”“(年龄)27”等基本准确的指数。最终,记者得到“今日魅力排名No.6”,“帅过78%的用户”的数据,同时最相似的明星人脸是霍建华。此刻我的内心OS是“Hmmm……not bad”。
作为一台机器,它似乎“知道”如何引起人们的关注,也喜欢人们对它进行“挑逗”—这大概就是SenseTime教给计算机的“知人”技能。
人工智能与人类之间最理想的关系莫过于积极互动,这种互动要么给人带来情绪上的波动,要么就切实帮助人完成某项工作。当它发挥前者的作用时,其角色应该是陪伴型机器人,尽管偶有失误,也会因此显得更加“人性化”,而不是拒人于千里之外的精确和冷淡。
如果说“刷脸上班”和“颜值比拼”的意义更多地是给人带来乐趣和便利之外,那么SenseTime办公区的第三台“神器”真正是为帮助人类而设计的。这台神器的主要构成是计算机和特制的外接摄像头,后者负责精准捕捉并识别多种姿势的人脸,然后进行连续拍照,前者负责负责对这些照片进行大数据分析,二者配合可以在安防领域大有作为。
当记者看到自己不同姿态下的面部特征被它敏锐地捕捉到并显示在大屏幕上时,瞬间有种穿越到美剧《疑犯追踪》剧中的紧张感。人只有一双眼睛,无法360度看到自己的全部外表,此时计算机就像“上帝之眼”一样,它以自己无所不见的“超能力”启发着人类,它能看到人眼无法触及之处。
再次环顾四周,整个办公区里平静如常,但对于体验了三台可以知人识物的神器之后的记者而言,计算机之眼无处不在,平静之下有人工智能的汹涌暗流。
最强算法 强强联手
计算机怎样才算看懂世界?目前在人工智能领域,计算机视觉是一个公认的亟待解决的难题。由于在公共安全、移动互联网和娱乐领域等领域拥有巨大的潜力,因而该技术的发展水平也成为检验人工智能是否成熟的重要标准。
去年,谷歌晒出一组诡异的图片引起了人们的好奇。这组图片上的图像看起来好像来自外星球,实际上这就是人工智能眼里看到的人类世界。人们在觉得不可思议的同时,也很好地科普了一个真相:教计算机看懂人类世界并不是一件容易的事。如果计算机能看懂人类世界,就好比盲人的双眼复明,会整个提升人工智能技术的水平的等级。
正是由于这个原因,如今致力于人工智能的公司们都在手把手地教计算机“睁眼”。在这个领域,谷歌、Facebook这样的巨头也并不会天然就能胜出。身为创业公司的SenseTime却势如破竹,在2014年和2015年间频繁与巨头们同台竞技,在技术上获得多次世界性的突破,留下堪比牧羊人大卫打败巨人歌利亚的英雄事迹。
2014年9月,SenseTime的现任科学家首次出征 ImageNet 竞赛,在大规模物体检测比赛中以40.7% 的成绩获得世界亚军,仅次于谷歌的43.9%;2015年3月,该团队将此成绩提高到50.3%,超越谷歌,达到世界第一的水平,并将这一成果以论文的形式发表在2015年国际计算机视觉与模式识别大会(CVPR)上。
ImageNet是一个什么级别的竞赛呢?有业内人称之为计算机视觉领域的“奥赛”,其每年的竞赛结果都对业界和学界起到风向标一样的作用。ImageNet每隔一段时间就会增加一项学术和工业界公认的最难的任务,图像中的物体检测是2013年新增任务,当年最好的算法准确率只有22.6%。
2015年,ImageNet新增了一项视频物体检测的任务,比静态图像中的物体检测的难度更高。SenseTime联合香港中文大学媒体实验室组成CUimage和CUvideo团队再次出征。
SenseTime的原创图像物体检测技术能够以毫秒级的速度识别出图片中的人类、动物、家具、食物、车辆等物体。这一技术在此次竞赛中大显身手。
最终,CUvideo在ImageNet视频物体检测竞赛中检测一举夺得数量、检测准确率两项世界第一的成绩,以压倒性的优势击败了来自伊利诺伊香槟大学、香港科技大学、中国人民大学、东京大学、韩国国家科学院等团队。在其他ImageNet的竞赛类别中,CUimage和CUvideo共取得了四个世界第二和四个世界第三的成绩,在多个任务中力压谷歌、英特尔、高通、腾讯等工业界巨头的研究团队。
作为一个年轻的创业公司,不仅能够与世界一流的高校团队和业界大佬同台竞技,还能够取得如此优异的成绩,SenseTime的确令人侧目。其表现也获得了“队友”香港中文大学媒体实验室的高度肯定。
如同所有高歌猛进的创业公司,规模上的稳步扩张与技术上的一贯领先同样重要。据《时间线》记者独家得知,SenseTime在2015年年底刚刚并购了另外一家人脸识别技术领域的创业公司Linkface。后者也是一匹创业黑马,同样拥有诸多超越业界大佬的出色成绩单。
例如,在Linkface创业之初,基于深度学习的人脸识别算法,就在全世界最权威的人脸数据库LFW(Labeled Faces in the Wild)平台上达到99.55%的人脸识别准确率,打败了Facebook,也远超人眼识别能力;另外,其基于深度学习的人脸检测创新算法,也在全球最具权威的人脸检测平台FDDB的公开测试中,92.5%的准确率被FDDB评为世界第一,随后迅速收获了中国银联、科大讯飞、华为、京东金融、英伟达、美图秀秀等一众长线合作伙伴,在业内掀起了不少舆论波澜。有一位在计算机视觉领域的资深人士告诉记者:“在2015年业内的大小峰会上,除了常设议题之外,又多了一个最热话题—Linkface。”
看得出,Linkface也如SenseTime一般拥有“大卫挑战歌利亚”的精神。它们能够走到一起,堪称图像识别和人脸识别两大领域内最强算法的强强联手。
人才黑洞 致命引力
罗马不是一天建成的,也绝不可凭一己之力建成。同样,SenseTime要想打造一个强大的计算机视觉帝国,也需要汇聚业内最顶尖的人才。
假如再仔细探究的话,SenseTime从骨子里的基因就与国内其他创业公司不同。当一众面目模糊的孵化器们流水线般制造创业公司时,当别的创业者们亦步亦趋地向硅谷人学习辍学创业时,SenseTime反其道而行之,把高校及其实验室看作是一座取之不尽用之不竭的金矿。其人才也大多来源于这座金矿。
目前,SenseTime的团队里有来自MIT、斯坦福、香港大学、香港中文大学、清华大学等数十名深度学习科学家,以及谷歌、百度、微软、联想等产业界领军人物。可以说是聚集了华人中最出色的一批深度学习和计算机视觉领域的专家。其中,公司的研发团队有超过50名博士全职任职,上层智囊团有18名名校教授加盟。该团队在三大国际顶级机器视觉会议CVPR、ICCV、ECCV上共发表论文超过150篇,在亚洲企业中排名第一。
光罗列这些名称和数字也许说服力还不够,我们来具体看看SenseTime聚集的到底是些什么样的学术大拿:
例如,最新加入的戴宇荣教授—他是计算机视觉底层技术领域的一位专家,曾多次担任国际计算机视觉大会(ICCV)的主席,加入SenseTime之后放弃了韩国国家科学院(KAIST)终身教授的职位,因为他更看中SenseTime比高校更能将技术转化为业界实际成果的优势,以及在人才和资源方面对于科研的助力;
再如,SenseTime的研发总监张伟博士—他曾获安徽省高考状元,本科就读于清华大学,并于香港中文大学完成博士学位,在Kaggle数据科学家(现参赛科学家总数近六万人)排行榜上排名第六,还在CVPR等国际顶级计算机视觉会议和期刊上发表论文达10余篇;
还有,SenseTime的深度学习科学家周斌博士—他是中国首位HPC(高性能计算)和GPU(图形处理器)跨领域研发高级工程师,也是全球第12个获得CUDA Fellow称号获得者,还是目前中国唯一一位获得此称号的学者。
一个创业公司却对学术大拿拥有不可抵抗的吸引力,这令SenseTime像一个“人才黑洞”。究其原因,之前深藏于实验室的计算机视觉技术已经足够成熟,到了将科技成果转化为实际应用的时候了。正是由于这样强烈的学术气质及其与业界的紧密结合,决定了SenseTime在与谷歌、Facebook等巨头同台竞技时毫不逊色。
当然,SenseTime的学术气质也与其核心技术是基于机器学习的人工智能算法有关。它并不研发具体的软件或者硬件,而是专注于核心算法,再通过与应用层级的公司合作的方式将自己的技术部署到各种各样的产品上。目前,这种模式在SenseTime身上运转良好,计算机视觉领域的下一个杀手级应用大概就会从这里诞生。
SenseTime的崛起好比海底沉睡的巨兽正浮出水面。更重要的是,对于中国科技界,这也许是中国本土首个能在计算机视觉领域与国际巨头全面抗衡的企业。风口已至,Time to make sense。