10月20日,由中国电子信息产业发展研究院主办的“第一届中国人工智能技术与应用大会暨人工智能60周年颁奖典礼”在北京举行。
“人工智能立体设计师峥嵘”为还原视觉本真、推动产业革新做出重大贡献,评奖组委会授予“中国人工智能技术创新奖”。
一直以来,机器视觉都被看作人工智能领域的一大难点。深度学习的发展将人工智能及其在各行业的应用,推向了一个全新的高度。
“峥嵘”便是将深度学习与产业需求相结合,在机器视觉领域的一项重大突破。
机器的艺术直觉
严格意义上,“峥嵘”是一位人工智能立体设计师,它基于北京聚力维度科技有限公司(以下简称“聚力维度”)研发的人工智能2D转3D技术,用于2D视频向3D的转换。
传统的手工3D转制工艺,不仅流程繁杂且难度高。转制工序主要分为图像分割、深度绘制、补图及合成,四道程序。人类立体设计师不仅要看到第一只眼睛看不到的东西,也需要勾画出每一帧的深度。不仅要圈出轮廓,当物体离得较近时,也要细细定义出每一局部的深度值,比如鼻子、眼睛、嘴巴等,并严格按照深度值来摆放。由此,传统的3D转制工作会耗费大量时间和人力成本。
但是,当机器拥有了艺术直觉,一切将会大有不同。“峥嵘”就是一位拥有艺术直觉的人工智能立体设计师。
它天生能进行完美的深度预算。研发人员曾让人类立体设计师与“峥嵘”同时转制同一帧镜头。帧镜头中画面的景深很大,人眼看来,背景一片模糊。近处,只有一位满脸沟壑的长者头像。
一位拥有近3年3D转制经验的手工立体设计师,整齐地分割出老者的面部轮廓与模糊的背景,并细致地雕琢鼻子、眼睛、皱纹等细节,技艺精湛。当“峥嵘”转制出同一帧镜头的深度图时,右上角却出现了一块高亮区。这让研发人员大为困惑。在对原片进行对比度等调整后,在原片右上角竟有一张人脸。
“峥嵘”不仅能识别人眼不易看清的场景,在绘制颜色相近、人物远近距离微差画面上,也远超人类立体设计师。另外,它将3D转制时效净提升120余倍,在时效上也优势明显。
目前,聚力维度已经用“峥嵘”完成了网络剧《执念师》的3D 转制工作,热播剧《幻城》的转制任务也开始紧锣密鼓地进行。
“深度学习+”的产物
人工智能立体设计师“峥嵘”的主要技术负责人赵天奇也是聚力维度的CTO。他从2009年开始研究3D显示技术,并敏锐地意识到3D内容将是3D显示技术中的重要部分。
2010年,赵天奇创立公司,并推出国内领先的2D转3D 软件,并成功申请多项专利和软件著作权。
只有预先埋下种子,否则再合适的土壤,也不会发芽。赵天奇和他的团队,就是一群预先播种者。创业开始,他们就在研究智能2D转3D的可行性。
“那时候经常有人问我,2D转3D能否由智能算法自动完成?我的回答都是不能。一方面,我们查遍了当时相关计算机视觉领域的最前沿论文,能达到的效果距离现实需求太远;另一方面,所有的算法从智能本质上来看过于低端,仅能实现一定的立体效果。”
他们同时也在关注人工智能领域发展迅猛的深度学习技术,但直到2014年后半期,出现可以给出图像像素级结果的技术时,赵天奇才感觉看到了实现智能2D转3D技术的曙光。
凭借多年在2D转3D领域的技术积累,并结合深度学习的特点,同时,联合清华大学、北京邮电大学和澳大利亚阿德莱德大学的几个研发团队,终于在2014年底实现第一张图的自动转换。
2015年初,第一个有生产价值模型研发成功,这是人工智能立体设计师,并将它命名为“峥嵘一号”。赵天奇表示:“目前‘峥嵘二号‘峥嵘三号和‘峥嵘四号的模型也已落地。尤其‘峥嵘四号模型的表现已经达到人类立体设计师学习立体转制九个月的水准。”
“人工智能+”或者说“深度学习+”,是人工智能颠覆传统行业的主要形式。他要求企业既具备强大的深度学习能力,又要精通某个行业。所以,想要实现“深度学习+3D转制”的颠覆,既要在深度学习领域达到世界前沿水平,同时也要将传统2D转3D的技术内核修炼的炉火纯青,并对其商业应用了如指掌。
赵天奇和他的团队就是不断在行业内摸爬滚打并直击痛点。在大量国内外一线电影的3D转制项目中,他们积累下丰富的实操经验,并逐步落实到算法和工序中。在用深度学习解决3D转制问题时,他们几乎没走弯路。
经验与使命重叠
深度学习不是一项强人工智能技术,很多有巨大市场前景的需求并不能被深度学习解决。聚力维度是幸运的,通过深度学习实现了2D视频向3D的自动转换。
赵天奇介绍,“峥嵘五号”、“峥嵘六号”模型也在研发中,“峥嵘”系列的终极目标是让机器在处理毫无规律可言的镜头画面时从各个方面超越人类。
“据了解,仅有华盛顿大学和我们一样也在使用深度学习来解决2D转3D的问题。可惜他们缺乏产业经验,建立的模型效果并不好。”赵天奇说,“我们无所谓技术壁垒,最大的敌人不是竞争对手,而是能否把人工智能2D转3D的问题彻底解决,在这个领域为人类的强人工智能的未来做出贡献。”