英伟达用人工智能将2D照片制成3D模型可让用户即兴创作

2022-09-22 09:45

海外星云 2022年17期

英伟达正在利用人工智能让设计师、游戏开发等人员在短时间内用3D对象进行创作。创作者们能够使用其提出的英伟达3D MoMa方法对内容进行快速导入、修改和更改材质等工作。

“逆渲染是一种将一系列静态照片重建为物体或场景3D模型的技术。该技术长期以来对统一计算机视觉和计算机图形学至关重要。”英伟达图形研究副总裁大卫·吕布克说，“通过将逆渲染问题的每一部分表述为GPU加速的可微分组件，英伟达3D MoMa渲染管道使用现代人工智能的机制和莫伟达GPU的原始计算能力来快速生成3D对象，创作者可以在现有工具中不受限制地导入、编辑和扩展。”

传统上，人们创建3D对象会使用摄影测量技术，这涉及的是一个多阶段、相当耗时的过程。创作者需要通过大量的软件工具和手动调整来达到最终期望的3D模型效果。

目前的神经辐射场等技术在生成对象或场景的3D表示方面取得一定优势，并提供了高质量的新视图合成。

然而，这些方法通常会产生将几何图形、材料和照明纠缠到神经网络中的表示形式，不能以三角形网格格式生成，因此很难支持场景编辑操作。“三角形网格是用于在3D图形和建模中定义形状的基础框架，是此类3D工具使用的通用语言。”研究者在莫伟达官网博文中写到。

另外，为了更为实用，3D对象应该适配众多常用工具，比如，游戏引擎、3D建模器和电影渲染器等。而要在传统的图形引擎中使用它们，需要使用诸如标记立方体等方法从网络中提取几何图形，这可能会导致较差的表面质量，特别是在低三角形计数时。神经网络编码的材料不能轻易地编辑或提取与传统游戏引擎兼容的形式。

由静态图片制作的虚拟乐队

从一组多视图图像中重建具有未知拓扑结构、空间变化材料和照明的三角形网格

相比之下，本次研究重建了与传统图形引擎兼容的3D内容，支持重启和场景编辑。由此产生的3D模型不需要转换就可以在任何支持三角形渲染的设备上进行部署，手机和网页浏览器同样适用。它可以在标准的游戏引擎中不经修改地使用，并对所有阶段进行基于梯度的优化。

研究方法概述

该三维重建方法英伟达3D MoMa的相关论文，近日在2022年计算机视觉和模式识别会议上发表，并以《从图像中提取三角形三维模型、材质和照明》为题提交在arxiv上。

与NeRF、NeRD的对比

研究人员针对各种应用程序来评估他们的系统，对已有对象进行重新编辑和模拟，以展示他们的方法显式分解为三角形网格和材料，并与神经辐射场、神经反射分解等方法做了比较。

值得一提的是，研究人员还做了一个虚拟乐队视频演示，以体现英伟达3D MoMa的强大功能。

首先，他们从不同角度拍摄了约100张乐器图像，并用新提出的研究方法将这些静态图像分别重建为3D表示和三角形网格。

然后，将对象从原始场景中分离出，再导入英伟达 Omniverse 3D平台编辑。在广泛使用的图形引擎中，可轻易地将产生的形状材料替换为黄金、木材等不同材质，就好像把网格装扮成不同的装饰一样，也能将其放在任意虚拟场景（比如康奈尔盒，一种经典图形测试）中。

最后证明，不同的虚拟乐器对光有不同反应，跟在现实中几乎相同。新生成的对象能够用作复杂画场景的构建块。

值得注意的是，研究人员在论文中还表示：“为了加速优化，选择了简化的着色模型，也没有考虑全局照明或阴影。这种选择是材料提取和回收的限制因素。在未来的工作中，随着目前在可微路径跟踪方面的进展，这一限制有望得到解除。”

总的来说，本研究展示了一种与最先进的视图合成等技术相媲美的方法，同时还有着优化的三角形网格、兼容传统图形引擎和建模工具等优势，并由渲染模型的外观驱动来执行端到端优化。

这简化了进行3D内容创作人员的大量工作流程，极大节省他们的时间和提升效率。该研究方法还可以作为外观感知转换器，补充了许多最近的技术。

英伟达用人工智能将2D照片制成3D模型 可让用户即兴创作

英伟达用人工智能将2D照片制成3D模型可让用户即兴创作