影视动画作品在制作立体人物形象时,为确保角色动作的真实性与准确性,往往采用动作捕捉方式形成初步人体动作模型,其后再根据艺术创意进一步调整修改。专业动作捕捉需要专用空间、设备、软件和技术人员等支持,具有一定成本和技术门槛,在当今的数字化生产环境中,简便的全身动作捕捉方式的需求缺口较大。而通过人工智能 (AI)驱动的动作捕捉解决方案可简化动画制作流程并降低成本,为不同需求的中小型创作者和项目提供更大的创作灵活性,同时此类运动捕捉意味着演员无需穿着动作捕捉服装,从而可以做出更加自然和自由的动作。
最早的人体姿态识别项目OpenPose开源库由美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发,是世界上首个基于深度学习的实时多人二维姿态估计应用,可实现人体动作、面部表情、手指运动等姿态估计,适用于单人和多人,具有极好的鲁棒性,基于它的应用实例不断推出。此类应用实例基本流程可概括为:录制一段真人动作视频,探测并提取视频中人物动作关键点,将其连成一段连续的基线,利用无监督对抗学习 (Unsupervised Adversarial Learning)对画面中2D 关键点估算3D 动作,再利用卷积残差网络(Convolutional Residual Networks,CRN)推测视频深度,最终形成相应格式的3D 动作文件并导出。此类应用最初需要用户具有编程知识背景,具备一定的技术门槛,但近年来基于网页的转换工具越来越多,非专业人士也可利用其简便、高效地完成从真实人物动作视频到3D 动作动画的转换工作。
法国初创公司Kinetix已开发出一套基于网页的服务,可直接将视频中的人物转换为3D 动画并用于电影、游戏、VR、AR 等作品中,适合不具备动作捕捉条件的制作团队或非技术人员。用户可将自己拍摄的MP4、MOV、AVI视频文件上传至Ki-netix网站,也可直接键入某个在线视频的URL,Kinetix网站即可自动识别人物动作,包括手部姿态、半身动作等,但尚无法进行面部捕捉。Kinetix与Adobe合作,丰富了其3D 形象库,用户在使用Kinetix网站进行动作转换时可从网站自带和Adobe Mixamo形象库中选择真实、卡通等不同风格的3D动画形象作为立体动作的载体。转换完成后的3D动画可直接导出FBX、gl TF 等格式,4096×4096像素,PBR 材质的文件,再导入至Blender、Maya、UE、Unity等主流后期制作软件或引擎中,完成进一步调整。此外还可生成共享URL,用于在XR 环境下观看。Kinetix的3D 模型自动生成算法基于深度学习,用户上传的视频也将作为训练数据持续改进Kinetix模型。与Kinetix相似的服务还包括Animate 3D、Pix Cap、Plask 等,技术路线基本一致,在转换精度、可识别内容方面略有差异。创作者如果使用基于AI的智能扫描功能,可利用手机或平板电脑的摄像头进行全身运动捕捉。与摄影棚专业设备相比,智能手机具有局限性,但是与价格昂贵、体积大的动作捕捉装置相比,普通消费者更倾向于手机。
用电视、电影或游戏开发等传统方法制作3D动画并不容易,但随着技术不断进步,大量便捷的工具和程序持续推出,以简化此类数字内容的创建。尤其是当下不适宜大批人群聚集的时期,或者独立制作团队需要远程或居家制作数字内容时,传统制作方式会增加各种成本,而AI驱动的动作捕捉解决方案为不同规模的创作提供了机会,推动了3D动画普及化创作,也能够保证创作过程中减少人员聚集的健康风险。