陈 瑾
(中央广播电视总台,北京 100859)
近年来,新兴技术的发展对传统电视媒体带来前所未有的影响,媒体融合、节目形式创新、节目制作水平提升是传统电视媒体在新环境下赢得市场的必要手段。其中,虚拟现实技术作为一种前沿技术,因其沉浸感、交互性等特点给电视节目制作带来无限创意,有效提升电视节目制作效率与效果,成为电视媒体节目制作领域的一个重要研究方向。
以往采用色键抠图实现虚拟现实效果,多以蓝箱绿幕为背景,使用色键系统通过图像边缘处理的分割技术对主持人进行抠像。但这种技术的运用过程中存在一些问题,现场灯光造影、道具、主持人服装等各个环节均可能对色键抠像带来噪声,前期需要长时间的系统配合调试,影响制作效率;另外,传统色键抠图需要后期制作团队提前做好场景内容,尤其复杂场景下主持人和背景融合容易出现前后景穿帮,影响节目制作效果。
AI+VR智能虚拟现实制作技术作为虚拟现实的进阶版,结合立体视频投影变换、光学运动跟踪、光学空间定位、AI智能分析自然视频人体运动跟踪等关键技术,以多屏幕拼接的AI+VR制作系统实时呈现动态虚拟场景。该技术解决了上述问题,演员能够根据屏幕画面更加灵活地表演,使得虚实前后场景融合更加自然,提升节目视觉呈现效果,为观众提供毫无违和感的“沉浸式”体验。
中央广播电视总台(以下简称“总台”)在虚拟现实制作技术领域进行了多年的跟踪和应用研发,在深入研究VR视觉效果与透视关系的基础上,结合多块异面大屏幕呈现3D背景,进一步实现可视化三维空间内的虚拟节目制作,通过摄像机直接拍摄虚实融合的现场画面,解决传统虚拟演播室技术局限性;研发高精度的光学跟踪系统进行适配,能够同步接收镜头控制参数如ZOOMFOCUS等信息,反馈并实时传递给大屏控制端和渲染端,实现虚实场景镜头语言统一;研发AI智能化跟踪系统,支持通过摄像头捕获人物运动信息,结合AI算法,将肢体动作附着在系统的人体骨骼模型上,实现更加自然仿真驱动人物动画的功能。综合运用以上技术,形成一套AI+VR融合应用的虚拟现实制作系统,并将其应用于中央广播电视总台春节联欢晚会(以下简称“央视春晚”)等多个大型重点节目的制作中。
立体视频投影变换技术主要包含异面大屏幕呈现摄像机透视角度画面、多屏幕同步播放、虚实空间比例匹配、物体及摄像机跟踪数据解析等内容。
通过视觉投影变换原理研究VR视效及透射关系,基于虚拟空间与实际空间坐标转换理论,创建实际空间等比场景,依据实际摄像机位置及镜头参数信息,在虚幻软件(本系统使用的图形渲染软件UE4)中等效创建虚拟摄像机,通过投影变换算法实时解算虚拟场景呈现关系,将场景内容投影至多块LED大屏进行3D效果呈现,替代绿幕或蓝箱传统制作模式,主持人在现场能够直观场景内容,更加自然地走位,更好地进行节目互动。
运动跟踪是指实时准确测量、记录物体在真实三维空间的运动轨迹或姿态。光学式运动跟踪因其精度高、无接触,在中小型广电虚拟演播室中最为常用。该技术基于计算机视觉原理,由多个相机从不同角度对目标特征点的监视和跟踪来完成运动捕捉任务。理论上对于空间中任意一个点,只要它能同时为两个相机所见,就可以确定该点在空间中的位置。
通过研究光学运动跟踪技术,采用分布式多相机阵列进行运动跟踪,相机通过小孔成像原理,将3D空间中的物体通过中心射影变换投影到相机成像平面,如图1所示。通过系统标定过程获取相机内参矩阵和畸变系数,其中内参矩阵又包括焦距、像素物理尺寸等,畸变有径向畸变和切向畸变等,多相机标定不仅获取各相机内参,还得到了各相机之间的相对位姿关系,其标定精度直接影响最终跟踪质量。
图1 成像示意图
设世界坐标系的XOY平面与靶标平面重合,则在世界坐标系中靶标角点齐次坐标为,其中,图像上与之对应的像素坐标为,公式为:
其中,R表示世界坐标系到相机坐标系姿态变换,t表示世界坐标系到相机坐标系原点平移变换,二者表示相机外部参数;f表示相机的焦距,即相机焦点到成像平面的物理距离,(u0,v0)T表示相机坐标系Z轴与成像平面交点的像素坐标,dx表示成像平面u轴方向上一个像素的物理尺寸,dy表示成像平面v轴方向上一个像素的物理尺寸,它们共同组成相机内部参数。
现实情况中,相机拍摄图像不可避免地会产生畸变。所谓畸变就是进行投影时直线产生弯曲的一种现象。畸变主要分为两种:径向畸变与切向畸变。径向畸变主要由镜头镜片形状加工偏差引起,镜片的制作原料和加工工艺等都会影响镜片形状,径向畸变又可以分为桶形畸变和枕形畸变,如图2所示。而切向畸变主要由镜片和成像平面不平行导致,受镜头组件加工和装配精度影响,又可以分为薄透镜畸变和离心畸变,如图3所示。
图2 径向畸变示意图
图3 薄透镜、离心畸变示意图
精确的跟踪定位需要对畸变进行算法矫正,含畸变校正的世界坐标系中,靶标角点与成像平面坐标系对应点的对应关系:
其中,k1、k2和k3为径向畸变系数,p1和p2为切向畸变系数,采集多张靶标图像,带入上式求解方程组,得到相机内参矩阵、畸变系数的初值。然后对相机内参初值优化,利用Levenberg-Marquardt非线性最小二乘算法最小化重投影误差,得到最终相机内参矩阵、畸变系数。
另外,靶标角点的测量也是精确定位的关键,有了这些运动相关的外参数初值,才能进一步通过参数标定测量物体的空间位移与旋转角度位姿。多相机外参标定流程如图4所示,通过同时拍摄共同视场中不同位姿的靶标,提取靶标角点,利用PnP算法建立靶标平面坐标系与相机坐标系的位姿关系,从而得到各相机之间相对位姿关系。然后利用光束平差法非线性优化算法最小化重投影误差,从而得到最佳多相机外参。
图4 标定流程示意图
针对节目制作中虚拟演播室复杂环境条件,该算法能有效提升系统应用鲁棒性,摄像机位姿与镜头参数的同步融合,降低了系统复杂度,简化系统部署及操作流程,提升系统运营稳定性。
基于红外光学的物体空间定位技术,由空间中不同视角的多台光学传感器组成多维视觉矩阵,确保物体在捕获空间范围内无死角跟踪定位,高精度光学定位技术具备统一的三维空间坐标系和数据时间轴,可以对摄像机、人体以及物理道具进行亚毫米量级精度实时同步定位,毫秒级的系统延时传输,可以保证现实与虚拟场景无顿挫切换,高效完成节目制作,实现摄影机机位、镜头参数、人体动作、道具位置数据协同。同时根据电视节目制作流程工艺设计空间定位系统应用软件,一键式目标跟踪,可同步跟踪多达数十个摄像机、道具,适配电视节目多机位制作需求,降低操作复杂度及系统硬件成本。
光学空间定位技术能够实时捕获特制跟踪点对主持人动作手势进行实时位置跟踪,通过虚幻软件UE4中预设碰撞触发事件在内容中叠加特定动画特效,实现主持人和虚拟元素的实时动态交互;也可以通过跟踪主持人手持平板叠加节目附加信息,主持人可以根据制作需求通过平板控制,一键自主选择特定叠加效果,提升节目制作效率。
AI智能分析的自然视频人体运动跟踪技术基于AI深度学习理论,采用卷积神经网络架构设计自然视频人体骨骼解算器,通过多维多视角视觉系统标定参数,3D化2D骨骼节点结果,结合人体运动学及影视动画制作机理进行IK骨骼参数求解,使用ZMQ传输协议进行最终运动数据分发应用至电视节目制作。
受益于传感器技术及图像处理技术的不断发展,人体骨骼关键点检测效果逐渐提高。目前常见的人体关键点检测技术可以分为两种:基于深度相机的检测和基于彩色图像的检测。与深度相机检测方法相比,基于彩色图像转置卷积的多人骨骼关键点AI检测框架,利用卷积神经网络(CNN)等计算技术,直接对RGB相机采集到的图像进行特征提取、信息融合、结果输出,能够实现端到端的人体运动跟踪流程,并且这类技术具备硬件复杂度低、应用场景广、可跟踪人数多等优势。
多人骨骼关键点检测技术使计算机对图像中多个人体的不同关节及五官(如:眼、头、手、髋、踝)等关键点进行准确定位,并将属于同一人的个体关键点准确连接,以描述多人不同的姿态信息,对人体静止姿态、连续动作进行运动跟踪。
关键点提取的效率和准确性是整个人体运动跟踪的基础,通过深度学习网络检测图像人体关键点,为节约AI算力采用分布式GPU架构,设计开发多GPU集群服务器,通过算法规划设计解决多GPU运算核心线程通信调度问题,实现多GPU协同工作,提升AI算力,优化系统延迟,提高运行流畅度。针对数字图像、数值计算等计算机量化操作带来的固有噪声信号,运用图像信号处理技术对重建骨架数据进行滤波处理,平滑数据曲线,提升系统运行稳定性。
在多人交互场景下人与人之间会有很严重的遮挡问题,二维人体姿态检测器无法保证给出完全正确的关节分配结果;同时人体数量未知加大了不同视角间人体关键点匹配的难度。为了解决上述多人多视角人体关键点组装的问题,采用混合跟踪组装算法组装人体骨架,同时考虑多视点约束和时域约束,用迭代算法同时优化所有视角下的关键点分配结果。多人多视角人体关键点组装流程如图5所示,图的左上、左下、右下表示三个视角下两个人的关键点信息,每个人有一个关键点脖子,一个关键点胯,这两个关键点之间就有四种组合。对于大分辨率二维图像的检测网络,将利用TensorRT布置到多个NVIDIA TITAN显卡上,加速并行处理。对于复杂计算的逆运动学解算等,利用OpenMP多CPU加速,整个流程一个周期时间可以控制在30 ms左右。
图5 多人视角人体关键点组装示意图
整个算法架构流程如图6所示,AI智能解算流程采用流式计算模型,利用分布式架构并行处理,系统延迟取决于单个Pipeline效率,系统速度取决于流处理中耗时最长模块——关键点检测,在优化系统延迟的基础上能够有效提升运动跟踪系统速度。
图6 AI解算算法流程示意图
基于立体视频投影变换、光学运动跟踪、光学空间定位、AI智能分析自然视频人体运动跟踪等关键技术,总台研发出一套不受环境限制的虚拟现实节目制作生产流程,既可以实现真人与虚拟场景同屏,也可以实现虚拟角色与真实场景同屏,结合立体拼接大屏合成渲染的内容生产平台,形成了标准的电视节目制作流程,拍摄现场即是节目制作现场,所见即所得,全面提升节目制作效能,最终形成完整的AI+VR融合应用制作系统。其包括多LED屏幕拼接控制渲染子系统、物体空间运动跟踪子系统以及AI智能自然视频人体运动跟踪子系统。
多LED屏幕拼接控制渲染子系统,支持摄像机运动数据及镜头参数解算并将数据映射至虚拟场景的功能,采用多块LED屏幕,背景内容根据现场摄影机拍摄机位及镜头信息,通过投影变换实时渲染至屏幕,实现不同角度的立体透视效果。主持人可以直观虚拟背景场景,现场灵活走位,解决虚拟环境与主持人配合问题。
物体空间运动跟踪子系统如图7所示,主要解决摄影机空间定位及镜头参数获取融合以及主持人交互道具位置跟踪,基于光学运动跟踪技术,采用大空间运动捕捉技术对演播室多机位及多道具进行全方位无死角跟踪,通过自动化控制理论的伺服回馈技术对摄像机镜头Zoom、Focu、Iris等参数进行实时监测,运用多传感器信息融合技术对跟踪数据及监测数据同步分析,设计S-C(Server-Client)网络并发架构进行数据广播发送,实现跟踪数据和虚幻引擎无缝对接。实时渲染服务器根据实拍摄像机真实推拉摇移实时调整大屏显示内容,采集画面即最终播出画面,无需后期再进行制作,主持人和虚拟场景内容交互更加自然,3D效果更加直观,有效避免电视节目制作中常见穿帮现象。
图7 物体空间运动跟踪子系统示意图
AI智能自然视频人体运动跟踪子系统,利用转置卷积的多人骨骼关键点AI检测框架,通过对自然视频中人体关键点检测,分步进行训练及端到端测试,同时通过公开数据集上的对比实验调节优化算法参数,评估运动跟踪精度,对人物骨骼特征提取及后处理部分进行优化提升,并基于数据编码设计虚幻引擎插件,将动捕数据实时传输至虚幻引擎直接调用。所构建的无标记运动跟踪系统使得主持人无需任何穿戴设备即可实时进行运动姿态跟踪,骨骼运动数据可通过网络广播实时分发至虚幻引擎进行虚拟角色动作迁移。同时,采用GPU分布式架构,AI解算Pipeline并行运行,在不增加解算服务器的前提下,兼容多人高效动捕数据解算,提升解算效率,尤其在总台直播类节目应用中,系统延迟控制在100 ms以内,形成全新的直播节目制作模式。
由上述3个子系统形成的AI+VR制作系统支持摄像机运动数据及镜头参数解算,并将数据映射至虚拟场景的功能,实现不同角度的立体透视效果;支持识别空间范围内物体位移及旋转数据计算并转换成空间坐标,实现场景内真实人物和虚拟元素多种形态的互动;支持通过摄像头捕获人物运动信息,结合AI智能算法,将肢体动作附着在系统的人体骨骼模型上,实现更加自然仿真驱动人物动画的功能。将其应用于节目制作中,可搭建异面大屏幕来实时呈现三维背景,在一个可视化的三维空间内进行,通过高精度的光学跟踪系统对摄影机进行机位跟踪,同步接收镜头控制参数如ZOOM/FOCUS等信息反馈,并实时传递给大屏控制端和渲染端,如图8所示,从而实现虚实场景镜头统一、前后景融合。
图8 AI+VR系统示意图
总台2021年工作思路与打算汇报会中要求“从严从实抓好常态化疫情防控,特别是要抓好春晚疫情防控,全力以赴保障员工和演职人员健康安全”,因此在2021年春节联欢晚会中,基于AI+VR制作系统,在统一三维空间坐标系与数据时间轴下实现摄像机、交互道具等物体定位数据跟踪,通过北京与香港“云”上联动录制的方式,完成了刘德华、王一博、关晓彤在春晚现场的“同框”演出节目《牛起来》。场景联动和各元素间的交互使得《牛起来》的整体视觉内容呈现融合统一,给观众呈现了一款科技感十足炫酷的春晚创意节目,带来了焕然一新的视觉体验。
《牛起来》制作流程如图9所示,基于AI+VR制作系统,通过物体空间运动跟踪子系统对摄影机进行机位跟踪,能够同步接收镜头控制参数,并实时传递至多LED屏幕拼接控制渲染子系统(此次采用了3块LED屏幕),通过投影变换实时渲染至屏幕,背景内容根据现场讯道机拍摄机位及镜头信息呈现在3块大屏幕上,使得演员与虚拟场景内容交互更加自然,节目制作前期系统测试如图10所示。
图9 《牛起来》制作工艺流程
图10 AI+VR制作系统现场测试
AI+VR制作系统在视觉呈现方面,通过摄像机跟踪系统和VR渲染引擎实现场景的动态透视效果,使虚拟世界与现实空间完美融合。在此基础上制作出的创意节目《牛起来》广受好评,仅在抖音平台的播放量就达到了1.29亿次。
随着视听传播技术的发展与媒介生态的变化,观众对于文化消费的需求日益增高。伴随着5G网络速度带宽的升级,AI、VR、六自由度、全息等技术的日渐成熟,如何将新兴技术融合应用于电视节目的制作中成为广电技术人员优先面临的新课题。
未来,总台在“5G+4K/8K+AI”战略布局下,将不断以技术创新为基础,持续开展融合媒体制作技术应用实践,通过信息技术的全面升级带动广电行业新的增长点,并将创新成果实时、高效、精准推广,缩短转化周期、降低转换成本,充分展示总台技术优势和市场影响力,实现社会效益和经济效益的双丰收。