倪辰怡,黄东晋,丁友东
(上海大学 影视艺术与技术学院,上海 200072)
随着计算机技术的日益发展,新兴的数字媒体产业开始逐渐引起人们的关注。包括计算机动画、影视广告、网络游戏、虚拟现实、网络艺术、多媒体、数字摄影、数字音乐、录像及互动装置以及DV(数字视频)等数字艺术[1],已经悄悄地改变了每一个人的生活。
人们渐渐地开始不再依赖于使用纸和笔留下文字和涂鸦的方式来记录生活,而是学会利用数字媒体技术带来的便利,拍摄下身边的照片,输入自己的感悟,通过网络即时地分享给朋友们。在获取信息时,也开始不局限于单一的文字或是广播,而会更多地被如今绚烂的可视化新媒体展示所吸引。
另外数字媒体技术的不断发展,也越来越多地希望给用户提供更大的人性化交互空间。像是如今广泛应用的计算机绘画、修图等技术,比起手工的绘画具有更大的实用价值和商业利益。
那么在影视动画创作的过程中,是不是也能利用网络资源的优势,发挥数字媒体科技的魅力呢?
传统的影视动画创作流程大致可分为前期、中期和后期,图1列出了各个阶段的主要工作内容。
图1 影视动画创作流程
其中前期工作(Pre-Production)中第一步也是最重要的一步是:脚本及故事板的制作。文字脚本经画师的手工绘制,形成一幅幅的手绘图,然后拼接成整体的故事板,如图2所示,主要起到预览故事情节的作用,所以制作往往比较简单、粗糙,也不上色,能理解大意即可,并不在最终成片中使用。
图2 传统手工故事板
但是即便是制作这种如此简易的手绘图也是件十分费时费力的工作。画师凭借文字脚本和导演口述的修改意见来制作,普通一集半个小时左右的动画片,其故事板图片可能需要上千幅,往往可能需要花费3周时间来制作。另外,在主创人员讨论会中,脚本的修改也是动画前期制作中十分常见的情况,在具体实施过程中,亦会遇到实际问题而修改脚本的细节。此时一旦修改脚本,又需重新修改绘制新的故事板。可见,在动画创作前期过程中,仅使用传统的手绘方式来绘制故事板,存在许多操作不利的地方。
这种传统的动画制作方式:由导演和编剧写好文字脚本,接着分镜图画师制作完故事板(草图),然后直接交给后续三维动画的创作部门。模型师、动画师、渲染师、摄影师、灯光师、剪辑师等各个工序的工作人员,就都按照这些手绘分镜图来理解人物、故事,从而创作出一部完整的动画片。
故事板作为整个动画片的标准参考图,其表达能力的优劣会直接影响到后面所有的环节。一旦出现误解、歧义的情况,可能造成后面动画制作工作的成本增加和劳动力浪费。所以在没有其他替代方式的情况下,动画制作公司还是会选择花费一定的人力和物力,特别是请专业的画师来制作合适的脚本分镜图,希望不仅能保证呈现效果,而且能保证制作效率。
本系统就是为了提高导演与动画创作人员间的沟通效率,希望将动画片的构思和想法通过简单的交互,直观地呈现为二维图像,甚至是三维动画,这样便能统一导演与动画工作人员们的思想,有效提高动画制作的效率。输出的图像和视频都可达到照片级的精度,使得故事板中的人物和场景都能被细致和精确地表达,如图3所示。
图3 传统手工分镜图与照片级分镜图对比
该创新系统希望构建人类创意与计算机科学技术之间的桥梁,运用良好的交互性操作,利用网络上海量的可视化媒体素材,以更简单直观的方法,让每个人成为自己原创脚本的导演。
同时考虑到了分镜图的重要性,以及传统手绘方式的不便利性,设计制作了一套从文字转到图像再可转到三维展示的三维动画快速创作系统,流程如图4所示。
整个系统主要共由2个子系统组成,包括:
1)导演脚本生成子系统:主要完成文字剧本到可视分镜图像的转换;
2)三维动画生成子系统:主要完成分镜图像到三维动画视频的转换。
两个系统可连通使用,亦可单独使用。
如此一来,这套完整的三维动画快速创作系统,不仅能完成传统分镜故事板的生成,还可以直接制成简单的三维动画片。在动画制作之前的策划阶段亦可发挥其作用。代替传统的文字叙述式策划书,把可视化的图像、视频展示给老板和赞助商。制作公司便不必浪费经费来制作预告片,而且能很好地呈现创作想法。更重要的是,利用该系统能够大大地节省制作时间,几分钟便可以完成一幅可视化的分镜图,过程中也便于修改,提高了前期动画制作的工作效率。
图4 系统流程图
2.2.1 基于Internet的多源可视媒体素材库
两个子系统所使用的素材库都是基于Internet的多源可视媒体素材库。在服务器上存储了数十万个二维和三维的动画素材资源。
每个素材利用基于特征袋模型和监督学习的方法进行语义标注,其语义信息和特征信息都保存在语义数据库中,以供在客户端利用基于高层语义的图像/模型检索算法来检索所需的二维图像或三维模型。
2.2.2 导演脚本生成子系统
1)草图绘制模块:本系统所使用的网络可视媒体素材库,存储了海量图像和三维素材。每个素材都定义了语义概念。有了对应的语义信息,本模块绘制的草图就可以和素材库中的资源建立关联,进行匹配检索。
在画板上,用户可选择右边工具栏中的铅笔和橡皮工具,利用一些简单的线条,大致画出所需对象的轮廓特点,如图5所示,再设置草图图形的语义分类信息。绘制完所有的草图对象后,草图及其语义保存在指定的目录中。
图5 草图绘制模块(截图)
2)素材检索模块:采用了基于高层语义的图像检索算法[2]。图像语义具有模糊性、复杂性、抽象性。一般包括3个语义层次[3]:特征语义、目标和空间关系语义、高层语义。其中高层语义主要涉及图像的场景语义(如海滨、街道、室内等),行为语义(如表演、超越、进攻等)和情感语义(如平静、和谐、振奋等)。
本系统构建的语义本体概念,提取了4层语义技术框架:对象语义、场景语义、运动语义和事件语义,将多源可视媒体素材库中素材的底层特征向高层语义进行转化,计算机会自动对图像的特征进行提取和存储,检索结果如图6所示。
图6 素材检索模块(截图)
3)图像融合模块:首先采用基于GPU的共享采样抠图算法进行图像分割,采集一定数量的样本,并通过多种度量标准确定出最佳的前景和背景样本对,然后结合邻近像素的前景背景样本对,生成新的能够更加准确表示当前点的样本对。这样就能从上一步选取的项目中高精度地抠取出所需对象。
接着导入一幅背景图,利用基于均值坐标克隆的无缝融合算法,实现沿边界的平滑插值。这种方法近似于一个针对边界插值问题的调和方案,利用均值插值避免求解大型线性系统。能够实时自动地将对象与场景进行无缝融合,并根据边界周围的颜色进行自适应调整,最终输出照片级图像融合结果,如图7所示。
图7 图像融合模块(截图)
重复以上3个模块,便能将用户文字想法呈现为一幅幅高精度的二维分镜图了。
2.2.3 三维动画生成子系统
三维动画生成系统主要就是把二维分镜图像中的对象转到三维虚拟空间中。整个系统由标准C++程序和OpenGL编写,利用了OSG(Open Scene Graph)这个开源、跨平台的图形开发包,完成三维渲染。在OSG基础上,自行开发研制场景管理模块,拥有良好的用户接口、便利的操作性和丰富的场景管理功能,所用功能操作在一个界面中完成,如图8所示。
图8 三维动画生成子系统界面(截图)
本子系统的素材导入方式可以有2种:
1)本地模式:与二维系统相同,利用基于高层语义的三维模型的检索算法,结合用户输入的关键字语义信息,直接从Internet的多源可视媒体数据库中检索,然后把所需模型拖放导入场景中。
2)网络模式:此模式下,二维的导演脚本生成子系统和三维动画渲染子系统便能连通使用。
最大创新点也正是设计了这种基于脚本的场景渲染子系统。因为二维场景设计相对三维更简单、直观,将二维草图设计时得到的参数,通过XML脚本导入三维渲染引擎中,直接读取一个场景,其中包含各个对象的位置、尺寸等信息。然后自动加载所需的模型,渲染构成一个对应的三维场景。为了呈现出更好的视觉效果,系统设置了视点、对象、光照、相机漫游、天气等参数供用户自行调整。其中视点的高低可设置为平视、鸟瞰、俯视,或是左侧视、正视、右侧视。模型对象,可对其进行旋转、移动、缩放、克隆、删除等操作,通过这些操作来使模型与场景中的环境进行匹配。光照参数可设置清晨、黄昏、中午等不同模式,自动加入对应的光照和阴影。由粒子系统实现的天气模型,可以选择晴天、下雨、下雪、雾天这4种天气。而漫游参数用来设置相机的漫游路径,通过实时漫游就可以生成每个分镜的漫游视频片段。最后将视频片段进行剪接,再加入音乐等后期处理,那么一部绘声绘色的三维动画就完成了。
本系统中使用了多项计算机图形、图像处理技术,其中场景与对象的无缝融合算法关系到整个系统的性能和速度,其算法的优劣会影响系统输出效果的优劣。本系统中的融合模块,是将检索到的图像,先通过交互分割出所需对象,然后导入所需的场景,与之融合,最终输出结果,主要工作步骤如图9所示。
图9 图像融合模块流程图
其中采用了基于均值坐标的无缝融合算法,这种方法不仅输出效果好,而且计算速度快。
对象与场景的融合技术是数字图像处理中一项重要的技术[4]。选择源图像中感兴趣的区域作为对象,然后无缝拼接到新的背景场景中,目标是让融合的结果图像看上去尽可能的和谐与自然[5]。
传统的泊松融合算法中,运用边界条件来解泊松方程,以实现在对象边界和场景目标的差异之间进行平滑的插值[6-7]。这种梯度域融合方法必须要求融合的图像在梯度域上尽可能平滑[8]。
而选择更快速的均值坐标的方法[9],来逼近求解泊松方程。这种基于坐标的方法在实际运用中,不像上述方法那样需要解一个复杂的泊松方程[10],而是沿着边界对内部的每个像素加权后进行插值。其速度快,易实现,内存占用小,同时结果显示其融合效果也很好,能够达到实时性的要求。
在原始素材图S和场景目标图T中,其中g和f*分别是两幅图在各自域上的强度,假设点x是融合区域Pt内的一点,边界条件∂Pt(P0,P1,…,Pm=P0),αi是点Pi,x,Pi+1之间的夹角,如图10所示。
图10 角度定义
那么均值坐标ωi定义为
内插权值为
于是,就可以对定义在边界上的方程f进行平滑插值
最终均值融合法结果即为
由以上过程可以看到,均值坐标融合法计算公式简单,运算量小,仅由融合区域像素数和边界像素数来决定。
在追求效率的同时,也不能忽略融合质量的要求。分别选取最常使用的复制粘贴法、泊松融合法与均值坐标法进行比较。图11分别是素材图、目标图,以及3种方法融合的结果图。
图11 各种融合方法结果图
将素材图中的斑马经过分割后,融合进绿色草地的场景目标图中。由图可见人眼视觉上的效果,图11c明显没有构建素材图与目标图之间平滑的插值过度,导致边界生硬,整幅图色调完全不协调。而图11d、图11e仅仅从人眼视觉角度观察,都有不错的融合效果,不能完全分辨优劣。
为了更精确地分析各个融合结果的好坏,采用几种经典常见的图像质量评价指标,来分析、比较不同融合算法的区别,3种方法得到的评价数值见表1。
表1 几种常用的评价指标
以上数据的参考图均采用了原始的目标图像。从数值上看,均值坐标法在边缘强度、互信息、交叉熵、相对标准差、峰值信噪比、均方根误差、结构相似度方面,都比泊松方法更优。再加上更快的计算速度,均值坐标法无疑更胜一筹。
本系统由导演脚本生成子系统和三维动画生成子系统联合组成,通过语义标注、图像检索、分割、融合、三维渲染等一系列计算机图形、图像处理技术,提出了一个可视化的交互式三维动画快速创作系统。图12是使用该系统生成的三维漫游动画例子。
图12 系统实例
凭借其高效的特点,本系统完全可以替代传统的手绘式动画创作方式,并且具有更多优势:1)可进行实时修改;2)可灵活应用网络数据库中的内容;3)不需要专业的绘画功底;4)拥有更多样的呈现方式。
利用本系统,用户可以通过简单的交互操作,实现从文字剧本到分镜图像再到三维动画视频的转换,给普通大众提供了快速动画创作的平台。
:
[1]李四达.数字媒体艺术史[M].北京:清华大学出版社,2008:51-55.[2]李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展,2001,38(3):344-354.
[3]向友君,谢胜利.图像检索技术综述[J].重庆邮电学院学报:自然科学版,2006,18(3):348-354.
[4]GONZALEZ R C,WOODS R E.Digital image processing[M].2nd ed.Boston,MA,USA:Addison-Wesley Longman Publishing,2001.
[5]AGARWALA A,DONTCHEVA M,AGRAWALA M,et al.Interactive digital photomontage[J].ACM Trans.Graphics(TOG),2004,23(3):294-302.
[6]PEREZ P,GANGNET M,BLAKE A.Poisson image editing[J].ACM Trans.Graphics(TOG),2003,22(3):313-318.
[7]SUN J,JIA J,TANG C K,et al.Poisson matting[J].ACM Trans.Graphics(ToG),2004,23(3):315-321.
[8]JIA J,SUN J,TANG C K,et al.Drag-and-drop pasting[J].ACM Trans.Graphics(TOG),2006,25(3):631-637.
[9]JU T,SCHAEFER S,WARREN J.Mean value coordinates for closed triangular meshes[J].ACM Trans.Graphics(TOG),2005,24(3):561-566.
[10]FARBMAN Z,HOFFER G,LIPMAN Y,et al.Coordinates for instant image cloning[J].ACM Trans.Graphics(TOG),2009,28(3):67.