浅谈人工智能在影片修复中的应用

2020-06-15 03:11白晓飞
现代电影技术 2020年5期
关键词:人工神经网络分辨率音频

白晓飞

(中国电影资料馆,北京100082)

2018年,爱奇艺将人工智能技术应用于视频画质增强,并推出自主研发的Zoom AI视频增强技术,为影片修复提出一个全新的思路。而2019年上映的《决胜时刻》《开国大典》等电影中的珍贵历史画面也纷纷采用了人工智能技术进行修复。那么到底什么是人工智能技术,它究竟有哪些技术优势呢?

1 基本概念

首先,人工智能是用于研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它包括机器学习、计算机视觉等不同领域,其主旨是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。其中深度学习是机器学习的一种,作为其分支之一,深度学习是基于人工神经网络对数据进行特征学习的算法。同时我们也可以认为深度学习的本质是基于概率统计,即对没有处理过的数据用概率统计的方法来寻找它的规律。

2 影片修复中的应用

在了解了人工智能技术的概念后,我们来看看他在影片修复方面有哪些应用吧。总结目前市场上已经进行开发出的相关应用,大致可分为以下几个功能:

(1)分辨率增强,即低分辨率视频转换为高分辨率视频。

(2)画面修复,主要包括:降噪、去场、去脏点、去划痕、去除马赛克等。

(3)黑白影片上色,将原本的黑白影片变成彩色影片。

(4)提高帧速率,将低帧率影片变为高帧频影片。

(5)影片声音修复。

2.1 分辨率增强

分辨率增强即超分辨率问题,就是将一张低分辨率的画面,通过一个模型计算以后变成一张高分辨率画面。传统的图像超分辨率重建技术是基于插值法进行计算的,即通过某个点周围若干个已知点的值,以及周围点和此点的位置关系,根据一定的公式,算出此点的值,这就是插值法。但是实际上,通过这些插值算法,提升的图像细节有限,因此需要通过多幅图像之间的插值算法来进行重建。而通过深度学习进行图像超分辨率重建的原理,是通过数据加训练找到一个模型,去描述其背后的规律,然后将它应用到图像超分辨率重建领域。首先我们找到一组原始图像P1,将这组图片降低分辨率为一组图像P2,通过人工神经网络,将P2超分辨率重建为 P3 (P3 和 P1 分 辨 率 一 样 ), 通 过 比 较 P1 与P3,验证超分辨率重建的效果,根据效果调节人工神经网络中的节点模型和参数。反复执行,直到第四步比较的结果满意通过。这项技术可以把原本的标清画面转换为高清甚至2K 画面。如中国电影集团参与的 《厉害了,我的国》中,总书记出现的11分42秒内容,以及 “蛟龙号”“撤侨事件”“神舟火箭”等原始标清内容都是通过这项技术提升到2K画面。

图1 标清转2k对比画面

2.2 画面修复

画面修复也是人工智能技术应用较多的方面。在数字世界中,它指的是应用复杂算法以替代图像数据中缺失或者损坏部分。传统图像修复是基于扩散方法来处理,这种方法将局部结构传播到位置部分,或者基于示例的方法,每一次构建缺失部分的一个像素点同时保持和周围像素点的一致性。而通过深度学习技术,我们可以依赖预训练人工神经网络的幻觉来填补图像中的较大缺失。人工神经网络使用监督图像分类,在监督图像分类中,每个图像都有一个特定的标签,并且人工神经网络通过一连串的基本操作运算来学习图像到标签之间的映射。当在巨大的数据集 (数百万张带有成千个标签的图像)上被训练后,人工神经网络具有卓越的分类表现。在此基础上,人工神经网络可以正确地使图形的形状完整。人工神经网络的幻想性和正则化的结合可以完成有效的图像恢复。如来自Nvidia的Guilin Liu等人的团队,他们发布了一种可以重建已损坏图像的深度学习方法,即使图像穿了个 “洞”或丢失了像素也可以恢复。

图2 损坏图像修复对比

图3 影片损失样本

该方法叫做 “image inpainting”,可以在图片编辑软件中实现去除不需要的内容,同时用计算机生成的逼真的替代方式填补空白。此模型可以很好地处理任何形状、大小、位置或距离图像边界任何距离的空白。以前的深度学习方法主要集中在位于图像中心附近的矩形区域,并且通常需要依赖成本很高的后期处理,而基于深度学习的新模型能够很好地处理越来越大的空白区域。为了训练人工神经网络,研究团队首先生成了55116个随机色条、形状和大小任意的蒙版用于训练。此外,他们还生成了25000个图像用于测试,以保证最终修复画面更加完美。又如著名影片修复软件Diamant团队也发布他们基于深度学习技术的Deep restore项目,该项目基于10000个影片损失训练样本集,以实现各类影片脏点划痕的完美修复。其他诸如去除噪点、场、马赛克等,基本上都是通过相关的训练集来让人工智能可以识别出视频中瑕疵,再通过图像重建来将画面上的问题去除。

2.3 影片上色

影片上色是基于图像上色的技术发展起来的。传统的图像上色都是人手工用Photoshop做的,一张图片要花好几个月才能完成,需要进行大量调查研究,仅是其中的一张脸就需要多达20层图层。但是,基于人工神经网络的自动着色功能,可以几秒钟就实现Photoshop几个月的效果,而且成效越来越惊人。自动上色的核心技术是发现灰度与彩色间的特征。黑白图像每个像素具有对应于其亮度的值,范围为0―255,从黑色到白色。彩色图像由三层组成:红色层、绿色层和蓝色层。直观地,你可能会认为植物只存在于绿色层。但是,实际上绿色的叶子在三个通道中都有。这些层不仅可以确定颜色,还可以确定亮度。为了得到白色这个颜色,需要将所有颜色均匀分布。通过添加等量的红色和蓝色,绿色会变得更亮。就像黑白图像一样,彩色图像中每个图层的值也都为0―255。值为0意味着该图层中没有颜色。如果所有颜色通道的值都为0,则图像为黑色。人工神经网络会创建输入值和输出值之间的关系。更准确地说,着色任务实际上就是人工神经网络需要找到链接灰度图像与彩色图像的特征。因此,人工智能要寻找的就是将灰度值网格链接到三色网格的特征。以上是人工智能给图像上色的基本原理,但是要是给一段视频上色,其复杂度还要更大一点。例如谷歌发布一段视频上色的演示里,首先人工智能从彩色视频里截取某一帧作为参考,再将视频中所有帧的颜色变成了黑白色,然后仅仅依靠着参考帧的颜色,人工智能就能还原出整段视频的色彩。不仅如此,人工智能还能自动识别视频中的人和物体等不同元素。而从转变的结果来看,最终上色的效果还是很真实的,从人的肤色、动物的毛发再到景色都得到比较自然的还原。谷歌表示,虽然人工神经网络在某些方面比较擅长,比如将草坪变成绿色等,但在准确识别细小事物等,还需要进行改进。再如中国电影集团北京影视制作基地也在积极探索对老电影的影片上色,其中运用 “中影·神思”系统,对 《马路天使》一片的经典唱词片段进行了上色。其具体做法类似于谷歌,也是先对镜头关键帧进行手绘上色创作,然后再利用人工智能算法进行机器学习后完成整段视频的上色工作。

图4 上色对比画面

2.4 提高帧频

人工智能目前已经可以通过自动增加影片帧频的技术,来使低帧频影片播放变得更加平滑。这项技术也称为视频内插或者视频帧率转换,即给定两个连续的帧,视频插值旨在生成中间帧,以形成空间和时间相干的视频序列。大多已有的方法都集中于单帧插值上,这种方式生成的视频往往动作很僵硬,并且转向会很突然,不顺滑。而使用人工智能可以做到可变长度多帧视频插值,这种方式生成的视频过渡自然、顺滑,如同真实的动作一样。通常这涉及两个步骤:运动估计和像素合成。即将内插帧的像素合成视为两个输入帧的局部卷积。卷积核捕获输入帧之间的局部运动和像素合成的系数,然后采用深度全卷积人工神经网络 (FCN)来估计每个像素的空间自适应卷积核。但是这项技术对于影片修复有什么意义呢? 我们知道通常电影的帧频为24帧/秒,之所以采用24帧/秒的帧频是因为传统胶片电影技术所限,高帧频电影能使电影播放更加顺滑,避免画面抖动等问题,因此提高帧频对于影片修复来说有着一定的意义。在实际应用中,NVIDIA 技术团队通过人工神经网络每天对超过11000个视频进行训练后,将普通30fps视频插帧成240fps的视频。之前绝大部分的插帧技术都是利用前后帧的关系生成更多的中间帧,而NVIDIA 则是只利用其中的一帧就可以办到,不但插帧数目显著提高,还能保持图像不失真,不影响观看效果。

2.5 声音修复

在声音修复方面人工智能目前有两项比较突出的应用,首先人工智能可以通过训练将低分辨率音频提升为高分辨率音频。传统的音频提升方案是使用音频剪辑的数据库,凭借相似性指标来填充下采样波形中缺失的频率。而通过深度学习的方法可以使用人工神经网络来完成原始音频波形的上采样。具体方法是通过大量的训练令人工智能学习高分辨率音频的波形特征,然后将低分辨率音频输入其中,并重新构建音频波形以生成高分辨率音频。此外,人工智能还可以通过学习为完全无声的视频生成一段声音。该系统被称为视觉指示声音系统,MIT 计算机科学和人工智能实验室开发。该系统目前能够对棍子击打、刮擦等一系列物体发出的声音进行分析。此外,它的本领可以延伸至很多其他场景,在未来的版本中可以为电影和电视生成比传统方法更逼真的声音效果。其具体训练的方法是,向其输入包含4.6万种声音的1000段视频,这些声音是鼓槌在不同坚实度的物体上敲打或划过而产生的。之后,通过深度学习帮计算机在大量数据中找到一种模式,对这些声音进行解构。为了从无声视频片断中预测一种新声音,Vis会查看最可能与每个视频画面相关的音频属性,并把这些音频串在一起编辑成连贯的声音。目前来看这两项应用对于影片修复来说都有不小的意义,因为老电影声音普遍是低分辨率音频,因此在现代影院中播放效果很差,同时老电影也经常会出现音频缺失、丢失的情况,因此如果未来上述两项技术得以实际应用的话,必将会对于老电影的声音修复产生跨时代的意义。

3 结语

目前人工智能算法最大的优势是能够通过训练对数据的特征进行自动学习,在算法模型建立过程中尽量减少人为干预。在影片数字修复领域的一些应用中,基于深度学习的模型算法已经超越了原有算法的识别和分类能力。因此对于影片修复而言,以前很多常规手段无法修复的画面声音现在可以修复了,以前需要花费很多人力时间才能完成的工作,现在通通可以交给计算机自动完成了,而相应的工作效率也提高。正如中国电影集团北京影视制作基地马平主任所说那样,人工智能将会把工作人员从简单繁重的工作中解放出来,并满足我们所有的创作需求,未来必将引领影片修复工作进入一个全新的时代。

猜你喜欢
人工神经网络分辨率音频
On Doors
Egdon Heath (Extract from The Return of the Native)
Beethoven’s Centenary1 (Extract)
基于人工神经网络的Ni-ZrO2纳米镀层耐腐蚀性能预测
我国科学家发明计算超分辨图像重建算法拓展荧光显微镜分辨率极限
人工神经网络发展历史与训练算法概述
基于人工神经网络的优化配置研究
ARM发布显示控制器新品重点强化对分辨率的支持
基于人工神经网络的经济预测模型
从600dpi到9600dpi