深圳广播电影电视集团 广东 深圳 518026
广电行业拥有大量的老旧媒体资源等珍贵的影视资料,比如1906年大地震前的旧金山影像、100多年前北京晚清的集市影像等,这些老旧影片不仅仅记录了当时的真实景象,更记录了当时的风土人情等珍贵信息,为了更好的将他们展示给大众,近年来广电行业一直在专注研究老旧影片的AI修复技术。
AI修复包含很多步骤,比如超分辨率、消除噪声、增强对比度、智能着色等,目标是为了使老旧影片的视频状态恢复到原始甚至更优的状态,因为特定时代的技术发展限制,相当大量的老旧影片是黑白影片,或者是色彩质量较低的低质彩色影片,为了更好的呈现效果,智能着色在AI修复技术中起到了相当重要的作用。
图像超分辨率就是通过信号处理的方法,对图像截止频率之外的信号高频成分来估计,提高图像的空间分辨率。应用角度分为单图的超分辨率和多图的超分辨率两种,相关技术大致包含定参数的线性滤波器技术、图像边缘结构技术、图像重构约束技术、机器学习技术等,图像超分辨率技术作为图像的后处理技术,可改善图像离散化,退化引起的分辨率下降,弥补原有分辨率不足的问题,发掘原图像数据的多角度、多时相等潜力。目前已有相对成熟的相关技术,如上海交大提出的开源DAIN插帧技术,日本筑波大学和早稻田大学的两位研究者合作提出的Deep-Remaster技术等。
本文重点研究Deep Remaster技术在视频的智能修复过程中的应用,区别于递归模型处理视频的方法,DeepRemaster是利用全卷积网络来实现对老旧影像的修复。在这项技术中,利用单一框架以半交互的方式处理所有修复任务,该框架基于带有注意力机制的时间卷积神经网络,在视频上训练注意力机制(即source-reference),这种注意力允许模型处理任意数量的彩色参考图像,在不需要分割的情况下给长视频着色,同时保持时间一致性,与之前的方法相比,该方法的性能随着视频长度和彩色参考图像数量的增长而增长,尤其适用于广电行业。
在上图模型中的输入端输入多张黑白图像,经过时间卷积网络和空间卷积网络的预处理,综合Source-Reference注意力机制与Self-Reference注意力机制的深度训练后,与参考彩色图像的空间卷积处理结果一起结合,即深度训练结果结合任意数量的彩色图像来生成最终的色度信道,这一网络修复过程中,Source-Reference注意力机制允许模型再给视频上色时,参考彩色图像(Reference Images)中的相似区域,模型输出部分就是输入视频重制后的版本。基于递归的卷积神经网络,在传播信息时,通常是逐帧传播,不能进行并行处理,并形成依赖关系。因此,在参考彩色图像时,图像会反复重新开始,这样时间上的相关性就会丢失。而基于Source-Reference注意力机制的卷积神经网络在处理任何帧时能够并行使用所有的参考信息。
对比以往的方法,Deep Remaster技术利用source-reference注意力机制,可以达到使用极少量参考图像就能获得高效、稳定、一致的数千帧图图像。如上图可见,图a)中的原始图像失真度极高,经过以往的方法进行网络修复效果不是特别显著,图像的噪点还是非常高,但通过Deep-Remaster技术修复后,无论从噪声噪声处理方面,还是从着色处理方面,DeepRemaster技术重制的图像c)更贴近真实世界的色彩,同时也能更好的处理多种类型噪声,对输入图像进行相当高程度的锐化,实现高保真的状态。
DeepRemaster技术本身也是有瓶颈的,不能所有视频都直接套用,对于动作剧烈,或者人脸较多的场景使用起来会出现画面抖动或边缘不平滑的现象,它更适用于那些画面干净或平移的场景,比如老北京街上的二胡表演视频等。
对老旧影片修复除了视频方面,还涉及到音频方面的修复。可以采用AE或PR里的去噪功能,系统需要先训练学习一小段噪音波形,训练完成后会自动将输入音频内的噪音部分消除,但因为去噪主要针对低频声音,处理完成的音频整体效果比较单调,所以还要在去噪后加入混响,让音频听起来更贴近生活,更自然。
在老旧影片的AI修复研究上,技术不断革新,工程师们不断探索,旨在将我们所“经过”的,未见过的世界重新展现在我们眼前,拉近我们与先辈的距离,更清晰的了解“现在”的来历。