批量视频修复技术的研究与应用

2022-02-10 13:24陈思宇
西部广播电视 2022年24期
关键词:片源批量像素

陈思宇 苗 琨

(作者单位:南京广播电视集团)

影视资料能够真实、直观地记录社会发展、人文风貌、历史事件、自然地理演变等各方面状况,是无可替代的历史档案。从业者要对其进行精细化处理和保存,为研究人文社会、河山改造提供依据,为广大人民群众提供最真实直观的教育素材,这是中华民族伟大复兴的中国梦的重要组成部分。但是,一些老旧的素材,尤其是20世纪八九十年代珍贵的影视素材,受限于当时的拍摄设备、存储介质、存储环境和处理播放设备的落后和简陋[1],片源的清晰度较差,由于时间和技术因素,经过几次格式的转换后出现了画面偏色、丢帧、大量拉毛画面等现象,严重影响观感。很多珍贵的资料已经不能满足当前人们的画面使用要求。为解决这一问题,通常采用的方式是在制作过程中进行人工调色、锐化等处理。但这种方式不仅大大增加了制作时间,而且无法实现对素材的批量处理,画面质量也无法令人满意。为了能够保存好过去珍贵的资料,并且在再次调用时能够比较贴近现代视频画面,需要有针对性地利用现代化的影视、网络科技手段,开发一种效果好的,能批量针对老视频画质缺陷问题的解决方案,让老视频再次调用时能够更贴近现代的视频画面。

1 技术处理

批量视频修复技术的处理措施主要分为通用处理和特定处理。通用处理分为视频超分、画面增强;特定处理主要分为拉毛修复、色彩校正、视频插帧等。该措施理论上可处理所有视频,即使是大量噪点、低清偏色素材也能得到满意的结果。

1.1 通用处理

1.1.1 视频超分

以往,通常使用自动编码器(Autoencoder,AE)和生成对抗网络(Generative Adversarial Network,GAN)算法。AE是一种生成网络,用于将输入的图像生成目标图像。以牺牲图像的精确再现为代价,减少像素误差造成的模糊。GAN 由两个独立的网络-生成网络(Generator)和判别网络(Discriminator) 组成[2]。其中,生成网络负责生成图片,判别网络负责分辨图片真伪。在生成网络中输入随机噪声,用来训练区分真值的样本。GAN和AE都是非常流行的生成模型,然而它们的生成能力都被生成结构所约束。为了解决这些问题,往往采用新的生成结构——遗传算法接口体系结构(Genetic Algorithm Interface Architecture,GAIA)进行画面分辨率的提升。该算法能够在利用前两个算法的同时弥补每个独立网络的缺陷,允许发生器在鉴别器传递的像素误差上进行训练,明确地再现像AE一样的图像,产生具有GAN特征的锐利图像。此方案适用于各种片源提升至高清或4K分辨率,可以设置好参数后在无人看管的情况下进行批量处理。图1、图2的左侧皆为南京电视台《老南京》系列短片中的视频镜头,右侧皆为修复后的视频画面。

图1 车辆视频超分效果展示

图2 行人视频超分效果展示

1.1.2 画面增强

在基础的修正工作中,直接使用MotionDSP与NVIDIA公司共同开发的vReveal软件,通过反交错、画面稳定、自动白平衡、对比度、亮度修正等操作,对画面进行初步修复。此方案适用于高清以下片源,可以设置好参数后在无人看管下进行批量处理,且速度较快。需要强调的一个重要方面,就是对画面锐度增强的问题。由于画面处理更关注原画面的质量,引用老的影视资料时就可以通过画面的锐度增强很好地弥补原画面质量欠佳的情况,同时适时采用高度自动化的批量视频处理工具和基于人工智能的视频修复技术等。图3、图4中的左侧皆为南京电视台《老南京》系列短片中的视频镜头,右侧皆为修复后的视频画面。

图3 人物画面增强效果展示

图4 国旗画面增强效果展示

1.2 特殊片源的处理

特殊情况的片源由于在处理时不具备通用性,需要人为选出对应的处理方法,且需专人单独处理,速度较慢。

1.2.1 拉毛修复

拉毛即画面上的白色长横条。使用KEY键(抠像键)提取出具有白色长横条特征的画面,在周围像素选取特征颜色经过计算后填充至拉毛部位,进而完成拉毛修复。在极特殊情况下,如快速移动物体在画面中经过时过曝产生的画面也容易被识别为拉毛,此时需要加入前后帧对比来消除误差。

1.2.2 色彩校正

对于严重偏色的片源,要基于DeOldify开源深度学习模型进行开发调试,为灰度图像添加高质量的着色效果[3]。这种深度学习模型的目标是对旧图像和胶片进行着色,还原色彩并赋予新生命。同时,为解决以前的DeOldify模型中的稳定性问题,采用NoGAN 这样一种新型的GAN 训练,分析出着色区块后使用大面积着色进行颜色填充,细节处理效果更好,渲染也更逼真。

1.2.3 视频插帧

在帧数偏低的情况下,可以对基于深度感知视频 帧 插 值(Depth-Aware Video Frame Interpolation,DAIN)开源算法进行插帧处理。使用一个深度感知光流投影层来合成中间流,对前后多帧的对象进行采样[4]。此外,学习分层功能从相邻像素收集上下文信息。然后,模型基于光流和局部插值内核对输入帧、深度图和上下文特征进行扭曲,合成输出帧。这种模型紧凑、高效且完全可微分。定量和定性的结果表明,DAIN在各种数据集上均优于最新的帧插值方法。

2 技术创新和效果

2.1 技术创新

上述老旧影视修复技术与以前的修复技术相比,有以下明显的特色。

一是过去针对视频处理常用的是GAN算法,该算法训练不稳定,具体表现为生成出来的结果非常差,即使加长训练时间后也无法得到很好的改善。GAN的训练是具有挑战性的,并且自从GAN的体系结构的概念提出以来,平衡和适当训练GAN的细化技术一直是相关学者积极研究的领域。在传统GAN中,需要找到生成器与判别器之间的平衡问题。而GAIA则弥补了GAN和AE每个独立网络的缺陷,在GAIA中,允许发生器在通过鉴别器传递的像素误差上进行训练,明确地再现像AE一样的图像,又产生具有GAN特征的锐利图像。

二是创新地采用了多个算法和处理软件对老片源进行批量处理,解决了过去常用算法可能在训练后期提升十分缓慢的问题。使用GAIA算法和Tensorflow进行训练,能够充分发挥易用性、灵活性、高效性等优势。其工作流易于理解,应用程序编程接口(Application Program Interface,API)保持着高度的一致性,省去了专门的等待时间。分布式架构使得在大规模数据集上的模型训练可在合理的时间内完成。谷歌已为其投入巨大的资源,因为其希望TensorFlow成为机器学习研究者和开发者的通用语言[5]。

三是像素损失可以被没有模糊重建的Autoencoder判别器消除。此外,利用GAN的对抗性损失,明确地训练生成器AE生成对抗差值自动编码。该方法更适用于使用神经网络隐空间在复杂信号之间进行插值,同时仍然尊重输入数据的高维结构。

2.2 技术效果

针对分辨率过低问题,可以采用深度学习算法提高视频的分辨率。通过矫正偏色问题(如白平衡矫正、对比度矫正、亮度矫正等),处理拉毛、掉帧等问题,对视频进行针对性修复。同时,视频中的原始细节在算法的帮助下得以保留,老旧片源普遍存在的问题得到了解决。原始细节在高清化的过程中变得更加清晰(如图3、图4所示,小女孩的肤色还原、面部五官轮廓清晰,国旗颜色得到还原等)。因此,在主观的感受下,经过处理后的老旧素材放在现在的拍摄素材中基本不会显得突兀,放在高清的宣传片中也没有违和感。

3 社会效益和经济效益

毋庸置疑,采用上述技术对影视画面进行修复和增强,可永久性高质量保存最直观、更清晰的历史事件档案,并且可以用于社会生活的方方面面,有助于人们更方便、准确地研究社会发展过程,所产生的社会效益无疑是巨大的。

至于本技术的经济效益则可看得见、摸得着、收得到。因为它只需性能强劲的服务器,渲染速度较快的硬件,使修复有缺失的旧影视画面速度处于较快状态。各个处理环节耗时更少,无特殊需求时不需要专门安排人员值守,可有效减少设备资源的占用,节约人力成本,其经济效益是过去老的修复方法无法比拟的。图5为本方案与另一常见软件渲染时间的对比,图6为本方案与另一常见软件片长渲染时间比较。从图5中可以看出,本方案高清片源渲染时间平均可节省43%左右,标清片源渲染时间平均可节省26%左右。

图5 本方案软件与另一常见软件的渲染时间比较

图6 本方案与另一常见软件的片长渲染时间比

4 结语

目前,电视台普遍存在大量老视频资料,有大量的老视频修复需求。经过批量视频修复技术处理后可以达到播出的标准,让这些资料再次出现在电视荧幕上。例如,《决胜时刻》中就采用了修复后的主席演讲镜头。

现在利用该技术已经进行了大量老旧素材的清晰化处理,也将处理后的素材使用在了很多重要项目上,如南京电视台《老南京》系列短片在经过处理后画面效果得到了质的提升,播出后得到了一致好评。一些缺陷严重的素材也在处理后重新得到了有效保存,以防珍贵资料的丢失。同时,一些工作人员也在积极建立新的媒资库,留出接口,在导出素材时可以同时输出一份处理后的素材,在硬件空闲时可以大批量地自动处理媒资库的素材。

猜你喜欢
片源批量像素
像素前线之“幻影”2000
批量提交在配置分发中的应用
探讨城市夜景照明媒体立面片源内容的重要性
采用经济数控车床批量车削孔类工件的再实践
“像素”仙人掌
为什么你买了家庭影院就闲置了?
2019可以买8K电视吗?
ÉVOLUTIONDIGAE Style de vie tactile
4K还是噱头吗?
高像素不是全部