简述视频超分辨率的发展近况

2019-10-21 08:01许倬维池漫钊蔡文康罗金涛
科学与信息化 2019年28期
关键词:近况

许倬维 池漫钊 蔡文康 罗金涛

摘 要 视频超分辨率是指采用信号处理的方法通过对低分辨率视频的退化图像通过处理以获得一幅或者多幅高分辨率复原图像,该技术可以弥补硬件实现的局限并且成本低,在视频、遥感等领域有着重要的应用前景。近几年来,视频超分辨率的方法被大量提出。其中,基于机器学习的视频超分辨率方式以其强大的性能、可观的输出结果,成为视频超分辨率之主流以及众人才研究与发展的方向。在该文章中,作者通过介绍主流视频超分辨率模型的提出背景,核心框架与工作贡献,呈现近年来视频超分辨率的主要发展情况。

关键词 视频超分辨率(VSR);模型框架;近况

1视频超分辨率(VSR)介绍

视频超分辨率(video super-resolution)技术是指结合了来自同一动态过程的多个低分辨率图像序列的信息,通过信号处理的方式对低分辨率图像进行加工处理,重新构建出具有高时空分辨率的图像序列集,也就是重新构建出具有更高清晰度更多信息量的视频。由于视频是在时间域上一连串具备空间信息的图像集合,因此,视频超分辨率技术处理方法上分为了时间超分辨率和空间超分辨率。视频的时间超分辨率技术是通过时间域一连串视频帧画面之间的相关性,恢复出丢失的细节信息,而视频空间超分辨率则是通过对一帧画面进行图像超分辨率,直接得到具有更高分辨率的图像序列集。因此,该技术可以弥补硬件实现的局限并且使用成本低,使用范围广,在视频、遥感、生物医学等领域有着重要的应用前景[1]。

2视频超分辨率的实现方式

频超分辨率技术实现的方式主要是通过以下三种:模型重建,插值运动帧补偿以及机器学习。

2.1 模型重建

基于帧内模型重建的视频超分辨率方法主要针对单帧图像空域信息的提取,其算法基础与图像超分辨率是相同的,都是基于均衡及非均衡采样定理的,目的是从低分辨率空间信息中预估高分辨率信息,从而分出了频率域处理与空间域处理。频域处理的模型基础是傅里叶变换的性质,尽管在频域内进行图像插值的方法,设计复杂度低,运算成本可观,操作易实现,但是其只能应用于全局平行移动与线性空间不变降质模型的局限,以及先验知识有限的劣势,使得不再成为研究主流。空域处理方式下的观测模型包括了全局和局部运动、光学模糊、帧内运动模糊、空间可变点扩散函数、非理想采样等内容,具有很强的先验约束能力, 现研究较多的是凸集投影(POCS)和最大后验概率估计(MAP)方法[2]。

2.2 插值运动帧补偿

通过插值运动补偿的方法是基于视频时域信息进行实现,通过运动补偿算法将视频信息中正在运动的物体插值到时域上正确的位置上,提高视频帧率,弥补视频采样设备采样帧率的限制,从而生成高质量的视频。Zhongding Jiang采用了一种光流场方法来准确预估视频帧之间的运动变化情况,同时提供了一个稳定有效的机制以检测与剔除会影响超分辨率效果的错误视频帧的匹配,从而实现视频中连续帧的图像调整与修正。该方法在应用于大量复杂动态视频序列后,证明了有效性。

2.3 机器学习

近年来,主流的视频超分辨率方法都是基于机器学习的,这类方法着重对先验知识的模型识别,通过算法去学习识别指定类别,如实验对象、场景、图像,将识别所得的先验知识应用于超分辨率中,从而得到比传统超分辨率方法更好的结果。尽管如此,基于学习的视频超分辨率无论是在理论依据或是在实践技巧上,都是以模型重建与插值运动帧补偿为指导方向的[3]。

3近年视频超分辨率发展路程

基于机器学习的视频超分辨率方法是近几年来各大计算机视觉顶级会议的热论话题,也是现阶段发展速度最快的视频超分辨率方式。视频超分辨率的发展起步较晚,几乎是在图像超分辨率发展至成熟的今日才稍有成果。这也不难理解,视频是图像基于时间的大规模扩展,对信息量与信息间相关性的研究一定程度上需要能够对一帧图像进行深入了解。

2016年6月,Armin KappelerI等人于电气和电子工程师协会(IEEE)的期刊上发表了基于卷积神经网络的视频超分辨率(VSRnet)模型,将计算机视觉中相对成熟的网络结构与运动补偿相结合,应用于视频超分辨率处理上。但是,模型VSRnet运算速率并不可观,并且不能实时处理,这很大程度上限制了模型的可塑性。

3.1 提取特征信息进行训练

非常碰巧,同年9月,Jose Caballero的团队就解决了如何快速进行超分辨率的问题。

Jose Caballero等人发现,在过往的超分辨率模型,诸如SRCNN,通常是将低分辨率(LR)图像通过上采样插值的方式,进行尺寸放大到高分辨率(HR)空间,之后在高分辨率空间上实施超分辨率(SR)操作,从而增加了计算成本;于是,该团队提出了使用亚像素卷积神经网络的实时单图像与视频超分辨率(ESPCN)模型。

ESPCN模型运用神经卷积网络(CNN) 结构,突出于低分辨率圖像空间中提取出特征图形,获得与高分辨率相同尺寸的高分辨率图像特征,并通过之后的高效亚像素卷积层的学习,将最终的低分辨率特征图转换为高分辨率图像输出。

ESPCN模型的优势在于,只在最后一层对图像尺寸做变换,前面的网络结构在运算时输入计算的是较小规模的低分辨率数据,从而降低了计算与存储器的复杂度;同时,各网络层学习目标是特征图像而不是原始图像,能够使网络学习到更好更复杂的低分辨率至高分辨率映射,从而具有更高的重建精度与额外增益[4]。

自此,提取图像特征信息进行学习训练几乎成为主流超分辨率模型的必备选择。

3.2 高效结合运动补偿

ESPCN模型在超分辨率速率上拥有着极大的提升,但是该方法仅仅是对每一帧进行处理而没有整合帧间关联信息。

整合了ESPCN与VSRnet两大模型后,Jose Caballero等人利用Max Jaderberg所提出的空间变换网络具有反映图像间映射关系这一能力,首次将空间变换网络应用于帧间运动补偿,于2017年出了结合运动补偿的实时视频超分辨率VESPCN模型,获得了很可观的输出质量。

VESPCN模型的提出后,引起了计算机视觉界的热烈讨论。在经过一定实验后,香港中文大学的Xin Tao及他的团队得到了以下三个结论:①VESPCN模型在视频帧的尺寸缩放灵活度还可以提高;②前向扭曲的运动补偿方式并非最佳方式;③对齐多帧以构建准确对应关系与有效融合图像细节的操作对高质量的输出尤为重要,

最终,Xin Tao团队提出了基于细节揭示的视频超分辨率(DVSR)模型。在适当帧对齐的基础上,DVSR模型通过亚像素运动关系恢复细节,得到视觉与数量上更加高质量的输出结果。

DVSR模型将一系列低分辨率图像作为输入并产生一个高分辨率图像,包括三个模块:运动估计,运动补偿和细节融合。运动估计模块负责帧之间的运动场估计,这部分使用的正是前文的VESPCN模型;运动补偿层利用通过运动估计所得的亚像素信息,完成实时运动补偿与分辨率增强,并形成有效的帧对齐。细节融合网络是带跳跃连接形式的编码器-解码器模块,着重于图像细节的添加与训练的加速[5]。

亚像素运动补偿层的运用,可以同时实现运动补偿与分辨率增强,值得一提的是,这在先前的工作中是分开独立处理的。同时,该层无多余参数,反向传播损失能够在场中平稳流动,从而能够有效地整合至神经网络中,在不增加额外成本的同时,得到良好的输出表现。

至此,运动补偿所得的细节成果可以被高效地融入高分辨率输出中。

3.3 帧循环处理

大部分主流视频超分辨率方法都会结合运动信息,诸如:VESPCN, DVSR框架中加入的运动补偿模块,Zhaowen Wang等人提出的时间动态自学习模块等。他们处理多帧接连处理的方法是通过卷积神经网络与运动补偿相结合,处理一批低分辨率帧以生成单个预估高分辨率帧并在整个视频上以滑动窗口方式持续该操作。

Mehdi S. M. Sajjadi等人发现,该方法使得每个输入帧会被多次处理,从而增加了计算成本; 同时,每个输出帧是独立地根据输入帧进行估计的,这将大大限制了训练模型会产生在时间上能够趋于一致结果的能力。于是,他们提出了一个端到端可训练的帧循环视频超分辨率(FRVSR)框架,在促进时间上结果一致的同时,通过每个步骤只进行一次帧扭曲来降低运算成本。该模型被录入2018年的cvpr文章中[6]。

模型包括了可训练的光流估计网络和超分辨率网络。光流估计网络负责通过相邻的低分辨率输入图像的运动流,生成映射关系图;超分辨率网络则负责某一时间帧低分辨率图像与其上一帧超分辨率图像的融合,生成该时间帧上的超分辨率,并应用于下一帧中。

FRVSR框架通过参考大量的先前超分辨率输出以有效帮助网络进行下一帧的超分辨率输出,不仅使每个输入帧只被处理一次,同时所有输出结果都趋于时间一致。同时,该训练模型框架在较大的时间范围内传播信息,而无须增加计算量。

3.4 递归反投影以实现多路径结合

超分辨率的发展形势趋近于:新的模型都基于在已有模型的改进,这使得网络主体框架的类型并没有改变。Muhammad Haris的团队经过总结,将已有的超分辨率网络分为三类:①预定义增采样:预定地将图像增采样至特定尺寸,一定程度上引入了噪声;②单一增采样:仅在最后一步进行增持采样,可能无法学习到复杂的映射;③逐步采样:在网络层中间断插入增采样层,例如LapSRN框架,这会受低分辨率特征的限制; 并在这三类网络以外,于2018年提出了使用迭代增减采样的深度反投影超分辨率网络(DBPN)。DBPN框架允许保留部分高分辨率内容,在庞大的训练集下,获得了较好的成果[7]。

该团队清楚地知道,基于循环网络(RNN)的视频超分辨率,无论是否进行明确的帧对齐,多帧的同时处理会使得训练成本大大提高。并且,构造出能够对所有视频帧中内容所包含的微妙或显著运动变化进行精确观察的循环网络绝非易事。尝试整合FRVSR模型的优势之后,Muhammad Haris等人改进了原有模型,于2019年提出了循环反投影网络(RBPN)。

RBPN的操作可分为三个阶段:基于运动流的特征提取、整合多路径细节信息的多重投影以及根据多重投影所得的高分辨率特征信息而进行的超分辨率重建。RBPN创新点在于,将单图片超分辨率和多图片超分辨率集成在一个统一的超分辨率框架中:单图片超分辨率和多图片超分辨率从不同路径的资源中提取缺失的细节信息:单图片超分辨率提取表示目标帧细节的各种特征图、多图片超分辨率从其他帧提供多组特征映射,并通过用于视频超分辨率的循环神经网络以时间顺序迭代地更新这些不同的路径源,最终通过反投影合并在单图片超分辨率和多图片超分辨率路径中提取的细节,因而生成更佳的训练效果[8]。

4结束语

现阶段基于机器学习的视频超分辨率主流框架是卷积神经网络与循环神经网络的结合。视频超分辨率方法的研究是在单张图像与多张图像超分辨率方法的基础上进行改进,使模型能够提取空间与时间上的细节特征并进行融合。每个新的构架会利用优秀的旧框架进行延伸与改进而得,在未来有着极大的发展前景。

参考文献

[1] Shi W,Caballero J ,Huszár,Ferenc,et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J]. IEEE CVPR,2016,(1):1874–1883.

[2] Kappeler A,Yoo S, Dai Q, et al. Video Super-Resolution With Convolutional Neural Networks[J]. IEEE Transactions on Computational Imaging,2016,2(2):109-122.

[3] Tao X,Gao H,Liao R,et al. Detail-revealing Deep Video Super-resolution [J]. IEEE International Conference on Computer Vision(ICCV),2017,(1):4482-4490.

[4] Liu D,Wang Z,Fan Y,et al. Robust Video Super-Resolution with Learned Temporal Dynamics[C]. 2017 IEEE International Conference on Computer Vision (ICCV),IEEE,2017:1-7.

[5] Sajjadi M S M,Vemulapalli R,Brown M . Frame-Recurrent Video Super-Resolution[J]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018,(1):6626–6634.

[6] 張晓玲,沈兰荪.超分辨率图像复原技术的研究进展[J].测控技术,2005,24(5):1-5.

[7] 苏衡,周杰,张志浩.超分辨率图像重建方法综述[J].自动化学报,2013,39(8):1202-1213.

[8] 王勇,郑辉,胡德文.视频的超分辨率增强技术综述[J].计算机应用研究,2005,22(1):4-7.

作者简介

许倬维,池漫钊,蔡文康,罗金涛均为深圳大学在读本科生,多次获得美国数学建模大赛奖项,跟随导师王妙辉进行计算机视觉方面的研究学习。

猜你喜欢
近况
近况自遣
管理信息系统的近况及未来发展趋势
浅析电子信息工程的发展
小学生国学教育调查及兴趣培养研究
初中语文作文教学现状与提高策略
体育社团活动在黑龙江省高校的开展现状研究
罐头食品的近况、技术进展和存在的问题分析