基于先验信息的图像逆问题研究

2021-08-06 08:23张登银

计算机工程与应用 2021年15期

关键词：分析模型先验重构

陈灿，周超，张登银

1.南京邮电大学物联网学院，南京 210003

2.南京邮电大学通信与信息工程学院，南京 210003

从数学上讲，成像系统可以刻画为一个函数F(⋅)：X→Y，该函数将图像空间域X映射到观测空间域Y。因此，经由给定成像系统观测而来的退化图像或测量值y∈Y可以通过下式进行表示：

其中，ε为噪声，∈X为原始图像。图像逆问题聚焦于从经由给定系统观测而来的退化图像或测量值y中重构原始图像，即y→，是图像信号处理领域的研究热点之一，被成功应用于诸如图像去噪、图像超分辨率和图像压缩感知等低级视觉应用。

原始图像与重构图像x*之间的误差一般可以通过某种衡量标准H(,x*)来度量。然而，由于无法获得原始图像，故H(,x*)实际无法求得，因此退而求其次，将H(,x*)弱化为H(x*)，通过测量域的误差间接度量：

值得注意的是，公式（2）采用了最小二乘构建度量标准，这只是诸多度量标准之一。通过最小化重构误差即可获得重构图像：

然而，该最小化问题为欠定问题，即一个问题对应着多个解，并且对输入数据尤为敏感。传统求解方法通过引入先验信息，将上述无约束最优化问题转化为带约束的优化问题，再通过迭代求解重构信号，该类方法也被称为基于分析模型的方法。近年来，人工智能的发展推动了该领域从基于分析模型的方法到基于深度学习的方法的演变，深度学习已被成功应用于图像逆问题。然而，无论是基于分析模型的传统方法还是基于深度学习的非传统方法，充分利用先验信息是成功求解图像逆问题的关键。

信号或其特征的某些固有性质被称为先验信息。研究者围绕先验信息进行了广泛的探索，提出多种手动设计的先验信息，例如，稀疏先验[1-4]和去噪先验[5-6]等。然而，这些手动设计的先验信息在表征具体应用场景时过于笼统。为了更好地表征具体应用场景的先验信息，研究者提出利用深度学习的方法，从具体任务的训练数据中自适应地学习先验信息。

在过去的几十年中，研究者对图像逆问题进行了广泛的探索，取得了一定的成果，但仍面临着诸多挑战[7-9]。本文创新性地从如何利用先验信息求解图像逆问题的角度出发，将领域的研究过去、现状总结归纳为以下三类（如图1 所示）：基于分析模型的方法、基于深度学习的方法和混合分析模型和深度学习的方法。然后，对三类方法进行简洁的分析对比，展望未来的研究方向。

图1 图像逆问题研究现状总览Fig.1 Overview of state-of-the-art methods in image inverse problems

1 基于分析模型的方法

基于分析模型的方法通过分析物理过程设计该领域明确的先验信息S(x)，以正则化的方式引入S(x)，将式（3）转化为一个带约束的优化问题：

通过迭代求解该优化问题，从退化图像或测量值中重构原始图像。从贝叶斯的角度理解，式（4）等价于求解一个最大后验估计问题：

其中，p(y|x)为y在给定x情况下的条件概率，通常也被称为似然概率，p(x)为x的先验概率。在实际应用中，通常在式（4）的基础上引入正则化参数λ＞0 来平衡H(x)和S(x)对解的影响：

值得注意的是，H(x) 独立于S(x)，且仅与成像系统F(x)有关，而S(x)仅与具体应用场景的明确先验信息有关。求解式（6）主要有两类算法，直接求解法和变量分离求解法。

如图2 所示（I(⋅)代表一次迭代求解），直接求解法通过迭代求解式（6）直接进行重构。基于梯度下降的思想，文献[10]提出迭代阈值收缩算法（Iterative Shrinkage Thresholding Algorithm，ISTA），该算法在每次迭代中采用阈值进行Landweber 迭代。文献[11]在ISTA 算法的基础上，结合Nesterov 加速策略，提出了快速迭代阈值收缩算法（Fast Iterative Shrinkage Thresholding Algorithm，FISTA），进一步提升了算法的收敛速度。相类似的，文献[12]基于概率图思想，通过状态演化预测下次迭代，并通过软阈值迭代进行相关去噪，提出近似消息传递算法（Message Passing Algorithm，AMP）。在AMP算法的基础上，文献[13]提出D-AMP算法，该算法在迭代过程中通过利用适当的Onsager 校正项，迫使每次迭代中的信号扰动接近白高斯噪声，再利用去噪器进行去噪。

图2 直接求解法Fig.2 Direct methods

为了进一步加速算法的收敛，研究者提出利用分离变量算法将单变量的优化问题转化为多变量的优化问题，再利用直接求解法迭代求解子优化问题获得重构图像，该类方法被称为变量分离求解法。以文献[14]为例，首先将式（6）进行改写，将单变量的优化问题转化为两个变量的优化问题：

再利用交替方向乘子法（Alternating Direction Method of Multipliers，ADMM）[15]将上述优化问题转化为两个子优化问题：

其中，β为惩罚参数，u为对偶变量。相类似的，文献[16]和文献[17]分别提出NLR-CS 算法和TVAL3 算法用于解决图像压缩感知问题。除了采用ADMM算法划分子优化问题之外，文献[18]和文献[19]分别提出利用半二次方分裂算法（Half Quadratic Splitting，HQS）和分离布雷格曼迭代算法（Split Bregman Iteration，SBI）[20]将原优化问题转化为两个子优化问题，最后利用直接求解法迭代求解两个子优化问题获得重构图像。

基于分析模型的方法具有可解释的先验信息，但是由于需多次迭代求解才能获得较为理想的重构结果，重构效率较低。除此之外，这些手动设计的先验信息并没有利用潜在的训练数据，在表征具体应用场景时过于笼统，效果有限。

2 基于深度学习的方法

得益于优化算法，硬件和大数据的发展，过去十年见证了深度学习的革命。随着深度学习在计算机视觉任务上的成功应用，研究者开始致力于利用深度学习解决图像逆问题。与基于分析模型的方法不同，基于深度学习的方法无需利用明确的先验信息建立模型，而是将重构问题建模成一个带参数的网络，通过最小化损失函数L(⋅)，优化目标参数，从训练数据中自适应挖掘先验信息。根据优化目标参数的不同，可以将基于深度学习的方法分为基于判别模型的方法和基于生成模型的方法两类。

如图3所示，基于判别模型的方法旨在直接构造一个判别网络，将输入退化图像或测量值y直接映射到输出原始图像x，是对条件概率p(x|y)直接进行建模，以网络的参数θ作为优化对象：

图3 基于判别模型的方法Fig.3 Discriminative model-based methods

如何构建具体的网络框架，优化参数θ，是该类方法的研究重点。文献[21]首次提出利用多层感知器（Multilayer Perceptron，MLP）进行图像去噪，获得了与传统方法相当的性能。相类似的，文献[22]首次提出利用堆叠去噪自编码器（Stacked Denoising Autoencoder，SDA）作为无监督的特征学习器，让网络自适应地从训练数据中学习信号的结构信息，进行图像压缩感知重构。在文献[21]的基础上，文献[23]提出在去噪网络之前进行线性均值平移处理，能够有效增强去噪网络的鲁棒性。MLP 理论上具有逼近任意函数的能力，但是往往需要建立足够大的网络，高维的参数给优化和存储带来了巨大的挑战。卷积神经网络（Convolutional Neural Network，CNN）利用卷积层替换全连接层，能够有效减少参数规模，捕获图像的局部相似性，被广泛应用于视频图像处理。针对图像压缩感知问题，文献[24]提出一种名为ReconNet的网络，先利用该网络进行初始重构，再利用去噪器进行后处理得到最终的重构结果。在此基础上，文献[25]结合残差模块，提出一种名为DR2-Net的深度残差卷积神经网络，进一步提升了重构质量。自编码器（Autoencoders，AE）作为另一种网络框架，由编码器和解码器两部分组成，能够通过自监督训练，学习信号的特征表示。文献[26]首次提出利用AE获得的信号特征表示进行图像去噪。在此基础上，文献[27]通过堆叠多个AE，并对参数进行稀疏约束，进一步提高了图像去噪的效果。相类似的，文献[28]利用AE 进行压缩感知的医学图像重构，有效提高了重构效率。相比于MLP、CNN 和AE，循环神经网络（Recurrent Neural Network，RNN）更适合于处理顺序信号。针对多测量向量问题，文献[29]提出利用RNN捕获稀疏向量之间的未知依赖关系。相类似的，文献[30]将CNN 和RNN 进行结合，构建了一个端到端的网络，充分挖掘视频图像序列的时空相关性。

基于判别模型的方法尽管重构图像具有较高的峰值信噪比，但缺乏自然真实感。研究者结合判别模型和生成模型提出了生成对抗网络（Generative Adversarial Network，GAN）[31]，该网络利用对抗博弈思想进行训练。训练结束后，生成模型就能够将其输入空间中的任何点转换为一张真实可信的图像。因此，基于生成模型的方法成为研究的热点。如图4所示，基于生成模型的方法旨在构造一个生成网络，将隐变量的分布映射到目标数据的分布。值得注意的是，区别于基于判别模型的方法，基于生成模型的方法将研究重点从优化网络参数θ转移至优化隐变量z，往往采用预训练好的现有网络模型，以隐变量为优化目标参数：

图4 基于生成模型的方法Fig.4 Generative model-based methods

文献[32]首次提出利用生成模型解决图像压缩感知问题，并验证该模型相比于分析模型更能准确地表征数据的分布，并且其可微性能够允许快速重构。在此基础上，文献[33]将测量过程整合进生成对抗网络中，提出一种名为AmbientGAN的生成对抗网络。文献[34]提出深度网络在未经过任何学习之前就能捕获先验信息，也就是说，先验信息可能并不是从大量的训练数据中学习而来，而是存在于网络的架构中，该种先验信息被称为深度图像先验。因此，文献[35]首次提出同时优化网络参数与隐变量进行图像重构：

相类似的，文献[36]提出同时优化网络参数与隐变量进行视频重构，并提出一种正则化策略，有效提高了重构质量。

通常情况下，深度网络具有多层结构，包含大量参数，因此能够学习难以明确建模的复杂映射。当具有足够的训练数据和足够大的模型规模时，这种深度网络能够建模难以表征的应用场景。值得注意的是，深度网络将重构复杂度转移到了训练阶段，因此重构效率较高，能够满足实时应用需求。随着现代平台针对诸如卷积之类的特殊运算进行了高度优化，该类方法的流行程度达到了一个新的高度。然而，该类方法的可解释性较差。

3 混合分析模型和深度学习的方法

尽管基于深度学习的方法能够从训练数据中自适应挖掘先验信息，但是这种自适应的先验信息可解释性较差，而可解释性不论在理论还是实践中都十分重要，是推进概念理解和网络框架发展的关键。因此，相比于基于分析模型的方法，缺乏可解释性限制了基于深度学习的方法的发展。如何将领域先验信息转移至深度网络至今仍是一个非常具有挑战性的开放问题。为了提高网络的可解释性，充分挖掘先验信息，研究者提出混合分析模型和深度学习的方法。该类方法分为直接展开法和黑盒法两类。

如图5所示，直接展开法将分析模型方法中的每次迭代求解过程展开为网络的一层，再堆叠这些层构建一个深度网络，最后利用训练数据自适应地学习其参数。展开后的深度网络等效于执行有限次数的迭代求解。文献[37]首次提出将ADMM 算法的迭代求解过程（即式（8））进行展开，在此基础上，文献[38]提出一种名为ADMM-CSNet的网络用于核磁共振压缩感知重构。相类似的，文献[39]将ISTA 算法的迭代求解过程进行展开，提出一种名为LISTA的网络。区别于基于分析模型的方法，该类方法将预先设定的参数（例如，正则化参数）转化为深度网络的参数，从实际的训练数据中直接学习获得。并且，相比于传统的深度网络，该种深度网络的参数更少，更易学习。

图5 展开法Fig.5 Unrolling methods

除此之外，研究者提出利用深度网络作为“黑盒”嵌入基于分析模型的方法中执行某些功能。文献[40]提出利用深度网络替代FISTA 算法中的近似投影。文献[41]将预训练的生成网络作为先验信息切入分析模型的迭代优化求解。相类似的，文献[42]提出利用生成网络替代正则化的近似投影。文献[43]将D-AMP 算法进行展开，并用卷积神经网络替代D-AMP 算法中的去噪器，提出一种名为L-DAMP的网络。

混合分析模型和深度学习的方法可以自然地解释为基于分析模型的方法，从而解决了深度网络缺乏可解释性的问题。

4 方法的对比分析

基于分析模型的方法通常由预设的先验信息构成，可解释性较强。预设的先验信息使得基于分析模型的方法能够在预设的场景中具有较好的表征能力，但在其余场景中的表征性能有限。并且，由于需多次迭代求解才能获得较为理想的重构结果，重构效率较低。

基于深度学习的方法通常由大量的可训练参数组成，跨越了函数搜索空间中很大的子集，理论上具有最强的表征能力。并且，该类方法将重构复杂度转移到了训练阶段，重构效率较高，能够满足实时应用需求。尽管该类方法通常被认为能够从数据中或者网络框架中挖掘先验信息，但是依旧缺乏可解释的先验信息。

混合分析模型和深度学习的方法属于上述两类方法的折中，同时具备较好的可解释性和重构效率。该类方法通常由相对少量的可训练参数组成，跨越了函数搜索空间中相对较小的子集，具有一般的表征能力。

综上所述，表1 归纳总结了三类方法在表征能力、重构效率和可解释性三个方面的对比。表2 展示了TVAL3 算法[17]、NLR-CS 算法[16]、SDA 网络[22]、ReconNet网络[24]、L-DAMP网络[43]和ADMM-CSNet网络[38]在图像压缩感知的应用场景中的实验性能对比。该结果从近期发表的文献中选取，更多信息详见文献[38]。不难看出，在重构效率方面，相比于基于分析模型的方法，基于深度学习的方法和混合分析模型和深度学习的方法具有更高的重构效率，其原因在于该两类算法将重构时间复杂度转移至了训练阶段，在测试阶段直接利用前向模型即可获得重构信号。然而，尽管理论上基于深度学习的方法具有最高的表征能力，相比于其余两类方法，该类方法的性能优势并未充分展现，其原因主要有：（1）缺乏可解释的先验信息和网络框架设计；（2）现有设备难以支持大规模网络的训练与部署；（3）现有网络泛化性较低；（4）网络鲁棒性较低难以训练。

表1 方法的特征比较Table 1 Feature comparison

表2 图像压缩感知方法对比Table 2 Comparison of image compressive sensing

5 未来的研究方向

基于深度学习的方法因具有最高的表征能力受到了研究者的广泛关注。针对上述问题，在近几年的顶级会议上，例如，CVPR、ICCV和ECCV等，每年都有10篇以上的研究发表，指引了未来的研究方向。

5.1 融合先验信息的深度网络设计

充分利用先验信息是成功求解图像逆问题的关键。基于深度学习的方法通常被认为能够从训练数据中自适应地挖掘先验信息，然而文献[34]提出先验信息可能并不是从大量的训练数据中学习而来，而是存在于网络的架构中。尽管混合分析模型和深度学习的方法提供了一种融合先验信息的网络设计方式，该类方法易受分析模型的误导，收敛至局部最优。因此，如何进一步融合先验信息设计具体的深度网络是未来的研究方向之一。并且，针对特定深度网络的性能界限理论分析有待进一步探索。

5.2 轻巧高效的深度网络设计

基于深度学习的方法通常由大量的可训练参数组成，理论上具有最强的表征能力。然而，大量的参数不仅增加了训练的难度，更对存储空间提出了更高的要求，限制了其在资源受限的场景中的应用。因此，如何设计轻便高效的深度网络，促进深度网络的具体应用部署，是未来的研究方向之一[44-46]。

5.3 泛化性的深度网络设计

在实际应用中，基于深度学习的方法即使面对同一应用场景，参数的改变（例如，图像超分辨率应用中的退化系数），都需要单独设计对应的深度网络，并重新进行训练，需要花费很高的学习成本。因此，对于泛化性深度网络设计的研究必不可少[47-48]。

5.4 鲁棒性的深度网络设计

尽管基于深度学习的视频压缩感知重构方法能挖掘训练数据中潜在的信息，该类方法易受模型假设、训练崩塌和训练数据偏差的影响，重构鲁棒性较差，进而导致重构图像包含错误的特征，严重影响图像的重构质量。针对这个问题，研究者提出了一些解决方法[34-35，49-50]，然而这些方法在测试时仍需迭代优化网络的参数或者隐变量，重构效率相对较低。因此，如何在提高视频重构鲁棒性的同时，保证视频的重构效率，是一个重要的研究问题[51-52]。

6 结束语

随着国家将人工智能提升为国家战略并发布《新一代人工智能发展规划》，人工智能的研究迎来了新的热潮。深度学习的发展推动了图像逆问题领域从基于分析模型的方法到基于深度学习的方法的转变。在近几年的顶级会议，例如，CVPR、ICCV 和ECCV 等，每年都有10篇以上的研究发表。现有相关综述研究侧重于介绍具体的深度网络，而忽略了如何利用先验信息。因此，本文创新性地从如何利用先验信息求解图像逆问题的角度出发，归纳总结了该领域的研究现状，并对不同方法进行对比分析，最后展望了未来的研究方向。