融合美感注意力的图像美学评估算法＊

2023-03-21 02:21汪一，周玉，康凯

计算机时代 2023年3期

汪一，周玉，康凯

(1.江苏师范大学科文学院，江苏徐州 221132；2.中国矿业大学信息与控制工程学院；3.徐州市第一人民医院)

0 引言

图像美学评估是指通过构建数学模型来描述人眼对于图像美学的感知特性，从而使计算机具备和人类相似的图像美感判断能力的技术。其研究成果在图像搜索、相片分类、图像智能剪裁和图像质量优化等领域具有非凡的应用价值，因此该研究是国内外前沿的研究方向。

初期的图像美学评估方法主要通过设计手工特征来描述摄影师拍摄过程中采用的常规技巧。这类方法逻辑清晰、容易理解，但是手工特征表达能力的有限性制约了此类方法的准确性，具体为：①摄影技巧抽象且繁杂，难以通过手工特征进行准确描述；②手工特征彼此间相关性强，会造成语义的高耦合。基于此，研究人员开始采用一些描述自然图像特性的通用特征来进行美学评估。与手工特征相比，这类特征的美学评估能力更好，但是它们不是专门为图像美学任务设计，因此评估的准确性仍有非常大的提升空间。

数十年来，随着卷积神经网络（Convolutional Neural Network，CNN）的兴起，各领域开始采用CNN 进行相关研究[1,2]。在图像美学评估领域，起初仅采用CNN进行简单特征提取，然后采用机器学习的方法从特征中学习分类模型。该类方法未充分利用CNN 强大的信息挖掘能力，因此逐渐被基于端到端训练的美学评估模型取代。然而，尽管现有的端到端评估模型相比以往模型取得了较大进展，但它们仍不能较好描述人类视觉系统对图像美学的判断过程，从而不能全面描述图像美学特征，无法精确构建美学评估模型。

1 算法思想

本文针对现有算法存在的不足，提出了采用弱监督学习的思想提取图像美感注意力进行美学评估的算法。该算法包括深度特征提取、美感注意力提取和美学分数预测三个模块。其中，深度特征提取模块采用主流的深度CNN（Deep CNN,DCNN）网络实现，以提取与图像美感相关的高层次特征。在此基础上，进一步设计美感注意力提取模块和美学分数预测模块。其中美感注意力模块采用弱监督学习的方法，通过训练图像美感分类模型来实现，以模拟人眼在感知图像美学时的特性。该方法还能克服目前美学评估数据集中缺少美感注意力标签的问题。美学分数预测模块是在将美感注意力特征与深度特征进行交叉融合的基础上构建。最后，将整个模型在公开的图像美学评估数据集上进行训练，得到最终的美学评估模型。

2 算法框架

本文算法的流程图如图1所示。

图1 本文算法框架图

2.1 深度特征提取模块

鉴于DCNN 强大的信息挖掘和表达能力，本文采用主流的DCNN 网络来提取深度特征。具体地，以常用的ResNet50 为例，保存原网络结构中的5 个卷积模块并去除其中的全连接层，最后一个卷积模块的输出即为提取的深度特征图d。假设每批次输入的图像数为N，对于每一幅待评估图像In(n∈[ 1,N])，将其输入该模型，均能够获得相应的深度特征图dn。

2.2 美感注意力提取模块

获得美感注意力提取模块最直接的方法是搭建网络模型，在含有美感注意力标注的数据集上进行训练。然而目前的图像美学评估数据集未提供该标注，因此该方法并不可行。为此，本文采用弱监督学习的思想实现无需美感注意力标注仍能学习出美感注意力提取模型的目标。首先，使用数据集中已有的美学分类标签进行监督，实现美学分类预测模型的训练。之后，借助训练好的模型捕捉与美学相关的注意力特征。构建美学分类任务模型的方法为：在深度特征提取模块的最后一层卷积层获取的深度特征图dn上，进行全局平均池化（Global Average Pooling，GAP）操作实现特征降维。然后，采用全连接层（Fully Connected,FC）进行美感二分类。在AVA[3]数据集上进行分类模型的训练。本文采用交叉熵损失进行监督学习：

其中，aj和bj分别为第j张训练图像的美学标签值和本文分类预测网络输出的美学分数。

训练好美感分类模型后，借助类激活图的方法从该模型中GAP 操作的输出获取美感注意力图。对于第n张输入图像In，其美感注意力特征图记为An。该注意力特征图能够反映图像中不同区域内容对图像美感影响的高低。

2.3 美学分数预测模块

为了模拟人类视觉系统对美学感知的特性，采用交叉融合的方法将输入图像In对应的深度特征图dn和美感注意力特征图An进行融合。该融合模块的结构如图2所示。

图2 交叉融合方法图

首先，对dn与An实行交互操作，即利用dn(An)dn生成An(dn)的权重系数。生成权重的过程通过Sigmoid激活函数实现：

将求得权重先与特征相乘，然后与原特征求和，以实现特征的充分融合：

其中，σ为激活操作，An和dn表示美感注意力特征和深度美学特征。之后，对与进行拼接和1×1卷积，实现特征的交叉融合。该融合方法可以提取更有效的图像美学特征。

最后，采用GAP 和FC 进行分数预测。该模块训练时的损失函数为：

3 实验与结果分析

3.1 模型参数和测试数据集

美感注意力提取模块采用EfficientNet作为主干网，初始化参数为在ImageNet 数据集上的预训练参数，优化器选择Adam；批处理数为32；学习率为1×10-3，每十轮次下降0.1倍，小于1×10-5时停止训练，权重衰减参数和动量为5×10-4和0.9。美学分数预测模块采用ResNet/EfficientNet 作为主干网，批处理数为40/64；优化器为Adam；学习率为1×10-4，每十轮次下降0.1倍，小于1×10-7时停止训练；权重衰减参数和动量为1×10-5和0.9。

本文采用AADB[3]和AVA[4]两个主流的美学评估数据集进行性能测试。其中，AADB 数据集共有10，000张图。每张图像有一个整体美学分数标签和11种属性分数标签。AVA 数据集共有255，530 张图，每张图像有一个美学分数标签。

3.2 算法性能分析

表1 展示了本文算法和现有美学评估算法[5-7]在AADB 数据集上的实验结果，“—”表示结果未在原文给出。如表1 所示，在现有方法中，方法[6]获得了最大的PLCC 和SRCC 值及最小的RMSE 值，而本文方法采用ResNet-101 作为主干网时，性能均优于方法[6]。表2通过与现有算法[8-12]在AVA数据集上的对比试验，同样展示了本文算法具有最优性能。综上，本文算法具有最优越的图像美学评估性能。

表1 各方法在AADB数据集上的实验结果

表2 各方法在AVA数据集上的性能

为进一步验证美感注意力特征对算法性能的贡献，表3 展示了采用ResNet101 和EfficientNet 作为主干网时，本文算法在融合美感注意力特征前后的性能值。结果表明，无论选用哪种主干网，融合注意力特征后都比融合前的性能好很多。这说明本文提出的美感注意力提取模块的有效性。

表3 各主干网在添加美学注意力前后的性能对比

图3 展示了本文美感注意力提取方法的效果。第一行是原图像，第二行是提取的美感注意力图。从图3可以看出，本文方法获取的美感注意力图与人眼判断图像美感时的感知特性具有较高一致性。例如，当观察第一幅图时，人主要会关注女性的上半身，本文方法输出的结果与其一致，其他图像均可得到相同结论。

图3 美感注意力可视化图

4 结束语

本文提出了一种融合美感注意力的图像美学评估算法，该算法可更好模拟人类视觉系统对图像美学的判断过程。该算法首先采用弱监督学习的方法获取美感注意力特征，然后将其与深度特征交叉融合。实验结果表明，该算法能够更准确的做出图像美学评估，在图像检索和排序、智能剪裁和质量优化等方向具有广阔的应用前景。下一步工作中，将通过建立含有美感注意力标签的数据库来训练更加准确的美感注意力提取模型，以进行更准确的美学评估。