卢克斌,殷守林
摘要:情感識别是计算机视觉研究中的一个热点,研究中国画表现的情感对于作品鉴赏工作具有重要意义。为了提高识别性能,针对传统卷积神经网络用于提取中国画的局部区域信息会导致有效信息丢失的问题,文章提出一种基于端到端弱监督学习网络方法对中国画情感进行识别。提出的学习网络由2个分类模块和1个情感强度预测模块组成。首先,在改进特征金字塔网络的基础上构建强度预测通道,提取多层次特征。使用基于梯度的类激活映射技术从第一个分类通道生成伪强度映射图,以指导提出的网络进行情感强度学习。将预测的强度图输入到第二分类通道中进行最终的中国画情感识别。最后,在公开数据集上对提出的方法进行了验证,实验结果表明,所提出的网络就混淆矩阵、平均分类准确率、平均情感识别率分别提高了10%,15%和13%。
关键词:中国画情感识别;端到端弱监督学习网络;情感强度图;基于梯度的类激活映射
DOI:10.15938/j.jhust.2022.01.010
中图分类号: TP399 文献标志码: A 文章编号: 1007-2683(2022)01-0069-10
Chinese Paintings Emotion Recognition Based on Endtoend
Weakly Supervised Learning Network Model
LU Kebin1,2,YIN Shoulin3,4
(1College of Applied Engineering, Henan University of Science and Technology, Sanmenxia 472000, China;
2Sanmenxia Polytechnic, Sanmenxia 472000, China;
3School of Electronics and Information Engineering, Harbin Institute of Technology, Harbin 150001, China;
4Institute of Imaging and Information Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract:Emotion recognition research is a hot spot in computer vision, and the study of Chinese painting emotion is of great significance to the appreciation of works In order to improve the recognition performance, the traditional convolutional neural network used to extract local information of Chinese painting will lead to the loss of effective information. Therefore, the endtoend weakly supervised learning network is proposed to recognize the Chinese painting emotion The proposed learning network consists of two classification modules and one affective intensity prediction module First, the intensity prediction flow is constructed on the basis of improved feature pyramid network to extract multilevel features The gradientbased class activation map technique is used to generate pseudointensity maps from the first classification stream to guide the emotional intensity learning of the proposed network The predicted intensity map is input into the second classification stream for the final Chinese painting emotion recognition Finally, the proposed method is verified on the open data set The experiment results show that the proposed network has improved the confounding matrix, average classification accuracy and average emotion recognition rate by 10%, 15% and 13% respectively
Keywords:emotion recognition in Chinese painting; endtoend weakly supervised learning network; emotion intensitymap; gradientbased class activation map
0引言
情感在人们的生活中起着很大的作用。研究表明,人类的情感可以通过视觉刺激唤起[1]。通过训练机器来使其理解视觉情感的应用有许多,如情感图像检索等[2]。视觉情感识别已经引起了行业和社会的大量关注。
视觉情感考虑的是人们对看到的内容的一种感受,比如图像和视频。这与目标检测、场景分类和人体动作识别等认知内容分析任务不同,后者旨在语义层面分析视觉内容。尽管视觉语义的识别已经投入了大量的研究工作,但是关于视觉情感识别的研究进展还很少。视觉情感识别的主要挑战是,情感是比视觉语义高的一种抽象层次,傳达某种情感的图像可以从不同的场景中对不同的对象和人进行拍摄,在大的类别内变换使得视觉情感推理变得极其困难[3]。
早期的研究通过设计有区别的低级和高级的手工图像特征或通过组合多类型特征或多模态特征,如视觉和文本特征来解决这一挑战[4]。在过去的几年里,深度神经网络已经成为各种计算机视觉任务中应用的主要方法。深度神经网络可以从图像中自动学习具有鲁棒性的特征,深度学习方法依赖于大量带标签的训练数据。最近,随着大规模图像情感数据集的出现,研究人员开始将深度学习方法应用于图像情感识别。文[5]的工作表明,与手工特征相比,深度学习方法在图像情感识别方面表现出更好的性能。最先进的深度神经网络,如ResNet 和ResNeXt,最初是为图像分类而开发的。虽然它们在图像情感识别方面表现出了优异的性能,但进一步提高设计特定任务的模型性能是至关重要的。
大多数现有的用于图像情感识别的数据集仅在图像级被注释。图像级标签表示图像中某个地方存在主要情感,而其他部分可能表达中性情感甚至是其他情感。图像级注释是很不可靠的。与整体图像相比,局部图像区域可能包含用于情感推断的区别性信息。有了区域信息,深层网络可以学习更具有鲁棒性的特征。文[6]表明,使用区域信息有助于提高情感识别性能。但缺点是它们需要边界框注释,这需要大规模的工作来获得,或者需要大量的计算量过程来发现情感区域。
文[7]使用情感强度来改善视觉显著性计算。与基于区域的图像情感识别方法不同,本文利用情感强度来进一步分析。现有的方法都没有考虑过将情感强度用于视觉情感识别。手动标记情感强度图需要大量的工作,尤其是在考虑情感的主观性时。在本文中,通过弱监督情感强度学习来解决这个问题。
现有的研究一般从使用图像标签训练的分类卷积网络中提取图像的显著图。文[8]提出了一种使用带有预训练分类卷积网络的单次反向传播来计算图像特定类别显著图的方法。这是第一个仅使用图像级注释来获得用于定位感兴趣对象的注意力图的工作。文[9]的工作表明,类激活映射(CAM)技术可以定位深层网络中用于标识其类别的区分性图像区域。CAM技术已用于为弱监督目标检测和弱监督语义分割提供帮助[10],并且已经获得了具有广阔前景的结果。但是,CAM将卷积神经网络(CNN)的分类器替换为GAP+类别数目大小的全连接层后重新训练模型,大大增加了时间消耗。而基于梯度的类激活映射(GradCAM)解决了这个问题,不需要替换最后的分类器后再重新训练模型。
在现有的视觉情感分析研究中,通过2种方法来标注情感:基于分类的方法和基于维度的方法。在维度方法中,情感在一个连续的空间中被标记。与维度方法相反,在分类方法中,情感被标记为许多离散的基本人类情感类别。基本的情感类别通常是根据心理学研究来选择的,例如,正如关于人类对静止图像判断的研究报告所述,有6种基本情感,即愤怒、厌恶、恐惧、快乐、悲伤和惊讶,还有相关的情感层次模型。与维度方法相比,分类方法很容易理解,因此在许多研究中已被采用[11]。
早期对图像情感识别的研究主要是在小数据集上进行的,例如IAPS数据集和艺术照片。为了模拟图像的情感内容,基于心理学和艺术理论提取低级和中级图像特征,如文[12-14]。除了低级和中级特征之外,还引入了高级特征用于情感分析。例如,Yuan等[15]提出了用于图像情感分析的Sentribute方法。在Sentribute方法中,图像被表示为102个预定义属性特征的响应图。Borth等[16]提出了由1200个语义概念分类器组成的感知库,用于检测视觉内容中的情感和情绪。
与手工特征相比,深度神经网络学习的特征具有很高的区分度。近年来,深度神经网络在各种计算机视觉任务中取得了成功。王伟凝等[17]提出了一种基于深度卷积神经网络的视觉情感分类方法。实验表明,基于CNN的方法在图像情感标注和检索方面明显优于基于支持向量机(SVM)的方法。在文[18]中,提出了用于联合情感分类和情感分布回归的多任务框架。该框架有助于解决难标注情感标签图像的问题。在文[19]中,作者提出了一个统一的CNNRNN模型,其中从CNN中提取多级特征,然后通过双向递归神经网络(RNN)进行集成。考虑到多级特征,CNNRNN模型有效地提高了识别精度。在该方法中,对于一个输入图像,需要处理数千个候选区域,这是比较耗时的。尽管该网络仅使用帧级标签进行训练,但它需要在标注有区域信息的数据集上进行预处理。
与卷积网络衍生的方法相反,假设强度图可以直接从输入图像中推断出来。旨在利用情感强度学习来提高图像情感识别性能。基于这种假设,本文提出了一个端到端的深度神经网络,其包括3个模块,即第一分类模块、情感强度预测模块和输出最终情感识别结果的第二分类模块,同时输出情感强度图和情感识别结果。
1提出的情感识别方法
本文的目的是利用情感强度学习提高图像情感识别性能。与基于CNN的方法不同,提出的方法直接从输入图像预测情感强度。该新型网络流程如图2所示。该网络包括3个模块:第一分类模块、情感强度预测模块和第二分类模块。将预测的情感强度图集成到第二分类模块中进行最终的情感识别。该网络可以以端到端方式进行训练。
本文的主要贡献如下:
1)采用GradCAM技术从第一分类模块生成伪强度图,以指导所提出的用于情感强度学习的网络。
2)采用改进特征金字塔网络(FPN)从输入图像中提取多级特征。
3)预测的情感强度图被第二分类模块用于最终的情感识别。该网络采用多任务损失函数进行训练。协同训练这3个模块以提高整体性能。
提出的网络总体流程图如图1所示。
由于大多数数据集只有图像级的标注,本文使用伪情感强度映射的弱监督学习对情感强度学习网络进行训练。在下面的小节中,首先介绍生成伪强度图的方法。然后,詳细介绍新型端到端网络结构的细节及训练网络的损失函数。
1.1伪强度图的生成
由于显著性图可以从预先训练好的CNN中提取出来。在本研究中,使用第一分类子网络的显著性图作为伪情感强度图来指导所提出的网络进行情感强度学习。
采用GradCAM技术[20]生成强度图。采用深残差网络(ResNet)[21]作为骨干网络。ResNet由1个卷积层和4个卷积块组成,每个卷积块包含若干瓶颈层,接下来是一个全局平均池化层和一个softmax完全连接层。在实验中,使用了2种ResNet结构:ResNet50和ResNet101。全局平均池化层输出最后一个由卷积层生成的空间平均特征图。GradCAM技术通过将最后一个完全连通层的权值投影到卷积特征图来识别情感区域。类激活映射被计算为在不同空间位置的视觉模式存在的加权线性总和。感兴趣类别的类激活映射描述了网络来识别该类别的显著性区域。设类u的GradCAM记为Cu;那么,它可以定义为:
Cu(x,y)=∑kwukfk(x,y)(1)
其中:fk(x,y)为最后一个卷积层在空间位置(x,y)生成的第k个特征图的激活;w为最后一个全连通层单元k的类u所对应的权重。
得到的Cu值被重新缩放到0~255作为强度图。GradCAM方法可以为网络的每个可能输出类别生成显著性图。GradCAM方法产生的图对应于输入图像的真实标签,作为伪情感强度特征图。同时,没有使用与其他类别相对应的强度图来进行训练,因为它们会误导情感强度学习网络。伪情感强度图的值表示区域代表情绪的程度。情感强度图提供了判别局部信息,可用于提高情感识别性能。生成的强度图大小与最后一个卷积层生成的特征图大小相同。在上采样得到伪强度映射后,可以使用它们来指导所提出的网络进行情感强度映射学习。在实验中,伪强度图的值被重新调整为0~1,以用于训练。
1.2情感强度预测模块
强度预测网络建立在FPN的基础上,如图2所示,利用FPN网络可以学习多尺度语义较强特征。FPN体系结构由自下而上、自上而下和横向连接3部分组成。自底向上路径是通过前馈计算多尺度特征图的骨干网络。上层生成的特征图空间尺寸较小。在此对传统FPN做了一些改进,主要简化网络层,节省特征提取时间。选择3个卷积块的最后一个瓶颈层产生的特征映射作为特征金字塔。它们通过横向连接与自顶向下的通道相连。将选取的特征图分别用c2,c3,c4表示,则特征金字塔可表示为{c2,c3,c4}。文[18]指出,第一卷积层生成的特征图由于内存消耗较大,没有被包含在特征金字塔中。
在自顶向下路径中,对低分辨率特征图进行上采样得到高空间尺寸。由下至上路径和横向连接将空间尺度相同的特征图合并在一起。将因子为2的上采样操作(本文中使用双线性插值)应用于低分辨率特征图。然后将上采样的特征图与特征金字塔{c2,c3,c4}中相应的特征图进行元素相加合并。然后,对金字塔中的特征映射进行1×1卷积,输出通道数为256,在添加之前降低信道维数。令添加后得到的特征图用Pi表示,那么,它可以表示为
Pi=conv1×1(Ci)+Up2×(Pi+1),i=2,3,4(2)
其中Up2×为上采样特征图的2倍。P4是由侧向卷积直接产生的。经过自顶向下的路径,得到了一组特征图{P2,P3,P4}(如图2中所示),每个特征图有256个通道,分别对应于{C2,C3,C4}。然后,将{P2,P3,P4}中的特征映射连接到2个3×3卷积层的堆叠上,输出通道数为128。强度预测子网络以一个sigmoid激活层结束,用来预测情感强度图。由于没有在自上而下的路径中使用非线性转换,输出的大小是原始输入大小的1/4。
为了提高强度图预测性能,在实验中使用了2个损失函数,即对数空间均方根误差(RMSEL)和梯度损失。图3为这两个损失函数曲线图。
1)RMSEL损失。这个损失函数最初被引入深度预测。结果表明,RMSEL损失比均方根误差(RMSE)、L1范数损失和L2范数损失对情感强度预测有更好的效果。RMSEL损失函数定义如下:
LRMSEL=1N2∑Ni=1∑Nj=1(lg(pij)-lg(gij))2(3)
其中:pij和gij分别表示在空间位置(i,j)上,
GradCAM技术生成的预测强度图和伪强度图的值;N表示预测强度图的高度和宽度。
2)梯度损失。强度图f的梯度如下:
f=fx,fy(4)
其中fx和fy分别表示强度图对x和y方向的偏导数。梯度的强度特征图是通过应用2个预定义的Sobel滤波器获得的。梯度损失定义为预测强度图与伪强度图梯度之差的L1范数,公式如下:
Lgradient=1N2∑Ni=1∑Nj=1||dij-pij||1(5)
其中||·||表示L1norm,而dij和pij分别表示由GradCAM方法生成的在空间位置(i,j)的预测强度特征图的梯度和伪强度特征图的梯度。梯度损失惩罚了边缘附近的误差。
整体情感强度损失函数定义如下:
Lintensity=λ1LRMSEL+λ2Lgradient(6)
这两个损失函数对识别性能的影响将在实验部分中讨论。
1.3基于预测强度图的情感分类
将预测的强度图集成到第二分类模块中,进行最终的情感分类。将C4特征图与强度特征图相乘,对预测的强度图和C4特征的每个通道进行元素相乘。结果发现,采用C4比采用C5的效果略好。因此,本文采用C4特性。在进行元素乘法之前,先将预测的强度图调整到与C4相同的大小。获得特征映射然后与原始C4特征进行元素级融合:
C-4=IΘC4+C4(7)
其中Θ为元素乘法;I为插值后预测的强度图。这一过程可以使网络更加注意有区别的区域。C4作为输入进入到由卷积块、全局平均池化层和全连接层组成的子网中。最终分类网络中卷积层的参数与生成伪强度图的网络共享。
最后,对整个网络进行多任务损失训练:
LC=Lintensity+λ3L1cls+λ4L2cls=
λ1LRMSEL+λ2Lnormal+λ3L1cls+λ4L2cls(8)
交叉熵损失用于L1cls和L2cls2种分类损失。整个网络可以端到端进行训练。强度预测网络与分类网络协同工作。情感强度预测有助于提高分类性能。预测强度图的质量随着分类精度的提高而提高,进而有助于提高情感强度预测性能。
预测强度图的初始值如果设定为05,不利于最终的情感识别。随着分类精度的提高,预测强度图的质量逐渐提高。因此,从一开始训练强度预测网络就可以获得较好的性能。
与Faster RCNN框架类似,本文提出的图像情感识别框架包括两个阶段。在第一阶段,强度预测网络输出一个情感强度图,突出可能存在情感的区域。在第二阶段,第二分类模块从预测的强度图和CNN特征预测输入图像的情感。在没有强度预测网络的情况下,GradCAM强度图可以直接用于第二种分类网络。这种情况下,在测试时,测试图像的真实标签是未知的。因此,无法直接获得与真实标签对应的强度图。如果使用第一个分类网络生成的预测标签来生成最终分类网络的强度图,那么最终的分类性能主要取决于第一个预测结果。与此相反,本文使用强度预测网络来预测强度图。强度预测网络的性能对最终的情感分类起着重要的作用。
2实验
本节进行了大量的实验,以证明所提出的网络对图像情感识别是有效的。
2.1数据集
本文实验在3个数据集上进行。
Emotion6这个数据集包含8350張图片,这些图片是从谷歌和Flickr上下载的150000张图片中选取的。根据Ekman对人类基本情感的研究,这个数据集中的图像被标记为6种情感类别,即愤怒、恐惧、高兴、爱、悲伤和惊讶。随机选取80%的图像进行训练,剩余的图像用于测试。
FI8这个数据集是从Flickr和Instagram收集的。共有23308幅图片被标记为8种情感类别。由于一些图片在互联网上已经不存在了,实验只选取了23164张图片。80%、5%和15%的该数据集分别被用于训练、验证和测试。
WEBEmo该数据集由大约268000张从网上下载的图像组成。这是目前最大的图像情感识别公开数据集。根据Parrotts情感层次模型,本数据集的图像分别被标注为24个情感类别和6个情感类别,分别表示为WEBEmo24和WEBEmo6。数据集被分成80%训练和20%测试。
IAPSsubset,Abstract,ArtPhoto和EmotionROI。这4个数据集分别为395、228、806和1980幅图像的小数据集。使用这4个数据集来评估所提出的图
像情感分类网络。实验设置使用5倍交叉验证,并计算5种验证精度的平均值作为最终结果。
2.2具体实施
在Pytorch框架中实现了提出的网络。利用ImageNet[23]预训练的权值对本文网络进行初始化。ResNet50的λ1和λ2的值分别设置为1和10。ResNet101的λ1和λ2的值分别为05和5。λ3和λ4的值被设置为1。重量衰减值和动量值分别设定为0001和09。使用随机梯度下降(SGD)在具有4个GPU的计算机上训练了90 epoches。在Emotion6,FI8和WEBEmo的实验中,批处理大小设置为128。初始化的学习率为0001,在第30和60时刻降低了10倍。对于其余4个小尺度数据集的实验,首先在FI8数据集上预训练模型。批处理大小设置为32,初始化学习率为00001。从原始图像或原始图像的水平翻转中随机裁剪224×224的图像作为网络输入数据。对输入数据的每个通道进行归一化,使其具有零均值和单位方差。
在测试时,网络通过从测试图像裁剪出10个224×224大小的区域(4个角和1个中心,以及它们的水平翻转),并由网络的softmax层在10个patch上平均预测结果来进行预测。每个模型运行3次,平均结果作为情感识别性能的评价。
2.2.1在Emotion6上的实验结果
对Emotion6的整体识别准确率如表1所示。基于ResNet101[24]方法的网络准确率达到6053%,比ResNet101方法高出373%。与ResNet50方法相比,基于ResNet50方法的网络性能提高了477%。与AlexNet[25]、DenseNet169[26]和ResNet152[27]相比,基于ResNet101方法的网络性能分别提高了907%、325%和097%。实验结果表明,本文提出的网络能有效提高识别精度。
基于ResNet101方法的网络得到的Emotion6上的混淆矩阵如图4所示。其他类别最常与喜悦和悲伤混淆,可能是因为这两个类别比其他类别有更多的训练样本,这导致分类器预测有利于这两个类别。我们的神经网络在恐惧方面表现不佳。虽然该方法可以提高恐惧的识别性能,但整体的识别精度有所下降。
2.2.2在FI8上的实验结果
FI8的实验结果如表2所示。利用ResNet50和ResNet101作为骨干网络,分别获得了7495%和7602%的总识别准确率。图5展示了使用基于ResNet101的网络得到的FI8上的混淆矩阵。该网络在愤怒和恐惧情感时表现不佳,提出的网络对其余情感类别的识别准确率至少达到了700%。
表2还比较了提出网络的性能和最新的识别方法。基于ResNet101的网络表现比Sentibank高出300%以上。识别性能也优于其他基于深度学习的方法,如AlexNet和ResNet152。Rao等在文[27]的工作中,采用了基于多级区域的网络进行图像情感分类。本文提出的基于Lcls的ResNet101的网络通过1crop测试获得了7516%的识别精度,而Rao等基于Lcls的ResNet101的网络获得了7317%的识别精度。与Rao等相比,本文的网络在仅使用Lcls训练子网络进行最终情感识别时,性能提高了199%。Rao等人的模型必须首先在包含区域注释的数据集上进行训练,以检测情感区域。然而,现有的情感识别数据集大多没有块的注释。Rao等人的工作中,首先在含有区域标注的EmotionROI上对模型进行预训练,然后应用到其他数据集进行情感区域检测。然而,由于数据集的差异,在EmotionROI上预训练的模型可能不能很好地转移到其他数据集。与以上工作的不同之处是,提出的强度预测网络是直接在感兴趣的数据集上训练的。此外,情感强度特征图提供的信息比局部区域更详细。因此,提出的网络可以学习到更具鲁棒性的特征。
2.2.3在WEBEmo上的实验结果
分别在WEBEmo6和WEBEmo25上进行了实验,结果见表3。与基于WEBEmo6和WEBEmo25的vanilla ResNet50相比,基于ResNet50的网络性能分别提高了109%和074%。基于ResNet101的网络相比vanilla ResNet101在2个数据集上分别提高了152%和087%。基于ResNet101的网络也比传统的ResNet152获得了更高的识别精度。
图6显示了使用基于ResNet101的网络在WEBEmo25上的混淆矩阵。这些类别最常与易怒类别混淆。该网络对高兴情感的识别准确率最高,达到7624%。忽视、骄傲、愤怒、解脱、羞耻和痛苦6种类別的识别准确率均为0。识别准确率小于50%的类别有19个,表明这些细粒度情感类别难以识别。
2.2.4图像情感分类
在这一小节进一步评估了所提出的网络用于图像情感分类。图像情感分类的目标是将图像划分为具有积极情感或消极情感两部分,即图像所表达的一般态度或观点。实验在Emotion6、FI8和WEBEmo上进行。将原始标签转换为正或负,转换后的数据集分别记为Emotion2、FI2和WEBEmo2。在Abstract、ArtPhoto和EmotionROI小尺度数据集上也进行了实验。
实验结果见表4。在Emotion2和FI2上,识别准确率分别比Rao等的网络提高了198%和367%。提出的模型也比课程学习策略[28]有更好的表现。在3个小尺度数据集上,也取得了比其他方法更好的性能。实验结果表明了该网络在情感分类中的优越性。
2.2.5消融实验
在本小节中进行消融实验,以证明情感强度损失函数对情感识别性能的影响。实验在Emotion6、FI8和WEBEmo6上进行,主干网络使用ResNet101。同时给出了在Emotion6上使用ResNet50作为骨干网时的性能。结果如表5所示。在使用ResNet101作为骨干网络的实验中,RMSEL损耗在3个数据集上的表现分别比ResNet101高出261%、765%和055%。将2种损失结合使用可以进一步提高识别精度,这表明梯度损失和表面正态损失与RMSEL损失互补,可以提高识别性能。
还比较了RMSEL损失与RMSE损失,L1范数损失在Emotion6、FI8和WEBEmo6上的结果,如表6所示。L1范数损失在Emotion6上的表现优于RMSE。在其他2个数据集上,RMSE的识别精度略高于L1范数损失。与RMSEL损失相比,它们都表现出较低的性能。
2.2.6可视化证明
为了展示强度预测子网络的预测性能,将预测的强度图可视化,并与GradCAM产生的特征图进行比较。图7显示了由提出的网络和GradCAM生成的强度图预测的强度图样本。所预测的强度图很好地近似于相应的GradCAM生成的强度图。
图7显示了中间注意力结果与GradCAM生成的强度图。如图8和9所示,中国画的注意力都集中在了人们感兴趣区域,覆盖了样本的情感区域。所提出的网络在GradCAM基础上可以有效地提高整体识别精度。
3结论
在本文中,提出了一种端到端弱监督学习网络来识别画情感。该网络包括3个模块:第一分类模块、情感强度预测模块和第二分类模块。强度预测模块是建立在FPN之上的,直接从输入图像预测情感强度映射。将预测的强度图集成到第二分类模块中进行最终的情感识别。在一些基准数据集上实验验证了所提出的网络对图像情感识别和情感分类的有效性。实验结果表明,该网络比基于局部区域的方法具有更好的性能。
参 考 文 献:
[1]刘明珠,李晓琴,陈洪恒.基于支持向量机的语音情感识别算法研究[J].哈尔滨理工大学学报, 2019, 24(4): 118.
LIU Mingzhu, LI Xiaoqin, CHEN Hongheng. Research on Speech and Emotional Recognition Algorithm Based on Support Vector Machine[J]. Journal of Harbin University of Science and Technology, 2019, 24(4): 118.
[2]逯波,段晓东,王存睿,等.基于多图学习的情感图像检索研究[J].大连民族大学学报,2016, 18(05): 509.
LU Bo, DUAN Xiaodong, WANG Cunrui,et al. Affective Image Retrieval Based on Multigraph Learning[J]. Journal of Dalian Nationalities University, 2016, 18(5): 509.
[3]YANG J, SHE D, SUN M, et al. Visual Sentiment Prediction Based on Automatic Discovery of Affective Regions[J]. IEEE Transactions on Multimedia, 2018, 20(9): 2513.
[4]何乐乐. 医学图像分类中的特征融合与特征学习研究[D]. 成都: 电子科技大学, 2016.
[5]孙博文,于峰.基于深度学习的单目摄像头动态手势识别与交互[J].哈尔滨理工大学学报, 2021, 26(1):30.
SUN Bowen, YU Feng. Dynamic Gesture Recognition and Interaction of Monocular Camera Based on Deep Learning[J]. Journal of Harbin University of Science and Technology, 2021, 26(1):30.
[6]ZHANG S, ZHANG S, HUANG T, GAO W. Speech Emotion Recognition Using Deep Convolutional Neural Network and Discriminant Temporal Pyramid Matching[J]. IEEE Transactions on Multimedia, 2018, 20(6): 1576.
[7]馬媛美. 基于图像情感的视觉注视点检测算法研究[D]. 大连: 大连理工大学, 2020.
[8]MORADI R, BERANGI R, MINAEI B. SparseMaps: Convolutional Networks with Sparse Feature Maps for Tiny Image Classification[J]. Expert Systems with Applications, 2019, 119:142.
[9]王卫兵,张立超,徐 倩. 一种基于受限波尔兹曼机的推荐算法[J].哈尔滨理工大学学报,2020,25(5):62.
WANG Weibing, ZHANG Lichao, XU Qian. A Recommendation Algorithm Based on Restricted Boltzmann Machine[J]. Journal of Harbin University of Science and Technology, 2020, 25(5):62.
[10]LI Y, PEI X, HUANG Q, JIAO L, SHANG R and MARTURI N. AnchorFree Single Stage Detector in Remote Sensing Images Based on Multiscale Dense Path Aggregation Feature Pyramid Network[J]. IEEE Access, 2020, 8:63121.
[11]LEE J, KIM S, PARK J, and SOHN K. Contextaware Emotion Recognition Networks[C]// Proceedings of the IEEE International Conference on Computer Vision, 2019:1014310152.
[12]REDIES C, GREBENKINA M, MOHSENI M, et al. Global Image Properties Predict Ratings of Affective Pictures[J]. Frontiers in Psychology, 2020, 11:953.
[13]DONG Y, FAN D, MA Q, et al. SuperpixelBased Local Features for Image Matching[J]. IEEE Access, 2021, 9: 15467.
[14]刘凯, 汪兴海, 张杰. 基于深度玻尔兹曼机的图像多特征融合[J]. 舰船电子工程, 2020(1):32.
LIU Kai, WANG Xinghai, ZHANG Jie. Research of Image Features Fusion Based on DBM[J]. Ship Electronic Engineering, 2020(1):32.
[15]YUAN J, MCDONOUGH S, YOU Q, LUO J. Sentribute: Image Sentiment Analysis From a Midlevel Perspective[C]// Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. ACM, 2013: 10.
[16]KUCHER K, MARTINS M, PARADIS C. et al. StanceVis Prime: Visual Analysis of Sentiment and Stance in Social Media Texts [J]. Journal of Visualization,2020, 23:1015.
[17]王伟凝,王励,赵明权,等.基于并行深度卷积神经网络的图像美感分类[J].自动化学报,2016,42(6):904.
WANG Weining, WANG Li, ZHAO Mingquan, et al. Image Aesthetic Classification Using Parallel Deep Convolutional Neural Networks[J]. ACTA AUTOMATICA SINICA, 2016, 42(6): 904.
[18]YANG J, SHE D, SUN M. Joint Image Emotion Classification and Distribution Learning via Deep Convolutional Neural Network[C]// Proceedings of the TwentySixth International Joint Conference on Artificial Intelligence, 2017: 3266.
[19]ZHU X, LI L, ZHANG W, et al. Dependency Exploitation: A Unified Cnnrnn Approach for Visual Emotion Recognition[C]// Proceedings of the TwentySixth International Joint Conference on Artificial Intelligence, 2017: 3595.
[20]SELVARAJU R R, COGSWELL M, DAS A, et al. GradCAM: Visual Explanations from Deep Networks via Gradientbased Localization. International Journal of Computer Vision[J]. 2020, 128(2):336.
[21]ZHANG H, XU M. Weakly Supervised Emotion Intensity Prediction for Recognition of Emotions in Images [J]. IEEE Transactions on Multimedia. 2020, 23: 2033.
[22]HU J, OZAY M, ZHANG Y, OKATANI T. Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps With Accurate Object Boundaries[C]// 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019: 1043.
[23]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet Large Scale Visual Recognition Challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211.
[24]FENG T, LIU J, FANG X, et al. A DoubleBranch Surface Detection System for Armatures in Vibration Motors with Miniature Volume Based on ResNet101 and FPN[J]. Sensors, 2020, 20(8):2360.
[25]CONG B, LING H, XIANG P, et al. Optimization of Deep Convolutional Neural Network for Large Scale Image Retrieval[J]. Neurocomputing, 2018, 303:60.
[26]TEIXEIRA V, BRAZ L, PEDRINI H, DIAS Z. DuaLAnet: Dual Lesion Attention Network for Thoracic Disease Classification in Chest XRays[C]// 2020 International Conference on Systems, Signals and Image Processing (IWSSIP), 2020: 69.
[27]RAO T, LI X, ZHANG H, et al. Multilevel Regionbased Convolutional Neural Network for Image Emotion Classification[J]. Neurocomputing, 2019, 333:429.
[28]PANDA R, ZHANG J, LI H, et al. Contemplating Visual Emotions: Understanding and Overcoming Dataset Bias[C]// The European Conference on Computer Vision (ECCV), 2018:594.
(編辑:温泽宇)