程 帅 倪龙娇 胡 莹
(淮南师范学院 美术与设计学院,安徽 淮南 232038)
艺术图像是一种传达丰富情感的艺术形式。在互联网得到初步发展时,人们主要是通过艺术圈子来了解和欣赏艺术图像。随着互联网的深入发展,艺术图像呈现数字化展示,人们了解艺术信息的形式变得丰富,促进了世界各地的艺术风格交流与艺术绘画种类的发展。但艺术图像作品数量的不断增加给艺术图像分类带来了困难,因此如何有效且准确分类艺术图像是一个值得研究的问题。针对该问题,陈小娥[1]提出一种基于深度学习的图像艺术属性分类,有助于图像分类;李大湘等[2]将全局特征和局部特征进行融合,对国画图像进行了有效分类。虽然这些研究在一定程度上实现艺术图像的有效分类,但其传统的人工特征提取方法对于海量艺术图像数据来说,已不能满足实际需求,且存在标注错误、耗时耗力等问题。近年来,深度学习由于具有良好的特征提取能力及高效率特点,被广泛应用于各个识别领域。因此,结合深度学习的特点,对图像进行深层特征提取和精准分类,以此提高艺术教育质量。
卷积神经网络被广泛应用于图像特征提取方面,并取得了较好的成绩。InceptionV4中的卷积核可以有效提取图像特征,但没有对图像进行增强处理,而SE模型和SK模型具有图像增强功能,因此本研究根据SK模块和SE模块的特点,构建双核压缩激活模块(DKSE),如图1所示[3]。
图1 DKSE模块
DSKE模块由split、squeeze、excitation和scale这4个部分组成[4],通过融合提取的图像特征并进行压缩和激活处理,然后利用加权映射操作来融合特征图的对应元素,从而增强整体和局部特征的提取作用。其数学表达如下:
其中,Fgp(·)为全局均值池化操作,Fsq(·)为压缩处理,Fex(·)为激活操作;U表示经过融合处理的特征图,N表示DKSE模块的分支数,N=2[5]。
根据上述分析可知,DKSE模型特征通道数较多,进而导致模型训练时长较长。因此为提高模型性能,主要对DKSE模块中的Excitation部分进行改进。DKSE模型具体改进操作是将经过全局均值池化后的特征图进行全连接操作,从而降低特征图通道数,降低为原通道数的1/r,然后再进行非线性激活函数处理,通过对C个神经点进行全连接操作之后恢复通道数为全局均值池化后的通道数,最后采用Sigmoid门机制归一化处理通道数[8]。由此得到改进的DKSE-FC模块,如图2所示。
此外,考虑到DKSE-FC网络模型的参数具有冗杂性,因此为减小模型参数和训练时间,结合深度可分离卷积和DKSE-FC模型构建深度卷积神经网络,以实现对艺术图像数据进行分类训练。深度可分离卷积分别考虑了图像空间区域和通道,可分为逐点卷积操作过程和深度卷积过程,其原理是降低计算量,并增加网络深度,如图3所示。
图3 深度可分离卷积
若输入样本高度为H、宽度为W,C为通道数目,h和w、M和N分别表示卷积核和输出样本高度、宽度,传统卷积的卷积核参数个数和计算量可表示为[9]:
深度学习中可分离卷积主要用于增大特征图通道,深度卷积则对特征图进行降维操作。卷积核个数和计算量可表示为:
对比传统卷积和深度可分离卷积的卷积核参数个数,得到比值:
综上可知,通过以上操作可以有效减少计算量,提升网络学习效率。
基于上述改进DKSE模块与深度可分离卷积网络,本研究构建的图像艺术图像分类模型如表1所示。为降低过拟合出现的概率,首先在网络的第一层采用空洞卷积提取原始艺术图像特征,采用L2正规化方法进行逐点卷积操作,然后采用Dropout方法对全局均值池化处理前后的图像进行处理。与传统卷积相比,空洞卷积可以保留更多的原始数据信息。其次在网络的第二层进行深度卷积操作之后,再进行ReLU函数处理和批标准化处理。在改进DKSE模块中加入深度可分离卷积的公式为[10]:
表1 双核压缩激活神经网络模型
其中,Y1表示深度卷积操作,Y2表示逐点卷积操作,Y3表示改进DKSE模块操作。
本实验采用Keras+TensorFLOW框架。学习率=0.001,训练周期设置为120。训练3个周期后,其准确率还未得到提升的情况下,学习率下降10%,当下降为0.5×10-6时,停止训练。
本研究选取水彩画、中国画、版画、油画和水粉画这5种具有独特风格的艺术图像进行分类和研究,通过关键词搜索从某艺术网站上下载5类艺术图像。其中有些艺术图像风格不准确或是图像不清晰,因此为了确保数据具有可靠性,邀请专业人员对不符合要求的艺术图像进行剔除,最后得到油画3 400张、版画3 393张、水粉画3 378张、国画3 449张和水彩画3 390张。
由于训练样本数不足,在网络训练时会产生过拟合问题,因此需要采用图像数据增强方法。数据增强的原理是通过特定方法来创建与原始图像同一个风格的变形图像,从而达到数据增强的目的。每张艺术图像的风格信息呈现分布均匀,抽取风格信息具有丰富性和分辨率高的艺术图像,裁切为299×299像素大小的图像,从而获得多张同种风格的数据图像,如图4所示。经过数据增强处理之后得到油画5 117张、版画5 116张、水彩画5 122张、国画5 151张和水粉画5 128张。
图4 数据增强处理
3.3.1 数据增强验证
为了验证图像数据增强是否具有效果,使用表1的DKSE网络模型对增强前后的数据进行测试,结果表2所示,通过对比分析发现数据增强后的分类准确率比数据增强前的分类准确率更高,因此通过数据增强可以有效地增加样本训练数据,从而提高分类准确率。
表2 数据增强前后的分类结果
3.3.2 DKSE参数对模型影响
3.3.2.1 下降率r和卷积核大小
为测试DKSE模块对模型的影响,将对其下降率和卷积核大小进行测试,测试结果如下。
从表3可以直观看出,下降率为4时,分类准确率在87以上,而下降率在16时的准确率低于85%;下降率不变时,分支卷积核大小为1×1和5×5的分类准确率更高。
表3 下降率和分支卷积核大小
3.3.2.2 空洞卷积
为测试空洞卷积核的特征提取效果,实验将选取DKSE模块中不同空洞卷积核对图像数据进行实验,实验结果如下。K3为传统卷积核,大小为3×3,K5表示膨胀率为2的卷积核大小3×3,感受野为5×5,K7表示膨胀率为3的卷积核大小3×3,感受野为7×7。结果显示,空洞卷积的分类准确率比普通卷积低,这是因为空洞卷积没有提取到重要特征信息,从而对模型的分类结果造成了一定的影响。
综上可知,改进DKSE模型的分支卷积核(表1网络模型ID6号处)大小为1×1和5×5,r=4时,改进DKSE结合深度可分离卷积网络形成深度卷积神经网络模型性能最高。因此,本研究将该模型用于后续实验。
3.3.3 模型验证
为验证本研究提出模型性能,研究对比了DKSE模型改进前后模型训练时间,结果如表5所示。从中可发现二者分类结果差别不大,但DKSE-FC模型的训练时间更短,说明模型改进有效。
3.3.4 模型对比
为了验证本研究的网络模型分类效果,将样本数据输入本研究网络模型和其他网络模型中,通过对比实验得到以下结果:
表6 不同网络模型分类结果
由表3可知,网络模型对艺术图像分类准确率最高;当r=16时,网络模型均高于our+SE模型和our+SK模型;r=4时,本模型对图像分类的准确率高于更高r=16。
为进一步衡量模型性能,采用ROC曲线和AUC值对不同模型分类结果进行比较,得到如下结果:
从图5中可看出,几种网络模型对版画分类性能最佳,对油画分类性能最低,这是因为版画的各方面差异较大,比较容易区分,而其他几种艺术绘画比较复杂,且风格信息具有相似性,这就导致网络模型对其训练困难。
图5 网络模型的ROC与AUC
为验证本方法的优越性,将其与传统方法进行对比,对比结果如。传统的提取方法不能充分区分艺术图像,而本方法可以有效提取艺术图像的特征信息,从而提高分类准确率。
表7 结果对比
3.3.5 模型分类性能
为了使得DKSE-MobileNet网络模型分类性能具有直观性,对该模型进行性能评估,评估结果如下。版画查全率在所有画种处于第一,查准率方面,国画高于其他画种,这是因为版画和国画的绘画手法比较独特,模型容易区分;而其他画种的查准率和查全率均在80%以上,这证明了DKSE-MobileNet网络模型分类性能较好。
表8 分类性能
本研究提出的基于深度学习的艺术图像分类方法,结合SK模块和SE模块而形成了一种双核压缩激活模型,并对其进行了改进;然后根据改进的DKSE模型和深度可分离卷积对深度卷积神经网络模型进行了构建,以此实现了艺术图像的特征提取和分类。比较本研究分类模型和其他网络模型,本研究模型的分类准确率更高。此外,根据基于深度学习的艺术图像分类方法,设计并实现了艺术图像的智能分类系统,可以有效对艺术图像风格进行分类,对艺术教育方面具有参考价值。但是存在一定的不足之处,比如网络模型对艺术风格不具特色的画种分类性能较差,且模型参数数量过多等问题,接下来可以针对这些问题进行更深入的研究。