基于卷积神经网络的陕北传统窗棂纹样分类研究

2024-10-29 00:00:00段永丽张娜
美与时代·上 2024年9期

摘 要:基于卷积神经网络的陕北传统窗棂纹样分类研究通过对陕北传统建筑窗棂纹样进行数字化提取保护,解决人工对窗棂纹样的分类准确率不高及工作效率低下问题。通过陕北窗棂纹样特征和数据进行解析,提出一种基于卷积神经网络中VGG16模型方法,实验过程中各卷积层后采用ReLU激活函数,可以有效抑制过拟合现象,并提高模型的泛化能力。采用了数据增强方法,通过扩充窗棂图像的数量来增加模型的多样性,从而降低对数据的依赖程度,实验结果表明在基于VGG16网络模型中进行迁移学习的方式对陕北窗棂纹样的分类准确率达到94.62%。建立纹样分类数据库,通过输入纹样种类特征实时输出相关纹样图像,深入挖掘传统窗棂文化遗产的价值,充分展现纹样独特的视觉效果和艺术表达方式。

关键词:窗棂纹样;卷积神经网络;VGG16;迁移学习;图像分类

基金项目:本文系陕西省教育厅科学研究计划专项项目(17JK0480)研究成果。

陕北的窗棂是陕北传统窑洞建筑艺术的表现形式,木质门窗的造型和窗棂的纹样是陕北窑洞文化的重要载体[1]。但如今窑洞式住宅逐渐淡出人们的视野,尤其是在乡村城镇化快速发展的背景下,很多窑洞已经空置、坍塌或损毁,传统的窑洞味道尽失,窗棂文化失去了原有的质朴与自然。窑洞窗棂纹样种类繁多寓意深刻,深受黄土高原地域文化及意识形态的影响,依靠人工肉眼对纹样的提取分类这类方法往往不够精准且耗时,不利于纹样的研究。近年来,现代技术的深度学习[2]具有自动提取图形特征及分类的优势,而目前通过技术对窗棂纹样的整理训练研究与应用处于空白阶段。卷积神经网络[3]是近年来处理图像最受欢迎的深度学习算法之一,对陕北窗棂的纹样和素材进行数字化收集、整理与分析,通过迁移学习方式对纹样进行分类、整理后提取纹样,建立相关样本数据后利用卷积神经网络模型中VGGNet模型对窗棂纹样进行分类试验,通过试验验证模型分类效果建立智能分类辅助系统[4]。

一、窗棂纹样数据收集、整理与分析

窑洞的窗户构造非常精细,由顶窗、脑窗、大耳节窗、小耳节窗、天窗、斗窗和坐窗等多个部分组成[5]。窗棂即窗格子,也叫雕花格子,是镂空花格,窗棂的工艺与装饰极富有审美情趣,折射出陕北人民的多彩的内心世界及朴实含蓄的性格特点。同时纹样也象征着民俗文化符号,将传统纹样提取分类进行数字化保护是现在非物质文化遗产一种保护措施,使文化符号更好的储存与运用。装饰纹样是历史文化的浓缩既,主要有动物类:蝙蝠、鱼、龟等,例如鱼谐音“余”,寓意“年年有余”;植物类:莲花、海棠花、石榴花等,例如石榴寓意“多子多福”;也有几何类:方格纹、菱形纹、盘长纹等,例如盘长纹寓意“世代延绵”;文字类:工字纹、寿字纹、双喜纹等,例如寿字纹寓意“长寿安康”;人物故事类:童男、童女、福娃等,例如福娃寓意“子孙满堂p4DudzRm9VDYnG8hOoQaTsEGKQADQGlmXotMPFApDqM=”;宗教类:八卦、宝剑、铃铛等,例如宝剑寓意“驱恶辟邪”;生活类:元宝、如意、铜钱等,例如铜钱纹寓意“兴旺发达”[6]。从纹样的变化中可以看出陕北不同时期的时代风貌、人文风情,进而形成艺术表现的差异性,打破了传统纹样固定不变的模式(见表1)。

二、窗棂纹样数据的处理

(一)数据提取与分类

通过前期调研对陕北窗棂纹样进行大规模的采样,提取窗棂图案的轮廓与纹理特征,有关人物故事类、生活类、宗教类素材较少,从艺术、工艺等多维度进行归纳与总结窗棂图案的内容形式选取以下四类:一是植物类纹样,也是陕北窗棂装饰运用最多的纹样,富有幸福美满之意;二是文字类纹样,象征厚禄、长寿、多福;三是几何类纹样,通过点、线、面的组合和变换,形成各种不同的图案和样式;四是动物类纹样,象征富贵。实验中,为了获取更加清晰的图像纹理,对样本素材进行了裁剪,训练过程使用到数据集中四个子集(植物纹、文字纹、几何纹、动物纹),数据集中选取的示例图片(如图1)。

(二)迁移学习

迁移学习(TransferLearning)是一种机器学习方法,旨在通过减少源域数据与目标域数据之间的分布差异,提高学习效率和性能[7]。通过迁移学习,可以利用已有的知识或经验,将已经学习到的模型或特征应用于新的任务或领域,从而加速学习过程并提高模型的泛化能力。VGGNet在图像分类中具有较好的分类性能,针对图像分类的需求,需要收集大量的数据及进行数据标注,而标注好的数据在训练过程中可能会存在一些排除情况,导致训练过程耗时长,并且在小数据集上获得的准确率不高。使用迁移学习来解决这一问题是非常有优势的,因为它可以有效减少对数据的依赖。迁移学习中源域为Ds,目标域为Dt,则源域可以表示为:

(1)

目标域表示为:

(2)

公式中:为数据样本;为对应的类别标签。

(三)数据增强

在神经网络的训练过程中,需要大量标注的数据样本,而原数据集纹样图片数量较少,这可能导致在训练过程中出现拟合现象,进而影响网络模型的分类性能。为了解决这个问题,可以采用数据增强技术来扩充数据样本。数据增强技术是一种通过对原始数据进行变换和扩展,生成新的数据样本的技术。可以增加数据集中的样本数量,提高模型的泛化能力和分类性能。对数据集进行旋转、镜像、加噪、明暗、模糊等操作,经过数据增强,每种纹样的数量保持相同,将所得数据归一化处理为统一的224×224分辨率,提高图像训练准确率(如图2)。

三、研究方法

(一)VGG16网络

VGGNet是牛津大学计算机视觉组和Google DeepMind公司在2014共同提出的新模型,该研究的主要焦点是深入探讨卷积神经网络深度对大规模图像识别准确率的影响。该模型获得了2014年ILSVRC竞赛的第二名。VGGNet是比AlexNet更深层次的卷积神经网络,形式上更加简单,VGG16是VGGNet中分类性能最好的网络之一。VGG16中16指的是有16的带权重的层,总共包含16个子集,由5段卷积和1段全连接组成,5段卷积包含13个卷积层,1段全连接指卷积层之后的3个全连接层(FC),前13层主要对图像进行卷积,学习出相关特征,而最后将前面学习到的特征展开,最终通过全连接进行训练。

VGG16基本结构包括输入层、卷积层、池化层、全连接层和输出层,层与层之间使用maxpool(最大池化层)分开,采用连续的小卷积核(3×3)和池化层构建深度神经网络,网络深度可以达到16层,由多个卷积层和池化层交替堆叠而成,最后使用全连接层进行分类。输入层通常是一个固定大小的卷积核,用于将输入图像转换为特征图;卷积层是VGG16中的核心部分,通过卷积运算对输入特征图进行处理,提取图像中的特征信息。池化层用于对卷积层输出的特征图进行下采样,减少特征图的维度和计算量,同时保留重要的特征信息。全连接层是负责将前面各层的特征图进行整合,生成最终的分类结果。输出层是负责将全连接层的输出转换为具体的分类结果,在VGG16中,输出层通常采用softmax函数对全连接层的输出进行归一化处理,生成最终的分类概率[8]。VGG16相比AlexNet的一个改进是采用连续3×3的卷积核代替AlexNet中较大卷积核,使得网络结构更加简洁(如图3)。

(二)ReLU激活函数

ReLU(Rectified Linear Unit)是常用的隐藏层激活函数,计算效率高并且在区间内保持梯度为1,增加网络的非线性可以使得网络更好地拟合复杂的非线性数据;有效地防止梯度消失,从而使得网络能够更好地进行训练。由于过拟合是指模型在训练数据上表现很好,但在测试数据上表现较差的现象,所以ReLU函数可以有效地减少过拟合现象,提高模型的泛化能力。如果输入值为负,ReLU 函数就返回0;如果输入值为正,则返回输入值本身;使得其函数表现形式为:

(3)

公式中x为实验过程中的输入值。

(三)实验数据与评价标准

实验在Windows11系统python3.8环境下使用TensorFlow2.6.0框架进行模型训练。硬盘配置:CPU为13th Gen Intel(R)Core(TM)i9-13980HX,GPU为NVIDIA GeForce RTX 4090 Laptop GPU,计算机运行内存为32GB,GPU显存16GB。

原始数据集共326张,为了减少训练期间图像集的过拟合采用旋转、镜像、加噪、明暗、模糊对原始图像进行处理,将数据集扩充至1304张,动物类图像220张、Vm2+tL5VASDsRJwTNS04/A==文字类图像328张、植物类图像348张、几何类图像408张。训练中,训练数据集划分为训练集、验证集、测试集三个部分,划分比例为8∶1∶1,三种数据集数量分别为1044张、130张、130张,同时对所有图像数据集进行归一化,并将图像大小统一至224×224×3。

在图像分类任务中采用准确率(Accuracy)作为实验效果评价标准,其计算公式为:

(4)

公式中:TP+TN为分类正确样本数;M为测试集样本总数。

四、过程与结果分析

在进行VGG16网络训练时,模型包括16个卷积层和3个全连接层,对输入的窗棂纹样图像进行归一化处理,归一化后的尺寸为224×224×3得到标准的像素矩阵,RGB图像进行卷积、池化和全连接层等操作。保留VGG16模型参数作为初始化参数可以确保初始权重的有效性;卷积层利用卷积核进行卷积操作,对输入图像进行特征提取;池化层降维操作有助于减少计算量,提高网络的训练速度,同时保持重要的特征信息;各卷积层后均采用ReLU激活函数,有利于获得更好的非线性效果及有效缓解梯度消失问题,卷积层均采用3×3的卷积核。输出层使用Softmax分类器来计算每个输出类别的概率,Softmax函数可以将网络输出的原始分数转化为概率分布,从而为每个类别分配一个概率值,将输出转化为各个类别的概率分数,使得概率总和为1。

通过试验,首先确定训练样本、验证样本和测试样本的数据批量值为16,意味着在每次迭代中,将16个样本输入到网络中进行训练。设定训练迭代次数为100,损失函数选择的是交叉熵损失函数,因为交叉熵损失函数对于多分类问题非常有效,能够衡量模型预测的概率分布与真实概率分布之间的差异。使用SGD(随机梯度下降)优化器训练,根据每次迭代的梯度更新网络权重,以最小化损失函数。学习率为0.001,是控制模型权重更新的步长的重要参数,较小的学习率可以使得模型在训练过程中更加稳定。

训练的迭代次数为100,每训练完成一个迭代就将训练集的损失值以及验证集的准确率打印出来,为了保留每个迭代下训练好的模型状态,进行了模型保存的操作。可以根据保存的模型对测试集进行准确率的测试,从而获得最终的测试集准确率。在前10次迭代训练过程中,模型的训练损失值下降速度最快,这意味着模型在初始阶段迅速学习并适应训练数据,当训练进行到第20次迭代时,模型的收敛趋势开始显现已经接近最优解,并且其性能逐渐稳定。随着训练的继续进行,模型逐渐达到收敛状态,训练损失值不再显著下降(如图4)。

验证集的准确率不断升高趋于平稳,最终在迭代 20次时,模型的验证准确率基本收敛。根据训练损失值和验证准确率的变化趋势数据可以看出,陕北窗棂纹样识别分类在学习率为0.001的VGG 16模型下,其训练准确率为94.62%,使用预先训练好的模型参数作为初始化可以加快模型收敛速度,减少训练次数,迁移学习的策略可以使得模型更快地适应新的数据集,提高模型的性能和泛化能力。这表明该模型在处理陕北窗棂纹样数据时表现出了较高的分类精度和稳定性(如图5)。

为了促进对陕北窗棂纹样的传承和创新,构建陕北窗棂纹样智能辅助系统是一个融合了传统与现代、技术与艺术的创新过程。通过保留风格特征、注重参与性和互动性,该系统将为用户提供一个便捷、高效、有趣的平台。在构建系统的过程中,首要任务是保留陕北窗棂纹样的独特风格特征,这些特征包括纹样的形状、线条、寓意等,它们是陕北地区历史文化和民俗风情的生动体现。经过VGG16模型对窗棂纹样的自动分类和识别。首先,将纹样及其对应的寓意表征导入数据库,这个过程确保数据的准确性和完整性,同时考虑到数据结构的合理性和可扩展性。其次,用户可以通过系统输入纹样名称、纹样特征、风格类型等;系统会利用智能技术对其进行预处理,系统能够将输入的文本转换为结构化的数据,以便后续的图像生成和处理;系统首先从数据库中检索与输入名称相关的纹样图像,然后对检索到的图像进行特征提取和识别。最后,系统使用这些特征信息生成与输入名称相对应的窗棂纹样图像(如图6)。

五、结语

木质窗棂纹样负载着特殊的地方民俗文化,传统纹样所展现出的顽强生命力、表现力和艺术价值,是中华文化的重要组成部分,通过传承和发扬传统窗棂纹样,能够更好地理解和欣赏中华文化的深厚底蕴,同时也能为现代设计带来新的启示和灵感。将卷积神经网络中VGG16网络模型应用到陕北窗棂纹样图像识别分类中,运用数据增强及迁移学习的方法对提取的纹样数据进行扩充、迁移,提高模型泛化能力及模型训练的效率,加入ReLU激活函数增加网络的非线性,缓解梯度消失问题。对提取到的窗棂纹样进行分类,根据纹样特征建立实验数据样本,按照8∶1∶1的比例区分相应的训练样本、验证样本和测试样本,模型的分类准确率达到94.62%,由此说明VGG16网络模型在纹样识别的领域中具有较好的分类效果。构建智能分类辅助系统为窗棂纹样文化的传承和创新提供了技术支持,传统的窗棂纹样文化通常依赖于手工制作和传承,该系统提高了窗棂纹样的认知度和影响力,人们可以更加方便地了解和欣赏各种窗棂纹样,从而增强了对窗棂纹样文化的认知和了解。该系统也为窗棂纹样的传播和推广提供了平台,使得更多的人能够接触到、感受到窗棂纹样的魅力。

参考文献:

[1]王文权.窑洞文化研究——陕北窗格子[J].山花,2009(2):162-163.

[2]陈冲,陈杰,张慧,等.深度学习可解释性综述wrnx2wDh4VIBktHJSJef4Q==[J].计算机科学,2023(5):52-63.

[3]GIRSHICK R.,DONAHUE J.,DARRELL T.,etal.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.

[4]黄浦恩,信慧言,欧阳国辉.地域文化视域下藏族传统家具的数据库建构与创新设计[J].家具与室内装饰,2023(10):96-102.

[5]杨雨佳.陕北窑洞门窗图案及其命观念[J].人民论坛,2016(8):190-192.

[6]齐苗苗,张勇.陕北窗棂纹样[J].大众文艺,2015(20):118.

[7]王军敏,樊养余,李祖贺.基于深度卷积神经网络和迁移学习的纹理图像识别[J].计算机辅助设计与图形学学报,2022(5):701-710.

[8]侯向宁,刘华春,侯宛贞.基于改进VGG16网络模型的花卉分类[J].计算机系统应用,2022(7):172-178.

作者简介:段永丽,西安科技大学艺术学院硕士研究生。研究方向:环境设计研究。

通讯作者:张娜,博士,西安科技大学艺术学院副教授、硕士生导师。研究方向:文化遗产保护与现代环境设计研究。