GAN与Diffusion在传统纹样设计中的实验研究

2024-08-13 00:00张驰王祥荣李莉毛子晗吕思奇袁晨旭彭玉旭
丝绸 2024年8期

摘要: 传统纹样是中国优秀传统文化的重要组成部分,传统人工设计已经无法满足纹样的现代设计需求,生成式AI为传统纹样设计提供了新的设计路径和方法。文章将生成式AI应用于传统纹样设计中,通过适配实验优选基于GAN的Style GAN和基于Diffusion的Stable Diffusion两种主流图像生成模型进行实验,采用技术分析与艺术分析相结合,对实验结果进行多角度、多维度对比分析,为设计师选择生成设计方法提供参照。实验结果表明,两个模型均能满足基本的艺术设计需求。Style GAN模型生成的纹样图像更接近真实图像的分布,具有更高的图像质量和多样性;Stable Diffusion模型能较好地传承传统纹样的基因,艺术性与创造性兼具,更加符合传统纹样的艺术设计需求。

关键词: GAN;Diffusion;传统纹样;评价指标;对比分析;实验研究

中图分类号: TS941.26

文献标志码: A

文章编号: 10017003(2024)08期数0009起始页码14篇页数

DOI: 10.3969/j.issn.1001-7003.2024.08期数.002(篇序)

收稿日期: 20240330;

修回日期: 20240623

基金项目: 教育部人文社会科学研究规划基金项目(22YJA760038);长沙理工大学研究生科研创新项目(CSLGCX23124)

作者简介: 李莉(1981),女,副教授,主要从事民族纹样研究、传统文化数智化设计研究、跨学科视觉创新设计研究。

中国传统纹样是艺术文化中的瑰宝,承载着中国智慧与美学记忆,在现代的演绎中焕发出新的生命力。传承与发展传统纹样助力优秀传统文化的传播是传统纹样设计之根本,纹样设计方法的推陈出新是传统纹样创作的不竭动力,是传统纹样设计之指南。中国传统纹样已广泛应用于建筑、绘画、雕塑、平面设计、室内设计、工业设计等行业,艺术设计及相关人员均可从纹样优美的图形纹饰、丰富的形态意蕴、独特的图式造型中汲取养分、激发灵感[1]。但传统单一的人工设计方法已经无法满足纹样多元高效的现代设计需求,科技助力设计方法的创新对传承和发展传统纹样具有重要意义。

目前,计算机辅助纹样设计的相关研究主要归纳为传统方法研究与生成式AI方法研究。传统方法包括分形几何原理[2]、形状文法理论[3]与几何相似特征[4]等基于数学模型的图像生成方法,这些方法主要通过模拟图像形态特征和量化图像组织特性来生成新的纹样图像。生成式AI纹样设计方法包括神经风格迁移网络[5]、生成式对抗网络GAN[6]等基于深度学习的图像生成方法,该类方法主要通过深度神经网络进行迁移学习模拟图像数据的分布,从而生成新的纹样图像。近年来,随着计算机视觉、机器学习和人工智能等技术的不断发展,生成式AI已成为艺术设计领域重要的创意源泉之一。目前,相关研究主要有以下4个方面:第一类是基于生成对抗网络(Generative adversarial networks,GAN)[7-8];第二类是基于自编码器(Auto-encoder,AE)[9];第三类是基于流模型(Flow-based model,FM)[10];第四类是基于扩散模型(Diffusion modle,DM)[11-14]。这些模型在部分艺术设计领域,如产品设计、服饰设计、字体设计、环境设计、交互设计及传统文化数字化等方面已经取得了一定的应用成果。针对“传统纹样”这一文化创新专项的生成研究主要以神经风格迁移网络(Convolutional neural network,CNN)、条件生成对抗网络(Conditional generative adversarial nets,CGAN)等生成模型的应用研究为主,旨在对纹样进行风格识别、纹样修复[15]、图像合成及图像生成。

综上,传统纹样的生成设计研究已具备一定的研究基础,但尚存以下问题:一是生成技术应用研究存在单一性和局限性,缺乏推广应用价值,仅针对某一个或某一类纹样的生成,未从传统纹样通用性生成设计的角度展开研究;二是生成纹样研究缺乏文化传承性与艺术美观性,强调技术的引领作用而忽视了传统纹样的文化根基和艺术特征,使纹样设计流于形式表面;三是生成纹样研究缺乏设计应用性与推广性,重视纹样图像质量而忽视了纹样的设计应用需求,使生成纹样缺乏实用价值;四是对生成纹样的评价缺乏综合性,大多从生成技术、生成效率、图像质量、纹样应用等单一维度展开,缺乏多角度多维度的整体性和全面性评价。

本文从艺术设计的角度探讨图像生成模型在传统纹样创新设计领域中的潜力和应用,为艺术设计师拓展设计思路、提高设计效率,并进一步通过设计师与AI共创,探索新的纹样设计方法,对传统纹样艺术的传承与发展具有重要的研究价值和意义。本文通过传统纹样生成实验,挑选了4种主流图像生成模型,通过实验、初筛、优选,选择两种图像生成模型进行实验与对比,分析生成实验的数据集、实验训练、模型参数等实验设置和技术手段对纹样图像质量和纹样生成效果的影响,总结学习模式及训练规律。通过对实验结果从造型、色彩、美观、创新、应用5个艺术设计要素进行艺术综合评价,以及从设计需求出发对实验结果进行验证,实现对两种生成设计方法的多维度、多层面对比分析,为设计师选择和使用生成设计方法提供案例参照,从而为传统纹样设计研究提供新的视角。

1 实验准备

实验首先准备了1 000张侗族矢量化纹样为传统纹样数据集,然后筛选出可训练自有数据集的图像生成模型。本文从以GAN、VAE为代表的“图像生成图像模型”和以Diffusion为代表的“文本生成图像模型”两大生成类型进行模型选择。根据图像生成目的与纹样图像特点,本实验选择了基于GAN的深度卷积对抗网络(Deep convolutional generative adversarial networks,DCGAN)及风格生成对抗网络(Style-generative adversarial network,Style GAN)、基于AE的变分编码器模型(Variational auto-encoder,VAE)、基于Diffusion的稳定扩散模型(Stable diffusion,SD)共4种主流模型进行纹样生成实验。以生成纹样图像的“多样性、清晰度、相似性、创新性”为原则对4种模型进行初步筛选,生成纹样样本如表1所示。由表1可以看出,DCGAN模型生成的纹样多样性及相似性较差,VAE模型生成的纹样可以大致还原纹样轮廓,但是清晰度较差。通过算力硬件、样本数量、生成纹样质量及艺术性等综合考量,基于GAN的DCGAN模型与基于AE的VAE模型不符合传统纹样的艺术设计的基本要求,故优选基于GAN的Style GAN模型和基于Diffusion的Stable Diffusion模型为本次纹样生成实验所用。

2 算法原理

2.1 Style GAN 2模型

Style GAN模型是GAN的衍生网络,是由NVIDIA公司2019年提出的一种基于生成对抗网络的图像生成技术,具有生成高质量、高逼真度图像的能力,其显著特征是模型的非常规生成器体系结构。目前,Style GAN广泛应用于人脸合成[16]与图像编辑[17]等场景。Style GAN模型主要通过改进归一化过程、引入Alias-Free GAN概念和扩展高分辨率图像生成能力等实现技术更新,最终演化出Style GAN 2、Style GAN 3和Style GAN-XL等更为先进高效的版本。从本实验任务出发,综合考虑图像生成需求与计算成本,本文选用的版本为Style GAN 2,如图1所示。其网络架构主要包括4个组成部分:G_style(),G_mapping(),G_synthesis()和D_basic()。

由图1可见,G_style为整个生成器的网络架构,由映射网络G_mapping和合成网络G_synthesis两个子网络组成。为了解决Style GAN 1中的液滴伪像,将原有的AdaIN去掉并利用权重解调简化模型设计,其权重表达式如下:

w″ijk=w′ijk/∑iw′ijk2+(1)

在训练Style GAN 2的初始接口train.py下定义了一些主要的设置,包括生成网络和判别网络各自的架构、优化和损失的设置,以及训练计划、数据集和GPU的设置等。配置完成之后,通过调用dnnlib.submit_run(**kwargs)就能进入到训练过程中。

在进行自定义训练时,通常需要手动调整数据集设置(名称和分辨率)、GPU设置(GPU数量和batch大小取决于GPU缓存大小)及默认设置(总迭代数和学习率),而网络架构的设置则视情况而定。图2为Style GAN 2算法流程。

为了获得框架清晰、图案丰富的图像,本实验对不同参数下的生成结果进行反复对比分析,不同轮次训练所生成的纹样样本如图3所示。由图3可以看出,当Fakes=001000时生成的图像质量较低,而Fakes=004000时生成的图像因过拟合而雷同。故本实验Style GAN模型最终的选择轮次为network-snapshot-002000.pkl,设置自定义训练及生成参数为:gpus=1,trunc=1,seeds=2,mirror=1,gamma=8.2,batch=16,训练时长38 h。

2.2 Stable Diffusion v1模型

Stable Diffusion模型是基于潜在扩散模型(Latent diffusion models,LDMs)改进的文本生成图像(text-to-image)模型,是由Stability AI公司2022年开源的AI文生图扩散模型,使用了一种潜在扩散的深度学习技术来实现文本描述生成图像。与其他文本到图像模型不同,Stable Diffusion模型的代码和模型权重是公开可用的,可以在大多数消费类硬件上运行。Stable Diffusion模型的提出,大力推动了文本生成图像领域的发展,成为图像生成的主流模型之一。Stable Diffusion模型通过优化模型架构、引入新的文本编码器和采用优化版VAE等方式实现技术更新,逐步形成了Stable Diffusion v1.5、v2.0、v2.1及最新的XL等多个具有不同特点和优势的版本。基于本次图像生成需求与计算成本考虑,本文选用的版本为Stable Diffusion v1。图4为Stable Diffusion v1模型的整体框架,共分为3个部分。

训练(图4中的①和②部分)过程如下:首先使用AutoEncoderKL自编码器将图像Image从pixel space映射到latent space,学习图像的隐式表达,注意AutoEncoderKL编码器已提前训练好,参数是固定的。此时Image的大小将从[B,C,H,W]转换为[B,Z,H/8,W/8],其中Z表示latent space下图像的Channel数。这一过程在Stable Diffusion模型代码中被称为encode_first_stage。接着使用FrozenCLIPEmbedder文本编码器对Prompt提示词进行编码,生成大小为[B,WK,E]的embedding表示(即context),其中K表示文本最大编码长度max length,E表示embedding的大小。这一过程在Stable Diffusion模型代码中被称为get_learned_conditioning;然后进

行前向扩散过程(diffusion process),表达式如下:

q(xtxt-1)=N(xt;1-βtxt-1,βtI) q(x1︰Tx0)=∏Tt=1(x1︰Tx0)(2)

式中:{βt∈(0,1)}t=1在这个过程中,随着t的不断增大,最终数据分布x变成了一个各向独立的高斯分布,该过程调用UNetModel完成。

UNetModel同时接收图像的隐式表达latent image及文本embedding context,在训练时以context作为condition,使用Attention机制来更好的学习文本与图像的匹配。图5为Stable Diffusion v1算法流程。

为了获得框架清晰、图案丰富的图像,本实验对不同参数下的生成结果进行分析,不同轮次生成的蝴蝶纹样如图6所示。由图6可以看到,当epoch=120时生成的图文匹配度较差,而epoch=430时生成的图像达到了近拟合状态,图像清晰度较差。故本实验Stable Diffusion模型优选epoch=256ckpt,训练自定义参数为:batch=4,n_gpus=1,accymulate_batches=1,num_nodes=1,n_samples=8,训练时长为28 h。

3 实验过程

3.1 实验数据收集与预处理

目前,关于传统纹样的图像生成研究工作非常有限,缺乏标准的纹样数据集。故本实验数据集样本采集自侗乡收藏家张柏如的著作《侗族服饰艺术探秘》[18]、国家级丝绸专家钱小萍的著作《中国织锦大全》[19]、民间美术家左汉中的著作《湖湘传统纹样》[20]及织锦研究专家汪为义的著作《湖湘织锦》[21]等纹样权威书籍与纹藏等纹样数据库。首先采集图像数据,使用专业图像编辑工具Adobe illustrator对侗族纹样进行矢量化绘制,根据实验需求将每张原始图像调整为512 PX×512 PX、大小100~500 KB、分辨率300 dpi的透明位图。然后建立实验数据集,以纹样图像的清晰度、丰富性、典型性、传承性为准则对原始样本进行筛选,优选1 000张侗族纹样构成实验数据集,包含侗族刺绣纹样540张、侗族织锦纹样460张;并将数据集纹样分为6大类,分别为动物纹样、植物纹样、景象纹样、几何纹样、装饰纹样和其他纹样。最后对实验数据进行预处理。由于Stable Diffusion模型为文本生成模型,故需要进一步对纹样进行文本分析。根据纹样图像的图式特点,从“纹样名称”“主体图案外观特征”“是否对称”“背景颜色”“纹样内涵”共5个内容出发,对数据集的每张纹样图像进行一段文本描述,如表2所示。最后将图像与对应描述词上传至Hugging Face网站上,形成语料库。

3.2 实验环境

本文Style GAN 2模型实验的硬件配置为Intel(R) Xeon(R) Platinum 8350C,实验使用的计算机系统采用Linux系

统,显卡为RTX 3090,运行内存为24 GB;实验使用的软件Pytorch版本为Pytorch 1.8.1。Stable Diffusion v1模型对硬件需求较高,实验硬件配置为AMD EPYC 7543,实验使用的计算机系统采用Linux系统,显卡为A40,运行内存为48 GB;实验使用的软件Pytorch版本为Pytorch 1.11.0。

4 实验结果评价

首先对Style GAN模型(简称SGAN)与Stable Diffusion模型(简称SD)的实验过程进行初步分析。从计算成本来看,SD对硬件配置要求更高,且图像标记成本高。从训练时间来看,SD所需时间更短,SGAN训练时间为38 h,而SD训练时间为28 h。从生成时间来看,SGAN所需时间较少,SGAN平均002 s生成一张,而SD平均20 s生成一张。从生成数量上看,SGAN与SD生成数量均无限制。

然后对实验结果进行深入分析,技术评价和艺术评价相结合分析两个模型生成纹样各自的优势和局限性,为传统纹样生成设计提供案例参考。

4.1 技术评价

技术评价是衡量图像生成模型性能的重要手段,本文通过分析FID[22]和IS[23]数值对纹样图像的清晰度、多样性和文图匹配度三大技术指标进行客观评价。

FID(Fréchet Inception Distance)是用于衡量生成图像与真实图像之间分布差异的指标。其计算方法涉及生成图像和真实图像在Inception网络中的特征距离Fréchet,公式如下:

FID=μr-μg22+Tr(∑r+∑g-2(∑r∑g)1/2)(3)

式中:μr和∑r分别代表真实图像的特征均值、真实图像特征向量的协方差矩阵;μg和∑g则代表生成图像的特征均值、生成图像特征向量的协方差矩阵。

FID表示的是生成图像的特征向量与真实图像的特征向量之间的距离,该距离越近,FID越小,说明生成模型的效果越好,即图像的清晰度高,且多样性丰富。

IS(Inception Score)是用于衡量生成图像多样性和质量的指标。其计算方法涉及使用Inception网络评估生成图像的类别概率分布,公式如下:

I=exp(EX~PgDKL(p(y|x)p(y)))(4)

式中:KL、x和y分别代表Kullback-Leibler(KL)散度,生成的图像和由inceptio V3网络IS预测的图像标签。

利用条件分布p(y|x)和边际分布p(y)来计算KL散度。具体来说,该网络通过数值I来评估生成图像的效果。数值I越大,图像效果越好。

总之,FID用于度量生成图像与真实图像分布之间的差异,IS用于评估生成图像的多样性和质量,两大技术指标在两个模型中的表现如表3所示。

实验数据显示,SGAN的FID值为101.54,SD的FID值为115.07。这表明SGAN生成的图像与真实图像之间的分布差异较小,图像清晰度较高,更接近真实图像的分布,因此SGAN生成的图像与真实图像更相似。而SD生成图像与真实图像之间存在较大的分布差异,因此SD生成图像与真实图像相似度较低。SGAN的IS值为5.47,SD的IS值为513,这表明SGAN生成的图像多样性较强,图像质量较高,因此SGAN生成的纹样图像更加多元化。SD生成的图像多样性不足,图像质量较低,因此SD生成的纹样图像效果还需要进一步加强。

4.2 艺术评价

纹样图像的艺术性表达是实验结果评价的核心内容。本文通过问卷调查对两个模型生成的纹样进行人工评价,评价指标和权重分析以设计艺术批评的三原则[24],即人文意识、文化性和市场性三个评价维度来制定标准。设计艺术批评是对一切设计现象和设计问题的科学评价和理论建构,是沟通设计与设计、设计与公众、设计与社会的一个重要的环节,从而有效辅助设计师筛选设计方案,提升方案质量。经综合评定,本问卷从纹样的造型指标(Shape)、色彩指标(Color)得到纹样外观特征评价,从美观指标(Artistic)、创新指标(Creativity)得到纹样内在表现评价,从应用指标(Application)得到纹样应用价值评价,通过这五大指标权重后的综合得分获取主观评价。其中造型指标(S)用于评价是否体现了原始纹样的造型特征,色彩指标(C)用于评价是否体现了原始纹样的色彩特征,美观指标(A)用于评价生成纹样的美观度和艺术性,创新指标(Cr)用于评价生成纹样的创新度,应用指标(P)用于评价生成纹样的推广应用价值;以“纹样的造型特征、色彩特征的权重大于美观度、创新度与应用价值”为原则设计计算公式,从而得出每组的最终得分。

本文以∑ni=1wi=1,wi∈[0,1],n为指标数,设定评价指标的权重累加和为1,将五项指标所占比例依次设定为4︰3︰1︰1︰1。设定造型特征评分结果为a、色彩特征评分结果为b、美观度评分结果为c、创新度评分结果为d,应用指标评分结果为e,将这些值代入下式,就可以得到加权平均分W。

W=(0.4+0.3+0.1+0.1+0.1)1× (a×0.4+b×0.3+c×0.1+d×0.1+e×0.1)(5)

本文以线上问卷开展调研,总题量为8题,收到有效反馈255份。其中从职业角度来看,艺术设计相关学生或从业者150人,约占66.67%;其他从业者75人,约占33.33%。从对侗族文化的了解程度来看,了解侗族文化的人51人,占2267%;不了解侗族文化的人174人,占77.33%。

将1 000张纹样分类为简洁抽象型纹样组、复杂具象型纹样组、单独纹样组、连续纹样组及综合纹样组共5类,一类一题,共5大题。每类选取10张代表性纹样生成对比图放入问卷中,答题时每人每题随机抽取3张对比图,每张对比图出现的平均次数为66次。受访者需对这15张纹样对比图分组进行打分评价,每张纹样对比图包含三个纹样,它们都是由同一描述文本或图像生成的纹样图像,分别是原始纹样、SGAN生成纹样和SD生成纹样。受访者对每组纹样从两个维度共4个问题分别打分。对评分设置依据“李克特五点量表法”,李克特五点量表法评价分为五个等级并有其相应的分数(图7),“1”代表消极绝对否定,“5”代表积极绝对肯定。

本次问卷旨在对比SGAN与SD在生成纹样方面的性能表现。问卷面向艺术设计专业人员与非艺术设计专业人员发放,获取专业群体与非专业群体对模型生成纹样的主观评价。表4为问卷主观评估内容与单项指标均值。每一项的指标满分都为5分,由表4可见得分均在3分以上,因此两个模型生成的纹样表现较好,都能满足设计的基本需求。从单项数据可看出,SD在造型指标(S)、色彩指标(C)、美观指标(A)和应用指标(P)的单项均值均高于SGAN,而创新指标(Cr)处于持平状态。因此主观评价结果表明,SGAN与SD均能较好完成纹样设计,但SD整体表现更胜一筹。SD在生成纹样的外观特征上表现更优,生成纹样的内在表现和实用价值也更优秀;而SGAN的主要优势则是生成纹样的创新度,其创新度分值与SD同为3.64分,说明两个模型对于纹样的理解与创新能力相当。

表5为了解侗族文化与不了解侗族文化受访者评价分值及权重后分值对比,表6为艺术设计及相关从业者与其他职业受访者评价分值及权重后分值对比。根据受访者的不同文化背景及职业背景分别从纹样外观特征、纹样内在表现及纹样实用价值三个评估维度对SGAN与SD进行分析。从单项数据可看出,不同侗族文化背景的受访者都认为SGAN的优势在于生成纹样的创新度(Cr),分别拿到了3.55分与3.67分单项最高分。SGAN在不了解侗族文化的受访者中的创新指标(Cr)一栏分值为3.67,高于SD分值3.59,说明不了解侗族文化的受访者认为SGAN的创新能力优于SD。而SD的优势在于生成纹样的美观度(A),分别拿到了4.15分与403分的单项最高分,评分均超过了4.00分,表示对模型生成纹样的美观度非常满意。从职业的角度来分析,不同职业背景的受访者对SGAN生成纹样的创新度(Cr)都表现出了较高的肯定,分别达到了3.54分及3.84分。根据数据可知,了解侗族文化的受访者给出的总分值高于不了解侗族文化的受访者给出的分值,说明了解侗族文化的受访者对纹样生成实验效果更满意。也能看到其他职业的受访者对两个模型生成的纹样总体评分高于艺术设计及相关从业者的评分,从侧面印证了设计师对于纹样生成的要求更高。总的来看,不同背景受访者都一致认为SD生成的纹样效果优于SGAN。

5 实验结果验证

纹样图像已广泛应用于文创产品设计、包装设计、室内设计、建筑装饰设计、服装与服饰设计等艺术设计中。不同的应用情境对纹样的形态、色彩、图式需求各异,简洁抽象或复杂具象,单色或彩色,单独纹样或连续复合纹样等。本文根据上述应用需求将纹样分成“简洁抽象型纹样”“复杂具象型纹样”“单色纹样”“彩色纹样”“单独纹样”“连续纹样”“综合纹样”共7大类。分别使用两大图像生成模型对7大类纹样进行实验验证,在50张典型纹样中,各类数量分布分别为复杂具象型纹样样本29个、简洁抽象型纹样样本21个、单独纹样样本23个、连续纹样样本10个、综合纹样样本17个、单色纹样样本29个、彩色纹样样本21个。通过对艺术设计相关人员的问卷评估及实验结果对比分析,验证两种生成设计方法在各方面取得的更优性能,为艺术设计相关从业者提供纹样设计参考。图8—图14为7大类生成纹样图像对比,表7为艺术相关人员对于纹样生成的主观评价。

纹样根植于“秩序”,并在这一范式中发展、变化、延续[25]。本文对两个模型以7类不同范式纹样的生成结果进行了比较,探讨纹样艺术与计算机技术的有机融合。图8—图14中SD在7大类纹样的生成图像综合表现更优秀,纹样传承性与创造性兼备,构图合理富有变化,整体与局部表达合理。表7中SD的单项分值和加权平均分均高于SGAN,故艺术相关人员认为SD更加符合艺术设计需求。表7中单项最高分值为SD的美观度(A)4.03分,说明艺术设计人员对SD生成纹样的美观度高度认可;SD的应用价值(P)3.97分,得分仅次于美观度,因此SD生成纹样的应用价值也得到了较高评价;SGAN每组的单项最高分值均为创新度(Cr)3.54分,说明其创新能力得到了最佳认可;单项最低分值为SGAN的造型特征(S)3.02分,因此SGAN在综合纹样组和彩色纹样组的造型特征评价为最低。

具体来说,在复杂具象型与简单抽象型纹样的生成中,SGAN与SD都能较好地还原不同造型的原始纹样风格特征,从图8—图14纹样的视觉表现上看SGAN在纹样单线条生成的表现力上优于SD,但是SD更能还原复杂具象型纹样的造型特征与色彩特征。在简洁抽象纹样的生成中,SGAN出现了纹样扭曲及样本分布不均的情况,而SD发挥稳定,生成的纹样更准确、肌理结构更清晰且更符合形式美。表7中复杂具象和简洁抽象型类SGAN的造型特征(S)的分值分别为3.11分和3.05分,为本组最低分,印证了图8—图14中SGAN造型能力弱的表现;这两组SGAN的美观度(A)的分值均为316分,因此纹样的美观度也需要加强。

在不同图式的纹样生成中,图8—图14中单独纹样与连续纹样的视觉表现有较明显的差距,SGAN对构图的理解能力弱,生成的纹样构图存在偏离原图、不完整、艺术性弱的现象,而SD表现出明显的优势,纹样图式、图像特征都有很好的理解力,生成的纹样构图饱满富有变化,纹样造型延续原纹样的同时不失创新。表7中SGAN的色彩特征分值分别为3.37分、3.24分,仅次于创新度(Cr)3.54分,由此推理SGAN的色彩特征评价较好。单独纹样与连续纹样类SGAN的美观度(S)的分值均为3.16分,为本组最低分,与图8—图14中SGAN艺术性表现不佳相符。

在单色纹样与彩色纹样的生成中,图8—图14中两个模型整体表现较好,符合纹样艺术设计的基本需求,但SD更胜一筹。SD生成的纹样与艺术性强,趋向于完整,对造型和色彩的理解力都很好,有连续性,也有创新性;SGAN生成的纹样线条精细,色彩风格独特,但存在图像扭曲、色彩偏离等现象。表7中,SD单项分值均在3.5分以上,分差值较小,说明SD表现持续向好,单项之间势均力敌、无短板;SGAN仍然是色彩特征(C)和美观度(A)表现最弱,分别为3.14分和3.16分,与图8—图14中SGAN色彩偏离原纹样一致。而SD在单色纹样与彩色纹样组的色彩特征(C)分值分别为3.57分和354分,均为本组最低分,因此SD生成纹样的色彩仍有提升空间。

图8—图14中两个模型在综合纹样上的表现整体上都较好,SD在综合纹样类表现更突出,生成的纹样特征鲜明、细节丰富、美观性优、传承性好,具有更高的多样性和可控性;SGAN模型生成的纹样造型独特创新度较好,构图饱满,在本组的表现优于其他组,但存在色彩偏离、未体现传承性等问题。表7综合纹样类加权平均分高于其他类为最高分3.79分,因此SD在综合纹样类的生成优势尤为突出。SD、SGAN的创新度(Cr)分值分别为3.61分和3.54分,为两个模型单项分值差最少的一组,因此在创新性方面两个模型表现优良且相当。

总的来说,表7中得分均在3.00分以上,因此艺术相关人员对两个模型生成的纹样都基本满意,能满足基础设计需求。综合图8—图14的纹样图像视觉表现可得出,SGAN在单线条纹样、单独纹样与连续纹样的生成上具备了一定的优势,具备灵活性和和谐性。但在整体造型与细节表达上较为粗糙,出现模糊变形等现象,清晰度较差,背景的伪影较为影响画面美观度。如SD虽然也有出现伪影的现象,但是该模型更能够捕捉到复杂的图像结构和细节信息,生成的纹样整体上结构清晰、内容准确,在几何化的线条和图案元素生成方面与原始纹样具有较高的匹配度。在色调的统一、色彩的整体美感和吸引力上明显更胜一筹。但是也有些方面能看出明显的不足,如SD虽然在文本引导之下具有较高的可控性与可解释性,但有时也不能正确地生成物体对应的属性,该模型无法生成线稿纹样与单一层次的连续纹样,色彩上在精准把握原始纹样调性、拓展丰富等方面仍有待优化。

6 结 语

随着人工智能的日益发展,将生成式AI技术应用于中华传统优秀文化数字化保护和创造性转化,已成为当前文化建设的重要途径,艺术与科技融合、设计学与计算机学科交叉融合已成为艺术设计未来发展的重要方向之一。本文对图像生成模型在传统纹样设计中的应用进行了实验分析,为传统纹样艺术创作提供了新的研究视角和研究方法。本文分别对基于GAN的Style GAN模型与基于Diffusion的Stable Diffusion模型两大主流图像生成模型进行纹样生成实验,对实验结果进行全面综合分析,从多个角度和维度探讨了模型的优劣势以及实际应用的可行性。通过比较FID和IS技术指标的客观分析,Style GAN模型生成的图像更接近真实图像的分布,具有更高的图像质量和多样性。然而通过问卷调查对纹样进行艺术指标分析得出,Stable Diffusion模型在纹样外观特征、纹样内在表现与纹样实用价值方面均更符合专业人员的设计需求,在纹样创新领域展现出巨大的发展潜力;但存在对计算配置要求更高、标记成本高、生成的纹样构式多样性差等不足之处。因此,根据具体的纹样设计需求,研究人员可以选择适合的模型,Style GAN模型适用于线稿纹样、单独纹样和连续纹样的快速生成需求,而Stable Diffusion模型适用于多元化精准化的生成需求、强调传承与创新的文化内容需求。

由于研究成本的限制,本实验仍然具有一定的局限性。一方面,因为模型训练对数据集数量要求较高,本数据集由侗族织锦纹样与侗族刺绣纹样共同构成,未考虑两种纹样类型之间的风格差异,因此可能对模型的训练会有影响,将两类纹样分开进行训练后生成的纹样可能更会具有针对性;另一方面,因篇幅暂未利用文本生成这一特性来探索Stable Diffusion模型的更多可能性,如使用语义生成、配色生成、构图生成及小样本生成等方面。总之,不断更新的生成式AI技术是未来纹样设计创新领域的新质生产力,在后续研究中,可以探索更多专业、高效的纹样生成工具,实现图生图、一对一的高质量生成。随着生成式AI平民化,设计师将能够更便捷熟练地操作图像生成模型,从而获取丰富的设计灵感,获得更好的设计体验。将图像生成模型等生成式AI深度应用于民族纹样等传统纹样设计中,设计师与AI共创是纹样设计的必然趋势,是推动文化创意产业进步的不竭动力。

参考文献:

[1]胡欣蕊. 中国传统纹样[M]. 武汉: 华中科技大学出版社, 2021.

HU X R. Traditional Chinese Patterns[M]. Wuhan: Huazhong University of Science & Technology Press, 2021.

[2]TIAN G, YUAN Q, HU T, et al. Auto-generation system based on fractal geometry for batik pattern design[J]. Applied Sciences, 2019, 9(11): 2383.

[3]胡珊, 贾琦, 王雨晴, 等. 基于眼动实验和可拓语义的传统文化符号再设计研究[J]. 装饰, 2021(8): 88-91.

HU S, JIA Q, WANG Y Q, et al. Redesign research of traditional cultural symbols based on eve-movement experiments and extensible semantics[J]. ZHUANGSHI, 2021(8): 88-91.

[4]裴卉宁, 邵星辰, 郭任哲, 等. 基于几何相似特征的石窟造像装饰图案生成方法[J]. 计算机辅助设计与图形学学报, 2023, 35(9): 1333-1343.

PEI H N, SHAO X C, GUO R Z, et al. A method for generating decorative patterns of grotto statues based on geometric similarity features[J]. Journal of Computer-Aided Design & Computer Graphics, 2023, 35(9): 1333-1343.

[5]侯宇康, 吕健, 刘翔, 等. 基于神经风格迁移网络的民族图案创新方法[J]. 图学学报, 2020, 41(4): 606-613.

HOU Y K, L J, LIU X, et al. Innovative method of ethnic pattern based on neural style transfer network[J]. Journal of Graphics, 2020, 41(4): 606-613.

[6]CHEN S S, CUI H, DU M, et al. Cantonese porcelain classification and image synthesis byensemble learning and generative adversarial network[J]. Frontiers of Information Technology & Electronic Engineering, 2019, 20(12): 1632-1644.

[7]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63 (11): 139-144.

[8]KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4401-4410.

[9]RAMESH A, PAVLOV M, GOH G, et al. Zero-shot text-to-image generation[J]. PMLR, 2021, 139: 8821-8831.

[10]KINGMA D P, SALIMANS T, JOZEFOWICZ R, et al. Improving variational inference with inverse autoregressive flow[J]. Advances in Neural Information Processing Systems, 2016, 29: 1-9.

[11]KINGMA D P, DHARIWAL P. Glow: Generative flow with invertible 1×1 convolutions[M]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal: Curran Associates Inc, 2018.

[12]SOHL-DICKSTEIN J, WEISS E A, MAHESWARANATHANN, et al. Deep unsupervised learning using nonequilibrium thermodynamics[J]. PMLR, 2015, 37: 2256-2265.

[13]HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[J]. Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.

[14]DHARIWAL P, NICHOL A. Diffusion models beat GANs on image synthesis[J]. Advances in Neural Information Processing Systems, 2021, 34: 8780-8794.

[15]沙莎, 魏宛彤, 李强, 等. 基于深度学习的楚国墓葬纺织品图像复原[J]. 丝绸, 2023, 60(5): 1-7.

SHA S, WEI W T, LI Q, et al. Textile image restoration of Chu tombs based on deep learning[J]. Journal of Silk, 2023, 60(5): 1-7.

[16]ALALUF Y, PATASHNIK O, COHEN-OR D. Only a matter of style: Age transformation using a style-based regression model[J]. ACM Transactions on Graphics (TOG), 2021, 40(4): 1-12.

[17]LIU M, WEI Y, WU X, et al. Survey on leveraging pre-trained generative adversarial networks for image editing and restoration[J]. Science China(Information Sciences), 2023, 66(5): 28-55.

[18]张柏如. 侗族服饰艺术探秘[M]. 台北: 汉声杂志社, 1994.

ZHANG B R. Exploration of Dong Costume Art[M]. Taipei: Hansheng Magazine, 1994.

[19]钱小萍. 中国织锦大全[M]. 北京: 中国纺织出版社, 2014.

QlAN X P. Brocade of China[M]. Beijing: China Textile & Apparel Press, 2014.

[20]左汉中. 湖湘传统纹样[M]. 长沙: 湖南美术出版社, 2010: 78.

ZUO H Z. Huxiang Traditional Patterns[M]. Changsha: Hunan Fine Arts Publishing House, 2010: 78.

[21]汪为义, 田新顺, 田大年. 湖湘织锦[M]. 长沙: 湖南美术出版社, 2008: 96.

WANG W Y, TIAN X S, TIAN D N. Hunan Brocade[M]. Changsha: Hunan Fine Arts Publishing House, 2008: 96.

[22]HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[J]. Advances in Neural Information Processing Systems, 2017, 30: 1-12.

[23]SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training gans[J]. Advances in Neural Information Processing Systems, 2016, 29: 1-9.

[24]黄厚石. 设计批评[M]. 南京: 东南大学出版社, 2009.

HUANG H S. Design Criticism[M].Nanjing: Publishing House of Southeast University, 2009.

[25]邓翔鹏, 贾荣林. 中国传统服饰纹样的程式与秩序[J]. 艺术设计研究, 2022(5): 38-43.

DENG X P, JIA R L. The stylization and order of Chinese traditional costume pattern[J]. Art and Design Research, 2022(5): 38-43.

An experimental study on the application of GAN and Diffusion models in traditional pattern design

ZHANG Chi, WANG Xiangrong

LI Lia, MAO Zihana, L Siqia, YUAN Chenxua, PENG Yuxub

(a.School of Design Art; b.School of Computer and Communication Engineering, Changsha University of Science & Technology, Changsha 410114, China)

Abstract: Traditional patterns come as one of the vital components of China’s rich cultural heritage, embodying the wisdom and aesthetic memory of China. These patterns have been extensively used in various design fields. Artists and designers can draw nourishment and inspiration from the beautiful graphic decorations, the rich implications of forms, and the unique pattern designs. However, traditional manual design methods can no longer meet the diverse and efficient demands of the modern pattern design. Current research on computer-aided pattern design primarily focuses on traditional methods and generative AI approaches. Traditional methods mainly generate new patterns by simulating image morphological features and quantifying image organizational characteristics. Generative AI methods, on the other hand, use deep neural networks for transfer learning to simulate the distribution of image data, thus creating new pattern images and offering new paths and methods for traditional pattern design. While there is already a certain foundational body of research on the generative design of traditional patterns, there are still issues in the field of generative technology application research. These include a lack of research from the perspective of universal generative design of traditional patterns, neglect of the cultural and artistic foundations of these patterns, insufficient attention to the practical application needs of generated patterns, and a lack of comprehensive evaluation of generated patterns.

To facilitate deep co-creation between designers and AI, this paper explores the potential and application of image generation models in the innovative design of traditional patterns from an artistic design perspective. Four mainstream image generation models were initially selected through preliminary experiments on traditional pattern generation. Among these, StyleGAN (based on GAN) and Stable Diffusion (based on Diffusion) were chosen for further experimentation. The technical aspects of the datasets, training processes, and model parameters were analyzed, and pattern images were evaluated based on diversity, clarity, and text-image matching. Additionally, a survey was conducted to assess the experimental results on five artistic design elements: form, color, aesthetics, innovation, and application. Combining technical and artistic analyses, the experimental results underwent comprehensive multidimensional evaluation. Finally, the experimental results were validated from the perspective of design requirements, and the superior performance of the two generative design methods in various aspects was explored. This provides case references for designers in selecting and using generative design methods and offers new research perspectives for traditional pattern design studies. The experimental results indicate that both models meet the basic requirements of artistic design. The StyleGAN model produces pattern images closer to the distribution of real images, with higher image quality and diversity, making it suitable for generating line patterns, individual patterns, and continuous patterns, and meeting the needs for quick generation emphasizing formal beauty. In contrast, the Stable Diffusion model better preserves the essence of traditional patterns, balancing artistry and creativity, and is more aligned with the artistic design needs of traditional patterns, suitable for diversified and precise generation requirements, and for cultural content emphasizing inheritance and innovation.

This study provides an experimental analysis of the application of image generation models in traditional pattern design, offering new research perspectives and methods for traditional pattern artistic creation. The findings will contribute to the deep application of generative AI in the design of ethnic and traditional patterns, so as to promote the modern transformation of traditional pattern design.

Key words: GAN; Diffusion; traditional patterns; evaluation metrics; comparative analysis; experimental study