基于直观汉字构形原理的C3-GAN字体生成优化方法

2023-05-27 07:19秦嘉霖刘维尚
包装工程 2023年10期
关键词:字符集构形字体

秦嘉霖,刘维尚

基于直观汉字构形原理的C3-GAN字体生成优化方法

秦嘉霖1,2,刘维尚1

(1.燕山大学,河北 秦皇岛 066004;2.河北省设计创新及产业发展研究中心,河北 秦皇岛 066004)

为了提升生成对抗网络汉字风格迁移的图像生成质量,实现汉字智能生成在字库产业中的实际应用,提出了一种基于直观汉字构形学的条件生成对抗网络字体生成优化方法(Optimization of Conditional Fonts Generation with Chinese Character Configuration GANs,C3-GAN)。建构了直观汉字构形模组(C3Module),该模组包含了利于条件生成对抗网络进行汉字构形语义特征学习的全特征汉字字符集。C3-GAN在条件生成对抗网络模型下进行字体生成训练,降低了必要训练样本数量,实现对字体生成效果的优化。使用C3-GAN生成汉字图像的清晰度更高、字形更准确。在图像相似性定量评估中,使用C3-GAN的实验组相比于其他模型,获得了更高的相似值和更小的误差值。使用C3-GAN可以降低必要训练样本数量、提升汉字图像质量。在实际项目中具有一定的应用性和可操作性。

生成对抗网络;汉字构形;人工智能;深度学习;汉字字体;C3-GAN

近年来人工智能技术以其强大的数据分析能力和运算能力被广泛应用。Goodfellow等[1]提出了生成对抗网络(Generative Adversarial Networks,GAN)的概念。自此,GAN网络模型以其高效的数据学习能力和良好的目标数据生成能力,在计算机视觉图像生成领域有出色的表现。随着我国经济的发展和国民审美水平的提高,具有艺术性与实用性双重价值的中文字体库设计作为文字信息的载体被广泛运用。商业上对中文字体库设计的需求正在逐年增加。然而,汉字字库设计属于劳动密集型产业,字体的制作需要耗费大量的人力和时间。借助深度学习图像生成技术可以在一定程度上辅助汉字字体设计制作,提高中文字体库的生产效率。对此,本文提出了一种基于汉字构形学的字体生成优化方法。

深度学习是对大规模数据进行表征学习的算法[2]。生成对抗网络作为深度学习领域的一个分支,近年来在图像风格迁移项目上进展显著。Isola等[3]开发了pix2pix模型,该模型可以在无需调整参数的情况下实现从输入图像到输出图像的风格迁移。这项研究提出了处理图像转化的通用框架,可以高效完成图像合成、图像着色中的众多任务,例如,对街景或外立面中的对象进行分类标记、灰度图像的智能上色、航空地图的图像处理、切换图像中的白天黑夜、生成图像边缘等,具有广泛适用性和易用性。该研究对Zi2zi模型的实现有重要帮助。Zi2zi模型由Tian[4]提出,该模型能在生成对抗网络原理下实现一对多的字体风格迁移,训练通常需要使用较大数量的实验样本,是深度学习汉字风格迁移的经典方法。此后,围绕该模型进行了许多改进研究和对照实验。

欧阳诗康[5]提出了StarGAN模型,该模型可以通过对一个生成器训练实现多种字体的风格转换。任春鹰[6]提出了自注意力机制汉字字体生成算法和基于密集型的汉字字体生成算法,有效提高生成汉字轮廓的清晰度。陈杰夫[7]在生成对抗网络风格转换模型基础上提出了新的风格制定机制,并通过分类损失函数和语义一致性损失函数对约束模型进行优化,提高了字体图像生成质量。王晓红等[8]提出了一种基于变分自编码的风格化书法字体图像生成模型,该模型能基于标准字体或随机噪声自动生成字体图像。

以上这些研究都将汉字图像生成优化的重心放在模型改进与损失函数优化上。然而,汉字与其他图像生成训练的对象不同。汉字作为具有几千年历史的中国文化符号,历经了漫长的发展演化,其背后潜藏着深刻的字形规则和构成逻辑。需从真实场景出发,将减轻前期字体设计负担,并提升汉字智能生成效果为首要目标,除了在技术层面上的优化以外,更应该对汉字的结构与语义进行分析与融合,重视汉字作为具体实验对象的内在逻辑所能提供的支撑。因此,本文提出了一种基于直观汉字构形学的条件,生成对抗网络字体生成优化方法(Optimization of Conditional Fonts Generation with Chinese Character Configuration GANs,C3-GAN)。该方法创新性地将汉字构形理论灵活运用于条件生成对抗网络模型中,该模型仅使用几百个汉字的训练样本,通过对汉字的结构与语义进行分析,可以推理出同一风格的高质量汉字图像。C3-GAN将为当前汉字的智能生成研究补上缺失的一环,也为针对具体生成对象的“人工智能+视觉传达”优化模式提供一种新的思路。

1 基于直观汉字构形学的字体生成优化方法

1.1 C3-GAN字体生成优化方法

以往的条件生成对抗网络模型的字体生成训练分为4个阶段:Font-to-image(导出一对一汉字图像)、Package(图像二进制打包)、Train(实验训练过程)、Inference(实验推理过程)。其中Font-to-image与Package属于训练数据预处理阶段。在预处理阶段需要准备至少1 000个随机字符样本。在原模型下,若要获得更好的字体生成效果,则需要进行第二阶段Fine-tune,每次需要2 000~4 000个数据样本。这导致原模型还无法在实际的字体库项目的制作环节中运用。因为中国标准字库的最小字符集GB2312涵盖6 763个汉字,设计师通常凭借字形风格、字体标准规则和设计经验进行设计制作,字体库设计的难度随着完成字符数量的增加而递减,所以智能汉字生成机制参与的时间越早辅助效果越好,如果在字体制作进程已经完成一半时参与,便不能发挥出理想的作用。因此,本项目的研究目的,就是对该条件生成对抗网络字体生成方法进行优化改进,降低必要样本数量,提高字体图像的生成质量。

本文的创新点在于提出了C3-GAN优化模型,并将该模型与字体设计各阶段紧密地结合起来,见图1。该优化模型为原条件生成对抗网络配置了汉字构形模组(C3Module)。该模块内是一个基于直观汉字构形学的全特征字符集。全特征字符集是由字库标准的汉字字符集(例如GB2312等)在直观汉字构形学中通过部件(Parts)与结构(Structure)的系统分类,进行不重复部件的组配汉字筛选得到的能以较少的字符数量表现汉字特征的集合。因此,全特征字符集可以在有限的字符样本数量下充分涵盖汉字部件与结构的特征。用该模组替换原实验预处理中使用的随机样本,让汉字字体训练样本的表现更具有全面性和广泛性,有利于GAN网络对汉字字体的构成语义特征和风格语义特征的掌握,从而实现比其他生成对抗网络模型更好的字体风格迁移效果。C3-GAN延续了目标字形风格的绝大多数特征,生成字库所需字符数量的字形图像,这些特征包括:笔形形态、笔画特征、偏旁部首、间架结构、字面率等。该模型的生成结果中体现的统一化和标准化,可以为后期设计中需要团队协同的字体制作工作提供有价值的参照。

图1 C3-GAN汉字生成优化方法

1.2 价值与意义

C3-GAN优化模型创新方法具有以下应用价值:减轻前期字体设计负担,将必要汉字训练样本减少到可控的600个;遵循汉字字体库制作流程,研究方法可直接运用于实际项目;同步技术升级,伴随着GAN模型优化还有很大的发展空间。汉字构形理论得以在汉字智能生成项目中发挥作用,表明了在探索字体设计智能化的道路上,离不开技术的进步,更离不开文化的积淀。汉字在中华民族长远的发展历程中,涵盖了深厚的历史文化,反映了中华文明的传承,如今更彰显着中国的文化自信。2017年国务院发布了《新一代人工智能发展规划》,各行各业都在探寻人工智能所带来的技术突破。以此为契机探究字体设计产业“人工智能+”的字体生成模式,有助于提高字库企业的创造力和生产力,有利于促进中国字体产业转型升级,促进新技术、新方法及人机协同新模式的形成。这种技术与文化融合创新的产业模式也为视觉传达领域解决具体的智能生成问题提供了一条值得研究和思考的新路径。

2 直观汉字构形原理

汉字构形学是对汉字字形结构进行研究的理论。“六书”理论奠定了汉字构形学原理的基础,之后汉字构形原理继续发展和演化,如今已逐渐形成对简体字的现代汉字构形理论。在现代汉字直观构形体系中,针对汉字字形有了更加逻辑严谨的划分,该理论明确指出了组成汉字的各部分概念之间的层级关系和各要素的属性特点。通过直观汉字构形原理从部件与结构因素进行筛选,可以得到C3-GAN所需的全特征字符集。

2.1 汉字构形理论研究

2.1.1 字符集筛选的部件因素

部件由笔画组成,是汉字的构字单元。通过逐层拆分汉字,可以得到一级部件、二级部件直至末级部件。末级部件也称基础部件。基础部件的数量会伴随着统计集的字数增多而增加,但是到了一定程度后基础部件的数量增加则不显著。对部件的提取要考虑到部件在整字中的位置和与其他部件的空间关系。在《现代常用字部件及部件名称规范》中收录的部件数量为514个[9]。晓东[10]的研究中对通用汉字规范表的3 500个汉字提取部件,得到了474个部件,其中有195个成字部件。费锦昌[11]的研究中,统计得到了384个部件,其中有162个为成字部件。在侯冬梅[12]的研究中,从通用规范汉字标准的8 105个汉字统计,得到了549个基础部件,共1 995个部件。

2.1.2 字符集筛选的结构因素

汉字字形结构的划分与部件位置的分布有着必然的联系。探究汉字结构的规律,其实就是在厘清部件位置排布的规则。在傅永和[13]汉字结构的研究中,根据部件平面分布的8类形式将通用规范汉字中合体字的结构划分为85种。通过逐层分析汉字结构可以将合体字划分为13种,也可粗略划分为5种:左右结构、上下结构、特殊结构、半包围结构、全包围结构。在刘靖年[14]的汉字构形理论中,除了独体字结构以外,汉字的结构有12种:上下结构、上中下结构、左右结构、左中右结构、全包围结构、上三包围结构、下三包围结构、左三包围结构、左上包围结构、左下包围结构、右上包围结构、框架结构。而在赵彤[15]的研究中以小篆为研究对象,将汉字的结构划分成24种。由此可见,采用不同的划分方法可以得到不同的汉字结构分类。针对不同特点的研究对象和研究目的,可以对汉字的基本结构分类方式进行调整。

2.2 C3-GAN的字符集筛选方法

2.2.1 字形拆解与部件类聚

C3-GAN所需要的全特征字符集是基础部件在不重复情况下组合而成的最小汉字集,既减少人工设计模板字体的工作量,又让人工神经网络在训练中更全面地捕捉到汉字特征。本文对汉字字库最小字符集GB2312的6 763个汉字通过汉字直观构形原理进行字形的拆分和部件的分类归纳。在汉字构形属性研究中[12],已经对通用规范汉字字符集(含有8 105个汉字)做了部件拆解与分类。下面对GB2312字符集与通用规范汉字字符集进行字符统计,见表1。

从表中可知,GB2312字符集与“一级、二级通用规范字”(含有6 500个汉字)的字符交集最大,因此汉字部件将在已有的“一级、二级通用规范字”的部件基础上进行拆分。首先,对GB2312独有汉字使用汉字构形二叉树拆分法进行拆分,拆分示意见图2。

表1 字符集统计

Tab.1 Statistics of character sets

图2 汉字拆分示意

图3 字符集基础部件

图4 字符集合成部件

2.2.2 构形字符集筛选

由此得到基于汉字构形学的C3-GAN汉字全特征字符集。使用该方法得到的字符集在有限的字符数量下充分表示字符集中所有汉字的部件特征。本文将在下文的对照实验中验证C3-GAN训练汉字风格迁移的优化效果。

3 条件生成对抗网络的汉字字体生成原理

本文将通过对照实验探究C3-GAN与不使用汉字构形模组(C3Module)的条件生成对抗网络的汉字风格迁移效果。本文采用的人工神经网络训练模型框架,见图5。该模型的基本原理如下。

图5 本文使用的生成对抗网络模型

3.1 图像风格迁移原理框架

在生成式对抗网络中为了让生成图像达到逼真的程度,图片转换模型的结构化损失通过像素的分类、回归公式来描述。在条件生成对抗网络(Con­ditional GANs)中,生成器的工作是通过学习生成能够欺骗判别器的虚拟图像,判别器的工作是鉴别生成器生成的虚拟图像,并与真实图像进行区分。区别于其他研究中的损失方法,条件生成对抗网络中的损失是通过学习而获得的,能针对输出图像与真实图像之间的任何差异,对网络权值进行优化。在该模型中生成器采用了“U-net”[16]基本结构框架,并将固定的高斯噪声嵌入到生成器中。生成器与判别器的训练过程见式(1)。

生成器经过训练后,输出让判别器难以与真实图像进行区分的虚拟图像,判别器经过训练后能更好地检测出“虚拟图像”见式(2)。

3.2 跨域风格转换中的Loss优化

在图像的领域转换网络(Domain Transfer Networks,DTN)的理论中[17],源图像与目标图像除风格不一致外仍存在相似的高维特征,利用Constant Loss计算源图像经过编码之后的高维向量与生成图像经过编码后的高维向量之间的差异,控制高维语义中源图像与目标图像的特征尽可能相似,见式(3)。正是因为使用了Constant Loss,所以通过强制编码器维持生成图像的高维特征,显著提高了人工神经网络的生成效率。

4 实验

4.1 训练数据预处理

采用对照实验的形式,验证C3-GAN模型的优化效果。选取了不同风格的字体分别作为实验的源字体S和目标字体T。将基于汉字构形模组(C3Module)筛选出的600个汉字组成实验汉字集EG_600,对照组采用随机取样的600个汉字组成对照汉字集CG_600。使用cjk.json(www.json.org.cn)字符数据集为训练数据打标签。经Font-to-image处理,将字符配对生成为256 px×256 px的图像后,对图像进行二进制打包处理。训练所用的汉字图像的内容包含汉字的结构、轮廓、特征等信息,二进制图像能够保留这些重要信息,而且这样可以有效地减少训练过程中的运算量,提升训练效果。

4.2 实验与评估

本次训练在云处理器中进行。使用NVIDIA RTX 2080 Ti图像处理器(GPU),16内存4核Intel(R)处理器(CPU),采用了基于GPU版本的TensorFlow深度学习框架。

4.2.1 实验过程

生成训练网络详细参数,见表2。将初始学习率设定为0.001,训练的批次实例数为16,L1 Penalty权重为100,Lconst Penalty权重为15,在经过20 epoch后,学习效率减半,根据目标字体的不同,将epoch设置在40~45。训练中生成器与判别器的损失曲线,见图6。

在完成训练后使用推理汉字集生成预测数据,推理汉字集字符从GB2312汉字字符集中抽取,且已过滤掉了参与训练的字符。分别对5组训练数据进行推理。5组训练成果的推理生成图像效果,见表3。

图6 生成器与判别器的loss曲线

4.2.2 实验效果分析评估

通过对5组汉字图像生成效果的观察可知,每对实验中的实验组生成汉字图像都比对照组的轮廓更清晰、杂点更少、边缘更平滑。从字体设计风格上看,实验组在笔画完整程度、间架结构、风格、细节等各个方面的效果都优于对照组。为了从客观角度对实验结果进行定量评价,使用图像相似性测量方法分别评估实验组字体图像与真实字体图像、对照组字体图像与真实字体图像的相似性指数,见表4。本文使用了SSIM(结构相似性指数)、FSIM(基于特征的相似性指数)、PSNR(峰值信噪比)、RMSE(均方根误差)4种测量方法,见表4。SSIM、FSIM、PSNR的数值越大则表明生成的虚拟图像与真实图像相似性越高;RMSE数值越小则表明虚拟图像与真实图像差异越小、相似性越高。5组结果中实验组均在SSIM、FSIM、PSNR获得更大数值,而在RMSE获得更小数值,进一步验证了采用EG_600字符集的实验组与真实字体风格的相似性要高于对照组。

表2 网络详细参数

Tab.2 Network detailed parameters

表3 多风格汉字图像的生成效果对比

Tab.3 Comparison of generation effects of multi style Chinese character images

表4 图像相似性指数

Tab.4 Image similarity index

5 结语

本文针对汉字风格迁移的图像生成问题提出了一种基于直观汉字构形学的条件生成对抗网络字体生成优化方法(C3-GAN),该方法是对汉字生成对抗网络模型的一次改进。C3-GAN在降低训练必要字符样本数量的情况下,可以有效提高生成字体与目标字体的相似度和准确度,生成逼真的字体图像。该方法可以直接应用于汉字字库开发,为汉字设计工作提供技术辅助,进而提高汉字字体产业的生产效率。然而该方法仍有调整改进的空间,有待在未来的研究中继续探索。人工智能技术的发展将会持续推动字体设计产业生产效率的提高,而创意与审美的主体是人。因此,未来人机协同的字体设计产业模式的构建,离不开技术的进步,离不开文化的支撑,也离不开设计师对设计独创性的坚持与探索。

[1] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative Adversarial Networks[J]. Communi­ca­tions of the ACM, 2020, 63(11): 139-144.

[2] 柴梦婷, 朱远平. 生成式对抗网络研究与应用进展[J]. 计算机工程, 2019, 45(9): 222-234. CHAI Meng-ting, ZHU Yuan-ping. Research and Appli­cation Progress of Generative Adversarial Networks[J]. Computer Engineering, 2019, 45(9): 222-234.

[3] ISOLA P, ZHU Jun-yan, ZHOU Ting-hui, et al. Image- to-Image Translation with Conditional Adversarial Net­works[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 5967-5976.

[4] TIAN Yuchen. zi2zi: Master Chinese Calligraphy with Conditional Adversarial Networks[EB/OL]. (2017-08-09)[2022-05-01]. https://github.com/kaonashi-tyc/zi2zi, 2017.

[5] 欧阳诗康. 基于StarGAN模型的多风格汉字生成方法研究[D]. 南昌: 江西师范大学, 2019. OUYANG Shi-kang. On Generation Method of Multi- style Chinese Characters Based on StarGAN[D]. Nan­chang: Jiangxi Normal University, 2019.

[6] 任春鹰. 基于生成对抗网络的汉字字体生成算法研究[D]. 上海: 华东师范大学, 2020. REN Chun-ying. Research on Automatic Chinese Font Synthesis Based on Generative Adversarial Networks [D]. Shanghai: East China Normal University, 2020.

[7] 陈杰夫. 基于生成对抗网络的汉字字体风格生成与转换[D]. 成都: 电子科技大学, 2020. CHEN Jie-fu. Generation and Transformation of Chi­nese Font Style Based on Generation Confrontation Network[D]. Chengdu: University of Electronic Science and Technology of China, 2020.

[8] 王晓红, 卢辉, 麻祥才. 基于生成对抗网络的风格化书法图像生成[J]. 包装工程, 2020, 41(11): 246-253. WANG Xiao-hong, LU Hui, MA Xiang-cai. Generation of Stylized Calligraphic Image Based on Generative Adversarial Network[J]. Packaging Engineering, 2020, 41(11): 246-253.

[9] GF 0014-2009,现代常用字部件及部件名称规范[S].GF 0014-2009, Specification for Common Modern Chi­nese Character Components and Component Names[S].

[10] 晓东. 现代汉字部件分析的规范化[J]. 语言文字应用, 1995(3): 56-59. XIAO Dong. Standardization of Component Analysis of Modern Chinese Characters[J] Applied Linguistics, 1995(3): 56-59.

[11] 费锦昌. 现代汉字部件探究[J]. 语言文字应用, 1996(2): 20-26. FEI Jin-chang. Research of Modern Chinese Characters Components[J]. Applied Linguistics, 1996(2): 20-26.

[12] 侯冬梅. 通用规范汉字构形属性研究[D]. 武汉: 华中师范大学, 2017. HOU Dong-mei. Study on Formative Attributes of General Regularized Chinese Characters[D]. Wuhan: Central China Normal University, 2017.

[13] 傅永和. 汉字的结构[J]. 语文建设, 1991(9): 10-11. FU Yong-he. Structure of Chinese Characters[J]. Lan­guage Planning, 1991(9): 10-11.

[14] 刘靖年. 汉字结构研究[D]. 长春: 吉林大学, 2011. LIU Jing-nian. A Study on the Structure of Chinese Characters[D]. Changchun: Jilin University, 2011.

[15] 赵彤. 基于关系数据库的汉字构形分析及其应用[J]. 语言文字应用, 2015(3): 119-132. ZHAO Tong. Analysis and Application of the Formation of Chinese Characters Based on Relational Database [J] Applied Linguistics, 2015(3): 119-132.

[16] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.

[17] TAIGMAN Y, POLYAK A, WOLF L. Unsupervised Cross-Domain Image Generation[EB/OL]. (2016-11-07) [2022-08-12]. https://arxiv.org/abs/1611.02200.

C3-GAN Fonts Generation Optimization Based on Intuitive Chinese Character Configuration

QIN Jia-lin1,2, LIU Wei-shang1

(1.Yanshan University, Hebei Qinhuangdao 066004, China; 2.Hebei Design Innovation and Industrial Development Research Center, Hebei Qinhuangdao 066004, China)

The work aims to propose a method for Optimization of Conditional Fonts Generation with Chinese Character Configuration GANs (C3-GAN) of the intuitive Chinese character configuration to improve the image generation quality of Chinese character style transferring with generative adversarial networks, and achieve the practical application of Chinese character intelligent generation in the font industry. An intuitive Chinese character configuration module (C3Module) was constructed, which contained Chinese character sets with all features. It was beneficial to generating an adversarial network for the learning process of semantic features of Chinese character configuration. Performing font generation training with C3-GAN under the model of the conditional generative adversarial network reduced the number of compulsory training samples, and optimized the font generation effect. C3-GAN could generate Chinese characters with higher images definition and more accurate glyphs. In the quantitative evaluation of image similarity, the experimental group using C3-GAN obtained higher similarity values and smaller error values than other models. C3-GAN can reduce the number of compulsory samples, and improve the image quality of Chinese characters. It has certain applicability and operability in practical projects.

generative adversarial networks; Chinese character configuration; artificial intelligence; deep learning; Chinese character font; C3-GAN

TB472

A

1001-3563(2023)10-0193-09

10.19554/j.cnki.1001-3563.2023.10.019

2022–12–02

2023年河北省教育厅人文社会科学研究重大课题攻关项目(ZD202327)阶段性成果。

秦嘉霖(1994—),女,硕士,主要研究方向为字体设计。

刘维尚(1979—),男,硕士,教授,主要研究方向为视觉传达设计的跨界应用。

责任编辑:陈作

猜你喜欢
字符集构形字体
双星跟飞立体成像的构形保持控制
字体的产生
通有构形的特征多项式
MySQL数据库字符集的问题研究
ORACLE字符集问题的分析
ORACLE数据库字符集问题及解决方法
医院信息系统Oracle数据库中导入数据中文乱码的解决技术
对一个几何构形的探究
组合字体
甲骨文构形法研究