基于字体特征与多尺度PatchGAN 的中文字体风格转换研究

2023-12-03 07:16:56程若然赵晓丽周浩军
云南大学学报(自然科学版) 2023年6期
关键词:字符字体特征提取

程若然,赵晓丽,周浩军

(上海工程技术大学 电子电气工程学院,上海 201620)

当前字体风格转换研究工作大多使用基于深度学习的研究方法,研究目的是学习源字体与目标字体之间的风格转换关系,生成带有目标字体风格的源字符内容图像.该研究有助于构建高质量字体库,有效解决字体相关行业设计新型字体耗时久、效率低、成本高等问题.

传统字体生成方法主要分为虚拟笔刷模型方法和基于字形描述的字体生成方法,在一定程度上减轻了字库设计的成本,但仍需大量人工操作.近年来随着深度学习兴起,研究人员开始利用深度神经网络实现字体风格转换.在生成对抗网络[1](Generative Adversarial Networks, GAN)及各种生成网络模型变体结构的基础上,许多中文字体风格转换方法被提出.Tian[2]提出基于卷积神经网络(Convolutional Neural Network, CNN)的Rewrite,通过图像的整体风格学习实现字体风格的转换,但该方法只能生成单一字体,并存在字形模糊的缺陷.为解决Rewrite 的问题,Tian[3]进一步提出基于pix2pix[4]的zi2zi,将字体的内容特征与风格特征分离,利用类别嵌入与类别损失训练网络,并通过内容损失保证源字符与生成字符具有内容一致性.之后,其他研究人员尝试使用多种网络结构分别对字体内容与字体风格进行提取.Liu 等[5]基于解耦表示学习提出字体去风格化与风格化的框架,解决了去风格化过程中的笔画细节丢失的问题.为实现使用更少数量的字符样本进行风格学习,Jiang 等[6]提出只使用一个样本的中文字体风格转换网络W-Net.为实现小样本书法字体的生成,赵静等[7]提出一种基于残差单元的生成对抗网络书法字体生成方法,以生成逼真的书法字体,并得到完整字体库.Zhu 等[8]认为字体的字符内容特征与风格特征不是完全相互独立的,二者之间存在一定联系,内容特征会包含笔触、结构等风格信息,由此提出利用特征相似矩阵提取加权风格特征的思想,将内容特征与加权风格特征相结合得到表示性更强的字体特征.为提高生成质量,Jiang 等[9]提出SCFont,将传统的计算机图形学方法与深度学习结合,取二者优势以保证在减少人工干预的情况下生成具有目标风格的高质量字形;Wu 等[10]结合汉字知识提出了CalliGAN,利用汉字笔画信息增强生成字符图像的笔画细节表现;文献[11-13]将笔画笔迹以及书写方式等汉字先验信息引入字体生成模型中,指导网络模型进而提升汉字生成效果;Wang 等[14]利用字体属性定制用户想要的字体,提出基于属性注意力的Attribute2Font,该方法将可控制的属性融入到风格转换的任务中; Gao 等[15]基于骨架迁移与笔画渲染提出了一个三阶段的网络模型,实现不配对的中文字体风格转换;卢鹏等[16]基于无监督学习实现不配对的字体风格转换,利用注意力机制和自适应标准化层增强个性化汉字生成的内容和风格.

当前方法虽能较好地实现中文字体风格的转换,但依然存在生成字符图像质量低以及生成字体与目标字体风格不一致的问题,因此本文提出基于字体特征与多尺度patch 生成对抗网络的中文字体风格转换方法,主要内容如下:

(1)提出字体风格学习网络,增强字体风格特征提取能力.首先通过Gabor 特征提取层丰富输入图像的字体特征信息,然后将通道洗牌[17](channel shuffle)机制和深度可分离卷积[18-19]结合,使特征在不同通道间信息流通,解决深度可分离卷积只能提取单通道特征的问题,在降低网络参数量与计算量的同时提升网络分类精度,解决生成字体风格与目标风格不一致问题.

(2)提出字符内容识别网络,增强字符内容特征提取能力.综合多尺度特征进行分类预测,引入SE(Squeeze and Excitation)[20]通道注意力,对特征通道权重再分配,增强对重要通道的关注度,并利用多尺度特征获取多尺度感受野,捕捉字符图像不同尺度大小的细节特征,提升网络对字符内容特征的提取性能,解决生成字符图像字形不正确问题.

(3)提出多尺度patch 生成对抗网络,实现高质量中文字体风格转换.利用字体风格学习网络和字符内容识别网络分别提取输入图像的字体风格特征和字符内容特征,输入到多尺度patch 生成对抗网络中生成字符图像.使用多尺度patch 判别器替换传统判别器以关注图像的多尺度信息,利用多尺度对抗损失、风格损失和内容损失联合优化训练网络,最终生成与目标字体风格一致的字符图像.

1 基于字体特征与多尺度PatchGAN 的中文字体风格转换网络

本文所提方法包括字体风格学习网络、字符内容识别网络与多尺度patch 生成对抗网络,整体网络结构如图1 所示.该网络基于字体风格特征和字符内容特征学习源字体风格到目标字体风格的转换关系,生成与目标字体风格一致的高质量字符图像.利用字体风格学习网络提取的风格特征约束生成字体图像的风格表现,解决生成字体与目标字体风格不一致的问题;利用字符内容识别网络提取的内容特征约束生成字体图像的字形表现,解决生成字符字形不正确的问题.

图1 中文字体风格转换网络结构图Fig.1 The overall structure diagram of Chinese font style transfer network

令xap表 示源字体图像,xbq表示目标字体图像,其中a、b∈[0,Nf-1],p、q∈[0,Nc-1],Nf为字体类别数量,Nc为字符类别数量.字符内容识别网络提取输入源字体图像xap的 内容特征向量,字体风格学习网络提取输入目标字体图像xbq的风格特征向量sxbq.将两个特征向量输入到多尺度patch 生成对抗网络中生成目标字符图像,用多尺度patch 判别器从5 个尺度大小的patch 图像块对生成字符图像进行真假判别.

1.1 字体风格学习网络为了量化字体风格特征以供神经网络迭代学习,首先需要明确字体风格的涵义.汉字由笔画组成,而笔画又分为起笔、行笔和收笔,不同风格字体的笔画起笔、行笔、收笔拥有不同的形态,这些形态统称为笔锋,因此笔锋是风格的关键.在一个字符图像中,字符本身的像素信息只占整个图像的一半甚至1/3 以下,而笔锋所属像素在其中又不足1/3,这表明网络能够获得的笔锋信息十分稀疏.为解决输入字符图像信息稀疏使得风格特征难以表示的问题,在使用Gabor 特征提取层丰富字体图像特征信息的基础上,利用结合通道洗牌[17]机制的深度可分离卷积[18-19]进行字体风格特征提取,提升字体风格学习网络的特征提取性能,从而在对抗训练时引导生成模型生成与目标字体风格一致的字符图像.字体风格学习网络的结构如图1 左下角所示,由Gabor 特征提取层、卷积层以及风格特征提取层构成.

Gabor 特征对图像的边缘敏感,能从不同尺度与不同方向提取图像的纹理信息.汉字所有笔画由基础笔画横、竖、撇、捺、点组成,其中撇与撇点、捺与捺点归为一类,对应的方向分别是0°(横)、90°(竖)、45°(撇、撇点)和135°(捺、捺点),使用4个尺度的Gabor 核提取4 个方向的Gabor 特征作为基础笔画的特征表示.提取的Gabor 特征不但用于丰富图像特征信息,还用于对抗训练优化损失时风格损失的部分计算,Gabor 核的计算公式为复数式,如下:

式中:参数 λ 、θ、ψ、σ、γ分别表示波长、方向、相位偏移、标准差和长宽比.

将提取的16 个Gabor 特征图与输入目标字符图像按通道拼接后送入如图2 所示的基于改进深度可分离卷积的风格特征提取层.深度可分离卷积由逐通道卷积[19]与逐点卷积[21]组成,逐通道卷积的每个卷积核对输入特征图的每个通道分别进行卷积计算,输出特征图与输入特征图通道数相同;逐点卷积通过1×1 卷积核将逐通道卷积的输出特征图在深度方向上进行加权计算.相比标准卷积,深度可分离卷积参数量更少,计算量更低,能有效减小网络模型规模,加快网络运行速度.但逐通道卷积只对输入特征图的每个通道独立进行卷积运算,忽略了不同通道之间的相关性,从而降低了特征提取性能,虽然逐点卷积将特征重新组合缓解了影响,但未解决该问题.本文引入通道洗牌[17]机制,通过对逐通道卷积进行重新组合使逐通道卷积能考虑更多特征通道,输出表征性能更强的特征.利用该特征提取层进行字体风格特征提取,不仅能有效降低网络参数量,而且进一步提升了网络特征提取性能.

图2 风格特征提取层结构Fig.2 The network layer structure of style feature extraction

1.2 字符内容识别网络为能够对任意风格的字符图像进行正确的识别,字符内容识别网络需训练识别上百种风格字体的字符,第一个难点在于同一个字不同风格的形态存在相当大的差异,不仅是对黑体宋体这类常见字体进行字符识别,还需对形状变化大的美术字体进行字符识别;第二个难点在于汉字数量大,这意味着需要更丰富的特征供网络进行学习.为解决上述问题,在上一节设计的风格特征提取层中引入SE[20]通道注意力对特征通道权重进行再分配,并利用多尺度特征丰富网络可获取的特征信息,从而提升网络提取字符内容特征的性能.字符内容学习网络的结构如图1 左上角所示,由卷积层与内容特征提取层构成.

SE 先进行全局池化压缩(Squeeze),然后经过两次全连接层激活(Excitation)输出表示各通道权重的特征向量,最后将特征向量与原输入特征图相乘实现特征通道权重再分配,使重要程度高的特征通道权重被提升,重要程度低的特征通道权重被抑制.引入SE 的内容特征提取层结构如图3 所示,在经过逐通道卷积之后,将经SE 得到的特征通道权重与之相乘,再经过逐点卷积输出特征.

图3 内容特征提取层结构Fig.3 The network layer structure of content feature extraction

在卷积神经网络中,感受野表示网络层输出的特征图上每一个神经元所能“看见”的输入图像对应区域的范围.越深层的输出特征图元素对应原始图像上越大的范围,感受野的大小影响网络的性能表现.因此利用多尺度特征获取多尺度大小的感受野,捕捉输入字符图像不同尺度大小的细节特征,对每个网络层的特征输出都进行分类预测,最后综合所有尺度的预测分数得到最终分类结果,从而有效提升网络提取字符内容特征的性能表现.

1.3 多尺度patch 生成对抗网络多尺度patch 生成对抗网络包括生成器和多尺度patch 判别器,网络结构如图4 所示,其用于生成与目标字体风格一致的字符图像.

图4 多尺度patch 生成对抗网络结构Fig.4 The structure of multi-scale patch GAN

先利用字体风格学习网络和字符内容识别网络提取输入图像的风格特征和内容特征,再将两个特征输入到生成器中生成字符图像.为增强生成字符图像字形结构的表现,在字符内容识别网络和生成器的中间层添加跳跃连接进行特征传输,避免产生梯度消失.设计多尺度patch 判别器从5 个尺度对生成字符图像和目标字符图像进行综合判断,平均所有尺度的判别结果得出最终的真假标签.

生成器由1 个线性映射层、3 个上采样层以及1 个卷积层构成,网络层设计如表1 所示,表中卷积操作的卷积核尺寸为3×3,步长和填补均为1.

表1 生成器网络层设计Tab.1 The design of generator network layer

输入目标字体图像xbq的 风格特征和源字体图像xap的 内容特征,生成器生成具有目标字体风格与源字符内容图像的生成字符图像

多尺度patch 判别器由卷积层和线性映射层构成,网络层设计如表2 所示,表中卷积操作的卷积核尺寸为3×3,步长为2、填补为1,操作列中的“→”符号表示有一个分支输出当前尺度特征的预测结果.

多尺度patch 判别器由马尔可夫判别器(patchGAN)[4]改进得来,马尔可夫判别器基于感受野将输入图像“分割”为若干大小相同的patch 图像块,对每个图像块进行真假判别,最后输出判别矩阵.传统判别器关注图像全局只输出一个判别结果值,因此忽略了图像局部;马尔可夫判别器通过综合各图像块的判别结果给出图像的真假判别结果,因此关注图像的局部纹理细节.马尔可夫判别器的图像“分割”通过不同卷积层对应不同大小感受野实现,这表明图像块在代码实现中的真实意义是卷积神经网络中的感受野.本文结合传统判别器和马尔可夫判别器,设计多尺度patch 判别器,利用判别器每一层网络都对应不同大小感受野的原理,对输入图像从7×7、15×15、31×31、63×63 以及完整图像5 个尺度大小的图像块进行真假判别,得到对应的多个判别矩阵,矩阵的元素值表示输入图像中对应图像块为真的概率.如图5 所示,卷积层4 输出4×4 判别矩阵,对应输入图像的16 个31×31 大小的图像块,矩阵元素值为图像块被判别为真的概率.将多尺度判别矩阵的平均值作为图像最终的判别结果,多尺度patch 判别器能同时关注图像全局和局部信息,从而增强判别器性能.

图5 网络层Conv4 输出的判别矩阵以及对应的输入图像图像块Fig.5 The discriminant matrix output by layer Conv4 and the corresponding input image blocks

式中:Pi(Y=True)表 示第i个 尺度判断真图像对Y为真的概率,Pi(Y′=True)表 示第i个尺度判断假图像对Y为真的概率,Di表 示多尺度patch 判别器D第i个尺度特征层输出的结果.

当5 个尺度中某个尺度的对抗损失降到最小值,而其他尺度的对抗损失还未收敛时,生成器将继续优化生成图像以降低其他尺度的对抗损失,直到从低层至高层的特征信息趋于一致,使得所有尺度的对抗损失都收敛.多尺度对抗损失激励生成器生成从图像局部细节到图像全局整体皆与目标图像数据分布一致的字符图像.

1.4 损失函数为进一步优化生成图像的质量,提出多尺度对抗损失、风格损失和内容损失3 个损失函数对网络模型进行优化.风格损失结合Gabor 特征和风格特征计算得到;内容损失计算生成字符图像内容特征和源字符图像内容特征之间的误差.

多尺度对抗损失函数Ladv为多尺度patch 判别器D与生成器G之间的对抗损失,如公式(7)所示,λi为第i个 尺度对抗损失的权值;第i个尺度的对抗损失由第i个尺度的生成损失LGi和 第i个尺度的判别损失LDi构成,如公式(8)与公式(9)所示.对抗损失的优化原理是生成器与判别器之间相互博弈,当判别器对生成字符图像的判别结果越接近真,生成器的生成损失越小,当判别器对生成字符图像的判别结果越接近假,对目标字符图像的判别结果越接近真,判别器的判别损失越小,二者之间相互博弈直至取得纳什平衡.

风格损失函数Lstyle结合Gabor 特征和风格特征计算得到,约束生成字符图像与目标字符图像的风格一致,计算公式如式(10)~(12)所示,由目标字符xbp的Gabor特征vGabor与生成字符的Gabor特征vGabor之间的距离DGabor,以及目标字符的风格特征与生成字符的风格特征之 间的距离Dstyle构成.

式中: λGabor为 距离DGabor的 权值, λstyle为距离Dstyle的权值,取 λGabor=λstyle=0.5, Gabor 特征VGabor(x)由输入图像x与Gabor 核做卷积计算得到.

内容损失Lcontent如公式(13)~(15)所示,由目标字符xbp与 生成字符︿x之间的L1损失以及目标字符内容特征与生成字符内容特征之间的距离Dcontent构成.内容损失能够约束生成字符图像与输入的源字符图像在字形结构上保持一致.

式中: λL1为 距离L1损 失的权值, λcontent为 距离Dcontent的权值,取 λL1=λcontent=0.5.

综上,总损失函数L为上述3 个损失函数之和,如:

2 实验结果及分析

为了使字体风格学习网络与字符内容识别网络均拥有良好的特征提取性能,为多尺度patch 生成对抗网络提供有效的特征信息,将网络训练过程分为两个阶段:

(1)预训练阶段 使用大规模数据集对字体风格学习网络和字符内容识别网络进行预训练,得到风格特征和内容特征提取性能优越的特征提取网络.

(2)对抗训练阶段 首先将目标字体图像输入到预训练好的字体风格学习网络中得到字体风格特征向量,将源字体图像输入到预训练好的字符内容识别网络中得到字符内容特征向量;然后将两个特征向量输入到多尺度patch 生成对抗网络中学习源字体风格到目标字体风格的转换关系,通过对抗训练生成与目标字体风格一致的高质量字符图像.

2.1 实验设置与数据集实验的软件硬件配置以及网络参数设置如表3、表4 所示.

表3 实验硬件/软件配置Tab.3 Experiment with hardware/software configuration

表4 网络参数设置Tab.4 Settings of Network Parameters

本文所使用数据集来自方正字库免费公开的字体文件,通过Python 代码从字体文件获得字符图像数据集,共38 种字体,每种字体生成3 755 幅字符图像,每幅图像大小为64×64,以8∶2 的比例划分训练集与测试集.为方便进行实验分析,所有实验使用SimHei 作为源字体,SimHei 字体图像示例如图6 所示.

图6 SimHei 字体图像示例Fig.6 Image examples of SimHei font

2.2 评价标准本文从两方面对生成结果进行评价:一是利用字符内容识别网络与字体风格学习网络分别对生成字符图像进行字符分类与风格分类,计算准确率A(Accuracy),其大小为正确分类识别的生成字符图像数量与生成字符图像总数量的比值;二是使用结构相似性(Structural Similarity,SSIM)评价标准对生成字符图像进行评价.SSIM从图像的亮度、对比度以及结构度3 个方面衡量生成图像与目标图像间的结构相似性,SSIM 越大表示二者结构越相似,生成效果越好,其计算公式为:

式中: µY、 µY′分 别为目标字符Y与生成字符Y′的像素均值, σY、 σY′ 为 目标字符Y与生成字符Y′的像素方差, σYY′为 目标字符Y与生成字符Y′的协方差,c1、c2、c3为常数,通常取c1=(0.01×255)2,c2=(0.03×

2.3 对比实验本文选取3 种开源网络进行对比实验,分别是风格转换方法中最经典的网络pix2pix[4]、最先将神经风格迁移应用到中文字体风格转换的网络zi2zi[3]以及基于GAN 网络中最佳风格转换模型CycleGAN[22]实现手写字体风格转换的HCCG[23](Handwritten Chinese Characters GAN).pix2pix 是一个条件生成对抗网络,使用L1 距离和条件对抗损失作为损失函数.zi2zi 融合pix2pix 和AC-GAN[24](Auxiliary classifier GAN),使用L1 距离、L2 距离、生成对抗损失以及类别损失作为损失函数.HCCG 结合CycleGAN 和DenseNet[25]生成个性化手写字体,使用循环一致对抗损失作为损失函数.

图7 和图8 为各方法转换生成字体FZPXJW与字体ZCXS 的生成结果.对于笔画较少字型简单的字符,pix2pix 的生成结果相对出现较多空白;对于笔画多字型复杂的字符,其结果产生较多模糊,整体字形仅能呈现大概的轮廓,难以辨认.zi2zi 与HCCG 的生成结果优于pix2pix,字型较为清晰,能辨认大多字符,但依然存在笔画粘连、缺失、模糊的情况,使得视觉效果不佳.本文所提方法的生成结果表现最好,生成的字符笔画边缘流畅、字形清晰,字体风格与目标字体一致.

图7 各方法从字体SimHei 转换为字体FZPXJW 的生成结果对比Fig.7 Comparison of generating results of each method from font SimHei to font FZPXJW

图8 各方法从字体SimHei 转换为字体ZCXS 的生成结果对比Fig.8 Comparison of generating results of each method from font SimHei to font ZCXS

表5 和表6 为各方法在两种字体风格转换上的评价结果,其中Astyle表示字体风格学习网络得出的风格分类准确率,Acontent表示字符内容识别网络得出的内容分类准确率,3 个指标的数值越大,表示该网络性能越好.本文方法在3 个评价标准中都取得最佳的评价结果.

表5 各方法从字体SimHei 转换为字体FZPXJW 的评价结果Tab.5 Evaluation results of each method from font SimHei to font FZPXJW

表6 各方法从字体SimHei 转换为字体ZCXS 的评价结果Tab.6 Evaluation results of each method from font SimHei to font ZCXS

分析影响不同字体风格转换结果的因素,一是从源字体与目标字体形状的变化程度,二是目标字体的笔画粗细程度.当源字体与目标字体风格相似时,字体风格转换网络根据源字体的风格结构特征更快地学习到目标字体的风格结构特征;当源字体与目标字体在整体风格上相差甚远时,则需耗费更多代价学习目标字体的特征分布空间.字符图像笔画的粗细影响网络处理图像信息的性能,当笔画过于粗时,造成笔画之间的空隙过于狭小,此时网络获得更多笔画像素信息,从而较快地达到收敛,但失去了笔画的空间布局信息,容易造成生成字符图像的笔画相互粘连;当笔画过于细时,易丢失笔画像素信息,造成生成字符图像笔画缺失.

2.4 消融实验图9 为消融实验生成结果,从字符图像细节分析本文方法不同结构对结果的影响.观察生成字符图像的局部细节,完整方法生成的字符图像笔画细节清晰,字形结构正确,字体风格与目标风格高度一致.去除跳跃连接使网络模型失去捕捉图像全局结构信息和局部细节信息的能力,从而使生成结果产生更多模糊.多尺度patch 判别器对不同尺度图像块进行判别,关注图像不同尺度的局部细节,从而优化生成图像质量.仅使用传统判别器使得生成字符图像缺失局部细节信息,难以生成细小的笔画.

图9 消融实验生成结果Fig.9 Results of ablation experiments

表7 为消融实验评价结果,当去除某一网络结构时均使得网络生成的字符图像分类准确率变低,且图像质量变差,实验结果表明跳跃连接和多尺度patch 判别器能够有效提升网络性能.

3 结束语

本文提出了基于字体特征与多尺度patch 生成对抗网络的中文字体风格转换方法,解决了现有方法生成字符图像质量低以及生成字体风格与目标字体风格不一致的问题.文章提出两种新的特征提取模块,引入Gabor 特征以及通道注意力提升字体风格学习网络与字符内容识别网络的特征提取性能,通过结合多尺度patch 判别器的生成对抗网络进行训练,生成与目标字体风格一致的字符图像,实现源字体风格到目标字体风格的转换.与3 种风格转换网络进行对比实验,结果表明本文方法的生成结果在4 种方法中的表现最好,有效提升了生成字符图像的质量和风格的一致性;消融实验结果证明本文所提方法各部分结构的有效性,能够切实提升网络性能.现有方法生成的字符图像质量依然有提升的空间,后续可以通过神经网络的可解释性研究优化风格转换网络的结构,提高网络特征表达能力,从而提升生成质量.

猜你喜欢
字符字体特征提取
寻找更强的字符映射管理器
字体的产生
字符代表几
一种USB接口字符液晶控制器设计
电子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村庄和神秘字符
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP脑电特征提取算法
基于MED和循环域解调的多故障特征提取
组合字体
Walsh变换在滚动轴承早期故障特征提取中的应用
轴承(2010年2期)2010-07-28 02:26:12