李 青,冀艳波,郭濠奇,刘凯旋
(1.西安工程大学服装与艺术设计学院,西安 710048;2.江西理工大学电气工程与自动化学院,江西赣州 341000)
网购作为新时代下的虚拟平台与实物交易的购物模式,打破了商品区域性,其“一键式”购物逐步被众人接受与应用。服装业呈现出个性化、多元化的发展趋势,并且结合便捷的电商平台,展现出经济蓬勃发展、效益显著提升的局面。在发达的商品化网购时代下,传统特征信息的分类效率与层出不穷的商品供应之间存在不平衡,可表现为商品量大、款式更迭快,但人工分类效率低、主观性较强等方面,导致分类速度跟不上新商品涌现的速度。而卷积神经网络CNN[1-2]技术的日益成熟,为服装行业的图像分类、款式生成、图形设计等提供了可行性方案。
近年来,随着深度学习技术的不断成熟,卷积神经网络在图像分类领域脱颖而出,在服装图像分类方面,张振焕等[3]针对目前服装分类算法在解决多类别服装分类问题时分类精度一般的问题,提出了一种基于残差的优化卷积神经网络服装分类算法;厉智等[4]针对服装图像分类精度较低的问题提出基于深度卷积神经网络的改进服装图像分类检索算法;针对L2-normalization无法跟踪全局信息问题上,Zhe等[5]研究了一种矢量分布的深度度量学习模型,通过定期更迭类中心的替代学习方法,实现了对嵌入层全局信息的捕获和类分布的近似表达;汤清云[6]提出了一种基于注意力区域特征表达的服装图像检索方法;于雨桐[7]利用多特征融合和图像分类识别技术,对服装款式进行明确分类;胡梦莹等[8]提出了利用卷积神经网络对不同品牌服装风格特征进行自动提取、识别和分类的方法实现品牌服装的分类任务;Lü等[9]设计了一种带有姿态预测的深度神经网络模型,提取相关的目标区域特征,并融合分类特征生成服装图像的最终属性。
上述方法更多的是倾向于服装整体类别的研究,而对于服装单独特征的研究较少;在分类模型中依然存在计算量偏大、时效性不足等问题。本文将女衬衫作为研究对象,以深度学习为技术手段,以提高衬衫分类识别率为目标。结合迁移学习优化Inception v3模型,并将其应用到女衬衫图案样式识别分类中,针对8种典型的女衬衫图案样式数据集,在传统服装分类模型中基于一种模型迁移关系,选取对女衬衫训练有益的模型权重分配,并为衬衫数据集提供一个精度高、可靠性强的识别训练模型,有效缩短了模型训练周期,提高了服装类型识别率,在服装分类及设计领域,具有一定的应用价值。
衬衫,归属为常见的上衣类品,可搭配的服装较多,且一年四季皆可穿着,而女衬衫在款式、色彩、图案等方面相较于男衬衫具有更迭较快、种类繁多等特点,且市场需求量较大。同时,女衬衫图案分类的高准确率也可进一步为图案生成与设计提供了一定的技术参考。因此,在训练数据集中,综合选取了多类别服装数据集DeepFashion[10]以及网络购物平台的公开服装数据,依据女衬衫的图案特点进行标注与分类,共计8种类别的8121张女衬衫图片,如表1 所示。
表1 女衬衫分类数据集Tab.1 Blouse classification dataset
在此数据集选取65%(即5279张)作为网络训练样本集,验证集和测试集分别选取20%(1624张)和15%(1218张),且在3种数据子集中不存在数据交集与并集问题。其中验证集选取分类特征相对明显的照片,用于对模型参数进行调整与优化,确保模型训练的准确性;测试集则直接在对应数据集中随机选取,保障对模型结果的可信度。
1.2.1 Inception v3模型
自2014年Google提出Inception模型以来,相继研发了包括Inception-Resnet在内的五代分类模型,其通过底层设计1*1卷积、3*3卷积、5*5卷积以及3*3池化等简化网络架构,保障了每层网络结构都能学习到目标稀疏特征,增加网络宽度和深度同时,也提高了网络对尺度的适应性。在网络结构中,Inception模型有效避免了网络深度和精度需求与结构性能饱和之间的矛盾,保障了不牺牲网络分类识别精准率的环境下,降低目标模型的运算结构和硬件配置的依赖性。在目标分类问题中,Inception模型提供了良好的识别方案,例如,Inception模型在医疗诊断[11]、冶炼工艺检测[12]等方面均有不同程度的研究与应用。
针对服装图案样式分类问题,本文参考了张靖等[13]和Mednikov等[14]的研究,分别以服装和生活垃圾为目标的识别算法的评估,其中包括典型的VGG、Inception v3、Xception、ResNet 和MnasNet等模型,在服装和垃圾分类中,VGG和Inception v3具备较优的识别精度。同时,在综合考虑了训练模型的网络结构、模型大小等性能指标后直接采用后者作为优化算法进行设计,并与几种常见模型作性能对比验证。
由Liu等[15]提出的引入适当的分解卷积(Factorized convolutions)和积极的正则化(Aggressive regularization)来降低目标计算复杂度这一理论,即Inception v3的问世,相比Inception v2的特征归一化(Batch normalization)技术,在模型参数和计算量上均有不俗的表现。在结构上,Inception v3整体延续了Inception v2的网络架构,如图1所示。该算法使用 Inception模块能够同时对输入图像执行多个卷积运算或池化操作,并将所有输出结果拼接为一个比较深的图像。同时,网络架构采用2个1*n和n*1的卷积核取代n*n的卷积核,卷积分解降低了参数计算量,辅助分类器用作正则化器,解决了梯度消失问题,提高了训练期间的收敛性。将原始大卷积核分解为有同等输出的小卷积核,在更有效地保留图像特征的同时减少计算量。将较大的卷积分解为若干个较小的卷积,在保证效果相同的前提下降低参数量,提升泛化能力。
图1 Inception v3的网络结构Fig.1 Network structure diagram of Inception v3
综合上述,本文将直接选用Inception v3作为图案分类的实现手段。如图1,该模型以多组小型卷积层取代较大网络卷积层,提高模型泛化能力。此外,也包含了以下技术革新:
a)使用LSR方法降低过拟合。用标签q(k/x)采用独热编码的形式进行模型训练,输出为softmax归一的预测概率分布p(k/x),其中:
(1)
其损失函数为:
(2)
为解决过拟合问题,Inception v3以权重加入某一概率分布构成新的标签的方式进行处理,具体方式如下:
(3)
式中:α∈(0,1),属于均匀分布,损失函数表示为:
(4)
当u服从均匀分布时,H(u,p)为常数,能够衡量预测分布p和均匀分布的不相似程度,实现了正则化。
b)采用双层1*n和n*1的卷积核取代n*n的卷积核,节省计算量。
c)在auxiliary classifier的全连接层进行了批标准化操作。
d)采用RMSProp优化结构,具备自适应学习能力。
(5)
式中:β为衰减系数。
1.2.2 迁移学习
将迁移学习[16]引入到Inception v3训练模型中,保障在少样本情况下的学习效率和准确率,例如刺绣衬衫仅500余张。通过迁移学习可以提高模型的稳定性和泛化能力,有效避免了因部分图像像素变化、差异等因素造成的对模型训练精度影响。将迁移学习中获得的知识作为瓶颈层的输出应用于女衬衫数据集中,其全连接(FC)层和 softmax 层之前的卷积层将被中止,而后通过不断调整网络参数,训练新的FC层和新的softmax层来提取衬衫图像的深层特征,从而在较短的时间内实现模型训练和图像分类,其网络特征提取如图2所示。为了保证模型网络深度结构,文章选用多尺寸过滤器选取,并通过矩阵拼接形式构成网络框架,最终形成由11个Inception模块构成的46组卷积层。
图2 迁移学习的深度特征提取结构Fig.2 Deep feature extraction architecture for transfer learning
实验验证的硬件配置:采用64位Ubuntu18.0操作系统的DELL R740服务器,Intel Xeon E5-2603v4处理器,外设2个GPU:Tesla-P100,模型训练在TensorFlow和PyCharm2020平台完成。
为了评估Inception v3算法的识别效果,本文引入其余3种经典识别模型进行对比,其训练的准确率和损失率如图3所示。在训练中,实验模型参数选用学习率为0.0001,模型优化器选用Adagrad,迭代次数为200,批尺寸(Batch_size)为32,数据集的照片尺寸取224*224*3,激活函数取ReLU函数等。
图3 4种训练模型的准确率和损失值Fig.3 Accuracy and loss values for the four trained models
针对女衬衫图案特征识别中,4种训练模型均有良好的识别精度,大约在100代逐步进入收敛区,且保持在90%以上的准确率和0.5以下的损失函数值。而初始的Inception v3模型在准确率和损失值上并未表现出显著的优势在识别精度上不及VGG模型(识别精度达94%),但其收敛速率具有明显的快速性,在第10代之后进入10%的准确误差带之内。这也说明了VGG与Inception v3在目标识别分类方面具有高精度识别率性能。
在保持良好收敛速率前提下,如何保证较高识别率,降低模型训练对计算硬件性能的依赖性也是当下研究的方向之一。因此,将迁移学习引入到Inception v3模型(Inception v3-transfer),并在相同数据集上进行验证分析。其中,迁移学习直接利用Inception v3在ImageNet数据集获取的预训练权重,对特征提取部分进行权重的初始化,在训练过程中冻结特征提取部分,只让分类层的权重参数进行学习并更新,有效避免了模型的“零”起点学习训练,实现降低学习成本,提升模型识别精度的目的。
结合2.1小节,将迁移学习和原始的Inception v3、VGG进行效果对比,如表2所示。
表2 3种训练模型的准确率对比Tab.2 Accuracy comparison of the three training models
由表2可见,结合迁移学习的Inception v3模型具备较好的识别效果,且迁移学习的引入有效的提高了训练模型的学习起点;相比VGG,其识别精度高出52.26%;在收敛速率上,Inception v3-transfer 在30至40代之间率先达到90%,而Inception v3和VGG分别在100代和80代左右;在识别准确率上,Inception v3-transfer经过200次的迭代训练,精度基本稳定在98%附近,而Inception v3和VGG分别在92%和94%左右。不论在识别速率或识别精度上Inception v3-transfer模型均有不俗的表现。
进一步将改进前后的两种Inception v3模型在准确率和损失值的性能指标上进行对比,如图4所示。
图4 基于Inception v3训练模型的准确率和损失值Fig.4 Accuracy and loss values of training models based on Inception v3
图4中,迁移模型很好的继承了初始Inception v3的快速收敛性,进一步优化了数据特征的识别率和损失值,且模型初始值更优、识别精度更加趋于平滑。相比初始模型92%的准确率,改进后模型识别率提高了6%,达98%;相应损失函数值降低至 0.06,优化了约70%;这也说明在女衬衫图案识别问题上,迁移学习依然具备良好的继承性和训练模型的适应性。
在概述上,迁移学习就是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法,可有效的降低目标训练模型的参数量,提高训练效率。结合两种训练模型,提取了模型训练参数量进行对比。其中,Pall为训练模型的参数总量,Ptr为实际参与训练的模型参数量,Pnt为未参与训练的模型参数量,Ptr/%=Ptr/Pall×100;如表3所示。
表3中,基于Inception v3的初始模型所涉及的训练参数量几乎调用了所有参数,而迁移模型下的训练计算量仅调用了约8.81%,这意味着达到了降低模型训练需求量和保持良好识别性能的设计目标,且在训练平均周期中优化了31%的运算效率。
表3 两种模型的训练参数量Tab.3 The amount of training parameters for the two models
结合上述两种训练模型,选用20%的样本集作为验证集用于调整网络分类器的训练参数,发挥验证集对训练模型的性能评估与调参作用,验证近似模型的泛化能力,有效避免训练模型的过拟合或收敛过慢等问题。
将改进前后的两种Inception v3在验证模型准确率和损失值的性能指标上进行对比,如图5所示。
图5 基于Inception v3测试模型的准确率和损失值Fig.5 Accuracy and loss values of the test model based on Inception v3
在图5中,验证集伴随着训练集识别精度的升高,其参数调节机制逐步处于稳定状态,并在20代之后逐渐收敛。特别的,在模型训练初始参数的调节能力更强,波动幅度较大。在100代之后,由验证集对训练模型的识别度趋于稳定,保持在90%以上。在逐步收敛过程中,改进的迁移模型在准确率和损失值上均有明显的优势。
针对女衬衫图案样式分类问题,本文提出了一种基于Inception v3网络模型结合迁移学习的分类方法。并在自定义的女衬衫数据集中得到了验证,结合迁移学习的Inception v3较好的继承了原始模型的识别精度和收敛速率。其中,迁移模型的识别精度高达98%,提升6%,参与训练的参数量降低约91%,平均训练周期降低31%。而训练集和验证集良好的收敛特性,在模型鲁棒性和识别特性中均优于四种初始化模型,为服装图案、款式等分类及智能网络生成等研究提供了技术参考。