基于Faster R-cNN的服装目标检测改进方法

2020-06-19 08:45陈双何利力

软件导刊 2020年4期

陈双何利力

摘要：为了满足近年来在服装电子商务高速发展背景下急剧增长的服装图像分类与定位需求，实现对服装图像的目标检测，提出基于Faster R-CNN的服装目标检测改进方法。借助残差神经网络的特征提取能力进行服装图像特征提取，采用RPN网络进行服装候选区域生成，经过RoI兴趣区域池化后接入分类层与回归层，调整网络结构，融合服装图像的HOG底层特征，从而针对性地实现对服装图像的目标检测。实验结果表明，该方法构建模型的平均准确率为0.902，运行速度为8.9帧/秒，具有一定的实用价值。

关键词：服装图像;深度学习;目标检测;残差神经网络;边缘梯度直方图特征

DOI： 10. 11907/rjdk.191 807

开放科学（资源服务）标识码（OSID）：

中图分类号：TP301

文献标识码：A

文章编号：1672-7800（2020）004-0042-04

Improved Method for Garment Target Detection Based on Faster R-CNN

CHEN Shuang， HE Li-li

（School of Information ， Zh.ejiarzg Sci-tec Urziversity ， Hangzhou 3100 1 8.China ）Abstract： In order to meet the demand for the classification and positioning of clothing images under the rapid development of clothinge-commerce in recent years， the target detection of' clothing images is realized. An improved method of garment target detection basedon Faster R-CNN is proposed. The f'eature extraction ability of residual neural network is used to extract the features of clothing images.The RPN network is used to generate clothing candidate regions. After the pool of RoI interest regions， the classification lay er is ac-cessed. With the regression layer， the network structure is adjusted， and the underlying features of' the HOG of the clothing image areintegrated to achieve the pertinence of the clothing， and the target detection of the clothing image is realized. The experimental resultsshoW， that the model constructed hy this method has an average accuracy of 0.902 and an operating speed of 8.9 frames per second.Which proves the method has social practical value and academic research significance.Key Words： clothing image; deep learning; target detection ; residual neu ral network ; edge gradient histogram feature

O引言

隨着互联网信息技术与服装电子商务的迅速发展，服装图像数据量呈爆炸式增长，用户对服装图像识别与分类的需求日渐迫切[1-2]。通过图像目标检测技术得到服装的具体类别信息与位置信息，成为当前计算机视觉技术在服装领域的应用热点之一。

对于一张服装图像，人的视觉系统能够轻松感知到目标的款式、色彩、图案等服装特征信息，而计算机只能识别得到服装图像的RGB像素矩阵。由于环境中存在服装图像的光照、形变、遮挡、多主体与背景等干扰因素，计算机通过对像素的抽象难以实现较好的识别效果[3]。传统目标检测方法对Haar小波特征、HOG特征、LBP特征、SIFT特征等进行提取，再构建SVM、决策树等分类器进行检测与定位[4-5]。该方法具有一定检测效果，但由于具有较高的时间复杂度与较低的鲁棒性，难以达到使用需求。随着深度学习在计算机视觉领域取得突破性进展，越来越多学者针对深度学习方法在服装图像检测与分类方面的应用进行研究，并取得了一定成果。

目前深度学习在目标检测方向的研究方法主要分为两类，一类是基于区域的算法，如R-CNN、SPP-net、FastR-CNN、Faster R-CNN.R-FCN，另一类是基于端到端的算法，如YOLO、SSD。通常后者速度相对更快，但检测准确度不如前者。国内外众多学者将以上两类方法应用于服装领域，衍生出许多针对服装图像的目标检测方法。如

陈双，何利力：基于Faster R-CNN的服装曰标检测改进方法Yamazakj1[6]通过研究服装的褶皱特征以检测日常生活中随意放置的服装位置，同时使用高层语义与低层特征信息，有效解决了服装图像中的遮挡问题;Pan等。[7]通过BP神经网络识别针织物，取得了良好的识别效果;Wang等。[8]针对服装款式进行研究，得到准确率更高的识别方法;香港大学的Liu等[9-10]提出一个大型公开服装图像数据集Deep-Fashion，该数据集含有超过80万个具有丰富类别、属性、Bhox、特征点等标注信息的服装图像，并提出用FashionNet进行服装特征学习。

本文主要进行以下3方面研究：①综合相关数据集与爬虫数据，进行基本预处理后构建具有服装类别及服装主体边框标签的大规模服装图像数据集;②基于FasterR-CNN模型进行服装图像特征提取、区域生成、兴趣区域池化与类别判定，并修改网络结构，融合服装图像的HOG显著性底层特征，实现针对服装图像的目标检测[11];③通过对比实验设计与分析，验证实验模型性能。

1实验方法

本文整体模型结构基于Faster R-CNN，融合服装图像显著性特征进行目标检测，主要分为4步：图像特征提取、RPN区域生成网络、兴趣区域池化与分类回归[12]。主要网络结构如图1所示。

主要流程如下：①将服装图像输入网络模型，通过卷积神经网络卷积层与池化层的交替作用进行服装图像特征提取，得到图像的特征图传人RPN网络，并进行RoI池化。这里采用ResNetl01残差神经网络;②RPN网络将输入的特征图输出为多个矩形候选区域;③将直接传人的特征图结合RPN网络的候选区域特征信息，通过RoI池化进行裁剪过滤，映射成7*7的特征;④根据特征白动学习服装类别，通过Softmax分类器进行是否为目标的二分类，并通过边界框回归器修正区域候选框，融合服装的HOG特征回归边框，得到最终的服装主体图像。

Faster R-CNN损失函数计算包括：RPN进行前景与背景二分类的分类损失、RPN滑动窗口的位置回归损失、RoI分类器损失与RoI边界框回归损失，以四者和作为最终损失函数进行模型反向传播[13]。

I.I残差神经网络

ResNet（ Deep Residual Network）残差神经网络[14]是2015年微软研究院提出的卷积神经网络，一举取得了2015年ILSVRC比赛的冠军。ResNet将层与层之间的传递学习表示为输入与输出差别的残差函数学习，能够有效中和梯度爆炸问题与退化问题。

ResNet通过在不相邻的层之间添加通路进行跨层连接，使用恒等映射将原始输入信息直接传输到后面的网络层中。在加深网络时，对于输入x期望，输出为H（x），学习F（x）=H（x）-x作为ResNet的残差学习单元，改变了学习目标，从对输出函数的学习转换为对残差的学习，从而在将网络层数据增加到152层时，仍能保持正常收敛与较好性能。相对于浅层网络，深层网络得到的高层抽象语义更能表现出图像特征，具有更佳的性能。相比于一般的CNN，ResNet使用了一种shortcut连接方式。普通CNN与ResNet基本结构块如图2所示。残差基本结构块可以表示为：

其中F为残差函数，h（x1）=X1为恒等映射，XI、X1+1.分别表示第，个残差单元的输入与输出，f为ReLU激活函数，则从，至L所学习的特征为：以链式规则求反向传播梯度：

可以看出，该方式能保证梯度的无损传播，有效避免梯度消失问题，在模型中具有良好的服装图像特征提取效果。

1.2 RPN网络

RPN（Region Proposal Networks）网络是一种全卷积网络，通过端到端的形式进行区域生成，与分类回归共享提取到的卷积特征，相较于之前的Selective Search与EdgeBoxes方法具有更快的提取速度[15-16]。

RPN网络将残差神经网络的共享特征图作为输入，以滑动窗口方式生成k个区域建议框，对应分类层有2k个输出，表示判断是目标与非目标的概率，对应回归层有4k个输出，表示k个区域建议框的位置。RPN 工作原理如图3所示。

1.3兴趣区域池化

在Faster R-CNN的RPN网络后接人全连接层，通过RoI兴趣区域池化层将不同大小的兴趣区域转换为固定大小。

将RPN网络输出建议与CNN网络输出特征图输入到RoI兴趣区域池化层，以空间尺度数l/16映射回（M/16）*（N/16）的特征图尺度，接入最大值池化层，针对将特征图水平与竖直7等分的建议，生成7*7的输出[17]，主要过程如图4所示。

通过RoI兴趣区域池化后，对于任意尺寸大小的图像输入，模型后续回归分类的全连接层具有相同维度的输入。

1.4回归分类

1.4.1Softmax分类器

对RoI池化得到的区域建议特征图，经全连接层以3*3的卷积核遍历特征圖，采用Softmax分类器计算类别概率向量，选取概率最大的k个向量作为候选区。对于每一类别的概率，令模型参数为，采用归一化方法使所有概率和为1，对于所有输入的列向量

1.4.2边框回归

对于图像目标检测的正确性，采用IoU（交并比），也称为检测评价函数进行度量。如图5所示，IoU是指预测框（黑框）与真实框（红框）交集与并集的比值。

通过边框回归器得到位置偏移量，使最终的回归框更加精确，得到当前的回归坐标值。

针对服装的特有属性，考虑文献[18]中对显著性特征的分析，调整模型并采用HOG边缘梯度直方图特征结合SVM分类器进行目标检测。主要计算图像局部区域梯度直方图，并统计区域内的梯度直方图构成特征向量。采用128*144的检测子，nhins设置为9，结合服装目标的显著性检测进行边框修正，得到综合考虑图像底层HOG边缘梯度直方图特征与高层卷积神经网络特征的服装图像，输出边框回归坐标值[19]。

2实验分析

2.1实验环境与预处理

2.1.1 实验环境

处理器：Intel Core i5-9400F@6x 4.1GHz。

显卡：GeForce GTX 1660 Ti。

内存：16G。

操作系统：ManjaroLinux环境。

开发环境：基于Pvthon3与PvTorch。

2.1.2 實验数据集

综合香港中文大学提供的大型公开服装图像数据集DeepFashion与FashionAI、某省服装个性化定制协同创新中心项目积累的大量图片，以及在各电子商务网站爬取的服装图像，得到总计325 870张服装图像。关联对应的服装类别标签与服装主体边界框标注，建立大规模服装图像数据集，部分图片展示如图6所示。

考虑日常照片中的上半身照较多，鞋子出现较少，将研究任务选取类别主要分为上衣、下装、裙子3大类，再细分得到24个服装类别标签如表l所示。对没有标注的图像进行人工服装类别与目标框标注，标注图像对应的类别与边框。参考PASCAL VOC 2007数据集格式，生成对应的XML文件。

对于建立的大规模服装图像数据集，将数据集随机分成3批，采用20万张作为训练集，用来进行模型训练，6万张作为验证集，用来进行参数调整，得到最佳模型参数，其余部分作为测试集，用来进行模型评价[20]。

2.1.3预处理

对于实验数据集中的服装图像，为减少图像冗余信息，需进行预处理，主要进行去均值与归一化。

去均值是指消除图像每个数据点的平均亮度值，将输入样本的中心定位于坐标系原点，以去除维度对样本的影响。对于共m个输入样本，维数为为，样本图像像素平铺后的i个像素，则对于该像素而言，使该点像素变为。归一化是将像素点除以255，归一到[O，1]区间，统一各维度取值范围。

2.2实验分析

2.2.1 目标检测评价参数

对于目标检测模型，通常采用能综合考虑精确度（Pre-cision）与召回率（Recall）的平均准确率均值（mAP，MeanAverage Precision）评价模型。AP是指对某一类别识别的平均准确率，mAP则可衡量对所有类别的识别效果。mAP在0-1之间，该值越大，表示模型检测效果越好。计算公式如下：

对于实验模型，mAP值为0.902，具有较好的检测效果。

2.2.2运行速度

采用FPS（Frame Per Second，每秒帧率），即模型每秒处理图像的数量描述模型运行速度。在本实验的硬件环境中，模型对数据集的FPS为8.9帧/秒，即一秒能够完成对8.9张图像的目标检测，具有较快的检索速度。

2.3对比实验设计

考虑采用不同卷积神经网络进行特征提取，并进行模型检测效果比较，得到不同模型性能对比如表2所示。

实验结果表明，总体而言，Resnetl01与Densenet201的特征提取效果更好，但Densenet201由于深度过大，模型过于复杂，耗时远超过其它模型，因此本文选取的Resnetl01具有最佳的综合性能。

3 结语

本文提出一种针对服装图像的目标检测方法，借助残差神经网络的特征提取能力进行服装图像特征提取，通过RPN网络进行候选区域生成，调整Faster R-CNN网络模型，融合服装的高层卷积特征与底层HOG特征，从而有效提高了服装目标的检测准确率，并具有较快的处理速度。但由于数据集中的服装图像目标一般为单个，缺少对多目标、多类别的鲁棒性，未来考虑从该方面出发，对服装图像目标检测作更深入的研究。

参考文献：

[1]王潜.基于卷积神经网络的服装分类与目标检测研究[D].武汉：武汉理工大学，2017.

[2]兰丽服装图像自动标注方法研究[D].北京：北京服装学院，2017.

[3]张振焕，周彩兰，梁媛.基于残差的优化卷积神经网络服装分类算法[J].计算机工程与科学，2018，40（2）：354-360.

[4]刘鹏飞视频监控场景中人数统计方法的研究与应用[D].成都：

电子科技大学，2017.

[5]黄凯奇，陈晓棠，康运锋，等智能视频监控技术综述[J].计算机学报，2015 .38（6）： 1093-1118.

[6]YAMAZAKI K. INABA M. A cloth detection method based on image

wrinkle feature for dailv assistive robots[J].MVA，2013.

[7]PAN R. GAO W，LIU J， et al. Automatic recognition ofWoven fabricpattern based on image processing and BP neural network[J] Journalof the Textile Institute， 2011，102（1）：19-30.

[8]WANG N，AI H Z，TANC F. Who hlockswho： simultaneous segmenta-tion of occluded ohjects FJl. Journal of Cnmputer Science and Tech-nology， 2013， 28（5）： 890-906.

[9]LIU Z. YAN S，LLO P. et al. Fashion landmark detection in the wild[C]. European Conference on Cnmputer Vision， 2016.

[10]LIU Z， LUO P， QIU S，et al. Deepfashion： powering rohust clothesrecngnition and retrievalM-ith rich annotations[C] Computer Vision&Pattern Recognition， 20 1 6.

[II]纪娟，秦珂，杨若瑜，基于HOG和几何特征的服装细节要素识别与分类[J].图学学报，2016（1）：84-90.

[12]曹诗雨，刘跃虎，李辛昭.基于Fast R-CNN的车辆目标檢测[J].中国图象图形学报，2017，22（5）：671-677.

[13]王林，张鹤鹤Faster R-CNN模型在车辆检测中的应用[J].计算机应用，2018，38（ 3）：666-670.

[14]HE K， ZHANC X. REN S， et al. Deep residual learniW for image rec-ognition[C]. Cnmputer Vision and Pattern Recognition（CVPR）， 2015.

[15]CHEN Y P， LI Y. WANG G.An enhanced region propnsal networkfor ohject detection using deep learning method[J]. PloS one， 201 8.

[16] 殷文斌卷积神经网络在遥感目标识别中的应用研究[D].北京：中国科学院大学，2017.

[17]楚翔宇.基于深度学习的交通视频检测及车型分类研究[D].哈尔滨：哈尔滨工业大学，2017.

[18]娜黑雅显著区域检测及其在服装检索中的应用[D].青岛：中国石油大学（华东），2014.

[19]何妮.结合显著性目标检测与图像分割的服饰提取算法研究及实现[D]成都：西南交通大学，2015.

[20]徐胜，昊新娟基于多示例学习的图像检索方法[J].信息技术，2014（7）：106-110

（责任编辑：黄健）

收稿日期：2019-06-03

基金项目：浙江省科技厅（重大）项目（2015C03001）

作者简介：陈双（1994-），男，浙江理工大学信息学院硕士研究生，研究方向为人工智能与机器学习、大数据技术与应用;何利力

（1966-），男，博士，浙江理工大学信息学院教授，研究方向为图形图像、人机交互、制造业信息化、企业智能、数据库。