赵娟 魏雪霞 徐增波
摘要: 虚拟试衣是一种能够使用户不用进行真实试穿,就可查看到试衣后视觉效果的技术。研究者多关注于3D虚拟试衣,该方法虽然可以精准地控制人体与服装变形,但是存在使用成本高、建模复杂度高、专业技术性强等不足和局限,无法真正用于网上服装销售。最新研究旨在利用深度学习来解决虚拟试衣问题,其中基于深度学习的2D虚拟试衣是目前主要的研究热点,其关键技术主要涉及人体解析、服装变形、图像合成三个方面。文章通过技术分析,指出现有技术存在的问题并展望未来。
关键词: 虚拟试衣;深度学习;人体解析;服装变形;图像合成
中图分类号: TS941.17
文献标志码: A
文章编号: 1001-7003(2021)09-0048-05
引用页码: 091108
DOI: 10.3969/j.issn.1001-7003.2021.09.008(篇序)
Research progress of 2D virtual fitting technology based on deep learning
ZHAO Juan, WEI Xuexia, XU Zengbo
(Fashion College, Shanghai University of Engineering and Technology, Shanghai 201620, China)
Abstract:Virtual fitting refers to a type of technology that allows users to try on items virtually and see the visual effect afterwards. In the past, 3D virtual fitting received more focus among researchers. Despite its advantages of accurately controlling the human body and clothing warping, it cannot be truly adopted for online clothing sales due to its deficiencies and limitations, such as high cost, high modeling complexity, strong professional and technical requirements. The latest research aims to address virtual fitting issues by virtue of deep learning, which mainly focuses on 2D virtual fitting at present. Its core technologies mainly involve human parsing, clothing warping and image synthesis. This paper points out the existing technical problems and proposes the future development prospects through technical analysis.
Key words:virtual fitting; deep learning; human parsing; clothing warping; image synthesis
收稿日期: 20210103
修回日期: 20210821
作者簡介: 赵娟(1997),女,硕士研究生,研究方向为服装数字化。通信作者:徐增波,教授,xuzengbo@aliyun.com。
网络环境为人们的生活提供了便捷,网上购衣已成为现阶段人们日常生活消费的主要方式之一。但是,服装的自身特点决定了其无法用规格、文字及照片等方式准确地将特征信息描述清楚,导致消费者根据网上提供的有限信息难以判断想要购买服装的合体性及舒适性等[1]。随着基于互联网的虚拟现实技术的发展,虚拟试衣已经成为服装电商平台推出的核心特色。它顺应了网络营销的发展趋势,拓宽了电子商务的销售渠道,促进了服装行业的发展[2]。
受此启发,TriMirror等不同公司开发了各种虚拟试衣间/镜子。然而,他们背后的关键使能因素是使用身体形状的3D测量,或者由深度相机直接捕获[3],或者使用训练数据从2D图像推断[4-5]。虽然这些三维建模技术能够在人身上实现逼真的服装模拟,但安装硬件和收集三维标注数据的高成本抑制了它们的大规模应用。而利用图像合成技术则可以降低零售商的成本。在计算机视觉中,条件生成对抗网络在图像生成[6-7]和图像到图像翻译[8]方面显示了令人印象深刻的结果。特别是,它们使对抗损失最小化,使得由生成器产生的样本与由鉴别器根据输入信号确定的真实样本不可区分[9-14]。例如,FashionGAN[15]以描述不同服装的句子为条件在给定人像上生成新服装。CAGAN[16]提出了一个条件类比生成对抗网络,以成对的服装为条件合成来人像。然而,这些网络只能粗略地转换对象类和属性等信息,无法处理图形细节和适应较大的几何变化。这限制了他们在虚拟试衣等任务中的能力。为了解决这些限制,Han等[17]提出了一个基于图像的虚拟试衣网络VITON,关注服装区域,并处理虚拟试穿服装变形。
为了生成照片般逼真的试穿效果和丰富的服装细节,研究者在VITON基础上不断进行了深入研究,但目前尚缺少对该技术的总结工作。本文将从人体解析、服装变形和图像合成三方面对其进行分析,分析现有技术存在的共性问题,并比较已有方法在各方面的优劣表现,旨在为2D虚拟试衣技术的发展提供理论指导。
1人体解析
根据人体(各部位)、头发、人脸、服装和目标姿态的近似形状进行人体分析,可以有效地指导人体各部位精确区域的合成。人体解析可以被用于人体各部位的精细分割[18]。CHEN等[19]使用整体模型和人体部位检测和表示对象,将对象分割扩展到对象零件级分割,并发布了人体像素级零件注释数据集PASCALPersonPart。后来,GONG等[20-21]引入了一个新的基准LIP(Look into Person)来进行人体解析和服装分割。利用LIP可以提取覆盖人体图像中服装部分的感兴趣区域。为了达到更好的分割精度,还需要充分利用人体结构信息。目前,最常见的理解人体结构信息方法是人体姿态估计,将它与人体解析模型有效结合到一起,能够有效地提升人体四肢相关部件的分割性能[22]。
1.1人体分割
服装的外观很大程度上取决于体型(高矮胖瘦),因此如何转移目标服装取决于不同身体部位的位置和体型。VITON&CPVTON[23]提出了一个服装不可知人体表征,以姿势、体型、面部和头发作为约束合成的先决条件。使用人体解析器计算人体分割图,其中不同的区域代表人体的不同部分,如手臂、腿等。进一步将分割图转换成一个单通道的二进制掩码,其中1表示人体(不包含面部和头发),0表示其他区域。使用同一个人体解析器提取人脸和头发区域的RGB通道,在生成新图像时注入身份信息。直接从用户图像得到的二进制掩码被下采样到较低的分辨率(16×12),以避免当身体形状和目标服装冲突时出现伪影。为了在处理服装和姿势时保持人的结构一致性,MGVTON[24]以期望姿势、目标服装、体型、脸和头发的掩码为条件设计了一个姿势引导的人体解析网络。由于基线方法(VITON&CPVTON)直接将用户图像和目标服装图像输入网络未能保留人的某些部分(例如裤子的颜色和头发的样式被替换)。MGVTON利用人体解析图来解决这些问题,可以帮助生成器在零件级别上合成高质量图像。ClothFlow[25]是一种基于外观流的人物服装图像生成模型,该模型能够合成特定姿态的人物服装图像,以用于基于姿态引导的人物图像生成和虚拟试衣。为了合成用户图像,一个好的实践方法是先预测一个语义布局,它为外观的生成提供结构约束[26-28]。使用姿态估计器和人体解析器可以获得用于训练目标布局生成器的人体姿态和布局表示。条件式人体布局生成器以目标姿态为条件预测目标人体的分割布局信息,可以把形状和外观的生成分离,使得ClothFlow生成的结果在空间上更具一致性。
1.2姿势表示
人体姿势的变化会导致服装的不同变形。VITON&CPVTON使用了基于关键点的人体姿态估计器[29]显式地建模姿势信息,通过计算18个关键点的坐标表示人体姿势。为了利用它们的空间布局,每个关键点被进一步转换为热图,关键点周围的11×11邻域在其他地方用1和0填充。来自所有关键点的热图被进一步叠加成18通道姿态热图(图1)。然而,稀疏的关键点不能为人像生成提供足够的姿势信息。为了实现更准确的姿态估计,M2ETON[30]使用稠密的人体姿态估计方法DensePose将每个像素映射到一个稠密的姿态点上,建立2D图像到人体3D表面的对应关系。该方法预测有24个部分的划分,对于每个部分它都有人体表面的UV参数化,它的网格坐标提供了密集的伪3D信息,可以用来表示丰富的姿势细节(图2[31])。
2服装变形
服装变形的目的是根据人体姿势,使服装图像在视觉上自然变形,以适应用户图像中服装区域的形状,并保持服装的特征。研究者使用了两种不同范式的方法考虑几何变形来获得更好的外观效果,即基于形变的方法和基于DensePose的方法。
其中,基于形变的方法通过估计薄板样条插值TPS(Thin Plate Spline)或仿射的变换进行服装变形。例如,TPS插值:给定两张图片中一些相互对应的控制点,TPS可以将其中一个图片进行特定的形变,使得其控制点可以与另一张图片的控制点重合。它通过扭曲图片来保证有多个点能够同时被映射,同时最小化弯曲能量,可以对表面进行柔性的变形(图3[32])。空间变换网络STN(Spatial Transformer Network):STN分为参数预测、坐标映射、像素采集三部分,作为一个特殊的网络模块可嵌入到网络的任意层中进行空间变换,增强模型的空间不变性[33]。几何匹配模块GMM(Geometric Matching Module):经典的相似度估计方法,虽然效果不错但是无法应对场景变换较大及复杂的几何形变的情况。为应对这两点不足,Rocco等[34]提出使用CNN(Convolutional Neural Network)提取特征以应对这两点不足。受其启发,CPVTON设计了GMM来变形目标服装,使它与人体大致对齐。该模块由四个部分组成:1)两个分别提取人体和目标服装高级特征的网络;2)相关层将两个特征组合成单个张量,作为回归器网络的输入;3)预测空间变换参数θ的回归网络;4)一个TPS变换模块,用于将服装变形到输出。在多姿态引导的服装变形中,MGVTON通过服装图像的掩码和身体形状的掩码作为输入进行特征提取。简单地训练STN和应用TPS不能确保精确的变换,特别是在处理纹理复杂和颜色丰富的衣服时,容易导致错位和模糊的结果。然而,尽管这两种几何建模技术取得了很大的进展,但它们的自由度有限(例如仿射为6,TPS为2×5×5),这导致当发生大的几何变化时,变换估计不准确且不自然。
基于DensePose的方法是以人体的DensePose描述符代替传统2D关键点作为姿态引导人物生成网络的输入。DensePose可以表征人体的3D几何信息,这就使得即使空间形变较大,也容易获得源图像和目标服装图像之间的纹理对应。然而,将2D图像纹理扭曲到预定义的基于表面的坐标系会进一步引入伪影。例如,可能在源图像中不可见的位置产生孔洞,这需要通过复杂的纹理修复算法来解决。此外,由于估計DensePose极具挑战性,最终的生成结果通常会受到DensePose估计结果好坏的影响。因此,与基于形变的方法相比,DensePose的迁移结果看起来真实感较差。为了解决这两种方法中存在的问题,ClothFlow提出了基于外观流的方法,该方法可以看作是一种基于变形的方法。然而,与大多数利用少自由度几何变换的基于变形的方法相比,ClothFlow估计源图像至目标图像的密集流场(例如2×256×256),在捕捉空间变形时具有高灵活性和准确性。
3圖像合成
现有方法通过使用变形策略将目标服装转移到人身上合成虚拟试穿人像。VITON使用形状上下文匹配估计TPS变换参数直接计算变换映射。CPVTON引入了一种学习方法来估计转换参数。CPVTON输入人体表征和变形后的衣服图片,输出一个合成掩码和粗糙人像图片。再用合成掩码引导粗糙人像图片和变形后的服装图片融合在一起生成虚拟试衣图像。由于像素错位会导致产生模糊的结果,MGVTON设计了一个深度扭曲生成对抗网络,将目标服装外观扭曲到合成的人体解析图中,缓解了输入人体姿态和目标人体姿态之间的错位问题。通过使用仿射和TPS变换从扭曲瓶颈层的特征图,而不是仅使用仿射直接处理像素。由于用于几何匹配的卷积神经网络结构的泛化能力,该方法直接使用其预训练模型来估计参考解析和合成解析之间的转换映射[34]。然后,通过使用这个变换映射来扭曲移除服装的用户图像,大多数现有的虚拟试穿应用程序都需要干净的服装图像。相反,M2ETON提出了将用户图像的身体部分与改变姿势的模特的服装部分结合进行试衣,而不需要任何干净的服装图像。为了获得拟合过程的感兴趣区域,首先通过使用LIPSSL预处理网络来生成服装掩码,再使用DensePose估计模型来生成上身区域掩码,然后将这两个区域合并成一个联合掩码。为了提高感兴趣区域的平滑度,把联合掩码作为ground truth来训练感兴趣区域生成网络。
然而,大多数方法[35-38]都依赖于人体分割来实现虚拟试穿的学习过程。训练试穿模型通常需要高质量的人体解析,因为稍微错误的分割会导致非常不现实的试衣图像,为了减少使用精确的掩码来指导试穿模型的依赖性,ISSENHUTH等[39-40]提出了第一个无需解析器的网络WUTON。不足的是,其模型设计中有一个不可避免的弱点,WUTON采用了传统的知识提取方案,让无解析器“学生”直接模仿基于解析器的“教师”的试穿能力。然而,基于解析器的“教师”生成的图像具有大的伪影,因此使用它们作为“教师”知识来监督学生模型会产生不令人满意的结果,因为“学生”的图像质量受到基于解析器的模型的限制。为了解决上述问题,GE等[41]提出了PFAFN,将伪人物图像(导师知识)作为无解析器学生模型的输入,由原始真实人物图像(教师知识)监督,使“学生”模仿原始真实图像。
4结语
近年来,基于图像的虚拟试衣得到了广泛的关注。随着深度学习的发展,该技术取得了一定的成果。本文综述了现有的基于深度学习的2D虚拟试衣技术,从关键技术着手对各项虚拟试衣进行了分析和总结,它们各有特点,但还存在一些问题,未来研究可以从以下方面改进。
1) 目标衣服掩码不正确。当衣服区域完全可见时,由于11像素对应百分比很高,因此可以找到良好的映射。然而,当衣服被头发和手臂遮挡时,对于许多像素不存在11映射,这导致了TPS转换无法学习忽略遮挡的服装区域。除了上述由头发和手臂引起的遮挡外,过多的视野和褶皱也会导致服装不真实变形,可以训练一种修复服装模型,通过空气和手臂填充被遮挡的区域。
2) 当受试者将手臂放在腹部前时,长袖衬衫就会出现自相交的情况。在这种情况下,TPS变形无法正确处理袖子,可以使用其他图像变形,例如有界双谐波变形。但是,问题在于选择的变形方法需要能够整合到训练过程中。现在,由于双谐波变形需要对衣服轮廓进行三角剖分,并且对三角剖分可能会因轮廓而异,因此这似乎非常具有挑战性。另一种方法是将TPS分别应用于每个衣服部件,例如上袖、下袖和躯干。但是,若某种服装没有袖子,那么如何将这些知识整合到训练神经网络中呢?这一问题亟待解决。
参考文献:
[1]徐雪丽. 基于Android平台的虚拟试衣关键技术研究[D]. 西安: 陕西科技大学, 2014.
XU Xueli. Research on Key Technologies of Virtual Fitting Based on Android Platform[D]. Xian: Shaanxi University of Science and Technology, 2014.
[2]林子琴, 黄弘扬. 虚拟试衣技术在服装网购平台中的应用研究[J]. 投资与合作, 2020(5): 146148.
LIN Ziqin, HUANG Hongyang. Research on application of virtual fitting technology in clothing online shopping platform[J]. Investment and Cooperation, 2020(5): 146-148.
[3]SEKINE M, SUGITA K, PERBET F, et al. Virtual fitting by singleshot body shape estimation[C]//International Conference on 3d Body Scanning Technologies. 3DBST, 2014: 406-413.
[4]YANG S, AMBERT T, PAN Z, et al. Detailed garment recovery from a singleview image[DB/OL]. (20160908)[20210715]. https://arxiv.org/abs/1608.01250v4.
[5]BOGO F, KANAZAWA A, LASSER C, et al. Keep it SMPL: automatic estimation of 3D human pose and shape from a single image[DB/OL]. (20160727)[20210715]. https://arxiv.org/abs/1607.08128.
[6]REED S, AKATA Z, YAN X C, et al. Generative adversarial text to image synthesis[DB/OL]. (20160605)[20201228]. http://export.arxiv.org/abs/1605.05396.
[7]LASSNER C, PONSMOLL G, GEHLER P, et al. A generative model of people in clothing[DB/OL]. (20170731)[20201228]. http://arxiv.org/abs/1705.04098.
[8]ISOLA P, ZHU J Y, ZHOU T H, et al. Imagetoimage translation with conditional adversarial networks[DB/OL]. (20161121)[20201228]. http://arxiv.org/abs/1611.07004.
[9]ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[DB/OL]. (20170720)[20201228]. http://arxiv.org/abs/1610.09585.
[10]LI M J, HUANG H Z, MA L, et al. Unsupervised imagetoimage translation with stacked cycleconsistent adversarial networks[DB/OL]. (20180728)[20201228]. http://arxiv.org/abs/1807.08536.
[11]CHOI Y, CHOI M, KIM M, et al. StarGAN: unified generative adversarial networks for multidomain imagetoimage translation[DB/OL]. (20180921)[20201228]. http://arxiv.org/pdf/1711.09020.
[12]PERARNAU G, WEIJER J V D, RADUCANU B, et al. Invertible conditional GANs for image editing[DB/OL]. (20161119)[20201228]. http://arxiv.org/pdf/1611.06355.
[13]WANG T C, LIU M Y, ZHU J Y, et al. Highresolution image synthesis and semantic manipulation with conditional GANs[DB/OL]. (20171130)[20201228]. http://arxiv.org/abs/1711.11585.
[14]REGMI K, BORJI A. Crossview image synthesis using conditional GANs[DB/OL]. (20180329)[20201228]. http://arxiv.org/abs/1803.03396.
[15]ZHU S Z, FIDLER S, URTASUN R, et al. Be your own Prada: fashion synthesis with structural coherence[DB/OL]. (20171019)[20210531]. https://arxiv.org/abs/1710.07346.
[16]JETCHEV N, BERGMANN U. The conditional analogy GAN: swapping fashion articles on people images[C]//2017 IEEE International Conference on Computer Vision Workshop(ICCVW). IEEE, 2017: 2287-2292.
[17]HAN X T, WU Z X, WU Z, et al. VITON: an imagebased virtual tryon network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018: 7543-7552.
[18]WU Z H, LIN G S, CAI J F. Keypoint based weakly supervised human parsing[J]. Image and Vision Computing, 2019, 91: 110.
[19]CHEN X J, MOTTAGHI R, LIU X B, et al. Detect what you can: detecting and representing objects using holistic models and body parts[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 1979-1986.
[20]GONG K, LIANG X D, ZHANG D Y, et al. Look into person: selfsupervised structuresensitive learning and a new benchmark for human parsing[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2017: 6757-6765.
[21]LIANG X D, GONG K, SHEN X H, et al. Look into person: joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 871-885.
[22]ZHOU T, WANG W, LIU S, et al. Differentiable multigranularity human representation learning for instanceaware human semantic parsing[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2021: 1622-1631.
[23]WANG B C, ZHENG H B, LIANG X D, et al. Toward characteristicpreserving imagebased virtual tryon network[DB/OL]. (20180912)[20201216]. http://arxiv.org/pdf/1807.07688.
[24]DONG H Y, LIANG X D, SHEN X H, et al. Towards multi pose guided virtual tryon network[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 9025-9034.
[25]HAN X, HUANG W, HU X, et al. ClothFlow: a flowbased model for clothed person generation[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 10470-10479.
[26]HAN X, WU Z, HUANG W, et al. FiNet: compatible and diverse fashion image inpainting[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 4480-4490.
[27]LASSNER C, PONSMOLL G, GEHLER P V. A generative model of people in clothing[C]//IEEE Computer Society. IEEE, 2017: 853-862.
[28]DONG H, LIANG X, KE G, et al. Softgated warpingGAN for poseguided person image synthesis[DB/OL]. (20190111)[20200715]. https://arxiv.org/abs/1810.11610.
[29]ZHE C, SIMON T, WEI S E, et al. Realtime multiperson 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2017: 1302-1310.
[30]WU Z, LIN G, TAO Q, et al. M2Etry on net: fashion from model to everyone[DB/OL]. (20190111)[20200715]. https://arxiv.org/abs/1810.11610.
[31]GLER, RZA Alp, NEVEROVA N, et al. Dense pose: dense human pose estimation in the wild[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018: 7297-7306.
[32]FESIANXU. Thin plate spline[EB/OL]. (20200909)[20210125]. https://blog.csdn.net/LoseInVain/article/details/108483736.
[33]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[DB/OL]. (20160204)[20210125]. https://arxiv.org/pdf/1506.02025. pdf.
[34]IGNACIO R, RELJA A, JOSEF S. Convolutional neural network architecture for geometric matching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2553-2567.
[35]LEE H J, LEE R, KANG M, et al. LAVITON: a network for lookingattractive virtual tryon[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop(ICCVW). IEEE, 2019: 3129-3132.
[36]JANDIAL S, CHOPRA A, AYUSH K, et al. SieveNet: a unified framework for robust imagebased virtual tryon[C]//2020 IEEE Winter Conference on Applications of Computer Vision(WACV). IEEE, 2020: 2171-2179.
[37]YU R Y, WANG X Q, XIE X H. VTNFP: an imagebased virtual tryon network with body and clothing feature preservation[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 10510-10519.
[38]YANG H, ZHANG R M, GUO X B, et al. Towards photorealistic virtual tryon by adaptively generating preserving image content[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2020: 7847-7856.
[39]ISSENHUTH T, MARY J, CALAUZNES C. Do not mask what you do not need to mask: a parserfree virtual tryon[DB/OL]. (20190111)[20200715]. https://arxiv.org/abs/2007.02721.
[40]ISSENHUTH T, MARY J, CALAUZNES C. Endtoend learning of geometric deformations of feature maps for virtual tryon[DB/OL]. (20200729)[20210715]. https://arxiv.org/abs/1906.01347v2.
[41]GE Y, SONG Y, ZHANG R, et al. Parserfree virtual tryon via distilling appearance flows[DB/OL]. (20210309)[20210715]. https://arxiv.org/abs/2103.04559.