周文惠
摘要:随着计算机硬件技术的不断发展,三维物体成为一项重要的信息载体,不同于声音、文字、二维图像等抽象的信息表现形式,三维模型承载的内容更为丰富,使空间信息更加直观,在日常生活中的应用变得十分广泛,因此我们三维模型的检索需求也越来越广泛。该文针对深度学习在跨域三维模型检索工作的应用进行分析与总结,并对未来的工作进行展望。
关键词:三维模型;检索;深度学习
中图分类号:TP3 文献标识码:A
文章編号:1009-3044(2020)31-0209-02
近年来,人工智能技术在我们的生活中应用十分广泛,不同于以往大众印象中人工智能就是的机器人印象,实际上我们手机的智能语音助手、人脸识别的支付系统、医院的智慧医疗系统等都是由人工智能技术进行技术支持的,随着科技的不断发展,人工智能技术已经在计算机科学领域、科技金融领域、游戏领域等取得了很大的进展,给我们的生活带来了巨大的便利,在无人超市场景,超市可以通过对顾客进行人脸识别进行收款并且可以判断顾客是否来过这家超市并根据顾客的购买记录给顾客进行产品推荐,从而使顾客拥有更好的购物体验。在停车场场景中,现在的人工智能车牌识别取代了原来需要管理员对车牌号进行记录收费。在家庭生活场景中,现有的人工智能技术已经为扫地机器人添加了计算机视觉技术,使其能够在清扫过程中识别各项家具和常用生活物品从而在清扫过程中合理的避开障碍。
机器学习作为人工智能的实现方法由于其强大的学习能力受到了广泛的应用,机器学习可以通过现有的大量数据中不断训练,最终完成对其设定的任务。深度学习是机器学习的一种实现技术,其原理受启发于人脑神经网络的原理,其对大量数据强大的处理能力和学习能力能够完成许多任务,使人工智能的应用更加广泛。本文将从深度学习对草图跨域三维模型这一工作的应用进行介绍和总结,并对未来的工作进行展望。
1三维模型检索背景
随着计算机硬件技术的不断发展,三维物体成为一项重要的信息载体,不同于声音、文字、二维图像等抽象的信息表现形式,三维模型承载的内容更为丰富,使空间信息更加直观,在日常生活中的应用变得十分广泛。在建筑行业,三维建模已经成为一项重要的使用技术,工程师可以利用三维建模技术将提议的设计模型进行展现。如何在现有的大量的三维数据中检索需要的三维模型成为一项重要研究内容。在三维模型检索的工作中存在的基于文字的三维模型检索工作和基于三维模型的三维模型检索工作,这两项研究工作虽然能实现对三维模型的检索但仍然存在的一定的缺陷:1)在基于文字的三维模型检索工作中,由于文字的表达能力有限,不能完整的表达三维模型造成检索的准确率下降。2)在基于三维模型的三维模型检索工作中,由于用来检索的三维模型获取比较困难,给该项工作造成了一定的局限性。为了解决现有研究工作中存在的问题,研究者们在此基础上提出了基于草图的三维模型检索,下图1为基于三维模型的三维模型检索过程。
由于草图能够克服使用文字信息进行检索的局限性,并且由于其绘画简单、容易获取等特点能够避免使用三维模型检索中检索样本难获取的问题,基于草图的三维模型研究方法备受研究者们关注,但由于草图和三维模型的特征差异性该项研究工作有以下难点:1)由于三维模型的空间特殊性,如何对三维模型准确的描述成为一项有挑战的任务; 2)手绘草图所包含的信息内容较少,如何对草图进行有代表的特征表述也是研究者的探究的问题。在传统的基于草图的三维模型研究工作中,需要大量人力对草图和三维模型进行手工特征描述符的特征提取,再进行特征比配进行检索,不仅耗费大量的人力并且由于手工特征描述符的局限性有时并不能完整的表达跨域的特征。而现有的基于深度学习的草图三维模型研究工作能够克服基于传统方法带来的问题,将检索过程分为特征提取和跨域特征嵌入两个部分,本文将从这深度学习的角度对这两部分进行分别介绍。
2 深度学习在跨域检索中的应用
(1)三维模型特征表征。三维模型的有效表示是计算机视觉、多媒体分析和计算机图形学中的一个重要课题,它在形状特征提取分析中起着基础性作用,可以应用于各种领域,如自动驾驶、AR/VR、智能机器人和医疗。三维物体的表征方法可以分为基于视图的方法和基于体积的方法。基于视图的方法为将三维模型投影成多张二维视图,使用二维视图的处理方法对其进行特征表示,其中二维视图投影方法如下。
体积方法依赖于直接从本机3D表示中计算出的3D特性,包含mesh网格、体素化的三维网格和点云。本文对三维模型的两种表示方法进行对比和总结,两种方法的优缺点如表1所示。
(2)跨域特征提取与度量学习。在基于深度学习的草图跨域三维模型检索的特征提取阶段中,研究者们使用了模仿人脑神经元的卷积神经网络进行特征提取,并使用了度量学习对卷积神经网络的权重进行学习使得特征空间中同类的特征距离近,不同类的特征距离远。由于草图的特征比较稀疏,因此研究者们提出了将使用将卷积神经网络的卷积核改大,从而更好地提高网络的特征性。Zhang[1]设计了针对草图的网络,该作者认为草图缺少颜色和纹理的信息并且草图的类间差异性因此提出了一种基于深度卷积神经网络的草图特征表示学习方法并且使用了自定义的损失函数使得使类间距离大,类内距离小。该网络开发了一个由草图、正、负实像组成的三元组作为神经网络的输入。为了发现草图与其正对之间的相干视觉结构,该作者引入了softmax作为损失函数。在此基础上,该提出了一种排序机制,使正配对获得比负配对更高的分数,从而实现鲁棒表示。随着深度学习的发展,残差网络、注意力机制等网络模型的出现,Song[2]等人体除了在深度神经网络上都添加了注意力模块,使该网络的特征的学习可以更多地关注显著性区域实现基于细粒度的检索,为了在网络经过全连接后不丢失细节的细粒度特征,该网络模块在注意力机制模块后使用shortcut连接,将粗粒度和细粒度特征进行融合,在损失函数中使用了一个基于高阶可学习的能量损失函数,该损失函数建立了两个模态特征之间的关联关系,使其对不同模态未对齐的特征具有更好的鲁棒性。
3总结与展望
随着深度学习技术的快速发展,三维模型检索工作中大量基于卷积神经网络的方法被提出,在三维形状识别和检索方面具有良好的性能。目前,基于体积和多视图的方法是两种主流的基于卷积神经网络的三维形状分析方法。基于体积的方法直接利用三维卷积的三维体积模型所表示的信息,而基于多视图的方法学习使用二维卷积神经网络从不同视点呈现的多个二维投影来表示三维形状。基于多视图的方法将三维视觉任务转换为二维图像域,可以直接利用图像识别领域技术对三维模型进行处理。本文针对了基于草图的跨域三维模型检索的工作方法进行了一定的分析和总结。在未来的研究工作中,跨域三维模型检索应该充分利用现有的研究基础在提高检索效率的基础上,提高一定的准确率。
参考文献:
[1] Zhang H, Liu S, Zhang C, et al. SketchNet: Sketch Classification with Web Images[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE Computer Society,2016.
[2] Song J, Yu Q, Song Y Z, et al. Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.
【通联编辑:代影】