基于语义一致性约束与局部-全局感知的多模态3D视觉定位

2024-08-17 00:00:00罗寒马浩统刘杰严华雷印杰

计算机应用研究 2024年7期

摘要：3D多模态数据稀缺，使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息，从而导致性能不佳。针对上述问题，提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先，该方法通过蒸馏2D预训练视觉语言模型知识，帮助3D模型提取到点云-文本语义一致性特征；其次设计了局部-全局感知模块，不断补充增强候选目标特征，以更精确匹配目标。在现有的3D视觉定位数据集ScanRefer上进行的实验表明，该方法在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%，超越了现有大多数3D视觉定位算法，证实了该方法的有效性。

关键词：3D视觉定位；多模态；特征一致性约束；局部关系；全局位置信息

中图分类号：TP391 文献标志码：A 文章编号：1001-3695（2024）07-040-2203-06

doi： 10.19734/j.issn.1001-3695.2023.09.0515

Semantic consistency constrain and local-global aware multi-modal 3D visual grounding

Abstract：The scarcity of 3D multimodal data results in a lack of semantic consistency between text and visual features during supervised training using traditional methods. Meanwhile， traditional methods also overlook local relationships and global information， resulting in poor performance. To address the above issues， this paper proposed a semantic consistency constrain and local-global aware multi-modal 3D visual grounding method. Firstly， the method helped the 3D model extract point cloud-text semantic consistency features by distilling 2D pre-trained visual language model knowledge. Secondly， it designed a local-global aware module to continuously supplement and enhanced candidate target features to match targets more accurately. Experiments conducted on the ScanRefer dataset show that the proposed method achieves 50.53% and 37.67% in terms of Acc@0.25 IoU and Acc@0.5 IoU and exceeds most existing 3D visual grounding methods， confirming the effectiveness of the method.

Key words：3D visual grounding; multi-modal; feature alignment; local relationship; global location information

0 引言

视觉定位（visual grounding，VG）［1］旨在基于与目标物体相关的语言查询并定位出图像或视频中的相应区域，现常应用于自动驾驶等领域。目前在二维计算机视觉任务中，VG已取得了较大的进展。随着三维传感器的飞速发展，三维视觉数据能够提供比二维数据更全面丰富的信息，因此VG也逐渐拓展到了三维领域。3D-VG与2D-VG相比，场景更大、物体数量更多，同时要求模型具有更强的空间结构信息捕获能力，这对现有VG方法带来了更大的挑战。

目前已有的3D-VG方法［2， 3］大多分为两个阶段：第一阶段的目标是训练好一个三维物体检测器，从三维点云中提取候选目标物体特征并回归出预测框，同时再训练好语言模型对文本描述信息进行编码；第二阶段则关注点云-语言两种模态特征的交互融合，从候选目标物体中唯一地选出文本信息所描述的物体。这些方法虽然能正确预测大多数目标，但仍存在以下三点问题：

a）3D视觉语言数据集较为匮乏，导致现有方法由训练得到的模型提取的视觉与语言特征存在语义间隙（semantic gap）。

b）与图像相比，3D场景物体数量多，现有方法在点云-语言交互融合过程中缺乏对局部区域物体间关系的关注，导致模型不易从多个相同语义类别的物体中准确定位出目标。

c）3D场景大且复杂，目标的全局位置信息对匹配过程十分重要，而传统算法大多忽略了对目标全局位置信息的捕捉，使得模型难以区分多个在不同位置的同类物体。

为了解决上述问题，本文提出了基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法MM-VG。针对问题a），本文将二维视觉语言预训练模型引入3D-VG任务，通过蒸馏的方式完成二维视觉语言预训练模型的知识迁移，以及在图像文本对齐的特征空间中嵌入点云模态的特征，以此消除点云与语言特征间的语义间隙。针对问题b）c），本文分别设计了局部与全局感知模块。局部感知模块能从局部区域捕获相邻物体间关系，用于增强候选目标特征。全局感知模块在融合候选目标与语言特征进行推理时引入多分辨率场景特征，补充了检测过程中丢失的全局位置信息。两模块结合能从位置与关系两个角度对目标特征进行补充增强，提升复杂场景下，尤其是有多个相同类别实例的情况下模型的定位效果。

与现有大多数方法相比，MM-VG有以下几个显著的优势：

a）MM-VG通过蒸馏2D大型视觉语言预训练模型知识，使模型提取的视觉语言特征有更强的语义一致性；

b）MM-VG利用局部感知模块，关注部分区域中相近物体间关系，以增强候选目标特征；

c）MM-VG使用了一种新的全局感知模块，利用点云中多分辨率的全局场景特征，以消除定位结果的歧义；

d）与现有大多数3D-VG算法将2D预训练特征和3D数据融合作为视觉输入不同，MM-VG使用多模态对齐，使得训练好的模型在推理阶段仅需3D数据作为视觉输入，并在ScanRefer数据集上实验，取得了50.53%的Acc@0.25 IoU和37.67%的Acc@0.5 IoU。

1 相关工作

1.1 2D视觉定位

2D-VG的目的是在图像中根据文本描述定位感兴趣的区域，定位结果由二维边界框表示。传统算法主要分为两阶段方法与单阶段方法。其中两阶段方法［4～6］的第一阶段是使用预训练的目标检测器生成候选目标，第二阶段则是通过识别感兴趣的区域来匹配最相关的候选目标，并根据这些区域特征与文本特征的相似度对区域进行排序。而单阶段方法［7，8］去除了两阶段框架中的候选目标生成阶段，并将语言特征密集融合到每个像素点或块中，以生成多模态融合特征，用于回归边界框。

2D-VG的方法更多地关注图像中目标间的关系，例如：Yang等人［9］使用图神经网络来学习上下文关系与文本描述之间的一致性；Yu等人［10］提出了MAttNet，利用注意力机制来捕获视觉与语言模态间关系。此类方法仅能处理信息量较少且规则的图像，对于场景更大的3D点云，需要模型拥有更全面的空间理解能力。因此本文提出了全局感知模块，针对性地捕获点云中的空间位置关系。

1.2 3D视觉定位

随着深度学习技术在三维点云上的广泛应用，3D-VG任务受到更多学者的关注。然而2D-VG不能直接应用于3D-VG。首先，三维点云点数远超图像像素点数，因此将每个点作为候选点进行计算开销太大；其次，由于3D场景规模大且复杂，难以全面捕获所有物体间的关系；此外，三维点云是无序稀疏的，而2D-VG方法的输入仅能为规则矩阵。

近年来，研究者针对3D-VG提出了许多基于神经网络的算法。目前，主流的3D-VG方法仍然遵循2D-VG中两阶段的范式，即提出候选目标与视觉语言融合匹配。例如， Chen等人［3］提出的ScanRefer依次将提出的候选目标点云特征和语言特征直接拼接，从而把3D-VG转换为对候选目标物体的二分类任务。 Huang等人［11］提出了TGNN，首次在3D-VG任务中引入图神经网络建模物体间关系。He等人［12］提出的Tr441919c798474fb1ca1a776f464a6814ansrefer3D以及Zhao等人［13］提出的3DVG-Transformer进一步利用Transformer的注意力机制，实现了点云-语言两种模态特征的交互式融合。Yuan等人［14］提出的Instancerefer利用预训练模型已经分割好的实例与语言交互融合，并从属性、位置和关系三个方面进行综合筛选。此外，Yang等人［15］提出了SAT，在训练阶段将2D模态与3D模态特征对齐，推理预测阶段无须2D输入。Luo等人［16］提出的3D-SPS跳出了传统二阶段的框架，结合语言进行渐进式逐点筛选，单阶段地定位目标。但由于3D数据噪声大、数据量相对较少，以上方法在训练时，视觉与语言特征语义上存在较大间隙，且更多关注物体属性特征，物体间的关系提取不准确，导致定位性能下降。

1.3 视觉语言预训练模型

目前视觉语言预训练模型［17， 18］已经得到了深入的研究。例如CLIP（contrastive language-image pre-training）［19］使用大规模数据（4亿文本-图像对）进行训练，基于海量数据，CLIP模型学习到了更多通用的视觉语义信息。目前在二维领域，语言和图像理解任务方法很大程度上得益于大规模视觉语言数据集的预训练，从而能够提取有意义的图像-文本对特征，提升模型预测性能。例如在图像分割领域，Ghiasi等人［20］提出了OpenSeg，基于CLIP模型完成图像的开放词汇分割。

相比之下在三维领域，由于数据集采集困难，难以训练高性能大模型，所以大多数3D视觉语言任务都利用二维视觉语言模型进行跨模态预训练。例如Huang等人［21］提出的CLIP2Point，通过缩小图像与点云两域之间的差距，成功迁移CLIP完成3D点云任务的预训练。Zhu等人［22］引入了形状投影模块，用于生成图像深度图，以此建立图像到点云的映射。但现有迁移方法大多针对单个三维物体点云，而3D-VG任务需要模型对整个场景进行理解。为此，本文提出了一种场景级的对齐方案用于解决这一问题。

2 本文方法

2.1 模型结构

N为候选目标数量。最后利用检测器，从候选目标特征中回归出N个候选边界框。

为从局部关系与全局位置角度上区分同一类物体的不同实例，在融合点云-语言两种模态特征进行匹配的阶段中，本文首先采用局部感知模块（local-aware module，LAM）对候选目标特征FP进行特征增强，接着采用全局感知模块（global-aware module，GAM）将得到的增强候选目标特征F′P、场景点特征图Fs与文本特征Τ三者融合，生成候选边界框的最终置信度得分O={oi}Ni=1。最后置信度得分最高的边界框将被视为定位结果。本文重点研究如何蒸馏2D视觉语言预训练模型知识，以完成视觉语言特征对齐（2.2节），以及如何利用局部区域目标间的关系（2.3节）与全局场景信息（2.4节）区分候选目标，以更精确地匹配定位目标。

2.2 多模态语义一致性约束模块

为解决问题a），即消除视觉与语言特征间的语义间隙，使模型提取的3D特征与文本特征在语义上达成一致性，以提升检测与文本匹配效果，本文设计了多模态语义一致性约束模块。本文的关键思想是通过蒸馏2D预训练视觉语言模型知识，完成点云、图像与文本三模态特征的语义对齐。为了实现这一目标，在2.2.1节中本文先建立3D点与多视角图像像素之间的关联，并使用CLIP视觉编码器求出像素特征，再根据关联关系与像素特征构造出虚拟点云特征；在2.2.2节中，本文将虚拟点云特征作为伪标签来监督来训练3D编码器，使其能提取与CLIP特征空间语义一致的特征。

2.2.1 多视角图像特征点云构建

2.2.2 多模态特征对齐

如图3所示，由于提取的图像特征已通过预训练，与文本特征在语义上一致，而2.2.1节中又将图像特征映射为虚拟点云特征，所以为实现点云、图像、文本三模态特征对齐，只需将虚拟点云特征与点云特征对齐。

通过最小化上述损失函数，模型能够将三维点云特征提取到与CLIP相同的特征空间中，以完成点云、图像、文本三模态特征对齐，最终实现点云-语言特征的语义一致。

2.3 局部感知模块

在生成候选目标阶段中，得到的候选目标特征更多是包含目标属性特征，而缺少物体间关系特征。考虑到文本描述的关系更多是在相近物体间，本文受Swin Transformer［27］启发，提出了局部感知模块。在该模块中，首先将候选目标特征分块，捕获局部感知目标间关系，从而增强候选目标特征，使其能更好地进行跨模态匹配。

如图4所示，首先将候选目标特征FP分块，具体地，先计算场景中所有点坐标的均值（即中心点）：

使用子区域的好处在于：文本描述中所出现的物体关系以相邻为主，例如“There is a wooden chair near the table.”。因此整个场景的关系建立是冗余的，而局部区域关系建立更有效率。通过局部感知模块，本文从点云场景的不同子区域中捕获目标间关系，即局部关系信息。利用此关系信息，模型能够在匹配阶段排除部分同类干扰物体，极大程度上解决了问题b）。

2.4 全局感知模块

在融合多模态特征进行匹配的阶段中，本文基于注意力机制提出了全局感知模块，以在常规的候选目标特征与文本特征交互过程中额外引入多分辨率全局特征。引入该特征能够使模型从不同分辨率的角度挖掘目标位OUhqIv3ke6iJvoly56w1yA==置信息，以达到消除目标边界框与其他相似候选目标边界框间歧义的目的。

其中：Ffuse为输出的融合特征。

本文在具体实现过程中堆叠了三个全局感知模块，如图6所示。三个模块的不同之处在于输入的场景点特征图分别为3D骨干网络PointNet++的不同中间层特征，以捕获不同分辨率大小的全局信息，其特征图点数分别为256，512，1 024。最后，将全局感知模块的输出Ffuse送入全连接层，并用softmax函数激活后得到候选边界框的最终置信度得分O。

O=softmax（MLP（Ffuse））（10）

全局感知模块在候选目标特征与文本特征匹配阶段额外引入了全局场景信息。通过多个注意力模块，候选目标特征融入了与其对应的位置特征，并和文本中对应的位置信息相匹配，从位置上减小了同类物体的干扰，很好地解决了问题c）。

2.5 网络训练与推理

其中：λ为各项损失权重，根据经验性调整分别取值为1、0.3、10、1。在训练阶段通过最小化上述损失函数，本文模型可以回归出场景目标边界框，并精确匹配文本描述目标。在推理阶段，模型无须输入多视角图像即可完成视觉定位。

3 实验与结果分析

3.1 实验数据集

ScanRefer数据集是一个包含800个ScanNet［28］场景且具有51 583个描述的3D视觉定位数据集。平均每个场景有13.81个对象和64.48个文本描述。根据ScanNet官方的设置，本文将数据分成训练集与验证集，分别有36 665和9 508个样本。实验在训练集上进行训练，并在验证集上进行结果分析。

在数据预处理阶段，将点数采样到40 000，为减轻过拟合，本实验中将点云在x、y、z轴上随机旋转［－5°，5°］，点云尺度随机缩放0.9～1.1倍。对于语言支路，首先采用CLIP的文本词分器将单词转换为单词特征向量；接着随机掩码化25%的单词特征向量以防止过拟合；最后将得到的单词特征向量作为语言输入。

3.2 实验环境与实施细节

本文实验硬件配置为8卡NVIDIA A10， 24 GB 显存，AMD EPYC 7282 16-Core， 256 GB RAM。实验在Ubuntu 20.04.1系统下进行，采用深度学习框架PyTorch 1.8。

训练过程中各超参数设置如下：采用Adam［29］优化器，权重衰减系数为0.000 01，采用学习率余弦衰减，初始学习率为0.002，训练300个epoch， batch size大小为8。

3.3 评价指标

对于ScanRefer数据集，本文采用的评估指标是Acc@0.25 IoU和Acc@0.5 IoU，分别代表预测目标边界框与目标边界框标签的交并比（IoU）大于0.25和0.5的百分比。除总体精度之外，实验还从unique和multiple两个子集上进行评估。如果目标物体是场景中同类物体的唯一实例，则该目标物体被归类为unique，否则分类为multiple。

3.4 实验结果与分析

3.4.1 定量实验结果分析

为验证MM-VG方法的有效性，本文在ScanRefer数据集上进行了定量实验，并与当前先进方法的定位性能作对比，结果如表1所示。对比方法包括基于分割的两阶段方法TGNN［11］和InstanceRefer［14］，基于检测的两阶段方法ScanRefer［3］、SAT［15］和3DVG-Transformer［13］以及单阶段渐进式匹配方法3D-SPS［16］。

从表中可以看到，MM-VG在总体精度指标Acc@0.25与Acc@0.5上均超过了其他六种方法，由此表明本文方法提取的多模态特征有更好的语义一致性，从而能够在多模态交互融合阶段提高匹配精度。但是在unique子集实验结果中，Acc@0.5低于3D-SPS与InstanceRefer。这是由于unique子集中的实例都是不同类别的，对多模态融合匹配阶段性能要求低，所以检测器性能对最终结果影响大。InstanceRefer依赖于预训练3D实例分割模型，因此在边界框生成阶段得到的框的IoU值更高，3D-SPS［16］渐进式方法更加关注物体属性信息而非全局关系信息，且在训练阶段会训练多个检测器，回归的边界框更为准确。本文方法更多解决多个相同类别的实例造成的混淆问题，所以在对同类物体的唯一实例进行推理时，性能略低于上述两种方法。

但实际情况中，同类物体往往具有多个实例，在multiple子集实验结果中，MM-VG在Acc@0.25与Acc@0.5上分别超过3D-SPS 3.26%与2.22%，这是由于本文方法更能挖掘复杂点云场景的全局信息，建模不同实例间的关系，证明了本文方法在3D视觉定位任务上的有效性。值得说明的是，与3D-SPS等方法在推理阶段的输入中加入2D特征不同，本文方法推理时只需将3D点云作为输入，仍能取得较好的性能，体现了本文方法的优势。

3.4.2 定性实验结果分析

图7展示了本文方法与3DVG-Transformer［13］及ground truth（真值标签）在ScanRefer数据集上的可视化结果对比。从图7（a）（b）可以发现，3DVG-Transformer将 Sofa与Cart错误定位到了Fan与Shelf，而本文方法则精准定位出了正确结果，说明了本文方法有更强的多模态语义一致性；从图7（c）～（e）中可以发现，在同一场景中有多个类别相同的实例时，3DVG-Transformer无法较好地区分它们，而本文方法能够很好地根据局部关系与全局位置信息区分这些实例，体现了本文方法的优越性。

3.5 消融实验

3.5.1 不同模块贡献消融实验

本文针对提出的多模态语义一致性约束模块（MSCCM）、局部感知模块（LAM）和全局感知模块（GAM）三个模块，以Acc@0.25与Acc@0.5作为评价指标，在ScanRefer验证集上进行了六组消融实验，结果如表2所示。

由1、4组和3、6组以及5、7组实验分析可得，MAM模块通过将点云、图像、文本三模态的语义特征对齐，能显著提高3D视觉定位的性能。由1、2组和3、5组实验分析可知，LAM模块能挖掘局部特征间的关系，从而增强模型对于局部细节特征的捕获能力，取得更佳的3D视觉定位性能。对比1、3组和4、6组实验可得，GAM模块引入全局位置信息，单独使用能提升视觉定位效果，但是在与MAM模块一同使用时，效果提升不明显，分析原因可能是，用于知识迁移的2D预训练模型中包含了全局信息，这与GAM模块引入的全局信息部分重叠。

3.5.2 特征对齐点数消融实验

在多模态语义一致性约束模块中，本文对采用多少点数进行特征对齐（即3D backbone最后一层上采样到多少个点）进行了消融实验，具体结果如表3所示。从表3可以看到，当采样点数较少时，模型性能随着用于对齐的点数的增加而提升。但当采样点数与原始点云点数保持一致时效果并未得到提升，分析可能的原因是产生了过拟合现象，且运行时间大大增加。根据实验效果，本文最终采用2 024作为特征对齐的点数。

4 结束语

本文提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法MM-VG，通过蒸馏2D预训练视觉语言模型知识，帮助3D模型进行点云场景编码，相比现有方法，MM-VG提取的特征点云-文本语义一致性更强。除此之外，本文设计了局部与全局感知模块，先从局部增强候选目标特征，再融合候选目标、场景与语言三者特征，以深度挖掘场景信息，达到精确匹配物体边界框的目的。在ScanRefer数据集上进行对比实验，在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%，超越了现有大多数3D视觉定位算法，证实了MM-VG的有效性。

在本文方法中，知识迁移所用的2D预训练视觉语言模型还可应用于零样本与开放集等各种更具挑战性的任务［30，31］中。在未来的研究中，可考虑迁移2D视觉语言预训练大模型完成零样本或无须文本（language-free）［32］的3D场景理解任务。

参考文献：

［1］Hu Ronghang，Xu Huazhe，Rohrbach M，et al. Natural language object retrieval［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2016： 4555-4564.

［2］Achlioptas P，Abdelreheem A，Xia Fei，et al. ReferIt3D： neural listeners for fine-grained 3D object identification in real-world scenes［C］// Proc of European Conference on Computer Vision. Cham： Springer，2020： 422-440.

［3］Chen D Z，Chang A X，Niener M. ScanRefer： 3D object localization in RGB-D scans using natural language［C］// Proc of European Conference on Computer Vision. Cham： Springer，2020： 202-221.

［4］Liu Daqing，Zhang Hanwang，Zha Z J，et al. Learning to assemble neural module tree networks for visual grounding ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2019： 4672-4681.

［5］Wang Peng，Wu Qi，Cao Jiewei，et al. Neighbourhood watch： referring expression comprehension via language-guided graph attention networks［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2019： 1960-1968.

［6］Yang Sibei，Li Guanbin，Yu Yizhou. Cross-modal relationship inference for grounding referring expressions［C］// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2019： 4140-4149.

［7］Deng Jiajun，Yang Zhengyuan，Chen Tianlang，et al. TransVG： end-to-end visual grounding with transformers ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2021： 1749-1759.

［8］Liao Yue，Liu Si，Li Guanbin，et al. A real-time cross-modality correlation filtering method for referring expression comprehension ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway，NJ： IEEE Press，2020： 10877-10886.

［9］Yang Sibei，Li Guanbin，Yu Yizhou. Dynamic graph attention for referring expression comprehension［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2019： 4643-4652.

［10］Yu Licheng，Lin Zhe，Shen Xiaohui，et al. MAttNet： modular attention network for referring expression comprehension［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2018： 1307-1315.

［11］Huang Pinhao，Lee H H，Chen H T，et al. Text-guided graph neural networks for referring 3D instance segmentation［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto，CA： AAAI Press，2021： 1610-1618.

［12］He Dailan，Zhao Yusheng，Luo Junyu，et al. TransRefer3D： entity-and-relation aware transformer for fine-grained 3D visual grounding［C］// Proc of the 29th ACM International Conference on Multimedia. New York： ACM Press，2021： 2344-2352.

［13］Zhao Lichen，Cai Daigang，Sheng Lu，et al. 3DVG-Transformer： relation modeling for visual grounding on point clouds［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2021： 2908-2917.

［14］Yuan Zhihao，Yan Xu，Liao Yinghong，et al. InstanceRefer： cooperative holistic understanding for visual grounding on point clouds through instance multi-level contextual referring［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2021： 1771-1780.

［15］Yang Zhengyuan，Zhang Songyang，Wang Liwei，et al. SAT： 2D semantics assisted training for 3D visual grounding［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2021： 1836-1846.

［16］Luo Junyu，Fu Jiahui，Kong Xianghao，et al. 3D-SPS： single-stage 3D visual grounding via referred point progressive selection［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2022： 16433-16442.

［17］张浩宇，王天保，李孟择，等. 视觉语言多模态预训练综述［J］. 中国图象图形学报，2022，27（9）： 2652-2682.（Zhang Haoyu，Wang Tianbao，Li Mengze，et al. Comprehensive review of visual-language-oriented multimodal pre-training methods［J］. Journal of Image and Graphics，2022，27（9）： 2652-2682.）

［18］吴友政，李浩然，姚霆，等. 多模态信息处理前沿综述：应用、融合和预训练［J］. 中文信息学报，2022，36（5）： 1-20.（Wu Youzheng，Li Haoran，Yao Ting，et al. A survey of multimodal information processing frontiers： application，fusion and pre-training［J］. Journal of Chinese Information Processing，2022，36（5）： 1-20.）

［19］Radford A，Kim J W，Hallacy C，et al. Learning transferable visual models from natural language supervision［C］// Proc of International Conference on Machine Learning. ［S.l.］： PMLR，2021： 8748-8763.

［20］Ghiasi G，Gu Xiuye，Cui Yin，et al. Scaling open-vocabulary image segmentation with image-level labels［C］// Proc of European Confe-rence on Computer Vision. Cham： Springer，2022： 540-557.

［21］Huang Tianyu，Dong Bowen，Yang Yunhan，et al. Clip2point： transfer clip to point cloud classification with image-depth pre-training［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2023： 22100-22110.

［22］Zhu Xiangyang，Zhang Renrui，He Bowei，et al. PointCLIP V2： adapting clip for powerful 3D open-world learning［EB/OL］.（2022-11-21）. https：//arxiv.org/abs/2211.11682.

［23］Qi C R，Yi Li，Su Hao，et al. PointNet++： deep hierarchical feature learning on point sets in a metric space［C］// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.，2017： 5105-5114.

［24］Qi C R，Litany O，He Kaiming，et al. Deep Hough voting for 3D object detection in point clouds［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2019： 9276-9285.

［25］Yan Ming，Li Zhongtong，Yu Xinyan，et al. An end-to-end deep lear-ning network for 3D object detection from RGB-D data based on hough voting［J］. IEEE Access，2020，8： 138810-138822.

［26］Dai A，Niener M. 3DMV： joint 3D-multi-view prediction for 3D semantic scene segmentation［C］// Proc of European Conference on Computer Vision. Cham： Springer，2018： 452-468.

［27］Liu Ze，Lin Yutong，Cao Yue，et al. Swin Transformer： hierarchical vision transformer using shifted windows［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2021： 9992-10002.

［28］Dai A，Chang A X，Savva M，et al. ScanNet： richly-annotated 3D reconstructions of indoor scenes ［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2017： 2432-2443.

［29］Kingma D P，Ba J. Adam： a method for stochastic optimization ［EB/OL］.（2017-01-30）. https：//arxiv.org/abs/1412.6980.

［30］Gu Xiuye，Lin T Y，Kuo Weicheng，et al. Open-vocabulary object detection via vision and language knowledge distillation ［EB/OL］.（2022-05-12）. https：//arxiv.org/abs/2104.13921.

［31］白静，袁涛，范有福. ZS3D-Net：面向三维模型的零样本分类网络［J］. 计算机辅助设计与图形学学报，2022，34（7）： 1118-1126.（Bai Jing，Yuan Tao，Fan Youfu. ZS3D-Net： zero-shot classification network for 3D models［J］. Journal of Computer-Aided Design & Computer Graphics，2022，34（7）： 1118-1126.）

［32］Wang Zihao，Liu Wei，He Qian，et al. CLIP-GEN： language-free training of a text-to-image generator with clip［EB/OL］.（2022-03-01）. https：//arxiv.org/abs/2203.00386.

计算机应用研究2024年7期

计算机应用研究的其它文章: 融合多粒度注意力特征的小样本分类模型; 深度掩膜布朗距离协方差小样本分类方法; 具有性能感知排序的深度监督哈希用于多标签图像检索; 基于全局与序列变分自编码的图像描述生成; 一种在线更新的单目视觉里程计; EnGAN：医学图像分割中的增强生成对抗网络