多尺度融合与FMB改进的YOLOv8异常行为检测方法

2024-05-11 03:33石洋宇谢承杰郑棣文卢树华
计算机工程与应用 2024年9期
关键词:尺度卷积特征

石洋宇,左 景,谢承杰,郑棣文,卢树华,2

1.中国人民公安大学信息网络安全学院,北京 102600

2.公安部安全防范技术与风险评估重点实验室,北京 102600

异常行为检测作为计算机视觉的一项重要任务广泛应用在智能安防和工业检查等诸多领域[1-2],宏观意义上是指在某一特定的场景下出现了不符合人们预期的动作、现象或物体[3-5],其主要任务旨在检测某一场景下已知异常类型的种类和发现未知异常类型的新模式。

传统的异常行为检测方法由行为检测演变而来,根据运动物体的空间变化评定异常,如Reiss等人[6]通过光流法和关键点定位进行速度和姿势的建模,采用高斯混合模型和k最近邻方法对目标的速度、姿势等属性进行密度估计来评分异常。由于不同运动之间的差异较小导致检测结果容易出现误检的情况,Park 等人[7]提出特征分离损失缩小类内差距增大类间差异,通过计算目标特征与内存项目之间的L2距离进行异常评分。随着生成模型的发展,基于重构的方法[1-2,8-11]和基于预测的方法[12-17]成为现阶段主流的异常检测方法,这类方法在空间信息的基础上根据运动物体的时间信息判断物体的运动规律,如Ravanbakhsh等人[8]使用对抗生成网络,提出时序卷积神经网络TCP捕捉视频帧中的时空变化,结合时空变化和光流信息对正常样本进行拟合重建,通过真实数据与重建数据的局部差异值判断可能的异常情况。为了进一步分析相邻时间中的运动规律,Lee 等人[15]提出了双向多尺度聚合网络BMAN,结合空间特征聚合长短期记忆网络结构捕捉场景中物体尺度变化和复杂运动,考虑从过去帧和未来帧中学习的双向方法预测中间帧,根据待测样本与预测图之间的差异大小判断异常行为与否。然而在这些基于运动物体的时空特征来检测异常的方法中,当样本在监测区域处于静止状态时,由于相邻动作帧中并不存在差异,此时该样本将被视为背景无法准确判断出目标是否为异常状态容易出现漏检的情况,仍需进一步改进。

受文献[18-20]的启发,YOLOv8模型可实现端到端目标检测,具有检测精度高以及参数量更小的优点,在目标检测领域表现较为优异。但由于异常行为通常发生在复杂场景下,且识别目标存在远近大小、形状变化、面临重叠遮挡等因素影响,给高精度检测带来了严峻的挑战。为克服上述因素的影响,本文提出一种多尺度融合与快速多交叉结构(fast multi-cross block,FMB)改进的YOLOv8异常行为检测方法。本文的主要贡献如下:

(1)提出一种端到端的异常行为检测方法,该方法通过多尺度融合提取不同尺度特征信息,并通过无参数注意力机制(simple parameter-free attention module,SimAM)[21]和WIoU(Wise-IoU)[22]损失函数抑制背景干扰。

(2)设计一种空间递进卷积池化模块(spatialprogressive convolution pooling module,S-PCP),通过融合多尺度信息使网络适应检测目标尺度变化;并提出一种快速多交叉结构,使网络融合上下文信息,同时减少模型参数量和计算量。

(3)所提方法在两个异常行为检测的公开数据集上进行了训练和验证,并在违禁品检测中验证其泛化性,检测精度相较当前大多数方法均有显著的提升。

1 异常行为检测方法

1.1 网络结构

所提方法以YOLOv8为基线网络,设计FMB和S-PCP结构,并引入SimAM 注意力机制和WIoU 损失函数进行改进,网络框架如图1所示,主要分为主干部分、颈部、检测头3部分。在主干部分提出了新的FMB和S-PCP模块替代YOLOv8 网络原有的C2f 模块和快速空间金字塔池化模块(spatial pyramid pooling-fast,SPPF)。FMB通过部分卷积舍弃冗余通道降低模型复杂度,同时融合上下文信息,增强网络对异常动作差异的特征提取。S-PCP 采用多分支结构提取不同尺度下的特征信息。为进一步增强网络对异常动作的感知能力,在模型中间层引入了一种无参数SimAM 注意力机制,在保持整体参数量不变的情况下抑制背景干扰。此外,选择WIoU损失函数平衡检测锚框的惩戒力度。

图1 改进后的YOLOv8网络结构Fig.1 Network structure of improved YOLOv8

1.2 S-PCP

由空间变换产生近大远小的尺度差异往往对检测器的定位性能造成干扰,容易出现漏检和误检的情况。为解决此类问题,在空间金字塔池化[23]多分支结构基础上,提出新的空间递进卷积池化模块来提高模型面对不同尺度下人体异常动作变化的识别能力,其结构如图2所示。

图2 空间递进卷积模块机制图Fig.2 S-PCP module mechanism diagram

S-PCP 为5 分支结构,由池化组和卷积组2 个部分组成,每一分支均输出特征信息,旨在提取图像不同感受野的特征,最终通过大小为1×1的卷积将上述局部特征进行融合。在S-PCP的卷积组中采用了3个3×3的卷积通过串联递进的方式增加模型的感受野,同时汇集每层卷积输出的特征信息实现多尺度特征融合。此外,通过将每个卷积层的输出向下传播,引入了更多的非线性表达,并加深了模型的深度,有助于更好地捕捉输入数据中的微小特征,提高模型对复杂数据的理解和处理能力,进而提升模型性能。

在卷积组中,长为H宽为W通道数为C的特征图f首先通过第一个大小为3×3的卷积,由卷积尺寸计算公式可知,输出尺寸N为(H-2,W-2,C) 的特征图f1。接着特征图f1再次进行3×3的卷积操作,此时得到大小为(H-4,W-4,C)的特征图f2。最后特征图f2再次卷积得到大小为(H-6,W-6,C) 的特征图f3。通过这样的递进结构,使特征图f1、f2、f3在卷积组中传递时,分别得到卷积核大小为3×3、5×5、7×7 的输出感受野。根据时间复杂度公式和空间复杂度公式可知,单独使用大小为3×3、5×5、7×7 卷积时,空间复杂度为(32+52+72)×C2,而递进结构的空间复杂度为3×32×C2,前者约为后者的3倍,同时由于两种方式的输出尺寸相同,因此时间复杂度同样具有轻量的优势。

为了避免模型过深引起的过拟合问题,设计池化组来降低模型的复杂性,并加强模型的鲁棒性和泛化能力。在池化组中分别设置了1×1大小的卷积和5×5大小的池化,1×1 的卷积保留了原有输入的基础特征,抵消在多个尺度的特征提取过程中可能出现的畸变情况。5×5 的池化进一步压缩输入特征,模糊图像的数值分布,使卷积组提取的多尺度特征在与池化组叠加时具有明显的差异。S-PCP 的每一层结构同时将输入数据进行多尺度处理,从而有效地捕捉各个层次的特征信息,最终通过一个1×1的卷积将这些特征信息进行融合,实现多尺度信息的交互与整合,并通过互相纠正的方式提高模型的稳定性。

1.3 FMB

为了提升模型检测异常行为的效率,受跨阶段局部网络结构(cross stage partial,CSP)[24]和FasterNet[25]启发,提出了一种新的快速多交叉结构FMB,其结构如图3所示。模型采用了3分支结构对特征信息进行不同深度的采样,其中1条分支使用常规卷积来提取输入特征的基础空间信息保证模型基本精度;另外2条分支采取加权融合的机制,分别提取不同深度的网络特征,以提高网络对于多样性特征的提取;最后通过拼接操作实现特征信息的融合和跨通道的信息传递,提升上下文信息感知能力。通过这种设计,在减少计算复杂性和参数量的同时,使其在面对异常行为的差异性变化时能够更准确地定位异常信息,提升了模型的识别准确率。

图3 快速多交叉结构机制图Fig.3 FMB structure mechanism diagram

需要指出的是,模型参数量和计算量的减少主要得益于部分卷积(partial convolution,PConv)。与普通的卷积操作不同,PConv只对输入通道的一部分进行常规卷积操作,而将剩余的通道保持不变接在特征通道后面,从而保持整体通道数不变,如图4 所示。通过这种方式,模型减少了特征图通道之间的计算冗余量和内存访问,从而更有效地提取空间特征。

图4 PConv机制图Fig.4 PConv mechanism diagram

在部分卷积中,只对cp个特征通道进行空间特征提取,而将剩下的c-cp个通道保留并进行了平移操作,确保其在传入下一层卷积时的空间特征完整性。因此,输入特征图Fin∈ℝc×h×w通过PConv操作的计算量和内存访问量如公式(3)和公式(4)所示:

式中,cp为参与常规卷积的部分通道,其通道部分比例参数r=cp/c。以r=1/5 为例,可以看出PConv 的计算量是常规卷积的1/25,内存访问量是常规卷积的1/5。因此,PConv 的简化卷积通道操作使得FMB 结构在高效和简单的基础上实现了出色的性能,为异常行为检测的实际应用带来积极的帮助。

1.4 SimAM

为了进一步增强网络对异常行为的感知能力,降低背景干扰,所提方法引入一种基于神经科学理论的SimAM 模块。与现有的注意力模块不同,SimAM 模块并不是单纯的在通道或空间维度中的一个方向上增加卷积块细化特征,而是将空间、通道和特征3 个维度的信息融合生成3D 权重并以能量函数的形式向下传播。在提取网络特征时,空间信息和通道信息共同对视觉处理过程中的信息选择做出贡献,能够全局感知行人动作的变化。

在视觉神经科学中活跃的神经元会抑制周围神经元从而产生空间抑制效应,SimAM 根据这一特点对神经网络中每个神经元赋予不同的优先级。首先,对每个神经元定义能量函数,如公式(5)所示:

式中,et表示神经元的能量函数,M=H×W为输入特征单通道中神经元的数量,t代表目标神经元的单通道输入特征,x代表其他神经元的单通道输入特征,wt和bt分别是转换操作中的权重和偏置如公式(6)和(7)所示:

为了验证SimAM 的关注重点,在UCSD 数据集[26]的Ped1 和Ped2 子集中各自抽取了一张图像,分别通过基线模型和引入SimAM的模型提取图像特征并对其可视化展示,如图5 所示。可以看到在引入SimAM 后网络对于人体动作的关注度更符合人类大脑对特征的注意力,减弱了背景因素的干扰。因此SimAM 的引入有助于改善模型在异常行为定位任务中的性能。

图5 不同模型下得到的特征可视化对比图Fig.5 Visual comparison of extracted features across different models

1.5 WIOU

交并比(intersection over union,IoU)损失函数被用来衡量预测框与真实框之间的重叠程度,决定模型的定位性能。WIoU函数在IoU的基础上采用动态调整梯度分配策略,缩小不同尺寸锚框的惩罚差距,使其面对具有不同距离和长宽比等几何因素的目标时有更好的表现,提高模型的泛化性能,如公式(12)所示:

式中,Wg和Hg分别代表由预测框和真实框组成包围框的宽和高,Wi和Hi为预测框和真实框组成交叉框的宽和高。*表示将最小包围框的Wg和Hg与梯度计算分离,减少对模型训练产生的不利影响。与当前常见的几种损失函数相比,WIoU 通过平衡低质量锚框与高质量锚框之间的惩罚力度,采用动态非单调焦点机制掩盖低质量示例的影响,更好地保留不同尺度的特征信息。

2 实验与结果分析

2.1 实验配置

异常检测实验使用的是Python 3.9 编程语言,并采用了PyTorch 1.11 搭建深度学习框架。该实验在Ubuntu22.04.2LTS 操作系统上运行,并利用NVIDIA GeForce RTX 2080Ti图形处理器进行GPU加速。电脑的内存容量为32 GB,显存容量为11 GB,Batchsize设置为16,Epoch 设置为150 次,初始学习率为0.01,权重衰减为0.000 5,对图像预处理时将图像的宽和高均固定为640×640。泛化性实验在Windows 11操作系统上运行,电脑的GPU 为NVIDIA GeForce RTX 3060,内存容量为32 GB,显存容量为12 GB。

2.2 数据集

UCSD异常检测数据集[26]是通过俯瞰行人步行道的固定摄像机获取,步行道上的行人密度是随机可变的。正常情况下步行道上只包含行人,而异常情况是由于非行人在步行道上活动或出现异常的行人运动模式引起的,所有异常都是自然发生的。UCSD数据被分成Ped1和Ped2 两个子集,每个子集对应于不同的场景。为了处理UCSD数据集中存在的大量无异常帧视频数据,对UCSD的两个子集进行了处理,具体方法是从中抽取出所有的异常帧并对所有的异常情况重新进行了标注,标注信息如表1所示。

表1 重制UCSD数据集标签种类及标签数量Table 1 Categories and number of labels in reconstituted UCSD dataset

(1)Ped1:该场景中包含一群人向摄像机走来和离开的情景,并且存在一定的透视畸变和遮挡问题。调整后的数据集共包含4 654 张照片,其中包括了6 种异常情况:自行车、滑板、汽车、轮椅、踩踏草坪和手推车。为了进行训练和验证,按照7∶3的比例将数据集划分为训练集和验证集(测试集)。

(2)Ped2:该场景中包含行人平行于相机平面移动的情景。调整后的数据集共包含1 670 张照片,其中包括了三种异常情况:自行车、滑板、汽车。为了进行训练和验证,按照7∶3的比例将数据集划分为训练集和验证集(测试集)。

OPIXray违禁品检测数据集[27]是通过机场安检的X光检测机获取的扫描图像,随后由机场安检人员进行手动标注。数据集中包括折叠刀(folding knife,FO)、直刀(straight knife,ST)、剪刀(scissor,SC)、美工刀(utility knife,UT)和多功能刀(multi-tool knife,MU)5 种类别的刀具目标,总共包含8 885张图像,根据7∶2∶1的比例被划分为训练集、测试集和验证集。

2.3 评价指标

为了验证所提模型的有效性,实验采用目标检测中通用的评价指标对各模型的性能进行对比,具体指标有:平均精度(average precision,AP)、平均精度均值(mean average precision,mAP)、参数量(parameter)、十亿浮点运算数(giga floating point operations,GFLOPs)和每秒传输帧数(frame per second,FPS)。其中,AP和mAP 用来检验模型的识别能力,在本实验中表示从检测图像中识别出各项异常行为目标的准确性,由精准度(precision)和召回率(recall)共同影响,其表达式为:

式中,T 和F 代表实际情况的样本正负性,P 和N 代表预测结果的样本正负性。因此TP 表示目标样本被成功检测,FP 表示负样本被错误预测成正样本即误检情况,FN 表示非目标样本没有被误检成正样本。以精准度为纵坐标,召回率为横坐标可以画出PR曲线图。PR曲线与坐标轴包裹形成的面积为单类别的AP 值,mAP为所有类别AP的平均值,如公式(15)所示:

Parameter、GFLOPs 用来检验模型大小,评价模型对于设备硬件要求。FPS 表示模型每秒能处理的图像数量,用来验证模型的检测速率,评价模型的实时性。

2.4 结果分析

为了验证所提方法的先进性,分别在Ped1 和Ped2数据集上进行了训练和验证,采用AP、mAP作为衡量检测结果的指标,并与当前一些先进方法进行了对比,实验结果如表2和表3所示。从表2和表3可见,所提方法在Ped1 和Ped2 数据集上的检测效果均为最佳,分别达到92.7%和87.4%的准确率。相较于早期双阶段目标检测方法Faster R-CNN提高19.5个百分点和36.6个百分点,同时相较一些单阶段目标检测方法SSD、YOLOv5、YOLOv7以及目前较为先进的目标检测算法LD、FGD、SQR 亦有显著提升。其中,与最新的YOLOv8 相比,所提方法亦提升了3.4 个百分点和7.0 个百分点。在参数量和浮点数上,所提模型保持YOLO系列的轻量化的特点,相较于基线模型参数量由1.061×107下降到8.74×106,浮点数由28.4 GFLOPs 下降到22.3 GFLOPs,分别下降17.6%和21.5%,表明所提模型具有较好的先进性。

表2 UCSD-Ped1数据集结果对比Table 2 Comparison results on UCSD-Ped1 dataset

表3 UCSD-Ped2数据集结果对比Table 3 Comparison results on UCSD-Ped2 dataset

图6展示了YOLO部分系列模型在Ped1和Ped2数据集的PR曲线,可以看出所提方法PR曲线在2个数据集上均有良好的表现。为进一步展示所提方法异常行为检测性能的提升,将基线模型和所提模型的检测结果进行展示并与实际标注进行对比,如图7 所示,图7(a)为样本的实际标注信息(通过labelimg工具得到的可视化标注信息),图7(b)为通过基线模型YOLOv8 得到的检测结果,图7(c)为所提模型的检测结果。可以看到展示的检测样本中,基线模型YOLOv8在Ped1和Ped2等2个不同的数据集场景下均发生了漏检和误检的现象,而在相同的条件下,所提模型能够准确地检测出样本中的异常目标。其中,在图7中第二行的YOLOv8模型的检测结果中可以看到检测框同时出现漏检和误检现象,误将行人判断成骑行自行车的人且没有检测出实际使用自行车和滑板的人。而所提模型成功准确检测出图像中的所有异常行为同时没有出现误检现象,进一步证明了所提模型的有效性。综合以上分析,上述结果验证了所提方法的稳健性和先进性。

图7 基线模型与所提模型检测结果对比图Fig.7 Comparison graph of detection results between baseline mode and proposed model

2.5 泛化性实验及结果

为了验证所提模型对于目标检测的泛化性,选择OPIXray违禁品检测数据集,对所提模型的性能进行泛化测试,并与当前先进的部分违禁品检测模型进行对比,结果如表4所示。从表中可以看出所提模型相较于基线模型YOLOv8 的平均精度均值提升了1.1 个百分点,相较于其他先进模型的mAP 也有显著的提升。此外所提模型在具体违禁品类别上的检测精度均超过90%,与其他模型相比在直刀(ST)的检测精度上有大幅度的提升,在其他分类上的精度也有不同程度的提升效果,表明所提模型的有效性且具有一定的泛化性。

表4 OPIXray数据集结果对比Table 4 Comparison results on OPIXray dataset单位:%

2.6 PConv参数测试

FMB 结构中部分卷积的部分比率r=cp/c对模型的参数量和准确度都具有一定的影响。当r越大时参加卷积的通道数越多,模型对特征的提取越复杂,增加计算量的同时亦能提高特征表达能力;反之,r越小时参加卷积的通道数减少,计算量下降且提取特征能力也会略有下降。但过多的卷积占比可能会带来特征过拟合和计算压力增加的问题,导致识别精度和速率下降,而过少的卷积占比会使模型的拟合特征能力欠缺同样出现精度下降的问题。因此选择合适的通道部分比例参数可以给模型带来更好的性能。为了探索合适的参数,本节将对FMB结构中的PConv进行参数测试,对比例参数分别取1、1/2、1/3、1/4、1/5、1/6、1/7 共7 种情况进行实验,结果如表5所示。表中cp表示参与卷积的通道数,c表示特征的总通道数,Size 为模型训练生成的权重文件大小。实验过程中保持PConv卷积核大小为3×3,Epoch为150其他训练参数相同情况下进行对比。

表5 不同PConv参数实验结果Table 5 Results of different parameters of PConv

为了更直观地看出参与卷积的通道数与检测结果之间的关系,将表5中的数据进行可视化展示,如图8所示。从图中可以看出随着参与卷积的通道占比变小时,模型的检测精度曲线呈现出先上升后下降的整体趋势。当所有的通道均通过卷积操作时,参数的空间维度变得复杂,使模型出现类似过拟合的现象。随着通道部分比例参数的降低,模型的深度随之降低缓解了过拟合带来的影响,因此精度出现了上升;而当参与卷积的通道继续减少时模型就会因为提取特征信息不充分出现拟合程度不足,导致精度下降。

图8 不同PConv参数的检测精度趋势图Fig.8 Trend graph of mAP for different PConv parameters

从图8中可以看出,虽然不同的通道部分比例参数会对模型的检测精度带来一定范围的波动,但在两个数据集上所提模型的检测精度均超过基线模型。当参数r分别为1/4 和1/3 时,所提模型在Ped1和Ped2数据集上的检测精度分别为92.7%和87.4%,此时模型达到最优性能在具有高精度的同时减少了冗余计算量。通过对不同r的参数敏感性实验发现,适当地降低卷积的通道部分比例不仅可以减少模型参数量而且可以进一步提升所提方法的检测精度,使模型达到最优性能。

2.7 损失函数的选择

目标检测任务中边界框回归损失函数对于模型定位性能具有重要意义,在训练过程中通过损失函数衡量模型预测值与真实值之间的差距使下一次迭代正向优化。为了探究不同的损失函数与模型性能之间的关系,实验采用CIoU(complete-IOU)、EIoU(efficient-IoU)、SIoU(SCYLLA-IoU)、WioU 等4 种常见的损失函数在UCSD-Ped1 数据集上进行对比测试,实验结果如表6所示。

表6 不同损失函数测试结果Table 6 Results of different loss function

表6 中可见在相同参数设置下更换不同的损失函数会使模型的检测效果在一定范围内波动,但不会对模型的参数量造成影响。当损失函数为WIoU 时模型mAP 最大值相较于其他损失函数均有不同程度的提升。此外,WIoU 峰值对应的r参数相较于其他损失函数提前到1/4,在Pconv 参数选择章节中可知过多的卷积参数会导致模型出现过拟合的现象,说明模型通过WIoU 减少了可能出现的过拟合情况,保留了更多的特征信息,因此为了达到更好的检测效果选择WIoU作为所提模型的边界框回归损失函数。

2.8 消融实验

为了验证所提方法的有效性并探究FMB、S-PCP和SimAM模块对模型准确率和速率的影响,本文进行了8组对比实验,以YOLOv8 为基线模型,分别在Ped1 和Ped2数据集上以640×640为输入图像大小,在相同参数条件下进行了消融实验,实验结果如表7 所示。从表7中可以观察到,当单独使用FMB结构后模型在2个数据集上准确度分别提高0.6个百分点和1.2个百分点,同时相较于基线模型参数量由1.061×107下降到7.44×106,浮点数由28.4 GFLOPs 下降到20.9 GFLOPs,由于FMB 中存在对特征通道的拆分和拼接工作,导致模型的检测速率有所下降,但模型的检测速率仍然满足实时检测要求。当分别加入S-PCP、SimAM模块后检测器性能均有一定程度上的提升。当3个模块同时引入后,检测器性能分别提升3.4 个百分点和7.0 个百分点。从模型的参数量和浮点数上观察可知,虽然提出的S-PCP模块在参数量上略有增加,但提出的FMB 模块显著地减少了基线模型的参数,同时引入的SimAM 为无参数注意力机制,因此从整体上网络的参数量、浮点数相较于基线模型分别下降了1.87×106和6.1 GFLOPs。所提模型中,FMB 结构采用部分卷积减少基线模型的计算冗余量,同时融合上下文信息增强模型人体特征的感知能力;S-PCP 融合多尺度特征间的差异提升网络模型对特征提取能力,减缓行人由近到远的尺度变化带来的影响,使网络更加关注人体行为的细微差异;SimAM 模块抑制背景干扰,提高有效特征信息的权重。3个模块的紧密融合使得模型的效率得到最大化,准确率也相应提升至92.7%和87.0%。将消融实验中每个模块逐个添加并训练模型,分别对样本进行异常行为测试得到消融实验结果对比图,如图9所示。可以看出本文所提出的改进策略单独作用下对比原基线模型YOLOv8 均有一定程度的提升,但仍然会出现漏检和置信度较低的情况。当3个模块共同作用时,可以看出检测性能得到较高的提升,表明本文所提的3种改进策略对异常行为检测是较为有效的。

表7 Ped1和Ped2数据集上消融实验研究Table 7 Experimental study of ablation on Ped1 and Ped2 datasets

图9 消融实验结果对比图Fig.9 Comparison of ablation study results

3 结束语

本文以YOLOv8为基线网络,提出了融合多尺度特征和快速多交叉结构的异常行为检测方法。该方法提出S-PCP模块,通过多分支结构应对异常行为尺度变化问题;设计FMB 结构提升上下文信息感知能力并减少模型计算量;引入SimAM 注意力机制应对背景干扰问题;此外,通过WIoU 函数监督训练,增强模型泛化性能。在3 个数据集UCSD-Ped1、UCSD-Ped2 和OPIXray上的测试结果表明,所提方法可以有效降低异常行为检测中因背景干扰与多尺度变化造成的漏检误检情况,实现了准确性和轻量化较好的整合,同时具有一定的泛化性能,是一种性能优良的异常行为检测方法。

本文提出基于监督学习的异常检测方法,所提模型在训练前需要对大量的异常信息进行标注。由于异常行为信息较为稀少,导致前期数据处理时工作量较大。因此,未来的研究之一可以考虑采用无监督或弱监督学习的方法,解决检测模型对标注信息的依赖等问题。

猜你喜欢
尺度卷积特征
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
如何表达“特征”
从滤波器理解卷积
不忠诚的四个特征
基于傅里叶域卷积表示的目标跟踪算法
抓住特征巧观察
宇宙的尺度
9
一种基于卷积神经网络的性别识别方法