李大湘,辛嘉妮,刘 颖
(西安邮电大学 通信与信息工程学院,陕西 西安 710121)
随着飞行器与通信技术的快速发展,无人机作为一种新型的拍摄工具,凭借独特的拍摄视角,以及携带方便与成本低的特点,在民用和军事方面得到了广泛的应用[1]。面向无人机航拍影像,为了提高用户对航拍内容的观看效率,基于机器学习技术设计无人机航拍图像目标检测算法已经成为当今计算视觉领域中的一个新兴研究分支[2]。
近年来,深度学习作为无人机航拍图像目标检测的主流方法,根据是否使用锚框相关算法可分为两大类。基于锚框(Anchor-based)的代表性算法有Faster R-CNN[3],Cascade R-CNN[4],SSD[5]与YOLOv4[6]等。针对航拍图像目标检测的应用需求,Yang 等[7]提出了用于小目标检测的QueryDet 网络,设计了一种简单有效的级联稀疏查询机制,有效地利用航拍图像高分辨率特征,提高对小目标的检测性能。Li 等[8]提出了一种Oriented RepPoints 空中目标检测方法,通过引入灵活的自适应点,能够捕捉任意方向实例的几何信息。Liang 等[9]提出了一个称之为DEA-Net 的动态锚点增强网络,该网络实现了基于锚的单元和无锚单元之间的交互式样本筛选,以生成合格样本,提高检测小目标的性能。这类基于锚框的方法虽然在航拍图像目标检测中取得了较好的性能,但在检测过程中要依赖于人工预先设置的锚框信息,不仅会增加模型超参的数量(如:锚框的数量、尺寸与高宽比等),还会增大参数调试的复杂性,即无法通过反向传播进行端到端训练,通常需要人为仔细地调整锚框参数才能获得最佳的检测性能。
在无锚框方法的研究上,Law 等[10]提出的CornerNet 算法先预测目标左上角和右下角点,再对角点分类组合形成检测框。Tian 等[11]提出的FCOS 算法针对每个图像像素进行预测,得到该像素到检测框的4 个边框的距离,最终输出整体目标的检测框。Dai 等[12]提出了ACE 空中旋转目标检测方法,使用四边形边界框来定位任意方向对象和动态采样方法,有助于关键点的准确定位。除了这些方法之外,近两年来,由于Transformer 在计算机视觉领域的广泛应用,Carion 等[13]将它整合到目标检测基线中,设计了一种DETR 的目标检测算法,该算法不需要任何的人工干预,可以用端到端的方式进行训练。Zhu等[14]提出了一种Deformable DETR 的目标检测算法,设计了可变形注意力模块,该模块只注意参考点周围的某些采样点,减少了计算量。Li等[15]通过引入带有噪声的真实边界框作为查询向量,通过去噪技术解决二分图匹配的不稳定性问题,加速模型训练。基于Transformer 的方法框架简洁,不用手工设置锚框及非极大值抑制(Non-Maximum Suppression,NMS),泛化能力强,建模图像的全局依赖关系,有效利用上下文信息,减少由于锚框设置不合理导致的问题,但需要一些特殊的损失函数提高算法稳定性,小目标的检测性能相对较差。
综上所述,Transformer 框架下的DETR 虽然具有思想简洁、结构清晰与无NMS 操作等优点,但因无人机拍摄距离过远,小目标过多,现有模型很难取得理想的检测效果。所以,本文设计了一种位置敏感Transformer 目标检测(Position Sensitive Transformer Object Detection,PSTOD)模型。该模型在DETR 的基础上,设计了一个基于位置通道嵌入三维注意力(Position Channel Embedding 3D Attention,PCE3DA)的多尺度特征融合(Multi-Scale Feature Fusion,MSFF)模块,且将该模块连接在骨干网络和Transformer 之间,让网络更好地获取具有多层级上下文信息的特征,以增强模型对小目标的检测能力;此外,设计了位置敏感自注意力(Position Sensitive Self-Attention,PSSA)机制,用它替代原模型中的自注意力(Self Attention,SA),即使用可学习的相对位置敏感编码信息,帮助Transformer 模型中的编-解器获得更准确的目标位置信息,以提高无人机航拍图像目标的定位能力及检测精度。
图1 是本文设计的PS-TOD 模型示意图,它主要由CNN 主干网络、MSFF 模块、位置敏感Transformer 编-解码器与集合匹配预测模块4 个组件构成。对于待检测图像,首先使用CNN 主干网络与MSFF 模块,获得图像的跨层融合多尺度特征;然后,采用带有PSSA 机制的Transformer 编码器,对图像的多尺度特征连同其相对位置信息一起进行学习,获得图像的位置敏感编码特征;其次,在Transformer 解码器中再通过多头SA 及交叉注意力将对象查询向量转换为解码输出;最后,利用两个不同的FFN 对解码器输出的每个特征进行预测,分别得到它们所对应的框坐标和类标签,以获得最终的目标预测集合。
小目标数量多作为无人机航拍图像目标检测的主要挑战。DETR 算法[13]因只使用ResNet最后一个卷积模块conv5_x 的输出作为特征表示,即特征图谱经32 倍下采样后,导致原图中的小目标消失在特征图中从而造成漏检。所以,本文设计了PCE3DA,且基于它构造了一个自底向上的跨层MSFF 模块,在提高小目标检测精度的同时还可兼顾整个算法对多尺度目标的检测能力。
设IMG 表示任意一幅训练图像,将它送入主干网络ResNet-50,conv3_x,conv4_x 与conv5_x输出的特征图谱分别记作F3,F4与F5,且使用1×1 卷积将它们的通道数均调整为256,分别记为。为了将它们的信息融合起来而得到图像的多尺度特征表示,设计了一个自下而上的跨层特征融合方案,即图1 中的MSFF模块。
2.2.1 多尺度特征融合
图2 PCE3DA 跨层特征图谱融合方案示意图Fig.2 Fusion scheme of PCE3DA cross layer feature map
将融合后的Fa通过设计的PCE3DA 进行加权得到加权特征,即:
为了保留特征的初始信息,使用残差连接将自适应增强的特征与其原始特征分别相加。因此,获得增强特征,分别为:
最后,分别通过3×3 卷积层后再进行特征相加融合,获得跨层融合特征,即:
2.2.2 PCE3DA 原理
为了更好地提取无人机图像的特征信息,传统方法是分别对特征图谱实施空间与通道注意力,这类方法导致参数与计算量大,且不能同时考虑空间维度和通道维度之间的相互关系,导致空间和通道信息相互孤立。如图3 所示,在坐标注意力[16]的启发下设计了PCE3DA,式(2)中采用PCE3DA 进行注意力加权,即:将空间位置信息嵌入到通道注意力中,这样可以同时利用空间和通道维度的相互依赖信息,得到三维注意力权值,用于加强感兴趣区域的特征表示,以帮助模型聚焦有助于目标精准定位的局部细节信息。
图3 位置通道嵌入三维注意力流程Fig.3 Flow chart of position channel embedding 3D attention
设F∈RC×H×W表示任意输入PCE3DA 的特征图谱,其中C,H与W分别表示F的通道数、高度与宽度。首先,使用一个X轴的1×1 卷积对F中的数据沿水平方向进行聚合,在捕获X轴长距离依赖关系的同时,也可以保留垂直方向的位置信息,该过程可表示为:
其中zX∈RC×H×1表示卷积结果。然后,将zX送入1×1 卷积,且经过归一化与激活函数处理,得到:
其中:σ表示Swish 非线性激活函数,BN()表示批量归一化,fX∈RC/r×H×1表示垂直方向上对空间信息进行编码的中间特征图。这里,r表示压缩通道比例(实验中r=4);随后,利用另外一个1×1 卷积,将fX变换并与输入特征图F的通道数相同,记为:
其中gX∈RC×H×1表示通道扩充结果。
同理,采用另一个Y轴的1×1 卷积对F中的数据沿垂直方向进行聚合,在捕获Y轴长距离依赖关系的同时,也可以保留水平方向的位置信息,该过程可表示为:
综上所述,将gX与gY作广播机制加法⊕,再经Sigmoid 函数处理之后,记为:
其中β∈RC×H×W,表示三维注意力权值。最后,将权值β与输入F点乘⊗,从而得到经PCE3DA加权之后特征,记为:
对于目标检测任务,位置信息极为重要。在DETR 算法中,采用绝对位置编码感知图像的全局上下文信息,但在目标检测中图像的分辨率通常很高,目标特征更多依赖图像的局部信息。因此,本文设计了一种PSSA 机制,且以此构造位置敏感Transformer 编-解码器,以提高模型对位置信息的敏感能力,从而提升目标检测精度。
2.3.1 PSSA 机制
为了利用每个元素在序列中的位置信息,提高它在计算机视觉任务中的表达能力,传统的做法是将绝对位置编码AP=[p1;p2;…;pN]嵌入到序列X的每个元素xi(如ViT[17])中,即:
其中pi∈Rdx表示第i个元素的绝对位置编码向量,通常可采用正余弦函数计算得到[17]。最后,绝对位置编码SA 可表示为:
在目标检测任务中,像素之间的相对位置信息对于提高模型对目标的定位能力尤其重要。如图4 所示,这里利用序列各元素之间的相对位置信息,设计了一种PSSA 机制,即通过嵌入可学习的相对位置编码向量到SA 机制中,利用图像中各特征之间的相对位置关系,提高模型的位置敏感能力,从而实现目标的精确定位。
图4 位置敏感自注意力机制Fig.4 Position sensitive self-attention mechanism
设Fms∈RC×H×W表示经MSFF 模块得到的多尺度特征图谱,其中C,H与W分别表示通道数、高度与宽度。首先,对Fms中每个位置(h,w)沿通道维度的C个数据抽取出来,由此可将Fms转化成一个由N(这里N=W×H)个元素组成序列,记为S={sn(h,w)|n=1,2,…,N},其中sn(h,w)∈R1×C表示第n个元素,h∈[1,H]与w∈[1,W]分别表示它在Fms中对应的空间位置坐标;然后,为了建模sn(h,w)相对于S中任意其他元素sm(h,w)之间的相对位置关系,定义一个索引函数E(n,m)与3 个相对位置编码向量,记为:
综上所述,在输入序列S中,根据两个元素sn(h,w)与sm(h,w)之间的城区距离,为了学习它们之间的相对位置依赖关系,需额外考虑3 个与位置相关的向量,即在Query,Key 与Value 上分别加入相对位置编码构成PSSA,记为:
其中:WQ,WK,WV∈RC×C'分别表示与Q,K,V相对应的且可学习的变换矩阵。C与C'分别表示输入、输出特征的维度,则对于S中的任意一个元素sn(h,w)∈R1×C,其PSSA 编码过程可表示为:
其中:zn∈R1×C'表示PSSA 编码输出,ωnm表示使用缩放点积与SoftMax 计算的归一化权重[18]。
2.3.2 位置敏感Transformer 编-解码器
基于PSSA 机制,在DETR 算法[13]的启发下,设计的位置敏感Transformer 编-解器如图5所示,它主要由编码器与解码器两部分组成。为了使模型在性能与参数量之间得到一个很好的平衡,如图5 左侧所示,编码器由6 个相同的层构成,且每个层主要由多头PSSA 与MLP 组成。对于输入序列S,将其写成矩阵形式S0∈RN×C,记为:
图5 编-解码器结构Fig.5 Encoder-decoder structure
编码器重构特征的过程可表示为:
其中:LN(),MLP()与mhPSSA()分别表示层归一化、多层感知机与多头PSSA 等操作,Y∈RN×C表示第6 层编码器的输出,即对序列S的最终编码结果。mhPSSA 作为PSSA 的扩展,即并行地运行K个不同的PSSA 操作,每个注意力头将分别关注输入信息的不同部分,并将它们的输出串联起来作为最终的编码结果:
为了使S经mhPSSA 编码之后,其输入S与输出Y保持相同的维度,每个PSSA 输出的维度C'设置为输入元素维度的K分之一,即。为了与DERT 模型进行公平比较,本文模型中的C也与其一样也设置为256,且为了保证K能整除C,K只能取2,4,8,16 等整数。随着注意力头数的增加,模型计算复杂度会增加,所以本文后续实验中K取4,一则可以在计算效率和性能之间达到折中;二则由于设计的模型面向无人机航拍图像目标检测,mhPSSA 机制中的每个头将从不同的角度感知目标的不同部分。这些目标按4 个角度观察也可满足要求,例如车的车头和车尾、人体的头部和身体等,mhPSSA将从4 个角度感知这些目标,且捕捉它们之间的语义关系而提取图像的全局特征,从而能够提高目标检测的准确率。
MLP 包括两个FC 层,FC1 层将输入扩大为原来的4 倍,由于残差连接的存在,FC2 输出层再恢复原始维度,相应的计算过程为:
其中:W1表示将特征从256 维投影到1 024 维的变换矩阵,W2表示从1 024 维投影回256 维变换矩阵,b1与b2均表示偏置向量。
如图5 右侧所示,解码器类似于Transformer的标准结构,由6 个完全相同的层构成,每个层主要由多头SA、多头交叉SA 与MLP 组成。设B0=[b1;b2;…;bM]表示由M个元素组成的目标查询(object query)序列,其中bi∈R1×C表示B中的第i个元素,对应的是图像中第i个预测目标的特征向量。编码器的第一个阶段是先采用多头SA 对进行编码,然后,将输出与编码器的输出Y相结合,再采用多头交叉SA 进行编码;最后,经类似于编码器的MLP 处理,得到最终的解码特征。该过程描述为:
其中mhCSA()表示由K个交叉自注意力CSA()组成的多头交叉自注意力,即:
对于目标查询序列B0=[b1;b2;…;bM],经解码器输出得到,再将它们输入两个不同的FFN,以分别预测每个解码特征所对应目标的类别标签与边框,得到预测结果记为,相应训练图像所有真实目标的类别clsi与边框boxi的Ground Truth集合记为,实验中M设置为200,通常远远大于图像中真实目标的数量J。在Transformer 这种端到端的目标检测框架中,因不需要NMS 后处理,训练时就得在U与二个集合之间寻找最佳匹配[13]。为了便于用匈牙利算法[19]在集合U与中找到最佳匹配,首先,将集合U填充M-J个∅(表示无目标),使它与元素数量相等,对于U中的每个ui=(clsi,boxi),其中clsi是目标类标签(可能是∅),boxi∈[0,1]4是其相对于图像尺寸的中心坐标及高度与宽度;然后,要在集合U与之间寻找最佳匹配,就是要寻找中M个元素的最佳置换σ∈ξM,使式(25)所示的匹配损失最小,即:
其中αt与γ为超参数,分别表示第clsi类的权重与衰减参数,αt=0.25,γ=2。
为了验证本文提出的PS-TOD 模型的有效性,本文使用公开的VisDrone 数据集[20]进行对比实验。该数据集由天津大学AISKYEYE 团队使用无人机在不同条件下低空拍摄获得,包含1 360×765 和960×540 像素两种图像尺寸,涵盖各种天气和光照条件下日常生活中的各种场景,其中训练集6 471 张图像、测试集3 190 张图像和验证集548 张图像。数据集的图像中包括行人、人、汽车、公交车、自行车、卡车、三轮车、雨棚三轮车、面包车以及摩托车等十类目标。
本文采用COCO 数据集中的评价指标来评价模型性能[23],主要比较AP,AP50,AP75,APS,APM与APL,其中AP 表示在0.5 至0.95 步长0.05 共10 个交并比阈值下的平均检测精度的平均值,AP50与AP75分别表示交并比阈值为0.5 和0.75 时的平均检测精度,APS,APM与APL分别表示对测试集中的小目标(像素数量<322)、中等目标(322<像素数量<962)与大目标(像素数量>962)的平均检测精度。实验平台采用Ubuntu18.04 操作系统,GPU 为NVIDIA TITANX×4,CPU 为Intel(R)Core(TM)Xeon E5-2640,内存为128 GB,编程语言为Python3.8,torch 版本为1.7.0。模型训练过程中使用AdamW 优化器来优化模型,批大小(Batch_size)为16,初始学习率为2×10-4,权值衰减为1×10-4,整个模型训练500 个Epoch,为了加快训练收敛速度,在初始训练时使用官方提供的Transformer 预训练模型。所有实验均以VisDrone 的训练集与验证集来完成模型的训练,然后对测试集中的所有图像进行目标检测,统计相应评价指标。
3.2.1 模块消融实验
为了验证PS-TOD 模型中两个关键模块(即基于PCE3DA 的MSFF 模块与基于PSSA 的Transformer 编-解码模块)以及修改损失函数在无人机航拍图像目标检测中的有效性,基于Vis-Drone 数据集进行了消融实验,且在相同实验条件下,再与基线模型DETR[13]进行对比,消融实验结果如表1 所示。其中“Param”表示模型的参数量,单位取“兆(M)”,即当不同模块被嵌入到“基线”模型之后,以对比改进模型参数量的变化。
表1 VisDrone 测试集上的消融实验结果Tab.1 Ablation experiment results on VisDrone test set(%)
由表1 实验结果可见,在基线模型的基础上,分别只应用MSFF,PSSA 的Transformer 编-解码或修改损失函数等部件,其AP 分别提高了1.7%,1.1%或1.3%,这说明本文所设计的两个模块与修改损失函数在无人机图像目标检测任务中是有效的;若同时使用其中任意二个模块,较之只使用一个模块检测精度可得到进一步提高,当同时使用三个部件时,AP 达到最高28.8%。通过对各类目标的检测结果分析可知,MSFF 模块通过类似于残差连接的方式进行多尺度特征融合,且在PCE3DA 的驱动下,模型在具备多尺度特征提取能力的基础上,还可更好地保留小目标的特征信息;设计的PSSA 机制,较之原始的自注意力更能获取像素之间的相对位置关系,在位置敏感的作用下,模型可以更好地关注图像中的重点区域,并且在修改损失函数的约束下,不仅缓解了数据集类别以及正负样本不平衡带来的问题,同时使损失函数更加关注边界框的位置,更能优化模型的训练而提高无人机图像中目标的检测精度。虽然设计的模块可提高目标检测精度,但是会带来参数量的增加,例如:当MSFF 或PSSA 模块分别被引入之后,较之“基线”模型,会带来2.4M 或3.3M 参数量的增加,同时引入MSFF 与PSSA 模块时,模型参数量达到42.51M。
3.2.2 PCE3DA 机制消融实验
为了验证设计的PCE3DA 机制在MSFF 模块中的有效性,设计了7 组消融实验,即在A 组(Baseline DETR[13)的基础上,B,C,D,E 与F 组分别表示基于-SE(SENet[24]的SE 通道注意力),-SA(BAM[25]的空间注意力),-CA(文献[16]的坐标注意力),-CBAM(文献[26]的通道和空间注意力)与-PCE3DA(本文设计的)等5 种不同的注意力机制,对骨干网络的最后一层特征图谱进行注意力加权;G 组表示在F 组的基础上还采用MSFF 进行多尺度特征融合,再结合Baseline 模型中编-解码器与检测头。消融实验结果如表2所示。
表2 不同注意力机制及使用多尺度特征的实验结果Tab.2 Experimental results for different attention mechanisms and using multi-scale features(%)
由表2 可知,骨干网络的特征图谱只要经注意力加权之后,不同尺寸目标的检测精度均可得到提高,且空间注意力要优于通道注意力。总体上,本文设计的PCE3DA(即F 组)优于其他4 种注意力,并且经MSFF 模块对多层级特征图谱进行融合,检测效果达到最优(即G 组)。这主要得益于PCE3DA 能将特征更好地聚焦在感兴趣区域,抑制无关信息,同时增强了特征表达与空间位置结构信息,融合后的特征图具有更丰富的语义信息和几何细节信息。
3.2.3 PSSA 机制消融实验
在Transformer 编-解码中,为了验证设计的PSSA 机制的性能,与文献[27]及[28]计算相对位置编码的方法进行了消融实验,实验结果如表3 所示。可以看出,在计算注意力得分时考虑两个元素之间的相对位置,即引入相对位置编码是必要的。本文所提相对位置计算方法最大程度提升了模型的AP 值,其主要原因是PSSA 通过定义的索引函数映射相对位置,使得到的相对位置编码信息更加准确,模型能够获得一定的平移不变性,更加符合目标检测任务的需求。
表3 不同相对位置计算方法的实验结果Tab.3 Experimental results of different relative position calculation methods(%)
为了进一步验证本文提出的PS-TOD 模型在无人机航拍图像目标检测任务中的性能,在VisDrone 数据集上与经典及先进的目标检测模型进行实验对比,包括Cascade R-CNN[4]、YOLOv8[32]与PVTv2[33]等方法。为了对比的公平性,每种算法除了其专门参数沿用原文之外,学习率、批大小与Epoches 等超参设置均与3.1 节相同,实验结果如表4 所示。
表4 不同算法在VisDrone 测试集上的性能对比Tab.4 Performance comparison of different algorithms on VisDrone test set(%)
根据表4 的数据,本文设计的PS-TOD 模型在无人机航拍图像目标检测中表现良好,其AP50,AP75与AP 值分别达到了51.8%,28.3%与28.8%。与YOLOv8(速度最快)相比,虽然FPS有所下降,但YOLOv8 识别物体位置的精准性差,而PS-TOD 的检测精度获得了2.3% 的提升;与具有相近检测精度的QueryDet 模型相比,PS-TOD 的准确率AP 和检测速度FPS 都高于该模型。但AP75较之低了0.5,原因是AP75指标对于目标检测框的重合率要求更高,PS-TOD 模型作为一种无锚框引导的检测方法,在目标定位精确方面可能稍弱于专门针对小目标优化的QueryDet 模型,但与其他模型相比,PS-TOD 在AP75方面仍然具有明显的优势,即PS-TOD 能较好地平衡检测精度与检测速度。综上所述,通过对比实验结果可知,在设计的PS-TOD 模型中,首先基于PCE3DA 机制构造自底向上的跨层MSFF 模块,可让网络更好地获取图像的上下文多尺度特征,在提高小目标检测精度的同时,还可兼顾多尺度目标的检测能力;然后,基于PSSA 机制设计的Transformer 编码器,可使用像素之间的相对位置信息,增强模型的位置敏感能力,提高了无人机航拍图像目标的定位能力及检测精度。
为了观察PS-TOD 模型在无人机航拍图像目标检测中的具体表现,图6 为可视化VisDrone测试集中各种情况下具有代表性的图像检测结果。可以看出,本文模型在光照变化、复杂背景、高空拍摄视角、目标稀疏、目标密集与运动模糊等6 种不同的环境下,均能够检测出大多数的目标,说明设计的PS-TOD 模型对无人航拍机图像在各种情况下都具有非常优秀的检测能力,足以应对生活中发生的各类实际情况。
图6 PS-TOD 在VisDrone 测试集上的部分检测结果Fig.6 Partial detection results of PS-TOD on VisDrone test set
除此之外,为了进一步观察PS-TOD 对每类目标的检测性能,分别统计了它与基线模型DETR[13]对VisDrone 测试集中每类目标的具体检测性能,如表5 所示。对比结果表明,PS-TOD 总体上改善了单类目标的平均检测精度,尤其是对于小目标,提升效果非常明显。在小目标比例较多的行人、人、自行车与摩托车这四类目标中,相较于基线模型检测精度分别提升了4.2%,3.7%,2.6%与3.5%;另外,在目标尺寸相对较大的类别(如汽车类和卡车类)中同样也有明显优势,如汽车类别别的AP 高达64.3%。综合各种尺寸目标的检测效果,充分验证了本文提出的PS-TOD模型在提高小目标检测精度的同时,还可兼顾其他尺度的目标检测能力。
表5 VisDrone 测试集中不同类别实验结果Tab.5 Experimental results of different categories on VisDrone test set(%)
为了更深入观察基线DETR[13]模型与PSTOD 在小目标检测中的性能优劣,在VisDrone测试集中选取小目标存在的夜晚和白天等两种场景,如图7 所示,可视化得到4 组检测效果的对比图。通过对比图7(a)与图7(e)、图7(b)与图7(f),在夜间较低照明的状态下,基线模型由于背景噪声信号的影响漏检了图7(a)中站立在高架桥上的行人与图7(b)中大量行人,而PS-TOD通过注意力机制,减少背景影响、增加感兴趣目标的特征信息,成功检测到基线漏检的行人;对比图7(c)与图7(g)、图7(d)与图7(h)可以发现,基线模型漏检了图7(c)大量远处的人及汽车与图7(d)中路口处的人及行人等小目标,而PSTOD 通过融合多尺度信息与添加位置信息,使得模型得到更好的目标特征信息,强化模型对小目标的定位能力,可精确检测部分漏检的小目标。总之,PS-TOD 相对于基线模型具有更为优越的检测性能,尤其针对较小尺寸目标具有更强的检测辨别能力,有效降低小目标漏检与误检的概率。
图7 小目标检测效果对比Fig.7 Comparison of small object detection result
针对无人机航拍图像小目标多且检测困难的问题,本文在Transformer 框架下提出了一个PS-TOD 模型。首先,设计了基于PCE3DA 的多尺度特征融合模块,即通过融合不同层级的特征图谱,有效地利用它们在空间与通道二个维度中的上下文信息,以增加骨干网络的多尺度特征提取能力;然后,结合相对位置编码,设计了PSSA机制,且以此构造了一个Transformer 编-解码器,以帮助模型在捕获图像全局上下文信息的长期依赖关系时,也可提高模型对位置信息的敏感能力,从而提升模型对小目标的检测精度。基于VisDrone 数据集的实验结果表明,所提PS-TOD作为一种端到端的目标检测模型,其检测过程不需要事先锚框设置与事后NMS 处理,在复杂背景下能精确地对无人机航拍图像进行目标检测,且有效地改善了小目标的检测效果。在后续工作中,除了进一步优化PSSA 机制,以降低模型的参数量,提高检测速度之外,还需要将研究成果应用到其他数据集中,进一步验证所提模型的检测精度与泛化能力。