杨佩龙,陈树越,杨尚瑜,王佳宏
基于RGB-T图像的双流残差扩张网络人群计数算法
杨佩龙,陈树越,杨尚瑜,王佳宏
(常州大学 计算机与人工智能学院,江苏 常州 213164)
在人群计数中,针对尺度变化、行人分布不均以及夜间较差成像条件,提出了一种基于RGB-T(RGB-Thermal)图像的多模态人群计数算法,称为双流残差扩张网络,它由前端特征提取网络、多尺度的残差扩张卷积模块和全局注意力模块所构成。其中,前端网络用来提取RGB特征和热特征,扩张卷积模块进一步提取不同尺度的行人特征信息,全局注意力模块用来建立全局特征之间的依赖关系。此外,还引入了一种新的多尺度差异性损失,以提高网络的计数性能。为评估该方法,在RGBT-CC(RGBT Crowd Counting)数据集和DroneRGBT数据集上进行了对比实验。实验结果表明,在RGBT-CC数据集上与CMCRL(Cross-modal Collaborative Representation Learning)算法相比该算法的GAME(0)(Grid Average Mean absolute Errors)和RMSE(Root Mean Squared Error)分别降低了0.8和3.49,在DroneRGBT数据集上与MMCCN(Multi-Modal Crowd Counting Network)算法比分别降低了0.34和0.17,表明具有较好的计数性能。
人群计数;RGB-T图像;扩张卷积;全局注意力;多尺度差异性损失
人群计数[1]作为计算机视觉领域的一个基础任务,其目的是估计给定图像或视频中包含的行人数量。近些年,由于在人群流量检测[2]、人群行为分析[3-4]和智能视频监控[5]等多方面的应用,人群计数受到了越来越多的关注,也因此成为近几年一个比较活跃的研究课题。但受到光照、尺度变化、遮挡、行人分布不均和图像采集的不同视角等诸多外在因素的影响,人群计数依然是一个有挑战性的研究领域。
在卷积神经网络应用于人群计数领域之前,人群计数的方法主要分为基于检测的方法[6-7]和基于回归的方法[8-9]。然而,这些方法都无法处理拥挤场景下,行人相互遮挡、背景干扰以及尺度变化等问题。为了解决这些问题,近几年提出了很多基于神经网络回归密度图的方法[1,10-11]。目前大多回归密度图的方法都是从RGB图像中提取行人特征,再根据提取的特征回归密度图。然而,该方法存在一个缺陷,在黑暗、大雾等几乎看不见行人的场景中,仅依靠RGB图像无法提取到有效的行人特征信息。随着跨模态学习即RGB-T的流行[12],融合RGB信息和热信息就成为了该问题的解决方案之一。RGB-T图像(成对的RGB图像和热图像)之间存在信息互补,如图1所示,在光线良好的场景下RGB图片清晰,而热图像难以区分行人和背景。相反,在黑暗中热图像清晰,而RGB图像则几乎看不见行人。因此,如何对RGB信息和热信息进行融合以及图像存在的尺度变化、行人分布不均等就成了当前需要研究的主要问题。如,Liu等[13]引入了一个大规模的RGBT-CC数据集并提出了一种跨模态协作表示学习框架,通过提出的信息聚合分布模块,来充分捕获不同模态的互补信息。Peng等[14]提出了一种多模态人群计数网络并引入了一个基于无人机的DroneRGBT数据集。Tang等[12]为解决该问题首次提出了一种三流自适应融合网络TAFNet,通过提出的信息改进模块来自适应地将两个辅助流的模式特征融合到主流信息中去。然而,以上3种算法的着重点都放在RGB信息和热信息的融合上面,忽略了对图像中尺度变化以及行人分布不均等问题的处理,这不利于生成高质量的人群密度图。
基于以上讨论,本文给出一种新的多模态人群计数网络模型,由于采用RGB图像和热图像作为输入,且前端网络使用了双流的VGG-19[15]的前12层卷积,因此该模型称为双流残差扩张网络TSRDNet(Two-Stream Residual Dilation Network),它由前端网络、残差扩张卷积模块和全局注意力模块组成。在残差扩张卷积模块中,叠加的扩张卷积层可以捕获不同尺度的行人特征信息,包含1×1卷积的残差连接可以改善网络的信息流通并避免深层网络的退化[16]。由于全局特征之间的依赖关系对算法理解场景来说至关重要,因此在每个多尺度的残差扩张卷积模块之间引入了全局注意力模块。全局注意力模块通过对通道和空间信息进行重新赋值,来提高模型的表达能力。此外,很多先前的方法,在训练过程中都使用欧几里得损失来计算预测值与真值之间的差距。然而,使用欧几里得损失的前提是默认人群密度图中每个像素点相互独立,这忽略了密度图局部之间的差异性,不利于生成高质量的人群密度图[17]。因此,为解决该问题,本文在欧几里得损失的基础上,设计了一种新的多尺度差异性损失。多尺度差异性损失根据预测值与真值之间在多个不同尺度上的差异,可以有效地衡量预测值与真值在全局和局部之间的差异性。通过对以上两个损失算法进行加权结合得到的综合损失,可以加快网络的收敛速度,并进一步提高网络的计数性能。
综上所述,本文的主要贡献如下:
1)提出了一种用于RGB-T图像的多模态人群计数卷积神经网络模型TSRDNet。该模型利用残差扩张卷积模块和引入的全局注意力模块,解决了RGB信息和热信息融合中尺度变化、行人分布不均等问题,实现了高性能的人群计数。
2)设计了一种多尺度差异性损失,并与欧几里得损失进行加权结合。综合后的损失函数可以更加有效地衡量预测值和真值之间在不同尺度上的差异,有助于网络生成更高质量的人群密度图,提高计数的准确性和鲁棒性。
本文算法核心是设计一个具有尺度多样性的卷积神经网络,用来融合RGB信息和热信息并处理图像中尺度变化和行人分布不均等问题。在这一部分,首先介绍提出的TSRDNet,包括前端网络、残差扩张卷积模块和全局注意力模块等,该算法的总体结构图如图2所示。其次,介绍多尺度差异性损失,它使预测的人群密度图与真值之间在多个尺度中保持一致。
所给出的TSRDNet包括一个用来提取RGB特征和热特征的前端网络,4个残差扩张卷积模块,4个全局注意力模块以及一个用来生成人群密度图的1×1卷积层。
1.1.1 前端网络
使用双流的VGG-19[15]的前12层卷积作为模型的前端网络,其中一流输入RGB图像,另一流输入热图像,如图2所示。在当前的卷积网络中,使用更多小尺寸卷积核的卷积层堆叠的效果比起使用较少的大尺寸卷积核的卷积网络更好[15]。而且,现有的深度学习框架、设备都对卷积核尺寸为3×3的卷积进行了优化,可以更快速地进行计算。因此,选择VGG-19[15]的前12层作为模型的特征提取网络,是在平衡算法的准确性和计算资源消耗之间,实现了最优解,适合用来进行快速、准确的人群计数。此外,为充分融合RGB信息和热信息,将前端网络提取的RGB特征和热特征在通道维度上拼接在一起,输入给残差扩张卷积模块,利用卷积网络的自学习能力进行信息的自适应融合。
1.1.2 残差扩张卷积模块
由于采集人群图像的角度、位置和距离等因素,导致收集的图像中行人尺度变化很大并且分布不均。因此,为解决该问题,需要一个可以捕捉不同尺度特征的网络模型。CSRNet[18]通过堆叠扩张率为2的扩张卷积,扩大了卷积层的感受野,通过提取更多尺度的行人信息,来处理人群计数所面临的问题。但是,该网络模型中叠加的扩张卷积都使用了相同的扩张率,而相同扩张率的扩张卷积叠加会导致特征图出现棋盘伪影现象,使网络无法生成高质量的人群密度图。结合以上分析,提出了一种多尺度扩张卷积模块,该模块由3个不同扩张率的扩张卷积叠加而成,其中扩张率分别设置为1、2、3。这种特别选择的扩张率组合,可以有效地避免单一扩张率的扩张卷积叠加带来的棋盘伪影现象。如图3所示,在处理一维信息的情况下,通过一个扩张率为2的三层扩张卷积堆叠的网络获得一个像素信息,在此过程中只有15个像素点参与。如果需要处理的信息有两个维度,此时这种网络空洞的现象就会变得更加明显。在处理一维信息的情况下,该模型丢失了大概一半(45%)的原始信息。因此这会严重影响最终的计数结果,因为像素级别的回归人群密度图任务,往往需要特征图的原始细节信息。所以这里使用了这种特别设计的扩张率组合方案。首先,第一层使用扩张率为1的扩张卷积可以覆盖所有输入的特征信息。其次使用扩张率为2、3的扩张卷积在不增加参数量的情况下,尽可能地扩大卷积的感受野,通过捕获更多不同尺度的行人特征信息生成高质量的人群密度图。最后,在每一个扩张卷积层后加上归一化层和Relu层,用来加快模型的收敛速度,避免网络出现梯度消失或梯度爆炸。
虽然以上所提出的多尺度扩张卷积模块,可以捕获不同尺度的行人特征信息,但是没有考虑到如何利用不同模块之间的层次信息。因此,需要引入残差连接来改进网络的结构并改善网络传递的信息流。在残差连接中使用了一个1×1的卷积层,将输出的特征图通道数变为输入的1/4,通过这种方式限制残差连接后网络的宽度。
1.1.3 全局注意力模块
在人群计数领域中,建立全局特征之间的依赖关系,是算法理解场景的关键。然而,由于卷积固有的特性,其只能在领域像素之间建立联系。虽然堆叠多层卷积也可以在全局特征之间建立联系,但是这种方式的网络很难优化且效率低下,不便于对模型进行训练[19]。因此,为解决该问题,本文提出了一种新的全局注意力机制,从加强通道和空间信息之间的信息交互出发。该注意力机制由两个子模块构成,分别是通道注意力子模块和空间注意力子模块,它们的排列方式选择顺序放置,并将通道注意力子模块放在空间注意力子模块之前,如图4所示。与CBAM(Convolutional Block Attention Module)[19]不同,在全局注意力模块中本文重新设计了一个新的空间注意力子模块。为了更好地提取特征的空间信息,该模块使用两个7×7卷积层构成的瓶颈结构进行空间信息的融合,同时为了进一步保留特征之间的映射关系,这里删除了池化操作。全局注意力模块通过对特征图的通道和空间信息进行权重再分配,来建模全局特征之间的联系。在卷积神经网络中,通过此模块自适应的建立特征之间的映射关系。
图4 全局注意力机制的结构图
全局注意力机制由两个子模块组成,输入的特征图依次经过通道注意力子模块和空间注意力子模块,因此其处理过程可以用如下的计算方式表示:
式中:∈R××表示输入的特征图;c∈R×1×1表示通道注意力子模块生成的通道注意力图;1表示通道注意力子模块的输出特征图;s∈1××表示空间注意力子模块生成的空间注意力图;2表示空间注意力子模块的输出特征图;Ä表示逐元素相乘。
通道注意力子模块,通过提取特征图之间的通道信息,生成通道注意力图,如图5所示。在此处为了更加有效地聚合信息,需要对特征图使用全局自适应池化以压缩其空间维度。因此,首先对输入的特征图分别进行全局自适应平均池化和全局自适应最大池化操作,用来生成全局自适应平均池化特征Ave和全局自适应最大池化特征Max。之后将Ave和Max作为多层感知器(Multilayer Perceptron,MLP)的输入,以此来提取输入特征的通道信息。该MLP由全连接层组成,为了减少MLP的参数量,其中间层大小设置为R/r×1×1,其中代表缩放比率。最后使用sigmoid函数聚合经过MLP处理的Ave和Max。总之通道注意力图的生成方式,可用如下的计算方式表示:
式中:表示sigmoid函数;0∈R×/r和1∈R/r×为MLP的共享参数。
在空间注意力子模块中,利用输入特征图的空间维度信息生成空间注意力图,如图6所示。空间注意力作为通道注意力的补充,其更关注特征的“位置”信息。首先,把通道注意力子模块的输出作为空间注意力子模块的输入,通过两层卷积层来融合空间信息。在此过程中,为了减少卷积层的参数量,这里使用了与通道注意力子模块中相同的缩放比率。其次,在特征图的通道维度上计算其平均值,最后再经过sigmoid函数生成空间注意力图。总之,空间注意力图的计算方式如下:
式中:f7×7表示卷积层的卷积核的尺寸为7×7;W0∈RC×C/r×H×W和W1∈RC/r×C×H×W表示为卷积层的参数。
目前很多方法都是使用欧几里得损失作为模型训练过程中优化的损失函数,但是欧几里得损失只能计算全局的像素差异,其忽略了预测的密度图与真值之间的局部差异。因此,本文提出了一种新的衡量预测值与真值之间全局和局部之间差异的多尺度差异性损失,并与欧几里得损失进行加权结合。综合后的损失函数,可以使网络生成的密度图在全局和局部之间都尽可能的接近真值。
欧几里得损失用来衡量预测值和真值之间的全局像素差异,其可以用如下的形式定义:
多尺度差异性损失,旨在比较预测值与真值之间在不同尺度上的差异,作为欧几里得损失的补充,其更关注预测值和真值之间的局部差异性。该损失的定义方式如下:
式中:代表计算时的尺度大小;max代表自适应最大池化;k表示自适应最大池化的输出。
根据不同的尺度等级将密度图分成不同的区域,并使用自适应最大池化处理每一个区域,其结果就代表该区域的最大密度水平。通过计算预测值与真值在每一个区域的最大密度水平的差值,来确保预测值和真值之间在不同的尺度等级上尽可能的保持一致。在这里,为了平衡算法的准确性和计算速度之间,本文选择了3个不同的尺度等级,其输出大小分别为1×1、2×2、4×4。其中,1×1表示全局的密度水平差异,其余两个代表不同尺度等级的密度水平差异。
对以上两个损失函数进行加权结合,得到模型最终训练过程中使用的损失函数,该综合损失可用如下的形式表示:
=2+(1—)m(6)
式中:表示欧几里得损失与多尺度差异性损失加权结合的超参数。
在这一部分,将介绍密度图真值的生成方法、算法的评价标准、在RGBT-CC数据集[13]上的对比实验、在DroneRGBT数据集上的对比实验、验证模型各个模块有效性的消融实验、验证全局注意力模块效果的对比实验以及参数实验。本模型代码基于Pytorch框架,通过平均值为0、标准差为0.01的高斯分布为所有的卷积层参数进行随机的初始赋值。在训练过程中使用Adam优化器优化模型的所有参数,初始的学习率设置为0.00001,并将weight_decay设置为0.0005。
采用几何自适应高斯核生成人群图像的密度图真值,其原因是它可把输入的每一张图像的点标注进行自适应的模糊处理,以生成可以代表该图像人群信息的密度图真值。几何自适应高斯核的定义方式如下[1]:
当前的很多方法,普遍使用平均绝对误差MAE和均方根误差RMSE作为模型的评价指标。但是平均绝对误差MAE只能评估整张图像的全局误差,无法对图像的局部区域进行有效的评估。因此本文使用网格平均绝对误差GAME[13]代替MAE。具体来说,就是对于一个给定的等级,将图片分成4个非重叠的区域,分别计算每个区域的误差,再把每个区域的结果进行累加。当等于零时,此时的GAME(0)就等于MAE。RMSE和GAME[13]可用如下的公式定义:
式中:代表测试集的图片数量;E和G分别代表第个测试图片的估计值和真值;E和G和代表第个测试图片的第个区域的估计值和真值。总之,算法的准确性用网格平均绝对误差GAME来评估,算法的鲁棒性用均方根误差RMSE来评估。
RGBT-CC数据集是一个公开的用于多模态人群计数的RGB-T数据集,由Liu等[13]在2021年给出。该数据集一共有2300对(每一对包含一张普通RGB图像和对应的热图像)图像,包含街道、商场、地铁站等多种场景。一共标注了138389名行人,平均每张图片包含68人。其中有1013对图像在光线明亮的环境下拍摄,1017对图像在黑暗的环境中拍摄。实验中参照文献[13]将整个数据集随机分成3个部分,其中训练集包含1030对图像,验证集包含200对图像,测试集包含800对图像。
为了验证提出算法的效果,在该数据集上进行了对比实验,实验的结果如表1所示。对比其它算法,TSRDNet在所有的评价指标上都获得了较好的结果。与之前最优的算法CMCRL[13]相比,在GAME(0)、GAME(1)、GAME(2)和GAME(3)上分别降低了0.8、1.18、1.65、4.13,在RMSE上降低了3.49。这表明了无论是准确性还是鲁棒性,本文算法均优于其它的算法。此外,为了测试算法在不同光照条件下的性能,在明亮和黑暗的环境中分别做了对应的实验,结果如表2所示。与CMCRL[13]算法相比,在明亮的环境中GAME(0)、GAME(1)、GAME(2)、GAME(3)和RMSE分别提高了4.28、2.45、1.37、2.44和4.85,而在黑暗的场景中本文算法依然优于CMCRL[13]算法。实验的结果验证了TSRDNet算法无论是在黑暗还是在明亮的环境下都有稳定优异的计数表现。最后,算法在RGBT-CC数据集上的部分测试结果如图7所示。从图中可以明显地看出,本文算法生成的人群密度图与真值之间的差异较小,估计的计数结果也比较接近真实值。
表1 在RGBT-CC数据集上的对比实验结果
DroneRGBT数据集是一个具有RGB和热红外图像的无人机视角的多模态人群计数数据集,由Peng等在2020年提出[14]。该数据集一共有3600对图像,包含校园、街道、公园、停车场和广场等多种不同的场景。DroneRGBT数据集[14]一共标注了175698名行人,最少的一张图片包含1名行人,最多的一张图片包含了403名行人,平均每张图片包含49名行人。实验中参考文献[14]的做法,将该数据集随机分成两个部分,其中训练集和测试集各包含1800对图像。
表2 在RGBT-CC数据上不同光照环境下的对比实验结果
图7 本文算法的部分测试结果
为验证本文算法的效果,在该数据集上进行了对比实验,实验的结果如表3所示。与其它算法相比,TSRDNet在评价指标上获得了较好的结果。与之前最优的算法MMCCN[14]相比,在GAME(0)和RMSE上分别降低了0.34和0.17。这表明在该数据集上无论是准确性还是鲁棒性,TSRDNet算法均要优于其它的算法。最后,算法在DroneRGBT数据集上的部分测试结果如图8所示。从图8中可以发现,无论是低密度图像还是高密度图像,本文算法均可以生成质量较高的人群密度图,获得相对准确的估计结果。
表3 在DroneRGBT数据集上的对比实验结果
图8 本文算法的部分测试结果图。第一列和第二列分别代表RGB图像和热图像,第三列是对应的人群密度图真值,第四列是本文方法的预测值
为了验证本文算法各个模块,包括前端网络、残差扩张卷积模块、全局注意力模块以及一个综合损失函数的有效性和整体结构的合理性,在RGBT-CC数据集[13]上进行了模型的消融实验,消融实验的结果如图9所示,其中图中的值代表不同模型实验的GAME(0)和RMSE的测试结果。
图9 消融实验结果对比图
首先使用双流的VGG-19[15]网络的前12层构成的前端网络作为基准模型,该基准模型的GAME(0)和RMSE分别为26.39和40.92。从图8中可以明显地发现TSRDNet的实验结果要远远好于基准模型的实验结果。之后,在保持TSRDNet的其它模块不变的情况下,分别去除模型中的残差连接结构、全局注意力模块和多尺度差异性损失,依次进行测试。
在去除所有的全局注意力模块后,算法的RMSE和GAME(0)分别为17.92和28.28,对比TSRDNet,RMSE提高了3.59,GAME(0)提高了3.11,这验证了全局注意力模块对整个模型性能的提升。
在移除所有包含的残差连接结构后,模型测试的GAME(0)和RMSE分别为17.18和26.91,对比TSRDNet,GAME(0)提高了2.37,RMSE提高了2.22,这验证了残差连接结构对整个模型性能的提升。
与以上两个模块相比,多尺度差异性损失对整个模型的增益较小。移除多尺度差异性损失后,模型测试的GAME(0)和RMSE分别为15.01和25.54,对比TSRDNet,GAME(0)提高了0.2,RMSE提高了0.85这验证了多尺度差异性损失对整个模型性能的提升。
通过以上的实验证明,分别去除网络的每个模块后,算法的准确性和鲁棒性均有一定程度的下降。因此验证了网络的每个模块对其性能都有一定的增益,也说明了本文算法结构上比较合理。
在RGBT-CC数据集[13]上对模型使用全局注意力模块和CBAM[19]对计数结果的影响进行了实验,结果如表4所示。从表中可以看出,模型使用全局注意力模块可以获得更好的计数结果,这也验证了本文提出的空间注意力子模块的有效性。
表4 全局注意力模块和CBAM的对比实验
在RGBT-CC数据集上对综合损失函数中的参数的取值进行了参数的消融实验,来获到参数的最优取值,图10展示了参数实验的结果对比。其中,横坐标表示的取值变化,纵坐标表示评估指标值的变化。
图10 参数l的消融实验的结果对比图
根据图10的(a)、(b)可以看出,模型评估指标GAME(0)和RMSE关于参数取值的不同先递减再递增,当=0.6时,评估结果最好,因此取=0.6。
本文提出了一种新的使用RGB-T图像进行多模态人群计数的网络模型TSRDNet,该模型基于残差扩张卷积模块和全局注意力模块来进行精确的人群计数。此外,为了进一步的提升网络的性能,在欧几里得损失的基础上还引入了一个新的多尺度差异性损失,通过对上述的两个损失函数进行加权结合,得到的综合损失函数可以使网络生成的人群密度图在不同的尺度内和真值保持一致。所提出的方法在RGBT-CC数据集[13]和DroneRGBT数据集[14]上进行了广泛的实验,证明了算法的有效性。在未来的工作中,计划进一步地改进全局注意力机制并结合多尺度差异性损失,使用更多其它场景下的RGB-T图像对模型进行训练,以提高算法在不同场景下的计数性能。
[1] 张宇倩, 李国辉, 雷军, 等. FF-CAM:基于通道注意机制前后端融合的人群计数[J].计算机学报, 2021, 44(2): 304-317.
ZHANG Yuqian, LI Guohui, LEI Jun, et al. FF-CAM: crowd counting based on front-end and back-end fusion of channel attention mechanism [J]., 2021, 44(2): 304-317.
[2] YANG Z, WEN J, HUANG K. A method of pedestrian flow monitoring based on received signal strength[J]., 2022, 2022(1): 1-17.
[3] 王曲, 赵炜琪, 罗海勇, 等. 人群行为分析研究综述[J]. 计算机辅助设计与图形学学报, 2018, 30(12): 2353-2365.
WANG Qu, ZHAO Weiqi, LUO Haiyong, et al. Review of research on crowd behavior analysis[J]., 2018, 30(12): 2353-2365.
[4] 蒋一, 侯丽萍, 张强. 基于改进空时双流网络的红外行人动作识别研究[J]. 红外技术, 2021, 43(9): 852-860.
JIANG Yi, HOU Liping, ZHANG Qiang. Research on infrared pedestrian action recognition based on improved space-time dual-stream network [J]., 2021, 43(9): 852-860.
[5] 赵才荣, 齐鼎, 窦曙光, 等. 智能视频监控关键技术:行人再识别研究综述[J]. 中国科学: 信息科学, 2021, 51(12): 1979-2015.
ZHAO Cairong, QI Ding, DOU Shuguang, et al. Key technologies for intelligent video surveillance: A review of pedestrian re-identification research [J].: Information Science, 2021, 51(12): 1979-2015.
[6] Enzweiler M, Gavrila D M. Monocular pedestrian detection: Survey and experiments[J]., 2008, 31(12): 2179-2195.
[7] LI M, ZHANG Z, HUANG K, et al. Estimating the number of people in crowded scenes by mid based foreground segmentation and head-shoulder detection[C]//2008 19th, 2008: 1-4.
[8] CHEN K, Loy C C, GONG S, et al. Feature mining for localised crowd counting[C]//, 2012: 3-12.
[9] Pham V Q, Kozakaya T, Yamaguchi O, et al. Count forest: Co-voting uncertain number of targets using random forest for crowd density estimation[C]//, 2015: 3253-3261.
[10] PAN S, ZHAO Y, SU F, et al. SANet++: enhanced scale aggregation with densely connected feature fusion for crowd counting[C]//2021-2021,(ICASSP), 2021: 1980-1984.
[11] 吴奇元, 王晓东, 章联军, 等. 融合注意力机制与上下文密度图的人群计数网络[J]. 计算机工程, 2022, 48(5): 235-241, 250.
WU Qiyuan, WANG Xiaodong, ZHANG Lianjun, et al. Crowd counting network integrating attention mechanism and context density map [J]., 2022, 48(5): 235-241, 250.
[12] TANG H, WANG Y, CHAU L-P. TAFNet: a three-stream adaptive fusion network for RGB-T crowd counting[J/OL]. arXiv preprint arXiv:2202.08517, 2022.https://doi.org/10.48550/arXiv.2202.08517.
[13] LIU L, CHEN J, WU H, et al. Cross-modal collaborative representation learning and a large-scale rgbt benchmark for crowd counting[C]//, 2021: 4823-4833.
[14] PENG T, LI Q, ZHU P. RGB-T crowd counting from drone: a benchmark and MMCCN network[C]//2020, 2021: 497-513.
[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//(ICLR), 2014: 1-14.
[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.
[17] DAI F, LIU H, MA Y, et al. Dense scale network for crowd counting[C]//2021, 2021: 64-72.
[18] LI Y, ZHANG X, CHEN D. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes[C]//, 2018: 1091-1100.
[19] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//(ECCV), 2018: 3-19.
[20] ZHANG J, FAN D P, DAI Y, et al. UC-Net: uncertainty inspired RGB-D saliency detection via conditional variational autoencoders[C]//, 2020: 8582-8591.
[21] PANG Y, ZHANG L, ZHAO X, et al. Hierarchical dynamic filtering network for rgb-d salient object detection[C]//, 2020: 235-252.
[22] ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//P, 2016: 589-597.
[23] CAO X, WANG Z, ZHAO Y, et al. Scale aggregation network for accurate and efficient crowd counting[C]//(ECCV), 2018: 734-750.
[24] FAN D P, ZHAI Y, Borji A, et al. BBS-Net: RGB-D salient object detection with a bifurcated backbone strategy network[C]//, 2020: 275-292.
[25] ZHANG Q, CHAN A B. Wide-area crowd counting via ground-plane density maps and multi-view fusion cnns[C]//, 2019: 8297-8306.
[26] MA Z, WEI X, HONG X, et al. Bayesian loss for crowd count estimation with point supervision[C]//, 2019: 6142-6151.
[27] ZENG L, XU X, CAI B, et al. Multi-scale convolutional neural networks for crowd counting[C]//(ICIP), 2017: 465-469.
[28] SHEN Z, XU Y, NI B, et al. Crowd counting via adversarial cross-scale consistency pursuit[C]//, 2018: 5245-5254.
Two-Stream Residual Dilation Network Algorithm for Crowd Counting Based on RGB-T Images
YANG Peilong,CHEN Shuyue,YANG Shangyu,WANG Jiahong
(School of Computer and Artificial Intelligence, Changzhou University, Changzhou 213164, China)
We proposed a multimodal crowd counting algorithm based onRGB-Thermal (RGB-T) images (two-stream residual expansion network) in crowd counting, given scale changes, uneven pedestrian distribution, and poor imaging conditions at night. It has a front-end feature extraction network, multi-scale residual dilation convolution, and global attention modules. We used the front-end network to extract RGB and thermal features, and the dilated convolution module further extracted pedestrian feature information at different scales and used the global attention module to establish dependencies between global features. We also introduced a new multi-scale dissimilarity loss method to improve the counting performance of the network and conducted comparative experiments on the RGBT crowd counting (RGBT-CC) and DroneRGBT datasets to evaluate the method. Experimental results showed that compared with the cross-modal collaborative representation learning (CMCRL) algorithm on the RGBT-CC dataset, the grid average mean absolute error (GAME (0)) and root mean squared error (RMSE) of this algorithm are reduced by 0.8 and 3.49, respectively. On the DroneRGBT dataset, the algorithm are reduced by 0.34 and 0.17, respectively, compared to the multimodal crowd counting network (MMCCN) algorithm, indicating better counting performance.
crowd counting, RGB-T images, dilated convolution, global attention, multi-scale disparity loss
TP391
A
1001-8891(2023)11-1177-10
2022-07-13;
2022-09-13.
杨佩龙(1997-),男,硕士,主要研究方向为计算机视觉。E-mail: 2247291086@qq.com。
陈树越(1963-),男,教授,主要研究方向为计算机视觉与检测技术。E-mail:csyue2000@163.com。
江苏省关键研究与发展计划项目(BE2021012-5)。