摘要:针对人口流量统计数据存在精确低等缺点,提出了一种多尺度轻量级对抗神经网络的人数统计方法,该神经网络通过多尺度CNN层与Mobilenet V3层的结合、基于Resnet-50残差网络的分塊判别器模型设计和郊狼算法的优化参数等措施提高了神经网络的精度,仿真实验说明该文算法在算法精度上相比于CNN算法具有一定的优势,具有较好的统计识别效果。
关键词:对抗神经网络;分块判别器;郊狼算法
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2022)01-0092-03
人口流量的统计在诸如公共场所、活动策划和空间设计的等工作中占据着重要作用,而计算机视觉技术相比于传统人口流量统计方法使得人口流量统计数据更加准确。尤其是存在场景干扰等情况下,人口流量精确统计就显得更加尤为重要[1]。针对人口流量的统计的方法,国内外学者进行了不同方面的研究。文献[2]提出一种基于卷积神经网络和密度分布特征的人数统计方法, 该算法在PETS2009、UCSD等数据集上进行了测试,实验结果表明所提算法具有更好的统计精度;文献[3]提出一种基于卷积神经网络与岭回归联合的人数统计方法。实验说明该结果具有一定的有效性;文献[4]提出了一种基于局部密度分类的人数统计算法,仿真实验说明与目前主流的人数统计算法相比,该算法的平均估计误差降低了18.9%。
从以上的研究中发现,在人口流量的方法统计中,传统的统计方法经过改进后虽然能够获得精确度提高,但受限于自身算法,导致性能提升不明显,而人工智能的神经网络算法具有速度快,精确度高等优点,本文提出了一种新的神经网络算法用于人口流量统计,仿真实验说明该算法具有较好的统计识别效果。
1 基于多尺度轻量级对抗神经网络的人数统计方法
基于多尺度轻量级对抗网络的人数统计模型(The population statistical model based on the multi scale lightweight Residual network, MS-LResNet),其整体构架如图1所示。
从图1可知,MS-LAN从结构上包括多尺度卷积神经网络(CNN)层、Mobilenet V3层、backbone层、池化层等构成的编码网络结构,其对应的解码网络结构以及由Resnet-50构成的残差网络组成,整个神经网络的参数则通过郊狼优化参数搜索法进行调整。
1.1 多尺度CNN层与Mobilenet V3层的结合
在人口流量统计的过程中,由于计算机摄像头等视觉工具存在视角远近的问题,因此在统计人数的时候会存在人员大小不一致的问题,从而导致图像中的人物大小会不一样。传统的CNN卷积神经网络在特征提取过程对较远处的人员数量统计将产生较大的误差。针对以上存在的问题,本文提出通过大小不同的缩放比例从而对图像的不同区域进行处理,但是由于多个大小不同的卷积神经网络会在一定上增加网络处理的复杂度,因此,在本文中使用Mobilenet V3轻量级网络来替代传统的CNN网络,从而实现一种轻量级的多尺度网络模型,其结构如图2所示。
因此在Mobilenet V3的模型中,本文采用了h-swish激活函数代替传统swish函数,能够有效地减少神经网络的运算量,从而提高神经网络的计算性能。而h-swish激活函数的表达式如下所示:
[h-swishx=xReLU6x+36] (1)
在Mobilenet V3模型中,该模型具有较好的线性瓶颈的逆残差结构,因此可以处理在不同尺度下的CNN特征信息,这样能够最大限度地保证获取的不同尺寸的特征图片,从而能够获得尽可能多的图像特征。
1.2 基于Resnet-50残差网络的分块判别器模型设计
在前述的MS-LresNet的结构中,将真实的人员密度图像数据与通过深度学习网络解码器得到的输出的人员密度图像进行对比,从而确定较为精确的结果。输出的结果为1或者-1来分别表示对比的结果是与否。在判决的过程中,本文采用Resnet-50网络能够有效解决在深度学习过程中存在的网络退化的问题。尤其是当人员密度比较大时,能直接通过整体判别,但存在高精度条件下,判别出现不确定的问题,为了避免这种不确定性,使用一种分块方式进行判别,其判决流程如图4所示:
从图3中发现,通过分块局部判决的方式,能有效地对每一个网格中的图像区域进行判决,当识别的结果如果是人员的话,则结果输出1,否则,则输入-1。本文假设的输入图像大小为R*C,分块大小为N*N,那么在训练过程中,定义损失函数如下:
[LOSS=N2R×Ci=1RNj=1CNGxij,θ-Yij] (2)
公式(2)表示为在当前训练参数[θ]条件下,由网络解码器输出的人群密度估计图[xij]与实际真实的人群密度图[Yij]各个块之间的平均误差值作为网络训练损失函数,显然,当损失函数LOSS越接近零,则说明人员检测的精度越高。
1.3 通过郊狼优化参数搜索法进行网络调参
复杂的深度学习网络其训练性能受到多个参数的影响,如学习率,卷积核大小,卷积深度以及网络的局部结构等。通过郊狼优化搜索算法获得最优的网络训练参数,其算法流程图如图4所示:
从图4中可知,将参与优化的网络参数构成待优化向量X,X作为网络模型MSLResNet的输入变量,将网络模型MSLResNet的训练误差作为输出,通过郊狼优化过程的迭代获得最优的网络参数向量X,使得网络模型MSLResNet训练误差达到最小值。
2 算法仿真
为了更好地说明本文算法与普通的人口流量统计的方法的效果对比,选择了硬件结构为CPU酷睿i7,内存为8GB,硬盘为512GB,软件环境选择了Windows10系统,仿真软件为Matlab2012b。选择NDC2020的数据集,ShanghaiTech数据集进行人口流量的测试。采用平均绝对误差MAE和平均绝对方差MSE作为评价指标定量对不同的人群计数方法性能。利用同一个摄像装置在不同道路下拍摄的视频,大致选择了几个时间段进行对比人数识别效果的对比。图5和图6分别显示了NDC2020的数据集对应的MAE和MSE的对比结果,图7和图8分别显示了ShanghaiTech数据集对应的MAE和MSE的对比结果。图9显示了在不同时间段两种算法获取人数统计真实率。
从图5的结果来看,两种算法在MAE方面的对比具有比较大的差异,本文算法的数值明显低于CNN算法,而在图6的结果发现,两种的算法的MSE之间相差具有一定的距离,但总体上本文算法仍然低于CNN算法;从图7和图8中说明本文算法相比于CNN算法在MAE和MSE方面都具有明显的优势。为了更好地说明本文算法具有的效果,选择了一条路段上4个不同的时间段人数统计的对比情况,设定每次采集时间为5分钟,从每一个时间段每隔10秒,选择一张图片进行识别,识别效果如图9所示,从图9中发现本文算法的识别统计效果明显优于CNN算法,这说明了经过优化的对抗神经网络算法具有较好的效果。
3 结束语
针对人口流量统计结果存在数据不准确等缺点,本文提出了一种多尺度轻量级对抗神经网络的算法,该算法采用多尺度CNN层与Mobilenet V3层的结合、基于Resnet-50残差网络的分块判别器模型设计措施提高了算法性能,仿真实验说明该算法具有较好的识别效果。
参考文献:
[1] 张君军,石志广,李吉成.人數统计与人群密度估计技术研究现状与趋势[J].计算机工程与科学,2018,40(2):282-291.
[2] 郭继昌,李翔鹏.基于卷积神经网络和密度分布特征的人数统计方法[J].电子科技大学学报,2018,47(6):806-813.
[3] 马海军,王文中,翟素兰,等.基于卷积神经网络的监控视频人数统计算法[J].安徽大学学报(自然科学版),2016,40(3):22-28.
[4] 范龙飞,姜子政,李海丰,等.基于局部密度分类的人数统计算法[J].控制工程,2019,26(6):1015-1020.
【通联编辑:朱宝贵】
收稿日期:2021-06-25
基金项目:浙江省统计局统计重点研究项目—“城市道路监控下的基于人工智能技术的人口流量的统计分析研究”(项目编号:21TJZZ29)
作者简介:陈暄(1979—),男,副教授,硕士,主要研究方向为算法设计等。
3412500338208