小角度俯拍下的站台人群计数

2019-08-13 09:26魏文戈陈舒荻
计算技术与自动化 2019年4期
关键词:图像分割

魏文戈 陈舒荻

摘   要:在计算机视觉领域,针对小角度俯拍下的站台人群计数的研究工作较少,且计数精度普遍较低。人群计数算法往往通过图像分割识别出图片中的所有行人个体,并进行数量统计,具有很重要的现实意义。然而现有的图像分割算法往往只能适用于简单场景下的简单分割任务。由于小角度俯拍下的站台场景中存在行人近大远小、行人互相遮挡和行人轮廓姿态多样等原因,因此给有效分割计数带来了较大的挑战。针对这一任务,提出了距离自适应卷积神经网络(Distance Adaptive Convolutional Neutral Network,简称DACNN),通过改进回归对象和设计距离自适应卷积层,成功实现了对小角度俯拍下站台人群的准确计数。经过一系列实验表明,该模型不仅计数精度高,而且计数速度较快、鲁棒性良好,具有广阔的运用前景。

关键词:小角度俯拍;站台人群计数;图像分割;距离自适应

中图分类号:TP391                                      文献标识码:A

Platform Crowd Counting Under Small Angle

WEI Wen-ge?覮,CHEN Shu-di

(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 211106,China)

Abstract:In the field of computer vision,there are few research work on platform crowd counting under small angles and the counting accuracy is generally low. Crowd counting algorithms often identify all the individuals in the image through image segmentation,and make the counting of the crowd,which is of great practical significance. However,the existing image segmentation algorithms are often only applicable to simple segmentation tasks in simple scenes. Since the human body caused by small angles in the vicinity looks larger while in the distance seems small,the body block each other and have diverse stance,to effectively split the statistics becomes a great challenge. In response to this task,this paper proposes Distance Adaptive Convolutional Neutral Network (DACNN). By designing a distance-adaptive convolutional layer and improving the model loss function,we can achieve a better performance under small angles of platform crowd counting. After a series of experiments show that the algorithm model not only has a high counting accuracy and fast counting speed,but also has good practicality,can be widely used.

Key words:small angle;platform crowd counting;image segmentation;distance-adaptive

人群计数,作为图像识别的一个重要研究领域,通过图像分割识别出图片中的所有人群个体,并进行数量统计,可广泛运用于安防等领域。目前针对小角度俯拍下的站台人群计数的研究工作较少且准确率较低,不能较好地应用于复杂的实际场景中。由于监控摄像机小角度俯拍导致的站台行人近大远小,行人互相遮挡和輪廓姿态多样等问题,给有效分割计数带来了较大挑战。针对这一问题,提出了距离自适应卷积神经网络(Distance Adaptive Convolutional Neutral Network),对传统回归对象进行了改进,并创新性地设计了距离自适应卷积层,从而实现了对小角度俯拍下的站台人群计数的有效计数。经过一系列严谨的实验,证明了该模型计数精度高,实用性好。

主要贡献如下:

1) 根据问题特性设计全新的回归对象,较好地解决了由于行人遮挡和轮廓多样所带来的计数困难;

2) 设计并提出了距离自适应卷积层,解决了行人近大远小所带来的分割计数精度上的挑战;

3) 经过横向对比实验,证明了该模型可在小角度俯拍下精确地进行站台人群计数,且计数速度较快、实用性较好。

1   相关工作

人群计数算法通过图像分割识别出图片中的所有行人个体,据此进行人群计数。

1.1   图像分割算法

传统的图像分割算法包括聚类法、直方图法、边缘检测法、区域生长法、水平集方法等等。其中聚类法通过将图像像素点进行聚类以实现分割,但分割效果较差;直方图法根据扫描结果建立直方图并依照图像中的峰和谷进行分类,其效率较高;边缘检测法参照图像边缘像素点检测结果进行分割,被广泛应用于图像处理;区域生长法聚合相似性像素并迭代分割;水平集方法使用符号函数记录物体轮廓并分割,该方法也较为常用。

近几年,深度学习逐渐成为图像分割算法的主流。全卷积神经网络[1]首次将神经网络应用于图像分割中,利用多个卷积层和全连接层抽取特征,由反卷积层实现上采样,但分割效果较差;DeepLab[2]通过空洞卷积较好地改善了分割效果;SegNet[3]在全卷积神经网络的基础上将全连接层替换为与卷积部分对称的反卷积结构,较大程度上改善了分割效果;Mask R-CNN[4]在Faster R-CNN[5]上增加掩码分支以实现分割,并通过RoIAlign[4]结构保留更多空间对称性,提高了分割精度。

1.2   人群计数算法

目前关于人群计数算法的研究较多,但大多是针对简单场景下的计数研究。文献[6][7]通过多尺度和多通道尝试让卷积神经网络能够分割计数;文献[8]对跨场景人群计数进行了研究;文献[9]基于视频来统计行人数量;文献[10]侧重于研究通道场景下如何有效实现行人统计;文献[11]在视频监控中并行处理人群计数和密度分析;文献[12]基于光流法实现人群计数;文献[13]通过PCA与多元统计回归,为人群计数提供了新思路;文献[14]将像素融合纹理特征用于行人统计;文献[15][16]把神经网络应用于人群计数方法中;文献[17][18]设计了动态场景监控系统下的人群计数方法;文献[19]通过视频识别技术统计人流量;文献[20]基于像素统计完成人群计数任务;文献[21]根据行人统计数据预报异常情况;文献[22][23]侧重于针对安防视频中的人群计数应用;文献[24]总结了人群计数和密度估计的发展进程并为后续研究提供了指导;文献[25]探索了人群密度自动统计系统;文献[26]基于特征点统计高密度人群。

在实际的应用场景中,由于小角度俯拍下的站台行人近大远小、互相遮挡且轮廓姿态多样,导致现有研究均不能有效解决该挑战。本文因此设计并提出了距离自适应卷积神经网络,通过改进回归对象和设计距离自适应卷积层,成功实现了对小角度俯拍下站台人群的准确计数。

2   距离自适应卷积神经网络(DACNN)

在本节中,我们将详细介绍如何针对小角度俯拍下的站台人群计数设计距离自适应卷積神经网络。

2.1   DACNN网络结构

DACNN前半部分网络结构继承SegNet[3]网络,经过13个卷积层实现下采样,再由对称的13个反卷积层实现上采样并得到和原图像相同尺寸的上采样结果。

DACNN后半部分网络结构通过距离自适应卷积层实现上采样结果到目标分布图的映射,如图1。

2.2   设计回归对象

传统的人群计数算法中,图像分割回归对象设计为图中每个行人的身体可见区域。由于小角度俯拍下站台行人之间互相遮挡而且轮廓姿态多样,因此原有的回归对象容易受此干扰而影响最终的计数准确率。

通过仔细观察发现行人被遮挡最少的部分为头部。因此本文设计每个行人头部中心点作为新的回归对象,并通过统计点数总和来完成人群计数。如图2,新的回归对象有效避免了行人近大远小所带来的分割困难,并提高了模型分割计数准确率。

3.3   距离自适应卷积层

针对小角度俯拍站台场景中行人呈现近大远小这一挑战,本文创新性地设计了距离自适应卷积层,根据行人距离的远近灵活调整动态高斯滤波核至最佳核大小以进行高斯滤波。

当距离与图像水平方向成正相关时,动态高斯核大小计算公式如下:

当距离与图像垂直方向成正相关时,动态高斯核大小计算公式如下:

当距离同时与图像水平方向和垂直方向相关时,动态高斯核大小计算公式如下:

经过高斯滤波后,由于每个单像素点的像素值被稀释,直接训练会导致模型难以收敛。因此我们在高斯滤波之后针对性地进行了像素值扩增:

如图3,经过距离自适应卷积层得到的行人头部中心点分割效果呈现近大远小的特性,符合实际拍摄下的小角度俯拍站台场景状况,能更好地引导模型根据距离远近学得不同的图像特征。同时远处行人的头部中心点由于滤波核较小,像素值密度更大,成为模型侧重学习的区域,从而明显提升了模型计数精度。

对应的,将最后得到的分割计数结果除以扩增的倍数,即可得到该场景下人群的真实计数结果。

3   实验分析

采集了某高度拥挤的交通站台上方监控摄像头的拍摄视频,按一定时间间隔提取足量帧图像并进行了人工标注。

选取了该领域主流的FCN[1]模型和SegNet[3]模型,与DACNN模型进行对比实验。在相同训练集上采用同样的超参数设置进行训练,并将收敛的模型在相同测试集上分别进行了行人头部中心点分割对比试验和人群计数准确率对比试验。

图4证明了距离自适应卷积神经网络(DACNN)的行人头部中心点分割效果超过了目前主流的FCN[1]网络和SegNet[3]网络。

表1证明了DACNN的人群计数准确率优于目前主流的FCN[1]网络和SegNet[3]网络。

5   结   论

目前针对小角度俯拍站台场景下的人群计数研究工作较少。由于小角度俯拍下存在站台行人近大远小、互相遮挡和轮廓姿态多样等原因,现有算法的分割计数准确率往往较低。针对这一问题,提出了距离自适应卷积神经网络(DACNN),通过改进回归对象和设计距离自适应卷积层,成功提升了小角度俯拍下的站台人群计数的准确率。并通过实验证明了该模型不仅计数准确率高、速度快,而且实用性较好,具有广阔的运用前景。

参考文献

[1]   LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]// Computer Vision and Pattern Recognition,IEEE,2015:3431—3440.

[2]   CHEN L C,PAPANDREOU G,KOKKINOS I,et al. DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,PP(99):1—1.

[3]   BADRINARAYANAN V,HANDA A,CIPOLLA R. SegNet:a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J]. Computer Science,2015.

[4]   HE K,GKIOXARI G,DOLLAR P,et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017:2961—2969.

[5]   REN S,HE K,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems,MIT Press,2015:91—99.

[6]    ZENG L,XU X,CAI B,et al. Multi-scale convolutional neural networks for crowdcounting[J]. 2017.

[7]    ZHANG Y,ZHOU D,CHEN S,et al. Single-image crowd counting via multi-column convolutional neural network[C]// IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2016:589—597.

[8]    ZHANG C,LI H,WANG X,et al. Cross-scene crowd counting via deep convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2015:833—841.

[9]    陈登武. 基于视频图像的行人统计技术研究[D]. 南京:东南大学,2009.

[10]  赵文影. 通道场景下人群计数系统的设计与实现[D]. 成都:电子科技大学,2014.

[11]  柴进. 视频监控中的人数统计和人群密度分析[D]. 西安:西安電子科技大学,2011.

[12]  高从文. 基于光流方法的人数统计与人群密度估计[D]. 北京:中国科学院研究生院,2011.

[13]  李虎,张二虎,段敬红. 基于PCA和多元统计回归的人群人数统计方法[J]. 计算机工程与应用,2014,50(11):206—209.

[14]  徐麦平,张二虎,陈亚军. 融合像素与纹理特征的人群人数统计方法研究[J]. 西安理工大学学报,2015(3):340—346.

[15]  衣淑凤. 基于小波变换和神经网络的人数统计方法研究[D].北京:北京工业大学,2004.

[16]  李志英. 基于人工神经网络的人群流量统计系统[D].广州:中山大学,2003.

[17]  韩亚伟. 动态场景监控系统中人数统计算法的研究[D].济南:山东大学,2010.

[18]  王海强. 视频监控中人群人数统计方法研究[D].西安:西安理工大学,2016.

[19]  黄秋娇. 基于视频识别技术的人群流量统计、特定人检测[J]. 科技与生活,2011(14):169—172.

[20]  孙著研. 基于像素统计的人群数量检测方法研究[J]. 数字技术与应用,2016(10):129—130.

[21]  陈禹. 基于视频的人群数量统计及异常检测方法研究[D]. 沈阳工业大学,2015.

[22]  徐麦平. 安防监控中人群人数统计方法的研究[D].西安:西安理工大学,2015.

[23]  黄敬埕. 视频监控中的人群密度估计和人数统计技术研究[D]. 杭州:杭州电子科技大学,2014.

[24]  谭智勇,黄先开,袁家政,等. 人群密度估计和人数统计的研究进展[C]// 网络新技术与应用年会. 2015.

[25]  张燏. 人群密度自动统计系统的研究与实现[D].成都:电子科技大学,2012.

[26]  曾昭贤. 基于特征点的视频高密度人群人数统计[D]. 长沙:国防科学技术大学,2011.

猜你喜欢
图像分割
基于图像分割和LSSVM的高光谱图像分类
计算机定量金相分析系统的软件开发与图像处理方法
基于自动智能分类器的图书馆乱架图书检测
一种改进的分水岭图像分割算法研究
一种图像超像素的快速生成算法
基于鲁棒性的广义FCM图像分割算法
一种改进的遗传算法在图像分割中的应用
基于QPSO聚类算法的图像分割方法
基于分水岭算法的颅脑CT图像分割研究