时序CNN 与稀疏光流融合的视频人车异常检测*

2022-09-28 01:40:20李飞夏红霞刘文璇

计算机与数字工程 2022年8期

李飞李婷夏红霞，3 刘文璇

（1.湖北省农业科学院武汉 430064）（2.武汉理工大学计算机科学与技术学院武汉 430070）（3.交通物联网技术湖北省重点实验室（武汉理工大学）武汉 430070）

1 引言

异常检测近年取得了很大进展，判断监控视频中的异常行为，对维护社会安全意义重大［1］。现存的方法大致分为两种，一是人工进行对象特征提取，但耗费资源，效率低下且不具有鲁棒性。而基于卷积神经网络的方法弥补了人工的缺点，不仅很好地预测视频中的异常，也可以拓展到其他任务中［2］。

异常检测面临着许多困难。现存方法主要在特定环境中进行检测，在环境复杂多变时没有泛化性，计算复杂度高［3］，不符合现实中实时检测的要求。Kooij 等针对视频中存在的不同异常行为进行简单的分类［4～6］。

随着深度学习相关技术的成熟，Zhong 等使用智能技术对图像的分类和识别进行基础研究［7～10］。Karpathy 等针对视频的行为分类问题进行了若干研究［11～12］。

光流法在视频中的行为识别运用广泛且效果良好［13～15］。Simonyan等提出了一个双流CNN 结构，将利用网络训练的多帧密度光流作为输入［14］。

本文受到光流法与CNN 的启发，结合传统光流法和时序CNN 模型，针对卷积神经网络模型冗余而低效的缺点，提出一种融合该模型与光流特征的方法。该方法提高时间效率，能够更好地辨别不同的运动模式，有效地进行人车异常行为的检测。

2 基于时序CNN 与稀疏光流的监控视频人车异常检测

2.1 基于时序CNN视频异常检测

基于时序CNN 视频异常检测过程如图1 所示。引入一种迭代量化方法（Iterative Quantization，ITQ）来计算连续视频帧中环境或者行为的变化。ITQ 与光流信息相结合，可以与外观、运动方式的全局信息相补充。

图1 时序CNN模式的计算

2.2 鲁棒的稀疏光流特征聚合

传统的光流法计算过程繁琐，效率低下。本文改进传统光流法的特征提取，核心思想是重点关注前景计算，缩小光流计算的像素区域从而降低计算量。

将点像素的光流特征聚合成直方图特征，如图2 所示。根据LK（Lucas-Kanade）光流法进行前景提取得到鲁棒稀疏光流；将稀疏光流进行特征聚合；得到直方图特征。

图2 像素光流聚合为光流直方图的过程

如式（1）所示，块b 在帧t 处的聚合特征由A(b,t)表示。训练时每个特征通道找到的最大边界表示为B(b)。

t 为所有训练帧序列。矢量v(b,t)表示测试帧序列中的聚合特征。距离矢量如式（2）所示：

对每个通道进行阈值处理，确定连续视频帧中是否异常。最终得到结果如下：

3 时序CNN 与稀疏光流融合的视频人车异常检测方法

3.1 时序CNN与稀疏光流的融合

在摄像头v 中，设定ft表示第t 帧，视频块表示为，i 是帧t 中的第i 个补丁，mt为当前t 帧的二值图。ft帧的TCP图为ct，光流图表达为Oft。

具体步骤如下所示。

3）将每个视频帧计算的TCP 图ct，光流图dt与重要因子α和β进行线性相加。构建如式（4）所示的运动片段图：

其中，{mseg}为在视频v中提取的运动帧序列。α，β均为融合图在该帧序列中的影响力，参数设置为α=0.5，β=0.5。

3.2 时序CNN 与稀疏光流融合的监控视频人车异常检测

本文提出的方法如图3 所示，输入的帧序列经过BFCN，二值全卷积网络，提取出时序CNN 的二值图。核心思想是在时间维度上对CNN 进行优化，与在传统光流中提取的稀疏光流进行融合。

图3 提出方法的技术路线

综上所述，本文提出的方法如算法1所示。

算法1 时序CNN与稀疏光流融合的视频

首先输入所有帧，二值层量化高维特征，形成二值模式，得到二值图，该图是二值层与接收字段对应的补丁生成。然后计算二值码直方图，并计算直方图的TCP 度量。最后级联所有视频块的TCP度量，上采样到原始帧大小，形成上采样的TCP图。同时，通过前景遮罩等方法，改进光流提取，得到稳定的稀疏光流，在稀疏光流的基础上进行特征聚合。融合TCP计算结果与光流信息，进行异常定位。

使用训练好的AlexNet模型提取特征图。模型改进后，将二值量化层作为最后一个卷积层，输出得到可定位的特征图，并通过上采样处理来恢复最后一层图像的全分辨率。

该方法构建一个二值全卷积网络结构并提出了一种计算鲁棒稀疏光流的方法，更快速可靠地进行特征提取，对于异常检测的检测性能有所改进，提高了处理效率。

4 实验结果及分析

4.1 数据集

我们选定两个数据集来验证所提出的方法：UCSD异常检测标准数据集和现实环境中采集的监控数据。

UCSD 数据集收集方式为人行道上的摄像机，分为Ped1 和Ped2 两个子集。分辨率为238×158，每5 帧中存在行人的地面实况（Ground Truth）。Ped1 和Ped2 分别包含34、16 个训练视频，16、12 个测试视频，异常帧个数约为1600 个，正常样本个数为350个，该数据集一帧中平均约15人。

同时为了检验所提出方法的实际效果，分别在路口一、路口二、过马路以及雨夜采集数据。采取两种分辨率：960×540 和720×576，每个视频长度为5min～10min。该数据集将异常行为定义为不符合常规交通规则，如逆行、闯红灯等现象。

4.2 评价准则

在一些常见的计算机视觉任务中，使用ROC（Receiver Operating Characteristic）对算法性能进行测评。假阳性率（False Positive Rate，FPR）和真阳性率（True Positive Rate，TPR）分别由ROC 的横纵坐标轴表示。AUC（Area Under Curve）值为ROC 曲线与横轴之间的面积，面积增大则表示性能提高［16］。

EER［7］（Equal Error Rate）是等错误率，即ROC曲线横纵坐标相等，得到EER 的值越低则性能越好。

对本文提出方法可由以下两种指标进行评估：像素水平（Pixel-level）进行异常定位和帧水平（Frame-level）进行异常检测［7］。

4.3 异常结果与分析

4.3.1 实际环境采集的监控视频异常结果与分析

由于颜色、分辨率等不一样，在实际环境中采集的视频，需要进行参数调整。在路口一、路口二、过马路的视频中，块大小的参数选取为：bH=bW=16,dT=10,δH=δW=4，光流直方图柱数m=9；在雨夜数据集上bH=bW=32,dT=9,δH=δW=16，光流直方图柱数m=16。其中，bH、δH为选取图像帧的高度，bW、δW为宽度。dT为选取视频的长度，单位为s。

1）异常行为检测结果分析

图4 展示了路口一视频中的检测结果。图4（a）～（d）中摩托车明显违反交通规则，其中在图（a）和（b）中，在车道中与车流行驶方向相反；在图（c）和（d）中正向车流中与车流行驶方向相反。

图4 路口一数据集的检测结果

2）误检结果分析

图5 展示了数据集上的误检结果。图5（a）将被遮挡行驶的汽车检测为异常，分析发现汽车行驶速度较快，且部分被路旁绿化带遮挡。这种情况下，光流计算产生误差。图5（b）中，公交车与其他物体产生相互遮盖的情况，故将公交车误检为异常。图5（c）将雨夜数据集中，路面反光积水检测为异常。图5（d）将被围栏遮挡的车辆检测为异常。通过分析，产生误检的主要原因是监控视频中运动目标被物体遮挡。其次本文方法可以在误检较少的情况下，检测出违反交通法规等异常行为事件，证明本文方法在实际环境中具有一定有效性。

图5 误检结果示例

4.3.2 UCSD数据集上的异常结果与分析

本文该数据集上可能发生的小概率运动模式视为异常。与原UCSD 数据集中定义非行人为异常不完全相同。

如图6 所示，第一行结果从Ped1 子集中选取，第二行结果从Ped2 子集中选取。图6（a）为一些非步行行为：在人行道上的自行车行驶、滑板行驶、轮椅行驶、摩托车行驶；第二行展示将骑自行车和行驶汽车作为异常，因为与训练数据集中步行的行为模式不匹配。

图6 UCSD数据集异常结果示例

图7展示了UCSD数据集上进行异常检测的帧水平ROC 曲线，图8 则为UCSD 数据集上进行异常定位像素水平的ROC曲线。

图7 UCSD Ped1数据集异常检测的帧水平ROC曲线

由图7 可见，在帧水平上，提出的方法与现有其他技术效果相当。在图8 中，在像素级别上，当误报率小于25%时，本文明显优于其他现有方法。

图8 UCSD Ped1数据集异常定位的像素水平ROC曲线

提出的方法在数据集中能够准确检测出异常行为。仅在某些出现遮挡或受光照影响时，检测性能略低。然而本文优点是可以运用到实际中，且有效地检测、定位异常而无需额外成本进行训练。

表1展示出在UCSD标准数据集上本文方法与其他方法ERR 及AUC 曲线的比较。本文提出的方法在帧水平的ERR 指标里分别达到了7.6%与18%，在所列方法中最低，效果最好。证明本文通过对光流计算的优化在一定程度上降低了等错误率，同时准确率达到先进水平。

在帧水平评估中，本文CNN 与稀疏光流的融合状态在AUC 上达到了95.3%。在像素水平评估中，本文方法达到了64.5%。与表1 中所列方法对比，我们的结果比大多数方法更优，表明了在异常定位融合光流法的有效性，使用光流进行计算获得了更好的定位精度。

表1 UCSD数据集方法比较

5 结语

本文通过融合时序CNN 模型和稀疏光流，提出了一种时序CNN 与稀疏光流融合的视频人车异常检测方法。为了解决异常检测中常见的性能不佳和效率低下的问题，我们选择具有权威性的UCSD 标准数据集进行效果评估，对比了近年优秀技术方法，表明了本文在性能上的显著优势。除此之外，还在实际采集的监控视频上实验，结果表明，在不同条件下本文方法均可比较准确地检测出人车流中的异常行为。