结合加权核范数与3D全变分的目标检测

2023-08-11 07:16:02邵泽军

现代计算机 2023年11期

班颖，田韵，邵泽军

（燕京理工学院建筑学院，廊坊 065201）

0 引言

近年来，扩展的鲁棒主成分分析模型（robust principal component analysis, RPCA）［1］在运动目标检测领域得到了较好的发展，其模型简单，求解高效。该模型将视频序列组成的矩阵分解为低秩静态背景、稀疏平滑前景和稀疏动态背景，并分别利用核范数和L1范数进行低秩和稀疏约束。

上述扩展的RPCA 存在如下不足：①核范数被定义为背景矩阵所有奇异值之和，没有考虑不同奇异值对秩函数的影响；②RPCA 模型将前景看作背景中存在的异常像素点，在复杂背景中前景检测精确度下降，而L1范数不能有效应对复杂背景对前景提取造成的干扰。

为解决问题①，Gu等［2］提出了加权核范数，考虑了不同奇异值对秩函数的影响，加强了背景的低秩性。为提高背景建模在复杂场景中的稳定性，加权Schatten-p 范数最小化模型被提出［3］。文献［4］基于t-product 提出了一种新的张量核范数，为准确恢复低秩和稀疏成分提供了保证。为解决问题②，并提高目标检测的准确率，高阶鲁棒主成分分析模型（Higher-order RPCA，HoRPCA）被提出［5］。在文献［6］中，3D全变分（3D Total Variation，3D-TV）被提出用来约束稀疏前景，有效抑制了由动态背景造成的噪声干扰。文献［7］利用超像素生成步骤和树结构稀疏性动态估计前景，有效去除了背景。

基于以上认识，为加强对实际背景的近似和应对复杂背景的变化，提出了一种结合加权核范数与3D 全变分的目标检测模型。该模型将视频序列组成的矩阵分解为低秩静态背景、稀疏平滑前景和稀疏动态背景，利用加权核范数对背景进行低秩约束，考虑了不同奇异值对秩函数的影响；为加强前景的时空连续性，利用3D-TV 对运动目标进行稀疏约束，有效抑制了动态背景的噪声干扰。

1 扩展的RPCA模型

假设给定的视频序列I∈Rm×n×t，m和n分别表示视频的宽和高，t表示视频的帧数，将每帧图像向量化形成矩阵O。矩阵O可分解为

其中：B∈Rmn×t是静态背景，M∈Rmn×t为残差。

为应对现实生活场景的复杂多变，将残差M分解为稀疏前景F和动态背景E：

其中：F∈Rmn×t和E∈Rmn×t均具有较强的稀疏性。

由于静态背景具有较强的相关性，因此对背景B采用低秩约束。对前景F和动态背景E分别采用稀疏约束，具体模型如下［1］：

2 结合加权核范数与3D全变分的目标检测

2.1 背景模型

在RPCA模型中，核范数定义为背景矩阵的所有奇异值之和，没有考虑不同奇异值对秩函数的影响，因此对秩函数的近似程度不够，Gu等［2］提出了加权核范数，定义如下：

由于较大的奇异值对秩函数的影响大，因此施加较大的权重系数，对较小的奇异值施加小的权重系数。上述加权核范数考虑了不同奇异值对秩函数的影响，使其更加接近实际背景的秩。基于以上考虑，本文采用上述的加权核范数对背景进行低秩约束，进一步加强了背景的低秩性。

2.2 前景模型

运动目标，一般是视频中的显著性运动对象，且在整个图像上的分布占比较小，因此前景目标具有稀疏性。另外，运动目标往往是占据一定比例的连续区域，因此具有时空连续性和光滑性，而视频背景中的雪花和摇晃的树叶等呈现不连续的噪声特征［2］。在数学上，3D 全变分［6］具有平滑信号的功能，可以有效抑制视频中不连续的噪声干扰。对于前景张量F(i,j,k) ∈Rm×n×t(i= 1,2,…,m;j= 1,2,…,n;k=1,2,…,t)，利用3D 全变分来约束前景的稀疏性和时空连续性，如下［6］：

3D全变分通过将上述TVi,j,k相加得到：

为方便计算，引入沿水平方向、垂直方向以及时间方向的向量差分算子：

令Df=[(Dh f)T,(Dv f)T,(Dt f)T]表示三个向量差分算子的联级，则上述3D 全变分模型可改写为

从3D 全变分的定义看出，沿水平和垂直方向的差分算子说明3D 全变分考虑了运动目标在二维空间上的连续性；沿时间方向的差分算子说明其考虑了运动目标在时间上的连续性。另外，3D全变分能有效抑制动态背景造成的不连续噪声干扰，且考虑了运动目标在时空上的连续性，加强了模型在复杂背景中的稳定性，提高了目标检测的准确性。基于以上考虑，本文采用3D 全变分约束运动目标的稀疏性和时空连续性。

2.3 新模型的建立

综上所述，本文提出了一种新的结合加权核范数和3D-TV 的目标检测模型，具体模型如下：

利用3D-TV 的变形公式（7），上述模型可转换成如下：

其中：γ1,γ2,γ3为权重系数。

3 模型的求解

引入辅助变量g求解上述模型，式（9）变形为

利用交替方向乘子法（alternating direction multiplier method，ADMM）［8］求解式（10），其增广拉格朗日函数为

其中：Y1,Y2,Y3是拉格朗日乘子，μ为参数。

进行变量分离，上述增广拉格朗日函数转化成几个子问题。

（1）固定变量Mk,Ek,Fk,gk,Y1k,Y2k,Y3k和μk，更新Bk+1：

问题的解为［2］

（2）固定变量Bk+1,Ek,Fk,gk,Yk1,Yk2,Yk3和μk，更新Mk+1：

该子问题可以通过软阈值算子求得［9］：

其中：P=(O+Ek-Fk-Bk+1)/2 +(Y1k-Y2k)/2μk，Sa(b) = sgn(b)max( |b|-a,0)是软阈值算子。

（3）固定变量Bk+1,Mk+1,Fk,gk,Yk1,Yk2,Yk3和μk，更新Ek+1：

通过软阈值算子求得［9］：

其中：N=Mk+1-Fk+Yk2μk。

（4）固定变量Bk+1,Mk+1,Ek+1,gk,Y1k,Y2k,Y3k和μk，更新Fk+1：

其中:G=vec[Y2k+μkMk+1-μkEk+1+DT(Y3k+μkgk)]。

通过3D 快速傅里叶变换（3D Fast Fourier Transform，3D FFT）［6］求解有：

其中：fftn和ifftn分别为快速3D傅里叶变换和逆变换。

（5）固定变量Bk+1,Mk+1,Ek+1,Fk+1,Y1k,Y2k,Y3k和μk，更新gk+1：

通过软阈值算子求得［9］：

（6）更新拉格朗日乘子Y1k,Y2k,Y3k和参数μ。

4 数值实验结果和分析

4.1 实验环境与参数选取

为了验证所提算法的效果，将本文算法与RPCA［10］，IALM-RPCA［11］，HoRPCA［5］，KBRRPCA［12］，TRPCA-TNN［4］，以及KBR-L112［13］分别从主观和客观两个方面进行比较。所有实验的运行环境为Matlab 2014a，Inter Core i5-6500 处理器，8 GB 的内存，Win10 64 位操作系统。实验的测试数据均来自于CD.net数据库［14］。

为了在客观上准确评估本文算法的性能，采用Recall（查全率）、Precision（查准率）和综合评价指标F值（F-measure）作为提取运动前景的评价指标［15］。

4.2 主观分析

在仿真实验中，本文主要选取了5类监控视频进行结果展示和分析，分别为：Bad Weather（a-b）、Camera Jitter（c-d）、Dynamic background（e-f）、Shadow（g-h）和Thermal（i-j），如图1 所示。

图1 前景目标时空连续性图

图2 前6 行分别给出了复杂天气、相机抖动和动态背景的视觉对比图。从图中看出，对于复杂天气Blizzard 和Snowfall，IALM-RPCA 和HoRPCA 提取的目标受动态背景的干扰较大，提取的运动目标出现了较多的背景部分，RPCA和KBR-RPCA 提取的前景较为模糊空洞，TRPCA-TNN 和KBR-L112对目标的提取效果较好，但有部分的前景误判，本文算法提取的运动目标较为完整清晰，且对前景的误判较小，有效抑制了复杂天气对前景提取的干扰。对于相机抖动Boulevard 和Traffic，IALM-RPCA、HoRPCA和KBR-L112，虽然提取的前景目标较为完整，但同时由于相机抖动前景视觉图中提取了较多的背景线条，RPCA、KBR-RPCA和TRPCA-TNN 提取前景的精确度较低，前景目标中的空洞现象较大，且把部分背景误判为前景目标，本文算法提取的运动目标较为完整，对背景的干扰作用去除较好，且对前景的误判较小。对于动态背景Overpass 和Fall，RPCA、KBR-RPCA 和TRPCATNN 提取的前景目标只出现部分轮廓，运动目标不完整，IALM-RPCA 和HoRPCA 的视觉效果图中出现了大量的背景物体，KBR-L112和本文算法提取的前景较为完整，但由于湖水荡漾和树叶摆动，KBR-L112的前景视觉图中出现较多的噪点，而本文算法对前景的误判较小，有效抑制了动态背景的干扰作用。

图2 不同视频的视觉对比

图2 后4 行分别给出了阴影和热成像的视觉对比图。对于阴影图像Bungalows 和Copymach，IALM-RPCA 和HoRPCA 的视觉效果图中出现了较多的背景部分，前景背景的区分度较低，RPCA、KBR-RPCA、TRPCA-TNN 和KBR-L112提取的前景较为空洞，前景目标的提取精确度较低。本文算法提取目标的精确度较高，去除背景的效果较好。对于热成像图像Corridor 和Library，RPCA、KBR-RPCA 和TRPCA-TNN 提取前景的效果较差，HoRPCA 和KBR-L112的视觉效果图中出现较大的空洞现象，IALM-RPCA 和本文算法提取前景的精确度较好，但两者相比本文算法去除背景的效果更好。

图3 给出了视频Badminton 在4 个不同帧下的视觉对比图。从中看出，IALM-RPCA 和Ho-RPCA 提取的前景较为完整，但同时把背景误判为前景的错误率较高，RPCA、KBR-RPCA、TRPCA-TNN 和KBR-L112提取的运动目标空洞较多，同时含有较多的背景线条，本文算法提取的前景目标较为完整，且去除背景的准确率较高。

图3 不同算法下不同帧的视觉对比（Badminton）

综上所述，与其余6种算法对比，本文算法提取的前景较为完整，且有效去除背景，对前景的误判较低，整体获得最佳的检测效果。

4.3 客观分析

将本文算法的Recall和Precision值分别在5类不同的监控视频上与其他6 种算法进行对比，其对比如图4所示。从图4可知，除IALM-RPCA外，本文算法的Recall和Precision值基本上高于其他算法，虽然本文算法的Recall和Precision低于IALM-RPCA，但综合评价指标F值远高于IALM-RPCA，说明本文算法有较好的前景查全率和查准率。

图4 Recall和Precision数值对比

由于Recall只能反映丢失运动目标内部信息的相关性，Precision只能反映丢失目标外部信息的相关性，且两者指标值有时会出现矛盾的情况，因此采用它们的调和平均值F值来综合判断提取效果更为准确。本文算法与其他6种算法的F值对比见表1，其中加粗为最优值，下划线为次优值。从表1 可以看出，本文算法的F值均处于最优或次优的情况，说明本文算法有较好的前景提取效果，对前景的误判较小。

表1 不同算法下的F值

表2 给出了视频Badminton 在955、965、975 和985 帧不同算法的F值。从表2 看出，所提算法在相同视频不同帧下的F值基本上处于最优的情况，说明所提算法能稳定地分离视频的前景与背景，且分离准确率较高。

表2 不同算法下不同视频帧的F值

5 结语

本文提出了一种结合加权核范数与3D 全变分的目标检测模型。该模型以改进的RPCA为基础，将视频分解为低秩静态背景、稀疏平滑前景和稀疏动态背景。为加强背景的低秩性，利用加权核范数对背景进行低秩约束，考虑了不同奇异值对秩函数的影响，提高了背景的去除率；并利用3D-TV 对前景进行稀疏约束，加强了前景的时空连续性，提高了目标检测的准确率。从实验视觉对比图看出，所提算法提取的运动目标较为清晰完整，去除背景的准确率较高，能有效抑制复杂背景对目标检测的干扰作用。所提算法的综合评价指标F值均处于最优或次优，说明本文算法的目标检测准确率较高。