齐美旭 施文 盛志恒 李明东
摘 要:基于计算机视觉的被动检测采用摄像头作为采集工具,通过采集到的图像信息进行人类行为的检测,通常应用于室外行人检测以及人识别等领域。而基于射频指纹信号的被动检测采用射频信号作为感知主体(常用蓝牙、WiFi等射频信号),通常应用于室内等需要保证隐私场景中的人类行为检测。本文针对室外和室内两类场景,分别使用基于计算机视觉的方法以及基于WiFi信号的方法实现人类行为检测的任务目标。本文所提出的修改后YOLOv5s算法在行人检测方面明显优于同类算法,具有88.65%的mAP性能,并且经过轻量化以后,占用内存仅为原模型的八分之一,显著降低了内存占用率,
关键词:机器学习;计算机视觉;YOLOv5s
一、引言
本文以室内场景下也可以作为一种新型的人机交互来执行智能医疗监控诸如智慧家居或者老年人跌倒检测,或者可以通过识别人类行为来应用于交互式体感游戏等。而随着深度学习的兴起和广泛应用,人类行为检测的实时性和准确性也都有了大幅度的提高。大多数传统的人类行为检测系统使用佩戴式传感器进行检测和识别。尽管随着技术的发展,传感器的尺寸变得更小,数据收集变得更有效,但基于传感器的检测系统仍然面临着部署的限制。特别是随着传感范围和规模的不断增加,部署和维护大规模传感系统的成本也会急剧增加。
二、不同场景下基于计算机视觉的行为检测分类研究
随着现如今无线通信的迅猛发展,无线电环境的分布十分广泛,人类在这些无线电环境当中的各项活动会引起环境中信号传输的变化,因此通过检测和分析这些信号的变化则可以判断出环境中的人类行为。传统的感知方法为接收信号强度指示,RSSI广泛应用于室内定位和运动物体被动跟踪等场景当中。RSSI的采集十分方便,但是在实际的传播环境当中,无线信号会受到多个障碍物的影响,从而产生多径效应,因此RSSI的稳定性较差,很难满足现如今日益复杂的传感任务的需求。为了解决这个问题,信道状态信息这一指标逐渐成为分析的主流,并且逐渐取代了RSSI的应用场景。
外场景下的计算机视觉领域,人类行为检测作为目标检测的一个分支,主要的检测思路与传统的目标检测方法相一致,主要分为了三个阶段。第一阶段首先在目标区域生成目标区域提案,第二阶段则分别提取各个提案当中的特征信息,最后的阶段则是根据提取到的特征进行分类。然而,考虑到预测精度与预测速度,传统的检测方法已经不能满足当今社会上的各项需求。而深度学习具备精度高、训练速度快、以及计算量较低等优势,逐渐成为检测方法中的主流。
三、场内外环境的轻量化边缘设备设置方法研究
边缘设备的优势在于成本低、便于大范围应用,但是劣势则在于其设备的局限性,往往不适合大型算法的部署。上一章节当中我们所使用的YOLOv5算法最终的占用内存大小约为190MB,即使是优化后的YOLOv5s算法内存占用也达到了55MB左右,过大的模型占用内存不利于现代环境实时通信、检测的需求,因此针对模型进行轻量化操作非常有必要。
(一)轻量化网络剪枝流程
神经网络的轻量化近些年逐渐兴起,主要的想法就是在不显著降低模型性能的前提下,针对DNN进行算法模型的压缩或者计算加速。在一般情况下,轻量化网络的方法主要有四种,分别为DNN网络参数的剪枝以及量化、低秩因子分解、转移/紧凑卷积滤波器以及知识蒸馏等。
在使用转移/紧凑卷积滤波器时,CNN的参数能有效保证针对输入图像的平移不变性,能成功保证训练深度模型的时候不会导致严重的过拟合。虽然理论目前尚未得到证明,针对CNN的平移不变性以及网络参数卷积权值共享这两点至关重要。
采用了轻量化网络剪枝的方法,对YOLOv5s网络进行剪枝优化,具体的流程如图1所示。首先将初始化的YOLOv5s网络进行稀疏化,即信道稀疏正则化训练,稀疏化过后则通过小比例因子对不同通道进行修剪,之后将修剪后的网络进行微调,反复循环这三项操作最终就可以得到一个紧凑型的网络。
BN层网络剪枝优化,以卷积层为例,由于比例因子存在明显差异,部分输入层的通道比例因子可能无限接近于0,即这些层对于输出层的影响十分有限,因此我们可以将这些层进行剪枝和修剪。通过迭代这个过程,最终可以得到一个非常紧凑的模型。
(二)基于WiFi信号的感知人类行为检测方法
Wi-Fi环境中,人类进行不同的行为,会导致环境中分布的信号产生不同程度反射和衍射,同时改变信号的传输路径和分布。针对这些Wi-Fi信号路径所产生的变化,我们可以进行算法研究,从而识别不同的行为动作。人的运动行为导致了场景中Wi-Fi信号的传播发生了不同程度的变化。信号接收器则可以收集变化前后各个传播路径的信号,将这些信号汇总最后生成并输出CSI。
由于静态路径信号不受目标行为变化的影响,可以假定它是一个常数复值。假设A点和E点之间的距离很短,反射信号的幅度变化不大,因此也可以认为反射信号在该时间段内为常数。从而得到最终的简化CSI模型:
CSI数据预处理 由于环境噪声和各种干扰的存在,采集到的CSI流无法直接训练。因此,输出CSI流需要经过两步预处理来提取特征,提取的特征将更有利于算法训练,最终达到Wi-Fi感知的任务目标。预处理部分主要包括两个部分,即CSI信号的去噪和转换,以及特征提取。
信号去噪主要用于CSI振幅和相位噪声的去除。相位方面,在实际Wi-Fi系统中,由于硬件不完善等原因,原始CSI测量值中存在相位偏移,如采样时间偏移和采样频率偏移。具体如图2所示。
四、总结
本章中主要探讨了针对这类算法网络的轻量化方法,首先进行了轻量化方法总结,考虑到目前常用的轻量化网络方法可能并不适用于本文的研究目标,因此以行人检测算法为例,讨论其神经网络剪枝的可能性。本章针对YOLOv5s网络的BN层进行了剪枝可行性分析,首先针对网络进行稀疏化工作,其次采用L1正则化将网络比例因子进行调整,使原先正太分布的因子在逼近0时存在有效的可剪枝网络层,通过剪枝去除等于0或者无限逼近0处60%的网络层,最后对整体的网络进行微调,重复操作得到最终的紧密型网络模型。
参考文献:
[1]张大庆,张扶桑,吴丹,等.基于CSI的通信感知一体化设计:问题、挑战和展望[J].移动通信,2022,46(05):9-16.
[2]桂冠,王洁,杨洁,等.基于深度学习的频分复用大规模多输入多输出下行信道状态信息获取技术[J].数据采集与处理,2022,37(03):502-511.
基金项目:安徽省教育厅重点科研项目(项目号:2023AH052240),教育部高等教育司产学合作协同育人项目(项目号:202102223021),教育部高等教育司产学合作协同育人项目(编号:220904723130951),教育部高等教育司產学合作协同育人项目(项目号:202102049012)。