魏忠诚,张新秋,冯 浩,连 彬,王 巍
(1.河北工程大学 信息与电气工程学院,河北 邯郸 056038;2.河北工程大学 河北省安防信息感知与处理重点实验室,河北 邯郸 056038;3.河北工程大学 水利水电学院,河北 邯郸 056038)
随着人们对用户安全和隐私泄露等问题的日益关注,在提供用户舒适环境和保护个人隐私的情况下验证人员的合法性有着广泛的应用需求。Wi-Fi感知由于设备成本低廉、无需佩戴感知设备、可实现被动式感知和不容易侵犯用户隐私等优点,受到了研究人员的广泛关注,其中接收信号强度指示(received signal strength indicator,RSSI)和信道状态信息(channel state information,CSI)为其主要的数据形式。但是相较于RSSI仅能够提供人体的粗粒度信息[1,2],CSI数据包则可以感知到多种细粒度的人体活动,如定位[3]、呼吸频率[4]、活动识别[5]和持续时间检测[6]等。
Zhang等[7]将CSI感知引入到身份识别领域,但未对人员合法性进行分析。当有非法人员入侵,系统无法进行有效的防御,实用性不强。Shi等[8]实现了合法用户识别和非法用户验证,但未对其进行深入分析,并且合法人员个数较少,识别率偏低。针对身份识别系统中合法性研究的重要性问题,我们提出了身份合法性认证系统[9],但存在判断阈值随实验群体变化的问题,缺乏自适应性。因此基于前期研究,本文再次提出一种基于Wi-Fi信号的人员合法性检测系统(WI-LVS),通过算法优化实现阈值调节,进而自适应群体变化,并在基于聚类算法的合法性检测中提出个体差异对合法性研究的影响。实验过程中收集了10个志愿者的1000条数据,结果表明WI-LVS具有更高的识别精度。
CSI是物理层信息,表示为发射机与接收机之间信道的固有物理特征,频域传播模型[10]为Y=HX+N,Y和X分别为接收端和发射端信号向量,N是附加的高斯白噪声向量。并且,在频域中,接收端和发射端信号分别可表示为Y(f,t) 和X(f,t), 因此可得知Y(f,t)=H(f,t)*X(f,t), 其中H(f,t) 为在时刻t、 载频f下的信道频率响应(channel frequency response,CFR)。
当一个信号通过M条不同的路径到达接收端时,H(f,t) 可以由式(1)给出
(1)
式中:ak(f,t) 是复数值,表示第k条路径初始的信号衰减和相移,exp(-j2πτk(t)) 表示第k条路径传播时间τk(t) 内发生的相移,exp(-j2πΔft) 是由发射端和接收端之间的频率偏差导致的相移。
信道的频率响应描述出了信号的多径效应,反映了CSI信号的幅值和相位变化,为无线感知提供了丰富的人体活动信息,是CSI能够实现细粒度感知的重要因素。
WI-LVS系统结构如图1所示,分为4个部分:数据预处理、人员检测、特征提取、合法性检测。实验使用了Wi-Fi设备进行了数据采集,并使用了收发端第一根天线的主天线链路的CSI幅值。
图1 系统结构
由于受到Wi-Fi设备的硬件缺陷和周围环境的影响,原始数据包含着多种噪声,首先对原始数据进行预处理。在数据预处理中主要利用Hampel滤波器进行异常值处理,主成分分析(principal component analysis,PCA)和巴特沃斯低通滤波器去除无用的信号成分以及30 Hz以上的高频噪声,这与我们之前的工作一致,不再详细阐述。随后检测视距(line of sight,LOS)路径是否有人员行走,设计方差与短时间能量的乘积分割有效的行走片段。然后利用离散小波变换(discrete wavelet transformation,DWT)算法提取近似系数特征,并进行离群点去除和归一化处理。最后合法性检测提出自适应距离阈值(distance threshold,DT)的基于粒子群优化(particle swarm optimization,PSO)的近邻传播(affinity propagation,AP)算法(DT-PSO-AP)从个体差异和群体变化两个角度对人员合法性研究进行深层次分析。
在实验数据采集的过程中,研究人员需要将感知的活动与含有人体运动信息的CSI数据相互对应,因此检测一个人是否在环境区域内行走是十分有必要的。
2.2.1 活动检测
当有人穿过LOS路径时,CSI数据发生明显的波动[6]。数据的方差可以检测出数据波动程度,短时能量可以体现多径传播后的信号功率的变化情况。图2是利用第二主成分的方差和短时间能量进行人员检测和片段截取的说明。在图2记录了两轮行走活动。从图中可以明显看出,方差和短时能量都可以检测出人体存在。但是同一个人在不同时刻的行走方式和不同人之间的行走方式都存在着差异[11],导致对CSI数据计算得到的方差和短时能量的峰值不会总是对应于活动持续时间的中心,因此单独使用方差或短时能量进行人员检测的结果鲁棒性不强。观察图2(b)、图2(c)可知,CSI方差和短时能量的乘积可以更好地表现第二主成分波形的波动情况。具体的计算公式如下
(2)
(3)
S{Var,E}=Var⊗E
(4)
(5)
图2 利用第二主成分的方差和短时间能量进行人员检测和片段截取的说明
2.2.2 有效片段提取
当检测到环境中有人行走时,记录S{Var,E}max所对应的主成分位置L,L为有效区域中心。通过将T设为有效区域的持续时间,K设为常用阈值判断系数,以L±T为活动片段的起点和终点对CSI数据进行截取得到有效区间。
有效片段提取后的CSI数据包含丰富的人体运动信息,直接进行识别会造成较大的计算量,且准确率也不能达到理想的预期,因此需要对CSI有效活动片段进行特征提取操作。小波系数可以保留原波形大多数的脉冲和峰值等特点的高度变化[12],具有较强的代表性,因此使用DWT算法对第二主成分波形进行小波分解,计算近似系数。
2.3.1 离群点去除
大部分聚类算法对于离群点都有一定的敏感性,因此需要在聚类之前进行离群点去除[13]。根据我们之前的研究[9],选择了第一层近似系数作为特征进行实现。特征的散点图如图3所示,其中方框中的点为离群点。由于同一个人和不同人之间的特征都存在着一定差异,导致特征数据中的离群点数量不同,去除离群点后用于聚类的特征值维度也不同。为了避免以上情况对系统性能的影响,使用Hampel滤波器去除异常值之后又对数据进行插值处理,从而保证特征维度的统一性。
图3 近似系数的离群点检测
2.3.2 归一化处理
聚类算法通过各维度的距离计算对数据进行聚类操作,当某个特征值域范围非常大时,距离计算就主要取决于这个特征,从而降低了其它特征的权重,造成较低的识别率[14]。从图3可以看出,近似系数的值在各个维度变化较大,因此本文使用了线性函数归一化方法,对原始数据进行线性变换,使结果映射到0~1之间。
AP聚类算法是一种无监督算法,通过分析测试数据的内在相似性对未标记的数据进行聚类,非常适合于非法人员未知的合法性检测研究。它无需提前设置分类数量,这对于日常生活中样本种类的变化有更强的鲁棒性和灵活性。AP聚类主要有偏向参数和阻尼因子两个参数,但是它的收敛性严重依赖于这两个参数,容易产生震荡,为AP聚类算法的一大缺点[15]。同时,根据我们之前的研究可知[9],合法人员与非法人员的距离阈值是判决人员合法性的关键,是一个非常重要的参数。它需要根据环境中群体的变化而不断进行人为调整,且参数调整工作量很大。基于以上分析,对AP聚类算法进行改进。
改进的AP聚类算法首先对训练集进行训练,确定每类数据的聚类中心和距离半径。然后通过距离阈值(距离系数*距离半径)对测试集进行合法性检测。最后利用PSO优化算法找到参数在最佳情况下的检测结果。其具体处理步骤如下。
(1)将数据样本分为两类,合法人员和非法人员;
(2)将合法人员的数据分为两类,即训练集和测试集,非法人员全部作为测试集;
这是个发散性问题,对学生理解叠加法,非常有帮助!数列递推关系,若具备后一项减前一项,且差f(n)能求和,则能用叠加法求通项公式.如an-an-1=n或等,再给出首项a1的值,则由叠加法可求an.
(3)将训练集放入改进的AP聚类算法中进行聚类,从偏向系数和阻尼因子的范围中获取参数输入值,得到第i类的中心坐标Oi和第i类中的第j点到Oi的距离Lij, 具体公式如式(6)、式(7)所示,其中N为每个种类中含有的样本数
(6)
Lij=sum(Li)
(7)
(4)从距离系数的范围中获取C, 使得距离阈值Ri=CLij, 并计算测试集中的每个数据到各个聚类中心Oi的距离P。 若P (5)将合法人员和非法人员识别率均值作为优化目标,随机粒子在指定范围内按照标准PSO算法规则不断改变粒子的速度和位置,更新偏向系数、阻尼因子和距离系数; (6)重复(3)~(5)的步骤,直到达到最大迭代次数结束循环,并得到最终的优化值。 为了验证上述方法的有效性,实验采集了10名志愿者的数据,其中每人包含100条,其基本信息见表1。实验场景如图4所示,TP-Link 802.11n无线路由器为无线发射端,配备Atheros9382 NIC和开源工具Atheros-CSI-Tool的戴尔笔记本电脑为无线接收端并在Ubuntu 14.04 OS上运行。实验过程中设备离地面的高度约1 m,彼此相距1.5 m,频段设置为5 GHz,带宽为40 MHz,采样频率设置为500 Hz。为了更贴近现实场景,在数据采集过程中不对志愿者的行走速度和行走方式进行限制,整个实验过程仅从门口走到室内,每次的行走时间约为20 s,并允许4名干扰人员在实验室内正常工作。 表1 志愿者信息 图4 实验场景平面图 本文将从TPR、TNR、正确率、PTNR这4个方面深入分析个体差异和群体变化对人员合法性的影响,在不同的数据集上进行验证。实验统计信息见表2,每次实验重复5次。基本指标量定义见表3。 表2 实验统计信息 表3 混淆矩阵 真阳性率(TPR):系统对合法人员做出正确判断的概率 (8) 真阴性率(TNR):系统对非法人员做出正确判断的概率 (9) 正确率:系统对合法人员和非法人员做出正确判断的概率 (10) 用户TNR需求度下识别率(PTNR):用户TNR需求度为P⊂(0,1) 下的系统识别率 PTNR=(1-P)*TPR+P*TNR (11) 不同的训练集比例包含着不等量的特征信息,因此选择合适比例在研究中是较为关键的一步。为了选择合适的训练集比例,我们使用了TNR和TPR两个评价指标进行测试。在本实验中,设计了5个合法人员的5种不同样本比例进行分类训练,合法人员的剩余样本比例和所有非法人员的样本进行测试。 图5描述了去除异常值前后的5种不同比例的TPR和TNR。当训练集比例从10%增加到30%时,去除离群点后的TPR、TNR分别由90%、80%增加为93%、83%,提升较为明显。但是训练集样本持续增加时,提升速度开始变慢,原因是训练集含有的特征信息已趋于饱和。因此,在其它的实验评估中,我们将训练集比例设为30%。从图5中还可以得知,未进行离群点去除的TPR、TNR在人数规模增加时也呈现同样的规律,但精度稍低于去除离群点后。这是由于AP聚类把数据的真实值作为潜在聚类中心,对离群点的敏感度不强。 图5 训练集比例对系统的影响 从以往的身份识别研究可知每个人的自然行走方式具有较大差异,为识别一个人的身份提供了可能性。根据这一现象,我们开展了人员合法性检测实验。 3.4.1 不同个体的人员组合 为了验证不同个体对系统的影响,我们选取1~4个合法人员进行多种组合,得到如图6所示的4个直方图。图6(a)可以看出,1号、2号、3号的PTNR为100%,5号的PTNR为98%,而4号的PTNR为82%,相对偏低。一个人的步态和他/她的身高、体重和年龄大致相关。查看表1可知,4号的身高和体重在合法人员中都是较大的,可推测人的身高、体重可能对合法性检测影响较大,并在下一小节进行了实验验证。 从图6整体可以看出,组合中的人员越多,PTNR越趋于稳定,这是由于群体的PTNR是组合中不同个体的共同作用结果。因此当合法人员增多时,系统仍然保持较好的性能,甚至呈现出更好的稳定性。根据图6(b)~图6(d)中含有4号的组合的PTNR低于其它组合这一现象,还可以推断出4号的人员合法性检测效果较差,这一发现也正好与图6(a)对应,进一步验证了系统的鲁棒性。 图6 不同个体组合对系统的影响 3.4.2 不同个体的身高、体重 从我们之前的身份识别研究可知[9],当实验人员的身高和体重与其它人员相差较大时,错误分类的概率最低,如8号在所有的志愿者中身高和体重都是较低的,她的识别率是100%。相似的,在本文中1号、2号、3号的身高和体重是5个合法人员中相对较低的,也达到了100%的识别率,与身份识别中的结论对应,因此人体的身高和体重对合法性检测影响较大具有一定的理论依据。接下来,设计了两个实验进行反向验证。 实验1中,合法人员设置为1~5号,非法人员设置为7~10号。实验2中,合法人员设置为1号、2号、3号、6号、5号,非法人员保持不变,同时其余实验参数不变。图7为实验验证结果,从图7中可以看出,在训练集为一名合法人员的5种组合中,当合法人员由4号变为6号时,PTNR发生明显下降。因此验证实验发现具有较高的可信度,并且进一步验证了人体身高和体重对无线信号传输有重要影响。 图7 不同个体对系统的影响 在本节中,我们从群体变化角度介绍系统的性能。 3.5.1 不同训练集比例 为了验证不同比例对系统的影响,实验将5名合法人员都作为训练样本,并在相同的实验条件下对比了WI-LVS与传统方式的识别效果。从图8可以看出,两种方法的识别精度都随着训练集规模的增大而增大,其原因是样本数量越多,人类步行活动的有效特征也就越多。但在相同训练集情况下,WI-LVS始终保持较高正确率,说明了WI-LVS性能更好。 图8 训练集比例对系统的影响 3.5.2 不同群体个数 群体的大小对系统的计算复杂度有一定的影响,因此设计了1~5名合法人员进行实验。如图9所示,随着群体人数规模的增加,WI-LVS的PTNR从96%下降到88%。产生这一现象的原因是,群体规模越大,行走特征越相似,越难识别合法志愿者,并且传统方式也呈现了相同趋势。另外,因为传统方式对同一人数规模的个体组合进行了随机选择,当选取规模为5时组合方式唯一,因此在此规模下进行了算法比较,从实验可以得出WI-LVS具有更好的性能。 图9 群体个数对系统的影响 同时,从图9可以看出,相同距离系数C的PTNR变化明显,甚至随着群体规模的增大而迅速减小(如C=2.7),因此特定系数C不能令PTNR在所有群体规模下都达到最优,需要用户手动调整以达到理想结果,但是这一过程时间复杂度高,用户参与度高。而DT-PSO-AP算法可以通过自适应调整距离系数C避免这一问题。 3.5.3 不同用户需求度 由于生活中人们对TNR的需求度不同,实验选取了5种需求供用户使用。实验中训练集中包含5名合法人员。图10为WI-LVS和传统方式在不同需求下的实验结果。如图10所示,当传统方式中不同需求的PTNR都达到最高时,存在4个不同距离系数C。随着用户需求的改变,PTNR值也发生了改变,这是因为不同用户需求对应的TPR和TNR的权重不同,当用户需求为0.1和0.9时,更加强调单个指标(TNR/TPR)的重要性,PTNR相对较高。与传统方式相比,WI-LVS具有更高的PTNR。 图10 用户需求度对系统的影响 3.5.4 测试集中合法人员比例 图11 合法人员比例对系统的影响 随着无线路由器在生活中的普及,使得无线信号的获取更加便捷,基于Wi-Fi信号的无线感知识别研究更受关注。我们着眼于人员合法性检测系统的信息采集和识别方式存在隐私性差、舒适度低的现象,提出了一种基于Wi-Fi信号的人员合法性检测系统,将其独立应用于日常检测。在非法人员不参与合法性检测训练基础上,利用聚类算法实现高精度的自适应合法性检测。评估结果表明,本文提出的方法优于传统的合法人员检测方法。下一步将收集更多的数据扩大合法人员个数满足更大的用户需求,并在非视距场景下检测人员合法性。3 实验结果及分析
3.1 实验设置
3.2 性能评估
3.3 选取合适的训练集比例
3.4 个体差异对系统的影响
3.5 群体变化对系统的影响
4 结束语