无线电环境地图的冗余感知数据删除技术研究

2018-03-03 07:36刘媛妮黎北河赵国锋
关键词:阈值差异环境

刘媛妮,黎北河,苏 飞,赵国锋,3,关 鑫,段 洁

(1.重庆邮电大学 未来网络研究中心 , 重庆 400065;2.中国联通 网络技术研究院,北京 100080;3.重庆市高校光通信与网络重点实验室,重庆 400065;4.重庆市渝中区公安局分局,重庆 400010)

0 引 言

随着无线通信技术的快速发展,人们对无线频谱资源的需求日益增加,因此无线电频谱资源也越来越宝贵。为了准确、实时地展现人们周围无线电频谱资源的使用情况,以便对无线电资源的有效管理,无线电环境地图(radio environment map,REM)系统应运而生。在REM数据收集技术的研究中,相对于传统的数据收集技术,移动群智感知[1](mobile crowd sensing,MCS)利用移动设备内置的感知模块进行信息收集,具有网络部署成本低、维护简单、系统可扩展性强以及采集数据类型广泛等优势,并且能够满足构建无线电环境地图系统的基本要求。基于移动群智感知的无线电环境地图数据收集系统采用人们随身携带的移动智能终端进行无线电数据采集,如在智能手机上安装具有无线电数据采集功能的APP进行周围无线电数据的采集,为REM系统的构建提供基础数据。由于移动群智感知技术具有时空相关性特点,导致REM系统的感知数据中存在大量相似的冗余数据,给REM整个系统带来了一些问题:①存储系统的磁盘空间消耗大,存储效率低;②数据传输的数据量大,网络带宽的冗余消耗。

针对这些问题,提出了一种基于感知数据综合差异度的无线电环境地图冗余数据删除技术。一方面,利用冗余数据删除技术可以对无线电环境地图数据收集系统的存储空间利用率进行优化,以消除分布在存储系统中的重复或相似数据,即在保证感知数据完整性的前提下,进行冗余数据的检测及删除,降低数据冗余度。另一方面,利用冗余数据删除技术可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据的传输节省网络带宽。

1 相关研究

1.1 无线电环境地图

目前,随着无线通信技术的发展,无线电频谱资源的应用领域越来越广,人们对无线频谱资源日益增加的需求,造成了无线频谱拥塞。为了准确、实时地展现人们周围无线电频谱的使用情况,以便对无线电资源的有效管理,REM系统应运而生。REM的提出是为认知无线电设备或认知无线电网络的工作提供精准的信息支撑,从而使得认知无线电或认知无线电网络的实现更加简单。REM本质上就是一个基于位置和频谱使用情况的动态频谱接入数据库[2],可以用来支持认知功能,如环境的感知、分析、学习以及计划[3]。因此REM 还可以被视为认知无线电网络中实时更新的可用资源图的扩展,用于帮助认知无线电网络辨认具体的无线场景,并指导其做出决定或使其自适应执行相关任务。REM 中存储的信息是数字化的无线环境数据,刻画了无线电环境,认知无线电系统通过访问和查询REM,能够迅速获得所需的环境信息。同样,REM也支持系统层的一些问题,如情景识别、隐藏和暴露节点问题,网络的负载均衡以及动态频谱管理、政策制订、网络结构规划、系统设计以及认知无线电的操作和管理。

1.2 移动群智感知

移动群智感知的概念最早由Raghu K. Ganti等人提出[1],它利用普通用户自己贡献的感知数据或直接从其移动设备获取的数据,并在云端对这些数据进行汇集及融合,最终用于群智提取以及以人为中心服务(people-centric service)的数据交付。移动群智感知网络成为新型的重要感知手段,可利用普适的移动感知设备完成那些通常很难实现的大规模、复杂的社会感知任务。目前,MCS相关的应用涉及多个方面,如环境监测[4]、社交网络[5]、道路交通[6]等。

1.3 REM数据收集系统

要构建一个完整的REM系统,首先需要收集无线电频谱资源的数据,而在数据收集时面临以下问题:所需收集的数据包括感知区域的信号场强、GPS信息、WiFi热点数据等,而每一类又涉及多个属性,因此需要收集的数据维数很高;并且无线电波是无处不在的,由此在构建REM 的过程中还面临着数据收集空间范围广的问题。因此,建立REM的首要工作是构建一个合适的无线电环境地图数据收集系统,数据收集系统需达到收集地域广、数据规模大、数据维数高的要求。

现有的无线电环境地图数据收集系统的基本组成架构分为3个部分:数据采集设备、数据库和无线电监测。文献[7]提出了一种利用发射机、接收机、信号采集和数字化设备等组成的无线电数据收集系统。文献[8]提出了一种利用大量无线电监测传感器、数据中继节点以及接收器组成的数据采集系统,进行无线电环境信息收集。以上无线电数据收集系统所使用的采集设备硬件成本高,并不适用于构建大型的无线电环境地图。总体而言,目前针对无线电环境地图的构建重点在于针对特定范围的特定应用,存在一定的局限性。

MCS利用普通用户的移动设备内置的各种感知模块进行信息收集,相对于传统的数据收集技术,MCS技术具有网络部署成本低、维护简单、系统可扩展性强以及感知数据类型广泛等优势,它提供了一种面向大范围、海量数据、高动态性且可以向上层多种应用提供服务的数据收集技术,能够满足无线电环境地图构建的基本需求,因此,采用MCS技术进行无线电环境地图数据的收集。基于移动群智感知的无线电环境地图数据收集系统的框架如图1所示。

图1 基于移动群智感知的无线电环境地图数据收集系统框架Fig.1 Framework of radio environment map data collection system based on mobile crowd sensing

如图1所示,在基于移动群智感知的无线电环境地图数据收集过程中,感知用户首先接收Web服务器下发的感知任务,然后感知用户根据任务要求(任务时间、地点等)结合自己的具体情况决定是否参与感知任务,若参与,则打开无线电数据采集APP在任务指定的时间、感知区域完成感知任务,然后将感知数据发送到Web服务器,最后,Web服务器将感知数据传输至数据中心进行数据处理及存储。

1.4 问题描述及分析

通过大量数据采集实验发现基于移动群智感知的无线电环境地图数据收集系统中的感知数据之间呈现出高度时空相关性[9]的特点,造成无线电环境地图的感知数据出现以下冗余的情况:①时间相关性数据冗余主要针对相邻时间段内单个采集节点的感知数据存在数据冗余的情况,数据采集节点是以一定的采集频率连续地进行数据采集,但无线电环境的变化通常是非常缓慢的,因此,相邻时间段内的感知数据是非常相似的(这被称为时间相关性,感知数据的相似程度取决于采集的时间间隔);②空间相关性数据冗余主要针对感知区域内距离相近的多个采集节点感知数据存在数据冗余的情况,REM系统需要在感知区域部署密集的数据采集节点才能达到满意的覆盖效果,距离较近的采集节点之间所处的无线电环境通常差距很小,因此,来自邻近采集节点的感知数据是非常相似的(这被称为空间相关性,感知数据的相似程度取决于采集节点之间的距离)。基于移动群智感知的无线电环境地图数据收集系统,由于感知用户移动的随机性,如某段时间移动距离非常短,导致采集的周围无线电数据在时空上非常相关。

在数据感知节点采集的数据已经能够反映某时间范围内周围无线电环境主要特征的情况下,却又采集了大量的相似数据,感知数据之间的差异非常小,实际上这些数据是冗余的,删除这些冗余感知数据不影响REM系统对周围无线电环境主要特征的反映,而这些冗余感知数据给REM的整个系统带来了一些问题:①存储系统的磁盘空间消耗大,存储效率低;②数据传输的数据量大,网络带宽的冗余消耗。

目前,在提高数据存储系统的存储效率方面,关于重复数据删除技术的研究比较多[10-11]。重复数据删除技术将文件按照特定的分块算法划分为数据块,从而检测及删除文件中完全相同的数据块,分块算法包括固定长度分块算法与可变长度分块算法等。重复数据删除技术着重于检测及删除存储系统中完全相同的冗余数据以节省磁盘的存储空间,而没有考虑到存储系统中存在的大量相似的冗余数据。

本文从应用角度出发,在文献[12]提出的基于属性与对象关系信息的综合差异度计算的基础上,针对基于移动群智感知的无线电环境地图数据收集系统中存在大量相似的冗余数据问题,提出了一种基于感知数据综合差异度的无线电环境地图冗余数据删除技术。

2 基于综合差异度的冗余感知数据删除技术

基于数据相似度检测的数据传输技术中,由于密集部署,不同传感器的感知数据之间呈现出高度的空间相关性,在文献[13]中,通过利用空间相关性和引入相似度测量,减少无线传感网络中冗余数据的传输以节约能源并延长传感器的使用寿命。在此基础上,结合文献[12]提出的基于属性与对象关系信息的综合差异度计算,针对基于移动群智感知的无线电环境地图数据收集系统中感知数据存在大量冗余数据的特点,本文设计了一种基于感知数据综合差异度的无线电环境地图冗余数据删除技术,其示意图如图2所示。

图2 基于综合差异度的冗余数据删除技术示意图Fig.2 Schematic diagram of redundant data deletion technology based on synthesized difference degree

图2为本文提出的基于感知数据综合差异度的无线电环境地图冗余数据删除技术的示意图,可以分为以下3个步骤:

1)根据感知数据之间具有时空相关性的特点,将感知文件中属于同一时空范围内的感知数据分为一组;

2)对组内各感知数据相互进行综合差异度计算;

3)通过综合差异度的大小,判断感知数据是否存在冗余,以实现冗余数据删除。

2.1 感知数据分组

基于移动群智感知的无线电环境地图数据收集系统,利用移动智能终端进行数据采集,这些智能终端采集的周围无线电数据之间具有高度时空相关性的特点。因此,通过对每次感知数据的时间与GPS信息进行初步分析,将属于同一时空范围内的感知数据划分为一组,同一组中的感知数据相似度较高,而综合差异度较低。

2.2 感知数据的综合差异度计算

无线电环境地图数据收集系统的数据采集节点每次采集的数据字段是相同的,假设包括M个字段,第1次到第n次采集的数据分别为:v1,v2,v3,…,vn。

1)将所有字段的数值转化为规范化区间变量。

区间变量是一种连续变量,一般取值为线性度量值,感知数据各字段的数值就是区间变量。假设无线电环境数据总共采集了n次,v1,v2,v3,…,vn,对于任一字段j的区间变量,其变量值分别为v1j,v2j,…,vij,…,vnj,对任意字段的数值vij,通过(1)式规范化为

(1)

2)计算2次感知数据间的综合差异度。

(2)

(3)

由于在无线电环境数据采集中,M个字段可能具有不同的差异灵敏性,考虑到不同字段的数值差异对综合差异度影响程度不同,故需要为每种字段设置权重,记为:w1,w2,…,wk,…,wM,因此在计算2次采集数据之间的综合差异度时引入权重

(4)

(4)式中,

(5)

在综合指标评估体系中,权重反映了相应指标对评估的重要性。目前,确定指标权重的方法分为主观赋权法与客观赋权法[14]。主观赋权法根据决策者(或专家)主观上对各属性的重要程度来确定属性权重,如专家意见调查法、主观经验法和层次分析法(analytic hierarchy process,AHP)[15]等。客观赋权法是从实际数据出发,利用各指标值所反映的客观信息确定权重的一种方法,如熵权法[16],它根据属性的变化程度来确定属性权重。

本文考虑到权重反映了无线电环境地图的感知数据中相应字段数据值的差异对综合差异度的影响程度,这主要由字段的类型等本身因素决定,权重跟实际数据无关,不随数据的变化而变化,故本文通过调查大量相关资料结合专家意见调查法确定综合差异度中各字段的权重。

2.3 感知数据的冗余检测

感知数据中第i次采集的数据与第j次采集的数据之间的综合差异度d(i,j)越小,则说明这2次感知数据的相似度越高,d(i,j)越大,2次感知数据的相似度越低。在感知数据的冗余检测中,需要为冗余数据判决设置一个阈值δ(0<δ<1),当d(i,j)≤δ时,表示这2次采集的数据差异度较低,相似度较高,数据值没有明显的差异,可以认为其中一次感知数据是冗余的,故删除其中一次感知数据;反之,当d(i,j)>δ时,表示这2次采集的数据差异度较高,相似度较低,不存在冗余数据,此次比较不进行数据删除。

理论上,冗余数据判决阈值δ的大小影响着冗余数据删除技术的性能及感知数据的完整性,当阈值δ设置较小时,冗余数据删除技术的性能较差,数据的完整性较好;反之,当阈值δ设置较大时,冗余数据删除技术的性能较好,但容易造成数据缺失,数据误差较大,去冗余后的数据不能准确反映无线电环境的主要特征。所以在设置阈值δ时,需要根据无线电环境地图系统的需求权衡好冗余数据删除技术的性能与数据完整性之间的关系,设置适当的冗余数据判决阈值。

3 实验结果及分析

下面将通过实验来验证提出的基于感知数据综合差异度的无线电环境地图冗余数据删除技术的有效性。

3.1 实验方法

从无线电环境地图的文件存储系统中随机选取200个感知文件,将这些文件分别通过本文设计的基于感知数据综合差异度的无线电环境地图冗余数据删除技术与文献[11]提出的重复数据删除技术进行处理。

其中,本文提出的冗余数据删除技术中的冗余数据判决阈值δ从0.01取至0.08,每次取值间隔为0.01;重复数据删除技术中文件采用固定长度分块算法进行分块,长度为一次感知数据的长度。将各次处理后的数据与原始数据进行对比,评估的主要指标包括磁盘空间的消耗和数据的保真度。

3.2 磁盘空间消耗

使用传统的重复数据删除技术处理后磁盘需要存储的数据占原始数据的百分比,以及在不同阈值δ的条件下,使用本文提出的冗余数据删除技术处理后磁盘需要存储的数据占原始数据的百分比,实验结果如图3所示。

图3说明经过传统的重复数据删除技术处理后的数据占原始数据的73.36%,删除的重复数据占原始数据的26.64%。而本文提出的冗余数据删除技术在阈值δ不小于0.01时,相比于传统的重复数据删除技术,在系统磁盘存储效率方面的提升非常大(15%以上)。

另外,在本文提出的冗余数据删除技术中,阈值δ越小,删除的相似数据越少,阈值δ越大,删除的相似数据越多。当δ取值从0.01至0.08时,删除的冗余数据达到原始数据的42%以上;当δ取值从0.01至0.05时,冗余数据删除技术的性能变化较大;当δ取到0.05时,系统获得了较好的冗余数据删除性能,存储系统需要存储的数据仅为原始数据的43.87%,删除的重复数据达到原始数据的56.13%,相比传统的重复数据删除技术,磁盘的存储效率提升了约29%,且进入较稳定的状态。

3.3 数据保真度

保真度是指经过本文提出的冗余数据删除技术或传统的重复数据删除技术处理后,相应字段的数据均值接近原始数据均值的程度(Pro)。保真度将数据失真这一抽象的概念通过数值直观地表达了出来。数学含义为

(6)

图4 4G信号强度均值保真度Fig.4 Fidelity of 4G signal strength mean

图5 连接WiFi热点信号强度均值保真度Fig.5 Fidelity of connect WiFi hotspot signal strength mean

图4、图5说明经过本文提出的冗余数据删除技术处理后的数据(4G信号强度均值、连接WiFi热点信号强度均值)保真度相比传统的重复数据删除技术要略低(差距较小);当阈值δ从0.01至0.08增大时,本文提出的冗余数据删除技术处理后的数据保真度总体呈下降趋势,但依然保持着较高的保真度(0.99以上),故本文提出的冗余数据删除技术未对原始数据的整体产生破坏,去冗余后的数据与原始数据呈现出高度一致性,数据保持着较好的完整性。

以上实验结果验证了本文提出的基于感知数据综合差异度的无线电环境地图冗余数据删除技术能在保证感知数据完整性的前提下,删除无线电环境地图感知数据中的冗余数据,相比于传统的重复数据删除技术,在磁盘的存储效率方面提升非常大。

4 结束语

基于移动群智感知的无线电环境地图数据收集系统中存在大量重复或相似的冗余感知数据,导致磁盘的存储效率低,以及数据传输时网络带宽的冗余消耗。本文以文献[12]提出的基于属性与对象关系信息的综合差异度计算为基础,设计了基于感知数据综合差异度的无线电环境地图冗余数据删除技术,通过此技术,不仅能删除感知数据中的重复数据,而且能够删除其中相似的冗余数据。实验结果表明,本文提出的冗余数据删除技术能在保证数据完整性的前提下,对无线电环境地图存储系统中的感知数据进行冗余数据删除,相比于传统的重复数据删除技术,极大地提高了磁盘的存储效率以及降低了数据传输的网络成本。

[1] GANTI R K, YE Fan, LEI Hui. Mobile crowdsensing: current state and future challenges[J]. IEEE Communications Magazine, 2011, 49(11):32-39.

[2] WEI Zhiqing, ZHANG Qixun, FENG Zhiyong, et al. On the construction of radio environment maps for cognitive radio networks[C]//Wireless Communications and Networking Conference(WCNC). shanghai,China:IEEE press, 2013: 4504-4509.

[3] ALFATTANI S. Indirect Methods for Constructing Radio Environment Map[D].Canada:University of Ottawa,2017.

[4] ZAPPATORE M, LONGO A,BOCHICCHIO M A. Using mobile crowd sensing for noise monitoring in smart cities[C]//2016 International Multidisciplinary Conference on Computer and Energy Science (SpliTech). Split, Croatia: IEEE Press, 2016: 1-6.

[5] GIUSEPPE C, ANDREA C, ANTONIO C, et al. The participact mobile crowd sensing living lab: the testbed for smart cities [J]. IEEE Communications Magazine ,2014,52(10):78-85.

[6] FRANK R, WEITZ H, CASTIGNANI G, ENGEL T. Collaborative traffic sensing: a case study of a mobile phone based traffic management system[C]//2014 IEEE 11th Consumer Communications and Networking Conference (CCNC). Las Vegas, NV, USA: IEEE Press, 2014: 579-584.

[7] WALKER K, STRASSEL S. The RATS radio traffic collection system[C]//Odyssey 2012-The Speaker and Language Recognition Workshop. Singapore: Odyssey, 2012: 291-297.

[8] WU Yueshi, CARDEI M. A cognitive radio approach for data collection in border surveillance[C]//2016 IEEE 35th International Performance Computing and Communications Conference (IPCCC). Las Vegas, NV, USA: IEEE Press, 2016: 1-8.

[9] KANDUKURI S, LEBRETON J, LORION R, et al.Energy-efficient data aggregation techniques for exploiting spatio-temporal correlations in wireless sensor networks[C]//2016 Wireless Telecommunications Symposium (WTS). London, UK: IEEE Press, 2016: 1-6.

[10] VENISH A, SANKAR K S. Study of Chunking Algorithm in Data Deduplication[C]//Proceedings of the International Conference on Soft Computing Systems. New Delhi: Springer, 2016: 13-20.

[11] MA Jingwei, WANG Gang, LIU Xiaoguang. Dedupeswift: object-oriented storage system based on data deduplication[C]//IEEE 2016 Trustcom/BigDataSE/ISPA, Tianjin, China: IEEE Press, 2016: 1069-1076.

[12] 高学东,吴玲玉,武森,等.基于属性与对象关系信息的综合差异度计算[J].计算机工程,2011(22):35-38.

GAO Xuedong, WU Lingyu, WU Sen, et al. Synthesized difference degree calculation based on the relation information of attribute and object[J]. Computer Engineering, 2011 (22): 35-38.

[13] GHADDAR A, RAZAFINDRALAMBO T, SIMPLOT-RYL I, et al. Algorithm for data similarity measurements to reduce data redundancy in wireless sensor networks[C]//IEEE 2010 International Symposium on “A World of Wireless, Mobile and Multimedia Networks”(WoWMoM). Montreal, QC, Canada:IEEE Press, 2010:1-6.

[14] WU Zhibin, ZHONG Lin. Weight determination for MAGDM with linguistic information based on IT2 fuzzy sets[C]//IEEE 2016 International Conference on Fuzzy Systems (FUZZ-IEEE). Vancouver, BC:IEEE Press, 2016: 880-887.

[15] XIAO Lingfang. Risk assessment of enterprise accounting information system based on analytic hierarchy process[C]//2015 Seventh International Conference on Measuring Technology and Mechatronics Automation. Nanchang, China: IEEE Press, 2015: 954-958.

[16] WEI Le, YUAN Zhaoxiong, YAN Yuanyuan, et al. Evaluation of energy saving and emission reduction effect in thermal power plants based on entropy weight and PROMETHEE method[C]//2016 Chinese Control and Decision Conference (CCDC). Yinchuan, China: IEEE Press, 2016: 143-146.

(编辑:张 诚)

猜你喜欢
阈值差异环境
相似与差异
长期锻炼创造体内抑癌环境
一种用于自主学习的虚拟仿真环境
孕期远离容易致畸的环境
小波阈值去噪在深小孔钻削声发射信号处理中的应用
找句子差异
环境
基于自适应阈值和连通域的隧道裂缝提取
生物为什么会有差异?
比值遥感蚀变信息提取及阈值确定(插图)