张 屹,陈立军,蒋慧勇
(广州大学华软软件学院,广东 广州 510990)
大规模传感器网络用于数据收集越来越成为趋势,虽然它们代表了新一代的传感器网络,但它们的使用受到许多限制,包括对现有网络扩展方法的适应性。使用大规模传感器网络需要解决两个重要的挑战:传感器能耗的最小化以及网络寿命的最大化。
WSN是一个Ad-hoc网络(Ad-hoc网是一种多跳的、无中心的、自组织无线网络,又称为多跳网(Multi-hop Network)),由一组传感器节点组成,随机固定或分散在给定的地理区域内,通过无线链路进行通信,以自主收集、处理和传输其环境中的数据到另一个特殊节点(被认为是集合点,也称为接收器)。传感器节点操作的地理区域称为感兴趣的区域[1],在WSN中,传感器节点能够自组织地收集有关其部署环境的信息,收集的数据的传输可以周期性地或基于事件地完成,这取决于所实现的应用的性质。接收器是具有两个或更多网络接口的节点,其充当WSN和最终用户的网络(例如局域网或因特网)之间的桥接器。用户可以经由接收器向网络中的其他节点发送请求[2]。
大数据是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,必须选择另一种方式来处理它。大数据的显著特征即“5V”:
(1)大量化(Volume):非结构化数据的超大规模,占总数据的80%~90%,比结构化数据增长快10~50倍,是传统数据仓库的10~50倍。
(2)价值化(Value):大数据中含有大量的不相关信息,数据价值密度相对较低,如何通过深度复杂分析(机器学习、人工智能、传统商务智能)等方法来挖掘数据价值是需要解决的问题。
(3)多样化(Variety):大数据具有异构和多样化的特点,存在很多不同的形式,如文本、图像、视频、机器数据等。
(4)快速化(Velocity):实时分析而非批量式分析,数据输入、处理与丢弃的效果立竿见影而非事后见效。
(5)真实性(Veracity):大数据中的内容是与真实世界中的事件息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。
在工业和研究应用中已经提出了许多关于大数据的技术,鉴于其特点,大数据问题与商业智能问题不同,研究从大数据中提取知识的过程分为三个阶段:存储、处理和结果利用。从大数据中使用LS-WSN来收集、处理和利用知识的过程是一种新兴趋势。
WSN的数据收集基于定义明确的体系结构,真正的问题在于选择最佳架构。本节将介绍已有文献中提出的不同体系结构,以便检测与大规模WSN兼容的体系结构。已有专用于数据收集的网络架构[3]主要围绕两种方法构建:一种基于静态网络,另一种基于移动网络。
这是一些文献中常遇到的经典方法,它包括在感兴趣的区域中部署一组传感器以收集信息,在此体系结构中,所有网络组件都是静态的,另一方面,网络的部署可以通过两种方式实现:确定性和随机性。
3.1.1 静态接收器和静态传感器架构
该架构由大量传感器组成,能够以自主方式收集和传输环境数据,这些传感器节点的位置不一定是预定的,它们可以随机分散在感兴趣的区域,这种类型的体系结构的特征在于高密度,以便在任何两个网络节点之间找到至少一条路径。此外,该架构的主要缺点之一是缩短了网络的寿命。
3.1.2 具有传感器节点和多个静态接收器的架构
与以往架构不同,具有传感器节点和多个静态接收器的架构(参见图1),可以将网络中的接收器数量相乘以延长网络的寿命,然而,从接收器跳跃到传感器节点的电池耗尽问题仍然存在。这种架构的传感器节点,即一个接收器与另一个接收器的选择,在这种架构中仍然是一个挑战。
图1 具有传感器节点和多个静态接收器的架构
为了最大化网络生命周期并减少无线传感器网络中的延迟,现有的一些研究已将移动性引入无线传感器网络。无线传感器网络中的移动性具有许多优点,包括良好的连接性、降低部署成本、可靠性强和能效高。虽然移动性在增加网络寿命方面带来了显著的好处,但它对传感器网络提出了若干挑战,包括接触检测、面向移动性的电源管理、可靠的数据传输、QoS、位置和能耗[4]。
3.2.1 静态接收器架构和移动传感器节点
该架构具有传感器可移动的特殊性,由于传感器是移动的,这种架构大大减少了要部署的传感器的数量,架构中的通信是直接的,有助于保持良好的网络覆盖。此外,这种架构允许传感器平衡消耗能量,并且接收器收集的数据量也很大。
3.2.2 具有移动接收器和静态传感器节点的架构
该架构中所有节点都是静态的,而接收器在此处是移动的。一旦接收器到达给定的传感器节点并且该传感器检测到接收器的存在,就完成数据收集。该架构有利于更好地连接到感兴趣区域中部署的WSN。
3.2.3 具有移动接收器和移动传感器节点的架构
该架构具有与移动接收器和静态传感器节点架构相同的优点,架构已在多个科学和工业研究项目中实施,例如,该架构作为了肯尼亚斑马跟踪项目的一部分实施:这些传感器部署在从Sweetwaters Reserve到肯尼亚中部Mpala的斑马上,接收器位于车辆上,该项目是环境监测领域开展的首批研究之一,同时考虑了节点和接收器的移动性。
3.2.4 具有传感器和多个静态接收器的架构
该架构与目前提供的所有架构不同,它包括使用具有高密度传感器节点的多个接收器,传感器节点收集的数据通过其中一个网络接收器传输给最终用户。这种架构的最大问题在于难以选择接收器。该方案提出了多对多架构中的路由优化解决方案,该提案也存在缺乏进化的明显问题,实际上,如果传感器网络增长,为了不再陷入与单宿架构相同的问题,笔者将不得不添加无法自动完成的接收器。此外,该解决方案仍然不允许最终用户和传感器节点之间的直接连接。
3.2.5 具有传感器和多个移动接收器的架构
该架构几乎与3.2.4节所提架构相同,不同之处在于接收器是移动的,该解决方案可以将多个移动接收器放置在单个WSN中。该架构的一个重要问题是难以对传感器收集的数据进行路由。
3.2.6 混合架构
此架构采用多链路架构的解决方案,在数据收集中使用多个移动接收器而不是静态接收器,WSN的生命周期可能很长。其他具有多个移动接收器的架构专注于减少传感器消耗的能量,或者最大化全球网络的寿命,但这些建议通常缺乏可扩展性。实际上,如果传感器网络的大小增加,则应避免具有单个接收器的架构的问题。此外,该解决方案不允许用户和传感器之间的直接连接。
在LS-WSN的背景下,在广泛感兴趣的领域中部署的传感器密度也很高的情形下,即使移动性带来的优势多于静态传感器网络,如果这种移动性位于传感器节点的一侧,则会减少要部署的节点数量,可以说这些架构也不适合LS-WSN。无论传感器和静态接收网络在能量方面消耗多少,它们都可以随着网络的扩展而进行调整,真正的挑战仍然是该网络中能耗的优化。
点对多点通信是通信领域的术语,指的是通过一种特定的一对多的连接类型的通信,从单一位置到多个位置提供多个信道。点对多点经常缩写为P2MP、PTMP或者PMP。点对多点系统已经被设计为单、双向皆可的系统。一个天线或天线阵对多个接收天线广播且系统是时分复用的就允许反向信道通信。该技术应用在LS-WSN,并将网络分层,可解决大规模无线传感网络的能耗问题以及传输延迟问题。
将节点捕获的数据传输到网络中,需要路由,路由是在功耗方面找到成本有效路由以便将数据从传感器节点传输到接收器的过程。接收器可以通过Wimax、LTE、卫星或其他宽传输系统连接到远程用户,用户可以处理对网络中其他节点的请求,指定所需数据的类型并通过汇聚节点对数据进行收集[5]。LS-WSN中的路由仍然是一个非常活跃的研究领域,并且已经提出了两种路由协议:基于网络结构的路由协议和基于特征的路由协议。
路由协议根据网络结构分布,在数据路由过程中起着非常重要的作用,基于网络结构的路由协议主要有三类:平面路由、分层路由、基于位置的路由。
(1)平面路由:也称地位平等路由,这里的所有传感器节点都有相同的任务要执行,这是WSN中数据路由使用的第一种方法。其优点之一是具有简单性,因此可以在不需要额外成本的情况下建立通信,其中每个节点仅需要来自其直接邻居的信息;缺点是靠近接收器的节点的能量资源耗尽,因为朝向后者的所有业务都必须通过它们。
(2)分层路由:这种方法基于簇(公共区域)的形成,原则是将集群中每个节点收集的数据路由到其区域的头部,即簇头(CH),在处理它们的公共部分之后,将它们转发到下一个目的地(如果CH不能直接到达站点,基本信息被路由到下一个区域负责人)。优点是通过最小化在网络上传播的消息的数量来减少通信和能量成本,因为CH对集群的数据应用集合功能,这使得可以组合它们,缺点是随着网络规模的增加,CH选择过程变得至关重要且资源贪婪。
(3)基于位置的路由:识别聚集区域上的传感器节点的地理位置,对于WSN中的数据路由机制是至关重要的。该位置信息允许计算传感器位置以及它们之间的距离,以构建源节点与其目的地之间的最短路径。这种路由方法更节能,因为它使用随机或概率方法分配传感器节点来搜索路径,另外,节点的位置使得可以仅向这些区域广播请求并避免它们在广播模式中的扩散(全局扩散到所有节点),从而显著减少传输的数量。缺点是需要为传感器节点配备一个消耗大量能量的卫星跟踪系统,例如GPS。
路由协议根据它们实现的功能进行分类,这些功能基于数据路由、路由选择、路由发现和交替路由。
图2给出了LS-WSN中数据收集的主要步骤。控制消息的传播通常通过泛洪控制方法和广播方法来完成。最后,数据传输步骤依赖于控制消息传播步骤记录的知识,以通过采用平面路由、分层路由或基于位置的路由方案来实现数据收集。
图2 LS-WSN中数据收集的流程图
随着传感器越来越小型化和集成化,LS-WSN中出现了一种新的传感器网络范例,这些网络基于一组节点的协作,以在其部署的环境上执行各种操作,例如监视和数据收集。术语“大规模”指的是在具有传感器高密度的大区域上部署网络,因此,应用在所谓的小型WSN的所有技术和方法都不能直接在这些网络上使用,它们必须进行修改以适应网络范围的扩展。通常,传感器是资源有限的设备,其能量资源和传感器在大多数情况下部署在难以到达的区域中,使得更换电池变得困难或不可能。能源管理是增加传感器网络持续时间的战略问题。
尽管WSN已经在许多应用程序中使用,但数据收集是WSN的主要活动,无论是否是LS-WSN,都需要寻找最大化数据收集的解决方案,以最大限度地减少传感器的电源能耗。在传感器的所有基本功能中,通信是最耗能的活动,这种能耗在很大程度上取决于通信距离,实际上,为了减少这种消耗并延长传感器的寿命,并因此延长网络的寿命,近年来已经开发了几种技术和方法,在大多数情况下,这些方法放宽了若干约束,例如延迟、覆盖范围和QoS,以及网络的体验质量(QoE),有利于延长网络生命周期。
LS-WSN中数据收集应用程序指定的要求也会导致一些问题。其中,WSN覆盖是传感器网络部署中的一个基本问题,必须确保在给定的感兴趣区域中,传感器部署必须覆盖可接受的信号范围,尤其是对于某些WSN的应用。此外,在某些情况下,传感器应位于特定位置,以便更准确地收集数据,这一事实对于部署在飞机中的工业3D传感器网络或传感器非常重要。对于不同类型的数据,例如振动、温度、运动和湿度,获取数据的方式和速率可能不同,如果处理不当,这些问题会导致能量消耗不平衡,从而导致电力浪费和网络寿命缩短。将数据传送到接收器同时最小化数据丢失率也是一个挑战。此外,在网络结构方面,与基于多点通信的聚类技术相结合的分层网络似乎是LS-WSN的适当解决方案,这些技术减少了所收集数据的路由中的节点内传输距离,与直接通信相比,这在能量消耗方面是经济的,也就是说,每个传感器节点在没有中继的情况下直接将这些数据路由到接收器,相比之下,聚类导致比平面结构更高的延迟,此外,在这种类型的架构中,最常见的问题称为接入点问题,也就是说,与其他传感器节点相比,靠近接收器的传感器节点正在快速耗尽其能量,因此,网络覆盖率受到影响,接收器断开的风险增加。
为了克服多点通信的缺点,其他工作建议增加网络内的接收器数量,因此,WSN可以有几个静态接收器,在这种架构中,通常与其他传感器节点相比,这些接收器具有更多的硬件资源,它们用于从其他传感器节点收集数据,并减少传输中消耗的能量,然后通过互联网或卫星连接将数据从接收器发送给最终用户。然而,接收器的最佳部署问题仍然是一个大问题,因为很难选择正确的位置来部署接收器以平衡节点和接收器之间的交换,即使静态接收器部署在最佳位置,仍然存在接入点问题,即接收器附近的节点消耗更多功率,如果周围的节点耗尽电池,则可以将接收器与其断开。因此,接收器的最佳位置确保了对感兴趣区域的良好覆盖,但不能永久覆盖。
此外,存储和计算来自LS-WSN的大量收集数据的问题需要更多关注,有鉴于此,一些公司,如诺基亚和苹果,在其手机和互联网上的其他智能设备中集成了许多传感器,导致每年收集数PB的数据。当然,一些分布式数据库解决方案,如Google的Bigtable、亚马逊的Dynamo、Windows的Azure存储和Apache Hadoop,也可以实现大量数据的存储。但是,除非这些大数据与编程模型(如Mapreduce)相关联,否则现有的分布式数据库解决方案无法处理来自LS-WSN的传感器生成的大量数据。不幸的是,许多工作都集中在传感器的互连和节能WSN上,LS-WSN中的大量数据收集、存储和处理方案,仍然是一个重要的研究方向。
无线传感器网络的应用前景丰富多彩,在大数据环境中使用这些网络表明:这些网络能够克服固有约束以满足某些要求。在大数据中,物联网不断产生的异构数据集可以达到传统系统无法捕获、管理和处理的程度,鉴于其特性,这些数据对于LS-WSN的采集和处理是一个有趣的挑战。为了更好地解决大数据收集的问题,本文首先分析了无线传感网络存在的问题,如传感器部署、能耗问题、路由问题、数据收集和传输问题;然后,提出了LS-WSN大数据收集架构、数据传输方案以及点对多点通信的分层网络;此外,还讨论了LS-WSN中大数据收集面临的挑战,以激励和指导未来的研究人员。