周颖 徐达宇
摘 要:近年来,随着全国林业信息化工作会议的召开,我国林业信息化已经由“数字林业”步入了“智慧林业”发展的新阶段,开启了智慧林业建设的新篇章,同时也促进了我国林业物联网的发展。文章从林业物联网的概念出发,论述了林业物联网环境下的海量时空数据流所具有的多源异构性、海量性、时空相关性、动态流式性和高维性特点,阐明了面向林业物联网的海量时空数据流挖掘的关键研究内容和拟解决的关键问题,并展望了基于林业物联网时空数据流挖掘的应用与前景。
关键词:物联网;林业;数据流;挖掘
中图分类号:TP18 文献标识码:A 文章编号:2095-1302(2016)07-00-03
0 引 言
进入新世纪以来,随着信息技术及其应用的快速发展和日益普及,物联网(Internet of Things,IoT)技术开始越来越多地运用到我国林业的诸多领域。我国的林业物联网建设逐步走上了有序、快速发展的轨道,并在完善顶层设计、开展示范工程建设、进行关键技术研究、推动各地实践探索和实施标准规范建设五个方面取得了重要进展。
林业物联网是物联网技术在林业领域的应用实例,是一种通过运用各类遥感监测技术、GPS 技术、GIS 技术、传感设备和技术(如摄像头、射频识别技术、红外线和蓝牙等)感知、采集林业信息,并将这些林业信息通过各类传输网络(如因特网、 GPRS网、ZigBee无线网等)传送到后台智能平台进行综合存储和处理,最终实现林业信息智能化识别和林业资源综合化管理的网络。
本文主要从林业物联网环境下海量时空数据流的特点、面向林业物联网的海量时空数据流挖掘的关键研究内容、面向林业物联网的时空数据流挖掘拟解决的关键问题和基于林业物联网时空数据流挖掘的应用前景这四个方面进行分析,为我国林业的发展提供依据。
1 林业物联网环境下数据流特点分析
随着近几年来物联网应用规模的不断扩大,影响范围不断延伸,大规模的林业数据被收割并存储于数据中心,这些数据来自于不同的传感源,形式不一,主要包括以下几种类型:
(1)由卫星遥感、摄像设备获得的图像、影像数据;
(2)由GPS获得的地理位置信息;
(3)由各类终端感知设备获得的包括大气温度、大气湿度、土壤温度、土壤湿度、土壤pH值、光照强度、降水、风速和CO2浓度等林区环境状态信息;
(4)由射频识别、红外线和蓝牙等终端识别设备获得的记录林产品从采伐、运输、仓储、配送到销售整个物流过程的数据[1-3]。
上述这些来自多平台、多传感器的林业物联网环境下的数据流具有多源异构性、海量性、时空相关性、动态流式性及高维性特征。
1.1 多源异构性
由于通过物联网采集的林业信息来自于不同的监测平台、设备和环境,数据的形式不仅包含了图像、文本和时序数值型数据,还包括多种不同的存储形式,比如有的存储在空间数据库中,有的以专有格式或数据文件形式存储,有的是栅格形式,有的是散点形式,而有的是矢量等值线形式,从而形成了异质、异构的多源林业数据集合。
1.2 海量性
到2020年,世界上“物物互联”的数据通信业务量将是“人与人通信”数据通信业务量的30倍[4]。作为物联网家族的重要组成部分,林业物联网同样也将是数据的海洋,每一个传感器均频繁地获取新的采样数据,系统不仅需要存储这些采样数据的最新版本,在多数情况下还需要存储某个时间段内所有的历史采样值以满足溯源处理和复杂数据分析的需要。
1.3 时空相关性
林业物联网中的传感器结点普遍存在着空间和时间属性,每个传感器结点都分布于地理上具有关联性的各个位置,每个数据采样值又都有时间属性(时序性),而且许多监测对象的地理位置会随着时间变化而连续移动。这些数据普遍存在着时空相关性。
1.4 动态流式性
由林业物联网获取的采样数据序列反映了监测对象(包括林场、林作物和林产品等)的状态随时间、空间变化的完整过程。因此包含了比单个采样值更为丰富的信息。此外,采样数据序列表现出明显的动态流式特性,即随着新采样值的不断到来和历史采样值的不断处理,采样数据序列是不断流动的,这类信息流在短时间尺度内呈现出无序性和非线性性,而在长时间尺度内又具有周期性和生命性。
1.5 高维性
高维特征是指林业物联网采集的数据具有时间域、空间域和其他属性所构成的高维特征。时间特征描述地理实体的时间尺度和时态关系,空间特征描述地理实体的地理空间分布,其它属性特征则描述地理实体的质量和数量信息。
2 面向林业物联网海量时空数据流挖掘的关键研究内容
2.1 研究林业物联网环境下带时空约束的海量时空数据流综合预处理框架
林业物联网环境下的多源分布数据一个重要的特性就是时空性,即所采集的数据虽然形式不一,表达格式各异,但这些数据本身在时间和空间上存在着关联性,而在对原始数据进行有效信息提取、挖掘前,需要对这些带有时空约束的数据进行预处理。因此,需要重点研究林业物联网环境下基于时空关联和约束的海量数据流时空配准方法,并进一步构建带时空约束的海量时空数据流综合预处理框架[5]。
2.2 研究基于增量算法和概念迁移的海量时空数据流动态聚类方法
从林业物联网环境下时空数据流的特性分析中可以发现,海量性和动态流式性是其最为明显的两大特性,以往研究和实际应用中所使用的各种软聚类或硬聚类算法,针对的都是静态数据,即在一定时间范围内处理的数据量可知并有限,且聚类后各聚类簇的整体形态是固定的。而物联网环境下时空数据流会不断地快速到来。尤其当新数据流中所包含的信息随时间而产生内容上的概念迁移(Concept Drift)后,传统的静态聚类算法便无法应对这一情形。因此,研究针对动态数据流的增量聚类算法能够使新数据流不断地被快速聚类[6],并且该算法支持整个聚类簇的分布形态随新数据流内容中概念迁移而不断动态演变的过程,从而能够及时反映监测对象的新动态。
2.3 研究基于信息时效原则的时空数据流频繁模式发现方法
信息的时效性是指信息从发出、接收,到进入使用的时间间隔及其效率,在林业物联网环境下进行时空数据流的挖掘过程中,需要考虑信息的时效性对于最终挖掘结果的影响。在进行频繁模式的发现过程中,要充分考虑信息的时效性,研究基于信息时效原则的数据流动态加权方法,对不同时间段的数据流赋予不同的权重,并进一步构建基于标记→衰退→滑动窗三步骤的时空数据流频繁模式发现模型,即首先对到来的数据项进行标记,随后根据数据的信息时效性赋予其递减的权重(衰退),最后考虑到计算机内存和计算能力的有限性,采用滑动窗分批次处理时空数据流。
2.4 基于特征分析的林业物联网时空数据流的动态预测方法
林业物联网采集的海量时空数据流不应仅仅只用于反映当前的环境状态,还应根据采集的历史数据作进一步的趋势分析,获取未来监测对象发展的方向性信息。因此,根据实际应用需求,在分析所采集的历史数据特性的基础上,建立评价指标体系,研究基于海量林业物联网时空数据流的森林植被,做出林作物生长状态的综合评估及其生长趋势的可靠预测,以及林业产品市场需求趋势的动态、可信预测模型,为林业发展和管理提供决策依据。
3 面向林业物联网的时空数据流挖掘拟解决的关键问题
随着林业物联网信息采集效率的不断提高,数据的积累量越来越大,如何对这类大规模多源分布式时空数据流进行有效地挖掘,以获取蕴藏在这些原始数据中的有价值的信息,并进一步将其应用于实际的决策支持中,是当前该领域研究中面临的极富挑战性的问题。因而,在该领域的研究中主要面临和需要解决以下几个关键问题[7,8]。
3.1 基于时空约束的海量时空数据流时空配准问题
现有的林业物联网时空数据主要来源于 GPS、遥感和传感器等设备,每种设备生成的数据格式和数据形式各不相同。此外,现有的时空数据也不再局限于传统的数据形式,在文字、音频、视频和图像等多媒体数据中同样包含了丰富的时空信息。所以该领域的研究中需要解决的关键问题之一就是考虑各类数据在时间和空间上的关联性,即基于时间和空间双维度约束的林业数据配准问题。
3.2 海量时空数据流的聚类与频繁模式发现技术
林业物联网环境下的海量时空数据本质上是非结构化数据,不仅包含时序数据模型,还存在图模型。因此提出了时空数据流的增量动态聚类技术和考虑信息时效性的时空数据流频繁模式发现技术[9]。
3.3 基于特征分析的海量时空数据预测技术
由于林业物联网环境下采集的数据带有明显的时空特性,因此,该类数据的预测模型在建模过程中不仅需要考虑数据的时序性,还要将数据的空间特性也反映在模型中,并且时空数据带有强烈的非线性性和动态性,因此需要充分利用聚类与频繁模式发现结果,构建基于特征分类的海量时空数据预测技术,提升预测准确性的同时降低预测时间、空间耗费,提高时空数据的预测效率[10]。具体实现路径如图1所示。
4 基于林业物联网时空数据流挖掘的应用前景分析
通过对林业物联网环境下海量时空数据流的预处理、聚类分析、频繁模式发现,以及趋势预测这几个问题的研究,使得能够对这一类海量时空数据流进行一体化处理,即把该类数据流的各个挖掘过程整合起来,使得上一步挖掘结果可以作为下一步挖掘的前提来整体、综合利用,以发掘这些数据当中潜在的关联规则并获得林业物联网监测对象的趋势信息,从而充分、高效和全面地发掘、预测出所需的各类林业信息,以此来实现以下几方面的应用。
4.1 基于数据流挖掘驱动的林区灾情智能、即时监测与预警
从现有的统计资料可以看出,林区各种生态灾害发生的频度越来越高,灾害发生的强度和危害越来越大。种种生态灾害出现的频次呈增长态势,而林区生态灾害中,发生频次多、危害程度最严重的首推森林火灾,其次为洪涝、虫灾、低温冷害、旱灾、大风及冰雹。建立林业物联网的一个重要目的就是实现林区灾情的实时监测与预警,利用物联网各个终端传感器发回的图像、文本和监测数据等信息,基于海量时空数据流挖掘林区灾情具有智能、快速的特点,并通过实时监测、评估方法来进一步建立灾害预警模型,从而能对接下来一段时间内的林区生态指标实现综合预报,及时发现并排除灾害,将灾害造成的损失降到最低。
4.2 森林植被与林作物生长状态的综合评估及生长趋势的可靠预测
利用林业物联网所采集的海量时空数据,选择林区植被生长状态综合评价指标,构建植被生长状态评估模型,并进一步依据采集的数据来分析林区植被生长特征,建立时空数据预测模型,给出未来一段时间内的植被生长状态趋势预测方法,实现森林植被与林作物生长状态综合评估及其生长趋势的可靠预测。
4.3 林业产品物流信息的实时监控及其市场需求趋势的可信分析
对林产品在生产、运输、仓储、物流到销售各个环节所采集的数据进行分析,提出基于林业物联网技术的高效林产品物流运营模式,以提升其物流效率;同时将根据各类林产品的销售记录数据,建立可信的林产品市场需求时空预测模型,从而实现林产品的“拉动式”生产,提升林产品的市场竞争力,促进整个林业经济的健康、持续发展。
5 结 语
本文在对林业物联网环境下海量时空数据流的特点进行分析的基础上,探讨了面向林业物联网海量时空数据流挖掘的关键研究内容,即时空数据流的预处理、聚类分析、频繁模式发现及趋势预测等几大问题。通过对林业物联网采集的数据进行高效挖掘和分析,可以对林区灾情智能、即时监测与预警、森林植被与林作物生长状态综合评估及其生长趋势进行可靠预测,并为林业产品物流信息的实时监控及其市场需求趋势的可信分析提供科学的决策信息支持。
参考文献
[1]史川石.物联网在智慧林业中的应用[J].物联网技术,2013,3(12): 76-77.
[2] Borgia E.The Internet of Things vision: Key features, applications and open issues[J]. Computer Communications, 2014, 54:1-31.
[3] Anders Bj?rkc,Martin Erlandssonc,Janne H?klib, et al.Monitoring environmental performance of the forestry supply chain using RFID[J]. Computers in Industry,2011,62(8-9): 830-841.
[4] Atzori L,Iera A,Morabito G.The internet of things: A survey[J].Computer networks, 2010,54(15): 2787-2805.
[5]丁治明,高需.面向物联网海量传感器采样数据管理的数据库集群系统框架[J].计算机学报,2012,35(6):1175-1191.
[6]Yang H,Fong S.Countering the concept-drift problems in big data by an incrementally optimized stream mining model[J].Journal of Systems and Software, 2015,102:158-166.
[7]Jan Holler,Tsiatsis,Mulligan,et al.From Machine-To- Machine to the Internet of Things[M].Academic Press, Oxford,2014.
[8]胡永利,孙艳丰,尹宝才.物联网信息感知与交互技术[J].计算机学报,2012,35(6): 1147-1163.
[9]刘大有,陈慧灵,齐红,等.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2): 225-239.
[10] Gubbi J,Buyya R,Marusic S,et al. Internet of Things(IoT):A vision,architectural elements, and future directions[J].Future Generation Computer Systems,2013,29(7): 1645-1660.