余茂源
(云南省林业调查规划院,云南 昆明 650051)
林业大数据的内涵及应用策略研究
余茂源
(云南省林业调查规划院,云南 昆明 650051)
随着物联网、3S和移动互联网等信息技术在林业中的不断应用,林业资源数据和林业业务数据无论从总量还是种类上都已初具规模。从大数据的定义和特征入手,探讨林业大数据的定义,并对林业大数据的分布式特征、多尺度特征,海量特征、多源异构特征等四个特征进行详细阐述。在此基础上,探讨林业大数据在综合营造林管理、森林资源管理、林业灾害监控以及林业社会公众服务等方面的应用策略。
大数据;林业大数据;数据挖掘;应用;智慧林业
近年来,随着移动互联网、云计算以及物联网等新一代信息技术的全面应用,数据信息呈现爆炸性增长态势,各个领域都已经不可避免地进入到“大数据时代”,作为生态建设的基础行业林业也概莫能外[1]。目前,随着物联网、3S和移动互联网等信息技术在林业中的不断应用,林业资源数据和林业业务数据无论从总量还是种类上都已初具规模。尤其是,随着各种传感器的逐步普及,林业数据将从时效性层面进一步丰富和拓展。庞大的数据资源已经能够为林业的发展提供支持和为决策提供服务,但目前整个行业仍然存在“数据丰富,但信息缺乏”的问题,加强对林业大数据背后隐藏价值的研究已经迫在眉睫[2]。
目前,国内有部分学者对林业大数据进行了初步研究,比如蓝学[3](2015)结合大数据的发展动态和趋势,初步探讨了大数据在林业中的应用。董茜[4](2017)分析了大数据背景下的林业研究现状。然而,现有研究尚未清晰阐述林业大数据的定义及特征,同时对林业大数据的具体应用策略也缺乏深入探讨。基于此,本研究试图从大数据的定义和特征入手,探明林业大数据的内涵,在此基础上,进一步分析林业大数据的具体应用策略,以期为后续研究和具体实践提供理论指导。
“大数据”这个术语最早可以追溯到Apache.org的开源项目Nutch[5]。但是大数据真正被大家所熟知还是在近几年。由于互联网的快速发展,自2009开始,“大数据”成为互联网行业中的流行词汇,并引起了学术界的广泛关注和深入研究。从此各行各业都开始着手探究大数据的内涵和作用。
尽管目前很多学者对大数据进行了定义,但是目前尚未形成统一的定义。在《大数据时代》一书中,作者将大数据描述为不用随机分析法,而采用所有数据进行分析处理的数据集合[6]。麦肯锡将大数据定义为,在一定时间内无法用常规软件工具对其内容进行抓取、管理和处理的数据集合[7]。
目前,虽然大数据的定义尚未统一,但是业界对大数据的基本特征已经达成共识。业界普遍认为,大数据具有四个特征[8],分别是数据量大(Volume)、数据类型多(Variety)、数据处理速度快(Velocity)以及数据价值密度低(Value)。现有学者大多基于大数据的基本特征,对大数据的定义和内涵进行丰富,因此大数据的基本特征能够帮助我们深入理解大数据的内涵。
2.1 林业大数据的定义
编制《中国林业大数据发展战略研究》、颁布《关于加快中国林业大数据发展的指导意见》以及中国首个林业大数据中心落户云南等重大事件,都已经显示出我国对于发展林业大数据的力度和决心。《关于加快中国林业大数据发展的指导意见》中将林业大数据比喻为:生态变迁的“收集器”、生态发展的“显示器”、生态治理的“指南针”、经济发展的“变速箱”[2]。
然而,目前学术界对于林业大数据的研究仍然处于初步阶段,相关研究成果较少。其中孙伟(2014)关于林业资源数据分析是为数不多的研究成果。作者认为林业资源数据是在一定时空范围内,利用各种数据采集、传输、交换、汇集、处理、存储和分析等技术手段,对森林、荒漠、湿地及生物多样性资源进行系统观察、测定分析和评估而获取的数据集合[9]。
结合大数据的定义,本研究将林业大数据定义为:通过传感器、智能化设备、监控设备等各种数据采集渠道收集到的结构化、半结构化和非结构化的海量林业资源数据和林业业务数据的集合。本质上来说,林业大数据是大数据理念、方法和技术在林业行业的实践。因此,对于林业大数据的认识,不能简单地将其看作是传统意义下信息系统的管理对象——信息和数据,而应该将其看作为一种基础性资源。这种基础性资源的价值不在于其本身,而是基于对大数据的挖掘以数据服务的方式为林业发展和管理提供决策支持。
2.2 林业大数据的特征
由于目前关于林业大数据的定义尚未形成统一认识,因此,笔者试图效仿大数据定义的发展模式,对林业大数据的基本特征进行研究,以期帮助学术界和实业界加深对林业大数据本质的认识和理解。笔者认为,林业大数据具有以下四个特征:
(1)分布式特征。由于我国林业资源分布广阔,而林业大数据是对林业资源时空特征和演替过程的描述,导致了林业大数据天然地具有分布式特征。同时,在林业资源管理过程中,我国林业部门多以行政区划结合林业区划为单位,各个单位独立开展林业资源数据的采集和管理工作,因此林业大数据的采集、存储、更新和维护都是分布于各级、各地的林业数据库,从而在物理上进一步使林业大数据具有分布式特征。此外,由于各个地区数据采集口径以及数据存储方式等都存在一定的差异,较难将全国的林业数据进行统一的集中管理和分析。
(2)多尺度特征。尺度是林业大数据表达的一种非常重要的因子。林业大数据多尺度特征主要表现为空间多尺度和时间多尺度。具体来说,空间多尺度主要是指部分林业数据的表示综合了地理空间真实特征和过程。也就是说,由于林业资源分布广泛,因此对林业大数据监控所产生的林业大数据与空间位置紧密相关。时间多尺度主要是指部分林业数据的表示综合了林业资源演变的时间特征。也就是说,林业资源的生长和消耗有其自身的自然节律性,因此对林业资源监控所产生的林业大数据与时间紧密相关。由于对林业资源监控的周期、要素有所不同,导致了林业大数据具有非常明显的时间多尺度特征。
(3)海量特征。林业大数据的海量特征主要表现在两个方面:一方面是数据本身的海量特性。不同于普通的关系型二维数据,林业大数据更多的是二维或者三维的时空数据,比如矢量地图数据、遥感影像数据等,这就直接导致了林业大数据本身具有一定的海量特性。另一方面是数据来源丰富导致的海量特性。与其他大数据类似,林业大数据的来源较为丰富。随着移动互联网技术、3S技术以及物联网技术等技术的不断应用,林业大数据的来源和种类不断增多。同时,地理位置服务数据、短报文数据、社交媒体数据也已经成为林业大数据的重要来源,从而进一步增加了林业大数据的来源,使得林业大数据具有明显的海量特征。
(4)多源异构特征。由于林业大数据来源呈现多样化特征,导致了林业大数据具有明显的多源异构特征。从大的方面来说,林业大数据来源两个方面:一个是与林业资源密切相关的渠道,一个是与林业资源间接相关的渠道。其中直接密切相关的渠道,可以收集到矢量地图数据、遥感影像等传统数据。而间接渠道主要是从一些新兴媒体,社交网络、博客等收集到的与林业资源间接相关的信息,比如对于林业资源的评论、林业舆情等。由于林业大数据来源丰富,而不同数据来源中的林业大数据格式有所差异,导致了结构化数据、半结构化数据以及非结构化数据大量并存,同时数据语义表达也相差较大。
通常来说,林业业务较为丰富,主要包括林业资源监控与管理、综合营造林管理、森林资源管理、林业灾害监控以及林业社会公众服务[9]。其中,由于林业资源监控业务的开展而形成的林业资源数据能够为其他业务的开展提供辅助决策支持,因此,本部分主要探讨林业大数据在综合营造林管理、森林资源管理、林业灾害监控以及林业社会公众服务等方面的应用。
3.1 在综合营造林方面的应用
造林是通过人工方法营造森林的简称,是为维持、改进和扩大森林资源,实现林业和社会可持续发展的重要手段和措施之一。然而,如何科学造林,一直是林业工作者的关注重点。通常来说,造林不仅需要满足适地适树原则,还需要考虑采取措施提高造林质量。基于林业大数据挖掘,可以为适地适树原则的贯彻提供支撑,也可以为造林质量提高措施的选择提供指导。
具体来说,基于关联分析能够挖掘发现造林地的地形、土壤、气候、植被等立地因子和适生树种之间的关系,对不同立地条件下树木生长的适宜性进行判断和预测。比如基于每个人工造林小班的自然环境和成活率的数据集,采用粗糙集理论进行数据挖掘,能够探明自然环境条件与成活率的关系,从而可以有效预测目标区域的造林成活率。
在提高造林质量方面,需要考虑密度、配置方式、树种搭配、整地方式等措施。基于林业大数据,采用关联规则算法,通过对主要造林树种之间的关系进行定性和定量分析,能够发现造林设计中整地规格和其他造林措施之间的关系、株行距和其他造林措施之间的关系以及混交比和其他造林措施之间的关系。
3.2 在森林资源管理方面的应用
森林资源信息关系复杂,导致了森林资源管理与决策较为困难。因而,基于林业大数据,采用交叉分析、关联分析、单因素分析、多因素分析等分析方法,可以很好地理清森林资源各要素之间的综合关系,得到一些隐藏在森林资源信息中的潜在、有意义的信息,进而为森林资源管理和决策提供支撑。
比如,基于Apriori算法构建关联分析的大数据模型,分析起源、权属、平均胸径、树高、年龄和郁闭度之间的关联,从而为优良种源选择提供参考。而基于历史数据挖掘可以发现在某地区与特定树种的生长密切相关的自然因素或人为管理措施,从而帮助改进培育或抚育措施。此外,以森林资源连续清查样地的地理坐标建立二维坐标系,以样地森林面积和森林蓄积为状态向量,应用二维Kalman滤波可以实现对森林资源的动态预测,以此研究森林资源动态。
3.3 在林业灾害监控与应急方面的应用
林业病虫害是危害生态安全的主要原因之一。通常来说,对森林资源进行实时监控是遏制病虫害进一步发展的有效措施。但是,由于实时监控并不能对病虫害的产生进行科学预测,因此本质上说实时监控属于一种事后措施。然而,通过对病虫害发生的历史数据进行分析,可以对病虫害的发生情况进行预测,是一种事前措施。
具体来说,基于森林地面数据、天气数据、卫星数据、航空地图遥感数据等大数据,建立林业有害生物检疫预警模型。基于有害生物检疫预警模型生成的虫情预报,可以有效地对虫情舆情进行预防。一个成功的案例是,由于病虫害的频繁爆发,加拿大地区的大片森林地区经常会出现大片的树木枯死区域。针对此问题,俄勒冈州立大学的学者发起了一个能够预防森林病虫害的大数据项目,首先通过研究发现刺激松树病虫害爆发频繁的因素有很多,例如干旱、森林大火以及天气变化等,然后采用了最新的数据分析工具和算法,以及最新采集整理的数据集,利用大规模并行计算发现和修正那些多年来对森林虫害防治的错误认识和理解,绘制了详细的太平洋西北地区森林虫害的历史地图,并对森林虫害的爆发时间、性质和规模进行了预测。
3.4 在林业社会公众服务方面的应用
林业公众服务主要是向公众提供林产品、生态文化产品等信息。在这个过程中需要关注两个关键问题:发布什么信息以及发布对象是谁。其中,在发布信息方面,需要考虑如何形象地将信息展示给公众。通常来说,基于林业大数据分析得到的结果,需要进行有效的整理和组织才能提供更加直观的帮助,这里所说的有效组织形式就是所谓的可视化模式,即选择合适的可视化模式可以将大数据分析结果清晰美观地展示出来。可视化对于林业大数据及分析结果的展示具有更加显著的作用,因为林业大数据具有时空性,而可视化技术可以有效地展示出时空性,比如具体展示森林资源的空间分布规律,以及森林资源生长和消亡的演变过程和规律。
在发布对象方面,需要实现个性化推荐。林区群众每天都能接触到各种林业信息,包括林业政策、林业市场信息、种植养护知识等。从资源配置的角度来说,林业部门应该主动、实时地将个性化的林业信息推送给相应的大众。在个性化推荐方面,大数据发挥了重要的作用。通常来说,基于林业大数据的个性化推荐具有两种分析形式:一种是对所有林业信息进行挖掘,将与某一用户关注信息相似的所有其他信息都推荐给该用户;另一种是对所有公众的偏好信息进行挖掘,将与某一用户相似的其他用户的信息推送给该用户。
随着信息技术的快速发展,大数据时代已经来临,作为生态行业的重点,林业迎来了新的发展机遇。在大数据时代,基于林业大数据的智能化决策将成为林业管理工作中的常态,而这种常态最终将加快“数字林业”向“智慧林业”的转变。可以说,林业大数据是林业产业转型升级的关键,只有林业大数据得到了有效的发展和广泛应用,林业才能实现真正的“智慧”。因此,面向林业的大数据应用,不仅仅是林业在技术水平方面的进步,更是在发展理念、发展方向以及技术路线等方面的变革,能够为未来智慧林业的发展奠定基础。
[1]刘俊,罗凡,刘人境,徐辉,严杰.大数据背景下电力需求侧管理的应用策略研究[J].电力需求侧管理,2016(2):5—10.
[2]《关于加快中国林业大数据发展的指导意见》发布[J].造纸信息,2016(9):6.
[3]蓝学,韦绪,覃德文.浅谈大数据分析在生态林业上的运用[J].经济研究导刊,2015(6):55—56.
[4]董茜.大数据时代林业研究进展[J].合作经济与科技,2017(1):24—25.
[5]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1 125—1 138.
[6]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146—169.
[7]Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity[EB/OL].http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation[2017-03-05].
[8]赵苏阳,李艳军,钱小燕,曹愈远,许振腾,乔磊,汪雷.大数据基本概念、技术与挑战[J].现代计算机:专业版,2015(8):51—54+60.
[9]孙伟,马志波,曹姗姗,符利勇.林业资源数据特征分析[J].西北林学院学报,2014(6):200—206+233.
责任编辑:富春凯
Research on the Connotation and Application Strategy of Forestry Big Data
YU Mao-yuan
(Yunnan Institute of Forestry Survey and Program, Kunming 650051, China)
With the continuous application of information technology such as Internet , 3S and mobile Internet in forestry, forestry resources data and forestry business data have been issued in both the total amount and categories. Discussing the definition of forestry big data based on the definition and characteristics of big data, and four typical characteristics of forestry big data were thoroughly analyzed in detail, including distribution, multi-scale, massive and heterogeneous. On the basis of this, we discusses the application strategy of forestry big data in the afforestation management, forest resource management, forest disaster monitoring and public service.
Big data;Forestry big data;Data mining;Application;Intelligent forestry
10.3969/j.issn.1674-6341.2017.03.006
2017-03-07
余茂源(1975—),男,广西融安人,工程师。研究方向:森林资源调查规划、林业大数据挖掘。
F29
A
1674-6341(2017)03-0017-03