董振辉,徐钰,崔东阳,韩阳
(国家林业局森林病虫害防治总站,辽宁 沈阳 110034)
林业有害生物防治信息管理系统中趋势预测功能的研发与应用
董振辉,徐钰,崔东阳,韩阳
(国家林业局森林病虫害防治总站,辽宁 沈阳 110034)
笔者参与开发了全国林业有害生物防治信息管理系统中的趋势预测功能,系统基于林业有害生物发生数据,结合数理统计原理和计算机、网络、数据库、GIS空间技术,完成自动建模过程并对林业有害生物发生期、发生量、发生范围进行预测。该功能的实现,使用户能够方便快捷地完成对辖区林业有害生物的发生趋势预测。
林业有害生物;防治;信息管理系统;趋势预测
为促进林业有害生物防治工作,国家林业局出台了一系列林业有害生物监测调查办法和相关规程,并从2003年开始,全面启用林业有害生物防治管理系统,基本实现了林业有害生物发生防治数据的采集、传输、汇总功能,近期又根据工作需要,结合互联网技术对系统进行了全面升级改造,新版防治信息管理系统涵盖林业有害生物测报、防治、检疫、药剂药械管理及有害生物普查等核心业务,进一步完善了系统功能,提升了系统的性能和安全性,尤其在利用数据对林业有害生物发生的短期预测和空间宏观分析方面做了很大改进。
作者就林业有害生物防治信息管理系统中的林业有害生物发生趋势预测、空间分析功能的研发思路、技术方法及其在生产中的实际应用进行了研究和论述,供基层业务人员在系统使用中借鉴参考。
1.1 功能需求 林业有害生物防治信息管理系统是报送林业有害生物调查数据的唯一渠道,从2003年启用以来,收集了全国包括1000个国家级中心测报点在内的近4000个林业单位的有害生物发生、防治调查数据,这些数据在时间和空间上具有一定连续性,利用大数据处理和空间分析技术,可以实现有害生物发生趋势的自动分析和图形化展示,进而在灾害的评估、决策等方面发挥作用。
1.2 管理需求 目前,全国1000个国家级中心测报点在基础设施、仪器设备、人员配备等方面相对条件较好,国家每年安排一定的运行经费用于开展监测调查工作,多年来积累了大量林业有害生物测报对象的系统调查数据,对这些数据通过系统进行分析,建立区域的测报对象预测模型,不仅可以指导基层开展精细化预测,而且能够充分发挥国家级中心测报点的辐射作用。
1.3 用户需求 建立和使用预测模型开展短期趋势预测涉及复杂的数理统计、计算机和数据库操作技术,基层测报工作者手工建立模型有很大的难度。通过系统的趋势预测功能,就可以把复杂的计算过程封装成软件工具,在实际使用过程中只需要几步简单操作就可以完成整个计算过程,解决基层用户开展精细化趋势预测中的计算方法难题。
趋势预测功能的研发,基于林业有害生物防治信息管理系统中收集的全国林业有害生物发生防治数据、国家级中心测报点调查数据及历史气象数据,这些数据作为开展林业有害生物趋势分析的关键因子,是预测功能实现的基础。
2.1 林业有害生物发生防治数据 按照目前的林业有害生物报表体系,发生防治数据主要包括寄主树种面积、应施监测面积、监测面积、低虫低感面积、发生面积(合计、轻度、中度、重度面积)、累计发生面积(合计、轻度、中度、重度面积)、同病虫新发生面积、预计成灾面积等内容,数据最小统计单元为乡镇级机构或组织,汇总报送周期为月,历史数据年度范围为2003—2016年。
2.2 国家级中心测报点调查数据 国家级中心测报点调查数据通过发生历期调查表和发生量调查表体现,发生历期调查表根据测报对象的生物学特性记录主要虫态(卵盛期、幼虫始见期、幼虫高峰期、2—3龄幼虫、蛹始见期、蛹高峰期、成虫始见期、成虫高峰期等)的发现时间;发生量调查表在发生历期调查表基础上,记录害虫的虫口密度、有虫株率,病害的病情指数、感病株率,鼠(兔)害的鼠口密度、被害株率等数据。
2.3 历史气象数据 历史气象数据收集了全国824个基准、基本气象站2002年以来的气象观测数据,记录的气象因子包括最高气压、平均气压、最低气压、平均相对湿度、最小相对湿度、累计降雨量、平均气温、最高气温、最低气温、平均风速、平均日照时数等,统计周期分旬、月、季、年4类。通过与国家级中心测报点地理坐标相匹配,获得各测报点临近气象观测站的气象数据。
在林业有害生物预测预报工作中,应用数理统计方法对灾害相关的历史数据进行归纳分析并建立预测模型是常用的预测方法。目前林业有害生物预测预报按照预测内容可分为发生期预测、发生量预测和发生范围预测,按照预测时限又可分为短、中、长期预测。系统针对每项预测内容,研发实现了期距表法、回归分析、时间序列分析、BP神经网络分析、基于空间的插值分析等几种常用的预测模型。
3.1 期距表法 期距预测法是从历期预测法的基础上发展起来的一种短、中期发生期预测方法。期距预测法是以前一虫态的发生期为起点日期,加上距后一虫态发生期的期距天数,推算后一虫态的发生期;或根据前一世代的发生期,加后一个世代的期距,预测后一个世代同一虫态的发生期[1]。
3.2 回归分析法 回归分析是确定两个或两个以上变量相关关系的一种统计分析方法。特定时期的温度、降水量、日照时数、湿度等气象因子对有害生物发生期会产生很大影响,通过回归分析找出影响有害生物发生的关键气象因子及相关系数,对发生期进行预测。回归分析根据涉及变量的多少分为一元回归、二元回归和多元回归,按不同的数据处理过程又包括一元直线回归、逻辑斯谛回归、多元线性回归、多元逐步回归等多种模型。
3.3 时间序列分析 时间序列分析是基于随机过程理论和数理统计方法,研究有害生物发生随时间变化的动态趋势,系统开发了自回归分析和灰色系统GM(1,1)模型分析两种方法。自回归分析是从线性回归衍生出来的分析算法,它应用的基础是林业有害生物发生受前一状态(虫态)的影响,并且这种影响存在一定的线性关系;灰色系统GM(1,1)模型分析基于随机的原始时间序列,经按时间累加后所形成的新的时间序列呈现的规律来揭示系统内部事物连续发展变化过程。
3.4 BP神经网络 BP神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入——输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程,在有害生物发生数据样本足够多的情况下,可以挖掘其中的内在联系,对发生趋势进行研判。
3.5 基于空间的插值分析 在理论上,空间位置越靠近已知观测点,越可能具有相似的特征值,而距离已知观测点越远,其特征值相似的可能性越小。系统中的发生数据覆盖全国县级以上所有单位,对于具有区域分布特征的林业有害生物,通过GIS特有的空间插值分析方法,可对林业生物灾害的分布范围进行初步界定。系统中使用克里金、反距离、等值面、趋势面等插值方法实现对分布范围的标记。
4.1 统计模型的实现 防治信息管理系统在开放式体系架构下,按照标准化、模块化的思路设计,系统基于J2EE技术,实现应用系统构件化开发。如表1所示,系统中用到的回归分析、时间序列分析等一般建模过程,通过java编程实现其计算过程并封装成独立的分析模型类文件进行调用;BP神经网络算法,通过JOONE(Java Object Oriented Neural Network)来实现,JOONE是sourceforge上一个用java语言迅速开发神经网络的开源项目,具有良好的逼近能力、结构简单并且计算速度较快。
表1 JAVA封装的分析模型
4.2 空间插值分析功能的实现 信息管理系统使用ArcGIS 10.3 for Server实现空间展示与分析功能,ArcGIS for Server提供基于Web的GIS服务,支持在分布式环境下实现地理数据管理、制图、地理处理、空间分析、编辑和其他GIS功能,具有非常强大的二次开发功能。
4.3 建模过程
a)确定拟预测的项目,如发生面积、成灾面积等。
b)初步选择预测相关因子,列出可能对预测项目产生影响的因子,如当年1—3月均温、降水、日照,上年11—12月均温、降水、日照,以及其它因子,可多选。
c)从数据库中提取数据组成数组A1。A1 列为X1,X2,…Xn,Y,其中X1—Xn为选择的因子,Y为预测项目;行为年度样本,根据预测项目和气象因子的历史数据积累情况提取出有效年度数据(表2),如果样本数过低(样本数一般不能小于5),则不具备分析条件。
表2 影响因子数据
d)筛选对预测项目影响较大的因子。应用关联度分析方法对因子进行筛选,通过设定筛选门限值Fa或指定选中最大因子数量两种方式。
e)提取选中因子组成新的数组A2。筛选函数返回因子序号,按序号提取因子组成新的数组。
f)建立预测模型。根据数据情况选择适宜的建模方法,包括线性回归预测模型、逻辑斯谛回归预测模型、灰色关联度(GM11)预测模型、自回归模型、多元线性回归模型、逐步回归模型、BP神经网络预测模型、BP神经网络时间序列分析等,对于批量预测,可指定模型的优先顺序,如果优先选择的方法能够正常生成模型则不再继续,如果方法不适用或出错继续选择下一方法,直到生成模型。
g)输出预测结果。利用上述步骤建立的分析模型对预测项目进行预测,同时输出分析过程、效果等数据,如预测方法名称、回归公式、标准误差等。
以上是软件预测分析的流程,实际操作过程中可通过参数设置指定各个环节的默认值,用户一般直接点击预测按钮即可输出预测结果,熟悉预测方法的用户则可以通过预测前修改参数值执行更精准的预测过程。
4.4 模型的应用 按照系统研发的设想,由国家级中心测报点建立主测对象在该区域的发生期、发生量预测模型,周边环境相似的地区可以直接使用该模型进行预测。这样既让国家级中心测报点积累的数据得以有效利用,又能充分发挥其对周边地区的辐射带动作用。在系统中模型的建立过程采用向导式操作,指导业务人员完成数据的准备和建模,使用者只要准备好历史资料,就可以方便地通过几步操作完成建模过程,复杂的计算由系统来完成。模型的使用更为简单,选择已建立的模型,执行预测功能,根据模型的具体参数输入当期的调查因子就能完成整个预测过程。
林业有害生物的发生是复杂生态系统的一部分,影响其发生扩散的因素很多,过程复杂,但也有一定的规律可循,应用数理统计分析方法结合大量的历史调查数据,可以开展精细化的林业有害生物发生趋势预测。本研究在全国林业有害生物防治信息管理系统中,通过标准化的统计模型建立方法,对系统多年积累的发生数据进行分析,降低了基层的工作难度,是促进基层开展精细化趋势预测的一种尝试。但由于防治信息管理系统本身侧重于对全国林业有害生物发生防治情况的统计,对发生期、发生量等系统调查指标未作强制要求,而且数理统计模型自身也存在一定的局限性,在全国大范围开展精细化趋势预测易带来灵活性、可选择性不足的问题。在今后工作当中,可以考虑从以下几方面开展进一步研究:一是在调查手段上进一步开展实用技术研究,应用物联网、模糊识别、移动互联网等技术实现对有害生物的自动连续监测,为大数据挖掘分析提供数据基础;二是进一步改进调查方法,优化调查内容,突出关键时期的关键影响因子,减少价值较低的面上调查,降低调查难度,提高人工调查数据质量;三是充分发挥国家级中心测报点作用,选择有条件的站点开展主测对象的系统调查,总结出区域有害生物发生规律,建立相对成熟的预测模型,辐射到周边区域;四是进一步完善基础数据库,丰富森林资源、有害生物生活史、监测历期、寄主、分布规律、调查方法等信息;五是进一步优化分析方法以弥补现有分析方法的不足。
[1] 国家林业局森林病虫害防治总站.林业有害生物监测预报技术[M].北京:中国林业出版社,2013.
[2] 国家林业局植树造林司,国家林业局森林病虫害防治总站.森林病虫害监测预报方法及应用程序[M].哈尔滨:东北林业大学出版社,2002.
[3] 郭翠翠.基于神经网络的数据挖掘方法研究[D].武汉:武汉理工大学,2007.
[4] 董振辉,于治军,高薇,等.森林病虫害管理信息系统的开发及应用[J].中国森林病虫,2006,25(5):36-38.
Developmentandapplicationofforecastfunctionintheinformationmanagementsystemofforestpestcontrol
DONG Zhenhui,et al.
(General Station of Forest Pest Management,State Forestry Administration,Shenyang 110034,China)
The author participated in the development of forecast function in the information management system of forest pest control in China.Based on the occurrence data of forest pests for many years,and combined with mathematical statistics principle,computer,network,database and GIS spatial analysis techniques,the system built the forecasting model automatically and predicted the occurrence period,occurrence amount and occurrence range of forest pests.This function will enable users to forecast the occurrence trend of forest pests in the area quickly and easily.
forest pest;control;information management system;trend forecast
2017-02-27;
2017-03-20
国家生物安全关键技术研发专项“生物安全监测网络系统集成技术研究”(2016YFC1200700);林业公益性行业科研专项“全国林业生物灾害精细化预报及管理基础应用研究”( 201404410)
董振辉(1976—),男,辽宁朝阳人,高级工程师,主要从事林业有害生物防治工作,E-mail:lndzh@163.com。
S763.305
A
1671-0886(2017)05-0009-04
(责任编辑 李计顺)