杨健鹏, 罗泽, 张应明
1.中国科学院计算机网络信息中心, 北京 100190
2.中国科学院大学, 北京 100049
3.广东车八岭国家级自然保护区管理局,广东 始兴 512526
土地的利用和演变对人类的发展至关重要,它涉及生活中的方方面面。土地利用方式多种多样,包括耕地、草地、灌木、森林、城市用地、自然保护用地、旅游休闲等。土地在演变过程中存在着很多不确定性,一般受自然、社会、经济文化、政治等多种因素的影响[1-2]。在我国当前的发展进程中,生态建设和发展成为了必须要重视和解决的一项工作,我国建设的自然保护区在生态保护工作上起到了显著作用。当前我国在自然保护区建设中面临的很多问题,包括水土流失、土地荒漠化、生物多样性下降、淡水和湿地生态系统受损等环境问题,所以对生态保护区内的土地演变的研究也愈发重要。研究土地演变过程有助于正确把握土地发展过程、保护自然资源及动植物资源生物多样性。
元胞自动机(Cellular automaton, CA)是一种在时间、状态、空间都处于离散状态的网格式模型,并且模型的时间和空间不独立存在,两者相互作用,存在着因果关系。从提出至今,它常被用应用在计算机科学、物理学、数学以及系统科学等多个学科的交叉领域,CA 的这种特性使其具有强大的空间运算能力,研究人员常用它来计算和模拟复杂模型系统。基于CA 和土地利用演变的特点,常用CA 来模拟土地利用的演变过程[3]。在采用CA 模拟土地演变过程中,核心是用地转换规则的获取,转换规则是演变过程中土地自身特点以及空间变量等相互作用的结果。一个合适的转换规则能够很好的揭示土地利用变化过程的特点,提高模拟的精度[4],更好的研究土地的变化规律,为城市发展以及生态保护区动植物的发展提供有效的指导意见。20 世纪90年代以来,越来越多的学者提出CA 模型来进行土地利用变化的模拟。在国外,White 等长期致力于元胞自动机模型的研究,多次采用该模型进行土地利用变化的预测和模拟[5],Wu 和Webster 提出采用多准则估计方法来计算土地转换概率来预测土地利用变化[6],Jenerette 利用经验和改进的遗传算法作为转换规则提出基于马尔可夫链的元胞自动机模型来预测土地利用变化[7],国内有黎夏、叶嘉安、黎华等提出基于遗传算法[8],粗集[9],支持向量机[10],人工神经网络[11]等转换规则的获取方法。近年来,人工神经网络在各个学科中的作用不断展现,通过人工神经网络可以对复杂的系统进行模拟,自动学习系统中的参数,无需人工修改和定义参数,简化了运算成本[12-14]。黎夏、叶嘉安提出基于ANN 的方法来换取转换规则并且与CA 相结合的模型[15],模型结果精度较高。随后有学者在该模型的基础上研究,提出一系列改进方案,包括白新萍等对元胞自动机中邻域的改进,研究不同的邻域设置和定义方式对模型的影响[16],刘明皓等提出新的转换阈值获取方式并且综合邻域改进来提升模型精度[17]。传统ANNCA 在自动获取转换规则以及土地利用演变模拟简单方便,准确度较高,但是该模型一般采用两个时期的土地变化来进行模拟预测,无法通过多个时间段综合数据进行分析,存在一定的不足。针对这样的不足,本文提出采用基于LSTM 的循环神经网络(RNN)的转换规则来计算土地的转换概率,并且设置不同的转换概率阈值和随机变量进行实验,利用车八岭2005-2017年的土地利用变化数据进行模拟,验证改进后的模型效果。
针对传统ANN-CA 模型的不足,本文提出采用基于LSTM 的RNN-CA 模型,在该模型中,通过对土地数据进行处理,以元胞作为基本单元,通过RNN 对土地利用变化以及空间变量进行训练,得到土地利用的转换概率,然后通过校验模型设置随机变量和转换概率等参数,得到模拟结果,将模拟结果与真实年份的土地利用数据做对比验证,寻求模拟精度较高的参数组合。模型结构如图1所示。
数据处理作为实验前期的准备工作,对于实验结果有重要作用,数据的处理主要采用ArcGIS 软件。该软件是一款强大的地理信息数据处理平台,通过该软件主要实现数据的可视化,使数据以图表形式展示,保证所有数据格式一致且处于同一个地理坐标系。
实验中将土地利用类型分为4 类,分别是草地(包括裸地)、建筑(包括耕地)、水体、森林。根据研究构建14 个空间变量作为土地变化的驱动因子,在实验前期主要进行以下几步数据的预处理:(1)统一数据的投影,坐标系以及分辨率;(2)通过距离计算和邻域分析等构建空间变量;(3)对数据进行标准化处理并且完成抽样处理。神经网络输入层数据的标准化采用常用的min-max 标准化(Minmaxnormalation)对原始数据进行线性变换,是结果落在[0,1]区间,转换公式如式(1)所示:
其中x1,x2,...,x3表示某一栅格对应的各个属性值。
通过神经网络训练的数据通常鲁棒性高,具备并行处理能力以及很强的容错能力,这样的特性满足转换规则的要求。该模块通过神经网络来获取转换规则,以下是传统人工神经网络和基于LSTM 的循环神经网络两种模型的计算过程。
(1)传统人工神经网络
每个栅格单元都有n个属性变量,即对应神经网络输入层的数据,可以表示成式(2)
隐藏层计算完以后将结果输出到下一层,其中隐藏层的响应函数为式(4),
输出层在激励函数的作用下,得到输出值,即转换概率,同时由于土地变化存在的随机性和不确定性,在得到输出概率后,为了模拟不确定因素的干扰,通过在结果中加入随机扰动,使结果更接近真实值。其中随机干扰用Z表示,公式如式(5)。
其中rand的值在[0,1]随机产生,γ参数用来控制随机变量的范围。所以最终输出信号可以表示为式(6)。
图1 RNN-CA 模型结构Fig.1 Model structure of RNN-CA
(2)基于LSTM 的循环神经网络
LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题,是一种特殊的RNN。传统的RNN 每一步的隐藏单元执行的是一个tanh 或者ReLU 操作,LSTM 在RNN 的基础上进行改进,其与传统RNN 的区别在于,LSTM 中结构比较复杂,模块内还包括4 层结构,3 个Sigmod 层以及一个tanh 层[18]。如图2为基于LSTM 的RNN 结构图。
图2 基于LSTM 的RNN 结构图Fig.2 RNN structure chart based on LSTM
LSTM 输入输出的计算过程如图3所示,可以看到LSTM 有三个输入和两个输出,三个输入分别为其中表示当前网络的输入值,表示上一时刻的输出值,表示上一时刻的状态。两个输出分别为其中表示当前时刻的输出值,表示当前时刻状态。LSTM 输入输出的计算过程如图3所示,公式如下列所示:
图3 LSTM 输入输出的计算过程Fig.3 Calculation process of input and output of LSTM
元胞自动机的组成元素包括元胞、状态、邻域以及转换规则,通常采用式(8)来作为元胞自动机的通式。
在本文中元胞自动机的元胞为像元,每期的土地数据数据需要设置成相同像元大小,一个像元代表一个元胞,元胞状态为四种土地利用类型,邻域状态代表每个像元邻近像元的土地利用类型。采用基于LSTM 的RNN 作为转换规则得到不同土地类型的转换概率来预测下一时刻的元胞变化状况,以此预测土地利用变化趋势。其中不同类型的邻域对于预测效果会有不一样影响,本文采用7×7 的邻域类型。
模型校验模块主要功能是对土地变化转换概率阈值以及随机变量γ进行设置和调整,增加模型在训练中的精确度。通过设置不同的参数,找到误差最低的参数组合用于模拟模块[19]。
广东车八岭国家自然保护区位于始兴县东南部,东面与江西全南县交界,地理坐标24°40′29″~24°46′21″N,114°07′39″~114°16′46″E,面 积7545km2。车八岭保护区在1981年成立,并于1988年被确定为国家级自然保护区。保护区地处南亚热带向中亚热带的过渡区域,拥有保存较完整的中亚热带常绿阔叶林,区内气候温暖湿润,日照充足,分布着丰富的动植物资源。
研究采用的数据为车八岭自然保护区2005-2017年的地理数据。图4为2008、2011、2014 以及2017年的土地利用现状图。
图4 2008-2017 土地利用现状(实际情况)Fig.4 Land use status from 2008 to 2017
根据研究发现影响土地利用变化的因素主要包括距离因子、邻域土地利用类型、社会影响因素以及自然属性。通过将同类型相关性较强的因子进行剔除和合并后共选取14 个空间变量。获取方法如下:(1)距离变量:根据已有的矢量的生物防火林带、保护区内基站、管理站、管理局、管护点的等点图层,利用ArcGIS 计算出距生物防护林带距离、距各个管理点的距离、距保护动植物区的距离;(2)邻近现有土地类型:根据实验需求,将邻域窗口设置为7×7;(3)自然属性:主要包括保护区的高程数据,坡向以及坡度数据。其中高程范围在318-1219m 之间,高程数据对植物的生长具有十分显著的影响。坡度对区域的物质与能量的交流和转换方式有较大影响。坡向决定了某一区域接受太阳辐射以及地面水分量值的变化程度。另外还包括保护区2008-2017年的冰灾影响以及该区域的植被指数,这些自然数据对保护区土地利用变化都存在影响;(4)社会因素:人类活动影响,人口的分布以及人类活动的影响对于区域产业的发展有很大影响,这些因素都会间接影响土地利用变化。表1为模型采用的空间变量。
神经网络模型均采用3 层网络结构,第一层是输入层,总共14 个神经元,对应着14 个空间变量,第二层为隐藏层。对于3 层神经网络,隐藏层的神经元数目至少为2n/3(其中n 为输入层神经元个数),本实验中的将隐藏层数目设置为10,第三层对应输出层,神经元个数为4,输出对应着其他土地利用类型转换为其他土地利用类型的转换概率。在隐藏层神经元个数选择时,通过设置10、11、12个神经元个数,当个数设置为10 时,网络的训练误差最低,所以在模拟时采用的神经元个数设置为10 个。
表1 模型采用的空间变量Table 1 Spatial variables used in the model
神经网络模型确定好以后,利用该模型进行训练。首先对输入的空间变量数据进行随机抽样,然后将抽样后的数据输入到神经网络中。训练中对2008、2011、以及2014年的土地利用栅格数据进行抽样,并且将数据按照时序排列,输入到RNN 模型中进行训练。经过训练,当神经网络训练迭代超过100 次以后基本收敛(如图5所示)。
神经网络在训练完成以后,输出层的神经元将会输出每个栅格转化为其他土地利用类型的概率,得到转换概率以后,实验采用最大概率转换原则,选择概率最大的土地利用类型概率值,将该概率与设置的转换概率阈值比较,如果大于阈值,则土地利用类型发生改变,否则土地利用类型保持不变。本实验通过设置不同的转换阈值(分别设置为0.9、0.8、0.7)以及不同的随机变量参数γ= 1、2、3 进行实验,不同的模拟结果对比如表2所示。本文将2017年土地利用变化作为实验的模拟数据。
表2 RNN-CA 模型不同参数组合训练效果Table 2 Training effect of different parameters combination of RNN-CA model
从表2可以看出当γ= 1,转换阈值为0.8 时准确率最高。基于该参数组合进行实验获得了基于LSTM 的RNN-CA 模型模拟得到的土地利用情况,将模拟情况与实际土地利用情况做对比得到模拟精度和kappa 系数(表3)。
除外之外,为验证RNN-CA 作为转换规则的准确率和有效性,实验还进行以下两方面的实验进行对比:
(1)根据目前的研究的热点模型ANN-CA 以及Markov-CA 模型作为转换规则进行实验。ANN-CA与RNN-CA 模型均采用的参数组合是γ= 1,转换阈值为0.8。Markov-CA 模型是根据现有2011 和2014年土地利用数据得到两期土地利用状态转移概率矩阵、转移面积矩阵和状态转移图集作为转换规则进行预测下一时刻即2017年元胞状态的变化趋势,得到的实验结果如表4所示。
表3 模拟土地利用和实际土地利用的模拟精度和kappa 系数Table 3 Simulation accuracy and kappa coefficient of simulated land use and actual land use
表4 ANN-CA 模型和LSTM-RNN-CA 模型的精度Table 4 Accuracy of ANN-CA model and LSTM-RNN-CA model
(2)为了验证多时间段在本模型中的训练效果,在原来实验的基础上将时间段扩展到2005年,增加2005年的土地利用情况,输入到模型中进行模拟,对比实验结果如表5所示。
表5 时间段长短对RNN-CA 模型模拟结果的影响Table 5 The effect of time period on the simulation results of RNN-CA model
分析表2可以得到结果当γ= 1,转换阈值为0.8 时准确率最高。由此可知,在合适的转换阈值和随机参数范围内,RNN-CA 模型的整体精度均在85%左右,kappa 系数也都在0.86 以上,准确率较高。此外通过对转换阈值和随机变量参数进行调整找到最佳参数组合可以提高模型的准确率和kappa 系数。从表4的对比发现改进的基于LSTM 的RNN-CA 模型比目前常用的ANN-CA 模型和Markov-CA 的准确率高。从表5的研究结果表明,通过增加训练的时间段,模型的模拟效果有所提升,多时段的模拟更有助于模型学习土地利用变化的规律。
研究表明,采用基于LSTM 的RNN 对于构建元胞自动机模型非常方便,在简化CA 模型的同时还提高了模型的准确率。本论文针对传统ANN-CA模型进行改进,采用基于LSTM 的RNN 作为元胞自动机的转换规则,综合各类空间变量对广东省车八岭生态保护区2005-2017年的现有土地数据进行土地利用变化的模拟,验证了模型的可靠性。为预测未来保护区土地利用变化情况提供了一种方法,有助于研究人员更好的开展保护区的生态保护工作。
由于实验数据的限制,时段的选择上有所不足,在后期的研究中可以再增加研究区域数据,并且对土地利用变化的驱动因子进一步分析,探讨不同驱动因子对土地利用变化的影响以及对模拟结果的影响。
利益冲突声明
所有作者声明不存在利益冲突关系。