曹 敏,范广勤,史照良
(1.南京师范大学地理科学学院,江苏南京 210046;2.江苏省国土资源厅,江苏南京 210029;3.江苏省测绘局,江苏南京 210013)
基于MSVM-CA模型的区域土地利用演变模拟
曹 敏1,范广勤2,史照良3
(1.南京师范大学地理科学学院,江苏南京 210046;2.江苏省国土资源厅,江苏南京 210029;3.江苏省测绘局,江苏南京 210013)
研究目的:探索一种基于多类支持向量机自动获取地理元胞自动机非线性转换规则的方法(MSVM-CA),并将其用来模拟复杂的土地利用动态演化。研究方法:以长江口北岸启东市2002—2007年的土地利用演变模拟为例,采用1-A-1方法在每两类样本数据间训练一个分类器,将模拟土地利用变化的主要特征变量映射到Hilbert空间,通过多类支持向量机建立最优分割超平面,运用决策函数计算元胞到最优分割超平面的距离,并转换为元胞土地利用类型的转换概率。然后利用蒙特卡罗方法,确定元胞的转化状态,循环完成土地利用演变模拟,最后对模拟结果进行精度分析。研究结果:对照2007年遥感影像分类得到的实际土地利用分类图,实验模拟结果数量上正确率平均达到88.99%,模拟结果的总体分类精度为86.75%,Kappa系数为0.85。研究结论:基于多类支持向量机的非线性元胞自动机方法具有较高的模拟精度,可以应用于模拟多类土地利用类型之间的演变。
土地利用;模拟方法;元胞自动机;多类支持向量机;地理信息系统
土地利用/覆被变化是全球环境变化和可持续发展的重要内容,也是自然与人文过程交叉最密切的问题[1]。土地利用变化模型不但要能模拟不同时期土地覆被在数量上的变化,还要能反映这种变化在空间上的分布情况,是支持土地利用变化原因和结果分析的一种有效工具,有助于更好地理解土地利用系统的功能并为土地利用规划和决策提供依据[2-7]。元胞自动机(CA)是一种时空离散的局部动力学模型,特别适合用于空间复杂系统的时空动态模拟研究[8]。近年来,国内外上许多学者利用元胞自动机开展了土地利用变化的模拟研究。在实际应用中,模拟多种土地利用类型的变化转换比较复杂,需要定义很多空间变量,这些空间变量对应着一系列参数,每个变量在模型中所起的作用取决于对应参数值的大小。当CA模型应用于土地利用演化模拟时,必须对CA模型进行校准获得合适的模型参数。为此,很多学者尝试应用人工神经网络[9-10]、Fisher判别[11]、案例推理[12]、粗集理论[13]、贝叶斯概率[14]、遗传算法[15]、核函数[16]、支持向量机[17]等方法智能挖掘了CA转换规则。
在实际应用中,模拟多种土地利用类型的变化比城市化扩张模拟复杂得多,需要涉及更多变量和参数。为此,本文提出了基于支持向量机的元胞自动机模型,使元胞自动机不仅能模拟从非城市用地到城市用地的转变,还可以应用于模拟多种土地利用类型之间的演变,并以长江口北岸为例,验证MSVM-CA模型的模拟精度。
支持向量机(SVM)是Cortes和Vapnik于1995年首先提出的,在解决小样本、非线性及高维模式识别中表现出许多优势,并能够推广应用到函数拟合等其他机器学习问题中[18]。支持向量机以结构风险最小化准则和最大分类间隔为基本准则,依据核函数的内积,度量待分向量与训练数据的支持向量间的相似程度,对待分向量进行分类。设已知训练集T={(x1,y1),…,(xl,yl)},其中,xi∈x=Rn,yi∈y={1,-1},i=1,2,…,l,具体分类方法如下[19-20]。
当训练数据线性可分时,选择适当的惩罚参数c>0,构造并求解最优化问题:
式3中,ai不为0的样本称为支持向量,通常训练样本集中只有少量的样本将成为支持向量。
当训练集线性不可分时,可使用一个非线性函数φ(x),把数据映射到一个高维特征空间,再在高维特征空间建立优化超平面,分类函数变为:
实际运用中,映射函数φ(x)的具体表达较难实现,但SVM理论只涉及高维特征空间点积运算φ(x)·φ(xi)。如果存在核函数K(·),使得K(x,xi)=φ(x)·φ(xi),就能用原空间中的特征变量来实现Hilbert空间中点积运算,从而绕开映射函数φ(x)的具体形式。
支持向量机一般适用于两类问题,实际应用中经常需要对多类问题进行分类,这就涉及多类问题的转换。目前,多类支持向量机的实现思想有两种:(1)将多类问题分解为一系列SVM可直接求解的两类问题,构造多个SVM二值分类器,并将它们组合起来实现多类分类;(2)将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题,“一次性”地实现多类分类。第二类方法尽管看起来简洁,但由于其最优化问题求解过程太复杂,计算量太大,实现起来比较困难,分类精度也比较差[21]。多类支持向量机的优化问题可改写为:
式 5—6中,i=1,2,…,n,n 为样本数量;m=1,2,…,k,k 为样本数量。
现有大多数方法都使用第一类方法中的“1—a—1”模型来处理多类问题的分类。在每两类样本数据间训练一个分类器,对于一个k类问题,选取第i类数据和第j类数据构造一个分类器,共有k(k-1)/2个分类函数。当训练样本数据量较大的时候,1—a—1方法能够得到比较高的分类精度[22]。
土地利用动态演化是复杂的非线性过程,土地利用转变的边界无法用简单的线性边界来区分,因此,土地利用演化模拟时,采用非线性的转换规则更能反映土地利用系统复杂的特征。本文提出了基于多类支持向量机的元胞自动机模型(MSVM-CA),并模拟了土地利用演化过程。运用多类支持向量机确定元胞自动机的非线性转换规则时,通过多类支持向量机计算土地利用特征变量(距离变量、邻居状态、属性变量等)对元胞的土地利用类型转换概率的贡献。如果直接运用多类支持向量机的硬分类结果,无法在CA模型中动态计算土地利用特征变量对元胞土地利用转换概率的影响,本文借鉴多类支持向量机分类的概率输出方法,运用决策函数直接计算元胞到最优超平面的距离,并计算元胞的土地利用转换概率如下:
式7—8中,d为元胞到最优超平面的距离;p为元胞的土地利用转换概率,其他参数与上文公式含义相同。
为了使模拟结果更接近实际情况,在模型中引进随机变量v,对所得土地利用转化概率给予一定的随机扰动。同时,考虑土地利用规划等相关政策影响,在模型中引入约束条件μ,当土地利用类型与规划用地类型一致时,μ取值为1;否则,μ取值为0。引入随机变量和约束条件后的土地利用类型转换概率为:
式9中,rand为随机变量函数产生[0,1]范围的随机数;α为控制随机变量v取值范围的参数。
本文选择长江口北岸土地利用演化模拟为研究案例,以长江口北岸的启东市行政区域为研究范围(不包括位于长江江心的启隆乡),面积1355.04 km2,分别获取了研究区域2002年SPOT影像和2007年ALOS遥感影像,两期影像的空间分辨率均为2.5m,并经影像分类得到两年的土地利用分类图。土地利用动态演化过程具有高度复杂性,其影响因子非常多,研究表明土地利用变化的概率往往取决于一系列的距离变量、邻近现有土地利用类型的数量和单元的自然属性等[9-17]。例如城市中心和交通要道的距离衰减作用,离城市中心和交通要道的距离越小,其转化为建设用地的概率就越高;当邻近范围内存在大量的某一土地利用类型时,该单元就有较高的概率转变为该种土地利用类型。文中MSVM-CA模型所使用的各个变量具体见表1。
表1 模型空间变量Tab.1 Spatial variables of themodel
MSVM-CA模型中使用的所有源数据都统一到相同的数据范围,采用WGS84坐标系和UTM51投影,在ArcGIS中生成30m空间分辨率的Grid格式,再转换成ArcGIS和Matlab两个软件平台兼容的ASCII_GRID格式模型。模型中距离变量通过ArcGIS空间分析功能中的Eucdistance函数获取,邻居范围某地类的元胞数通过ArcGIS空间分析功能中的Neighbour函数动态获取;坡度影像由DEM空间分析生成;农用地经济质量数据来自全国国土资源大调查研究成果《江苏省农用地资源分等研究》[23]。用于多类支持向量机训练和检验的样本数据,直接从原始数据中随机采样获取,并进行归一化处理。
参考经典元胞自动机模型SLEUTH的校准方法,引入改进的Lee-Sallee指数来反映模拟数据与历史真实检验数据之间空间分布的相似性。土地利用演化模拟流程如图1所示,以遥感影像分类得到的2002年土地利用现状图作为模型初始状态,分别利用已训练好的支持向量机分类器,转换并计算出各种土地利用类型的转换概率,并对其进行随机扰动和条件约束,经过阈值判断,确定中间过程的土地利用变化,再以中间过程的土地利用数据作为模型初始值,重新计算模型中所有的初始参数,重复上述过程,直到Lee-Sallee指数值比较理想时,循环结束,输出模拟的2007年土地利用仿真图和模型循环数。
基于多类支持向量机的元胞自动机转换规则,将土地利用变化的主要特征变量映射到线性可分的Hilbert空间中进行分类,而Hilbert空间中的分类决策函数通过核函数的内积由原特征空间的向量表示。实验中,支持向量机核函数选用径向基核函数(RBF),C和γ是RBF核函数必备的两个参数,分别为惩罚系数参数和间隔,其取值好坏直接影响分类精度。这里使用基于交叉验证的参数选择模型Grid.py来搜索C和γ取值,得到最优结果为C=32768,γ=0.03125,交叉验证精度为93.81%。多类支持向量机的分类器中,共1522个支持向量,8类土地利用样本,k(k-1)/2=28个分类器,MSVM的检验样本的分类精度为91.2956%。多类支持向量机分类器训练完成后,进行土地利用演化模拟的模型校准,确定MSVM-CA模型的阈值T、随机变量参数和循环次数。文中计算得阈值T=0.80、参数a=1.0,循环次数为286。研究区域2007年遥感影像分类图和模拟图如图2(封二)中(a)、(b)所示。
图1 基于MSVM-CA模拟土地利用演化的流程图Fig.1 Schematic representation of MSVM-CA based simulating land-use changes
为评价MSVM-CA模型的实际模拟精度情况,对比分析土地利用模拟图与遥感影像分类得到的土地利用分类图,采用数量统计(见表2)和Kappa系数两方面验证模型的有效性。MSVM-CA模型模拟结果模拟结果数量上正确率平均达到88.99%,模拟结果的总体分类精度为86.75%,Kappa系数为0.85,可见该模型的模拟结果比较理想。
MSVM-CA模型预测是假设未来的自然、社会、经济、政治等因素没有发生较大的变化的前提下,对历史演化趋势的外推,其预测过程与校准过程类似。首先以到预测年份最近时期的距离变量、邻居状态、自然属性等15个影响因子初始化模型,并应用已训练好的多类支持向量机分类器,转换并计算每个单元的各种土地利用类型的概率,并对其进行随机扰动;然后经过阈值判断,确定中间过程的土地利用变化,完成模型的一次循环;再次以获取的中间过程的土地利用数据进行模型的初始化,开始新一轮循环,直到模型循环数达到模型校准的最大循环数时,终止循环,输出最后的预测结果。2012年土地利用预测图如图2(c)所示。预测结果反映了该地区建设用地不断增加,农业用地不断减少的土地利用变化趋势,这种土地利用变化现象,已经为该地区带来了一系列的资源和环境问题。模拟和预测土地利用变化可为土地利用规划提供依据,帮助指定有效的土地管理措施和方针政策。
表2 MSVM-CA模型模拟精度评价Tab.2 Accuracy evaluation of MSVM-CA based simulation
土地利用变化模型能模拟不同时期土地覆被在数量上的变化,并能反映出这种变化在空间上的分布情况。本文提出了一种基于多类支持向量机自动获取地理元胞自动机非线性转换规则的方法,并以位于长江口北岸的启东市2002—2007年的土地利用变化模拟为例,模拟复杂的土地利用动态演化,得到2012年土地利用预测图。该转换规则采用1-A-1方法在每两类样本数据间训练一个分类器,将模拟土地利用变化的主要特征变量映射到Hilbert空间,建立最优分割超平面,通过计算元胞到最优分割超平面的距离,推算元胞的土地利用转换概率。
对照2007年实际土地利用分类图,实验模拟结果数量上正确率平均达到88.99%,模拟结果的总体分类精度为86.75%。基于多类支持向量机的元胞自动机模型具有较高的模拟精度,不仅能模拟从非城市用地到城市用地的转变,而且可以用于模拟多种土地利用类型之间的演化,有助于为土地利用规划提供决策依据。
(
):
[1]朱利凯,蒙吉军.国际LUCC模型研究进展及趋势[J].地理科学进展,2009,28(5):782-790.
[2]陈佑启,杨鹏.国际上土地利用/土地覆盖变化研究的新进展[J].经济地理,2001,21(1):95-100.
[3]唐华俊,吴文斌,杨鹏,等.土地利用 /土地覆被变化(LUCC)模型研究进展[J].地理学报,2009,(4):457-468.
[4]张华,张勃.国际土地利用/覆盖变化模型研究综述[J].自然资源学报,2005,20(3):422-431.
[5]黄秋昊,蔡运龙.国内几种土地利用变化模型述评[J].中国土地科学,2005,19(5):25-30.
[6]倪绍祥.土地利用/覆被变化研究的几个问题[J].自然资源学报,2005,(6):932-937.
[7]钟太洋,黄贤金.农户层面土地利用变化研究综述[J].自然资源学报,2007,22(2):342-352.
[8]黎夏,叶嘉安,刘小平,等.地理模拟系统:元胞自动机与多智能体[M].北京:科学出版社,2007.
[9]Li,X.,Yeh,A.G.O.Neural-network-based cellular automata for simulatingmultiple land use changes using GIS[J].International JournalofGeographical Information Science,2002,(16):323-343.
[10]黎夏,叶嘉安.基于神经网络的元胞自动机及模拟复杂土地利用系统[J].地理研究,2005,24(1):19-27.
[11]刘小平,黎夏.Fisher判别及自动获取元胞自动机的转换规则[J].测绘学报,2007,36(1):112-118.
[12]黎夏,刘小平.基于案例推理的元胞自动机及大区域城市演变模拟[J].地理学报,2008,62(10):1097-1109.
[13]杨青生,黎夏.基于粗集的知识发现与地理模拟——以深圳市土地利用变化为例[J].地理学报,2006,61(8):882-894.
[14]杨青生,黎夏.贝叶斯概率与元胞自动机的非线性转换规则[J].中山大学学报(自然科学版),2007,46(1):101-109.
[15]杨青生,黎夏.基于遗传算法自动获取CA模型的参数——以东莞市城市发展模拟为例[J].地理研究,2007,26(2):229-237.
[16]Xiaoping Liu,Xia Li,Xun Shi,etal.Simulating complex urban developmentusing kernel-based non-linear cellular automata[J].EcologicalModelling,2008:169-181.
[17]Qingsheng Yang,Xia Li,Xun Shi.Cellular automata for simulating land use changes based on support vectormachines[J].Computers&Geosciences,2008,(34):592-602.
[18]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2002.
[19]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.
[20]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.
[21]Hsu C,Lin C.A Comparison ofMethods for Multiclass Support Vector Machines[J].IEEE Transactions on Neural Networks,2002,13(2):415-425.
[22]刘志刚,李德仁,秦前清,等.支持向量机在多类分类问题中的推广[J].计算机工程与应用,2004,(7):10-13.
[23]周生路,李如海,王黎明,等.江苏省农用地资源分等研究[M].南京:东南大学出版社,2004.
Simulation of the Regional Land Use Evolution Based on MSVM-CA M odel
CAO Min1,FAN Guang-qin2,SHIZhao-liang3
(1.College of Geographic Science,Nanjing Normal University,Nanjing 210046,China;2.The Departmentof Land Resource of Jiangsu Province,Nanjing 210029,China;3.Jiangsu Provincial Bureau of Surveying and Mapping,Nanjing 210013,China)
The purpose of this paper is to develop a MSCM-CA model to simulate the dynamics ofmultiple land use change,which is a new method for automatically getting nonlinear transition rule of geographic Cellular Automaton by integratingmulti-class support vectormachine.Method employed is to simulate changes by taking Qidong city between 2002 and 2007 in the north branch of the Yangtze River estuary as an example.The steps of simulation included that 1)to transform the data from nonlinear boundaries in the original space to linear boundaries in the Hilbert space and establish the optimal separating hyperplane by adopting one-against-onemethod to train a classifier in every two kinds of the sample dates;2)to calculate the distance between the cells to the optimal partition hyperplane by the decision-making function and convert to land use conversion probability of the cells;3)to determine the transformation of the cell state and to complete cycle of land use evolution simulation by using the Monte Carlomethod;4)and finally to analysis the precision of simulation results.By comparing the simulation map with the actual land-use map from remote sensing image,results indicate that the average simulation accuracy rate is 88.99%,spatially the simulation overall classification accuracy is 86.75%,and the Kappa coefficient is 0.85.It is concluded that the proposed model in the paper has high accuracy of simulating complex land use changes and can be used to simulate themultiple land use evolution.
land use;simulationmethod;cellular automata;multi-class support vectormachine;geographic information system
F301.24
A
1001-8258(2012)06-0062-06
2012-02-17
2012-06-07
国家自然科学基金资助项目(41101349);江苏省高校自然科学基础研究资助项目(10KJD420001);江苏高校优势学科建设工程资助项目(PAPD)。
曹敏(1982-),女,江苏如东人,博士,讲师。主要研究方向为地理元胞自动机建模研究。E-mail:caomin@njnu.edu.cn