空间数据挖掘技术在城镇土地定级中的运用

2016-08-01 14:41钟永友
中国锰业 2016年4期
关键词:样点数据挖掘聚类

钟永友

(陕西理工大学 数学与计算机科学学院,陕西 汉中 723000)



空间数据挖掘技术在城镇土地定级中的运用

钟永友

(陕西理工大学 数学与计算机科学学院,陕西 汉中 723000)

计算机与空间数据获取等相关技术的不断发展,使地理信息体系里面所包含的数据急剧增加。然而当前处理相关数据的方式相对滞后,造成存在于空间数据里面极其丰富的知识无法被人们所掌握。为了能够满足人们对于空间信息不断增强的层次相对较高的需要,与空间数据挖掘技术有关的理论与科技手段逐渐产生。着重研究了空间数据挖掘技术在城镇土地定级中的相关运用。

空间数据挖掘;土地定级;运用

1 空间数据挖掘相关理论阐述

1.1空间数据挖掘的定义

空间数据挖掘又被叫做“从空间数据库中发现知识”,其所表示的是从空间数据库里面获得人们所关注的空间形式和相关的特征、空间和非空间数据之间存在的联系以及那些隐藏于数据库里面的一般性特征。简而言之,是从相应的空间数据库里面获取隐藏的、人们所关注的空间与非空间的形式、一般性的特征以及相关知识的环节。

1.2空间数据挖掘的过程

空间数据挖掘技术的主要环节与大部分数据挖掘和探索知识的环节是相似的,通常涵盖了对于数据的选择、相关数据的提前处理、数据转变、挖掘相关的数据、模式阐述以及知识评判等过程[1]。数据选择也就是对人们所关注的事物以及相关的特征进行概括;数据的提前处理通常都是去除其间所不含有的噪声、处理所遗失的相关数据等;对于数据的转变使用降维的方式对相关的特征实施提取,使得转变以后所获得的数据能够更加符合要求;数据挖掘是最为重要的环节,其由发生变换之后所获的相关数据里面发现主要的特征;对于模式所进行的阐述以及相关知识的评判运用人机交互的方法完成,即使所挖掘出的规范与形式存在着部分兴趣度与置信度等方面的检验,经过相关演绎推理便能够完成相关的检验,然而这部分规范与形式是否具备相应的价值,最后还需要工作人员进行评判,如果获得的结果不符合要求便要重复之前的过程。

2 在城镇土地定级中的运用

2.1城镇土地定级的概念

城镇土地定级指的是将城镇范围内所包含的土地当作进行区位分析的重要对象,将目前所具备的全部的地理方面的因素与经济行为的分布当作重要的区域要素,探索上述区位要素在土地上的改变特征以及其互相融合对于土地的价格所产生的影响,更加好的体现出城镇范围内所包含土地的空间改变相关的规律以及主要的数量特征。

2.2城镇土地定级的任务与目的

对于城镇的土地进行等级评定最为重要的任务便是按照经济以及相关的自然特征及它们在社会的经济行为里面所处的位置,运用意义实施全方面的研究,向人们展示出城镇土地品质间的区域性差距,同时对城镇土地的等级进行确定。然而土地等级确定最为主要的目的便是使相关的决策机构能够全方位的了解土地的品质以及具体的运用情况,增强土地的使用效率。

2.3空间聚类土地定级原理

空间聚类是目前使用最多的方式。空间数据挖掘的知识大致涵盖了空间之间的联系、特点以及类型等。通常展示成相关定义、准则、形式以及约束等方式的相互融合,对于数据库里面所包含数据的属性、形式以频度和等内容进行描绘。

在城镇范围内对于土地的价格进行不同的区域的区分,经过对于土地相关的数据实施计算、相关的数据进行验证、去除错误的数值之后,计算出相关区域单位土地的价格,接着实施空间聚类,完全对于土地级别的区分。

2.4运用实例

2.4.1 数据源准备

数据源大致有土地的出售与出租这两个不用的来源,其间与出售相关的数据涵盖了转让、房屋买卖、房地产评估、土地联营入股以及以地易房等相关的资料;出租资料所代表的是与土地使用权以及房屋出租相关的资料。将某市的5大城区(a区、b区、c区、d区和e区)选定为此次土地价格定级的范畴,一共采集了3 168个样本点,包含了827个商服样点,656个工业样点,1 685个住宅样点。

2.4.2 样本空间的获取

1) 测算样点定价

在针对某市的样本单位土地价格进行计算的时候,针对那些运用于住宅或者是商服的区域运用楼面地价的方式进行展示;对于工业用地使用地面价的方式展示。

2) 剔出异常值

目前,存在着非常多的方式可以收集到与样本相关的数据,在使用所搜集到的样点数据以前,需要对其进行清洗,对于异常数值的剔除是最为常规的做法。异常值所代表的是相同基本区片范围内的相同的土地运用种类的样本里面,因为其它外界环境所造成的干扰导致与其它样本之间有着非常大的差异[2]。在正常情况下,在相同的区片、相同的土地运用类别的地价应该是相同的。所以,需要对样本中的异常数值进行剔除。主要过程如下:

根据式(1)对样点的单位地价的算术平均值进行测算:

(1)

式中P1——基本片区内样点地价的平均数值;

Pi——此片内范围内第个i样点的地价;

n——此地价范围内样点的全部数目。

根据式(2)对样点的单位地价的标准差(S1)进行测算:

(2)

明确剔除的相关标注。当Pi∈[P1-2S1,P1+2S1]时,那么就认定Pi是异常的数值,需要将其从样本里面去除。

对于除异常数值之后的样本总体的P1和S1进行重新计算,使用P1±2S1实施剔除,一直到样本空间里面不存在任何的异常数值。以上所阐述的数据检验与剔除异常值均是在相同的基本区片、相同的样点种类以及相同的土地运用类别里面所完成的。

3) 测算基本区域的单位地价

在将所有的异常数值去除之后,运用所获得的无异常值的样本的平均数值当作基础区域的单位土地价格。能够运用中位数以及众数等方式对平均数值进行明确。根据式(3)进行相关的测算:

(3)

式(3)中m的取值范围是去除异常数值之后的样本空间(m

2.4.3 用空间类聚法进行土地定级

空间聚类的样本属性数据为基本区片的地价。在对此种群进行初始化的时候,运用以聚类中心为基础的编码形式,将聚类的数目设定成5,种群的规模Population size设定为70,交叉的概率Pc设定为0.6,由于市区土地价格的差异较小,所以将变异的概率确定为0.001,通过以遗传算法为基础的空间聚类方式对所获得的结果实施相应的解码。

从聚类所获得的结果我们能够发现,某市的156个住宅区可以分成5个不同的等级,一级地的平均价格是5 163元/m2,一共涵盖了44个住宅区域;二级地的平均价格是3 830元/m2,一共涵盖了57个住宅区域;三级地的平均价格是2 860元/m2,共涵盖了45个完全不一样的住宅区域;四级地的平均价格是2 279元/m2,其涵盖了12个不一样的住宅区域;五级地的平均价格是1 730元/m2个,其涵盖了8个完全不一样的住宅区域。

3 结 论

伴随获取数据科技手段的不断进步与相关方式的不断丰富化,非常多的和空间区位有关的数据被逐渐收集到,就需要对相关的数据进行研究,人们创新出的空间数据挖掘技术便实现了上述的要求,使相关挖掘的方式与其获得了比较好的融合。本篇文章以具体的城镇土地定级为前提,使用改善之后所获得的空间聚类方式,针对某市的住宅区域实施定价级别的区分。研究发现此方式在土地定级环节里面具有无可替代的作用。

[1] 邵峰晶, 于忠清. 数据挖掘: 原理与算法[M]. 北京: 中国水利水电出版社, 2005.

[2] 杨春金, 潘玲. 空间数据挖掘在GIS中的应用研究[J]. 通讯和计算机, 2007, 4(27): 15-18.

AnAnalysisontheApplicationofSpatialDataMiningTechnologyinUrbanLandGrading

ZHONG Yongyou

(Schoolofmathematicsandcomputerscience,ShaanxiSCI-TECHUniversity,Hanzhong,Shanxi723000,China)

With the development of computer and data space acquisition and other related technology, the data of the geographic information system data will increase rapidly. However, the way to deal with the relevant data is lagging behind, resulting that extremely rich knowledge which exists in the spatial data cannot be mastered. To meet the high level demand of the spatial information, the theory and technology of spatial data mining have been developed. This paper analyzes the application of data mining technology in urban land grading.

Spatial data mining; Land grading; Application

2016-07-18

陕西理工学院校级科研基金项目(SLGKY14-21)

钟永友(1978-),男,江西万载人,讲师,研究方向:数据挖掘、信息系统研究与开发,手机:13689168943,Email:zhongyongyou@163.com.

F293.2

:Bdoi:10.14101/j.cnki.issn.1002-4336.2016.04.040

猜你喜欢
样点数据挖掘聚类
小麦条锈病田间为害损失的初步分析
基于空间模拟退火算法的最优土壤采样尺度选择研究①
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
农田灌溉用水量统计工作中的样点灌区选取方法研究
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
养猪发酵床垫料微生物类群结构特性分析
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法