常用空间数据挖掘计算模型介绍

2015-05-30 17:27肖渝梅
中小企业管理与科技·上旬刊 2015年11期
关键词:数据挖掘

肖渝梅

摘 要:本文在对数据挖掘基本概念进行了介绍的基础上,详细介绍了目前在数据挖掘中最常用的计算模型,包括空间关系、空间实体关联矩阵、空间实体信息模型,让读者对数据挖掘技术有一个基本的了解。

关键词:数据挖掘;空间关系;空间实体关联矩阵;空间实体信息模型

1 空间数据挖掘概念

空间数据挖掘指利用统计学、人工智能、机器学习、模糊数学、模式识别和专家系统等理论、方法和技术,从空间数据库中抽取人们想要获取但没有清楚表现出来的能反映出客观世界的本质的隐含知识[1][2]。

空间数据由三个层次构成。最底层是数据源为空间数据挖掘提供数据。包含数据域的空间数据仓库管理系统和知识域的知识库管理系统。中间层为挖掘器,它采用各种空间数据挖掘方法分析被提取的数据。顶层是人机交互界面,即将发现的知识以用户能理解和接受的形式展现给用户[1,2]。

空间数据处理过程可分为:数据准备、数据选择、数据预处理、数据变换、确定目标、确定算法、数据挖掘、模式解释和知识评价[1]。常用的计算模型有:空间关系、空间实体关联矩阵、空间实体信息模型,本文将对这三种模型一一介绍。

2 空间关系计算方法

数据挖掘中主要有空间距离、空间拓扑、空间方位三类空间概念。

空间距离:距离常指几何学的欧式距离,用它来描述空间两个物体之间的远近关系。欧氏距离是两点间的直线最短距离,在空间数据挖掘中可以用它来计算:点点距离、点线距离、点面距离、线线距离、线面距离和面面距离,此外根据具体问题也会使用棋盘距离或曼哈顿距离[1]。

空间方位:定义目标对象之间的方位,在分析的时候,我们一般预定义一个坐标轴,再做垂直于坐标轴的直线,用此直線来表示两个对象间的方位关系。当分析的对象是某个平面时就用平面的重心来代替面,再求出两重心之间的方位关系,用此来代表两平面间方位关系[1]。

空间拓扑:它不考虑距离和方位,而是把点、线、面都看成拓扑元素,用关联和邻接来描述点线面之间的关系。关联是不同拓扑元素之间的关系,存在于点与线,线与面、点与面之间,相同拓扑元素(比如点点、线线、面面之间)的关系常用邻接表示;也用包含、几何、层次关系描述两个拓扑元素之间的关系,包含关系指面与其他拓扑元素之间的关系;两元素间距离在某个约束范围内称他们之间有几何关系;同类元素之间的等级高低用层次表示[1]。

3 空间关联矩阵

它是李新运博士在空间权重矩阵基础上拓展而得到的,矩阵中每个元素表示实体之间所具有的某种指定空间关系。若实体j和实体i满足某种指定关系时则矩阵中的值为1,如果不满足则的值为0[1]。

根据李博士的定义:当=1,则矩阵所指代的对象i和对象j在空间上是相关的;若=0,则其所指代的对象i和对象j在空间上是无关的。结合前面的空间关系计算方法和该观点,研究者们又定义出:根据拓扑元素间的邻接关系的邻接矩阵,根据拓扑元素之间的邻近关系的邻近矩阵,根据线状实体之间的相交关系定义空间相交矩阵,根据点线之间空间距离定义空间侧近矩阵,根据点状要素是否位于区域内部定义空间击中矩阵,根据线状实体是否穿过区域定义空间切割矩阵,根据点状要素之间的空间关系定义方位矩阵[1]。

4 空间实体信息

空间实体信息模型对空间实体的组织和表示起着非常重要的作用,常见的空间实体信息有:空间场模型、空间要素模型、空间网络模型[1]。

空间场模型:由空间框架、场函数和一组相关场操作组成,多用来表示连续的或无固定形状的概念,在计算机中用栅格数据结构、不规则三角网、等高线和点网络来实现。空间框架是一个用于度量空间对象的有限框架,利用场函数将空间框架映射到分析对象的属性域,选择分析对象的那些属性域,使用什么场函数来映射,需要结合分析的具体问题来确定,在三个要素中场被看成同属性的点的轨迹构成的表面或者等值线[1]。场操作把场的一个子集映射到其他场,它实现了不同场之间的交互和联系,常用的场操作有局部场操作、聚焦场操作、区域场操作。

空间要素模型:空间对象被认为是一个在概念上可以与它的邻域分离的现象,空间要素模型用来表达空间对象之间的关系,所以空间要素由彼此存在某种特殊关系的空间对象(元素)构成。模型中的信息是具有各自特征属性的集合,即其中的每个对象必须具有可被识别、重要性和特征明显三个条件。对象的各种特征之间反映了现实世界与信息世界之间的表达和对应关系,对象的特征在于它的属性分为空间属性和非空间属性,距离说明空间属性,比如对象是一个多边形,则此处的多边形就是对象的空间属性;此外对象的其他属性被称为非空间属性,比如对象的名称,特别指出的是一个对象可以有多个空间属性[1]。

空间网络模型:用节点、链表示对象,所以我们常把位于该模型中的地物抽象为节点、链等对象,并且关注他们之间的连通关系,常常使用有向图来表示,有向图中的节点代表数据记录,连线代表不同节点之间的连通关系。该模型最基本的特征是多个要素之间的影响和交互需要沿着有向图中的箭线;节点间没有明确的从属关系,它可以与有向图中其他多个节点建立联系[1]。

参考文献:

[1]贾俊杰.空间数据挖掘中若干关键技术研究[D].2009.

[2]潘玲.空间数据挖掘与GIS集成技术研究[D].2007.

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议