城市综合性地图集编制中数据处理技巧研究

2016-02-26 09:08刘美春肖剑平
测绘通报 2016年1期
关键词:数据仓库数据挖掘

刘美春,张 力,肖剑平

(1. 武汉市测绘研究院,湖北 武汉 430022; 2. 长江水利委员会,湖北 武汉 430010)

Study of Data Processing Technology of City Comprehensive

Atlas Compilation

LIU Meichun,ZHANG Li,XIAO Jianping



城市综合性地图集编制中数据处理技巧研究

刘美春1,张力2,肖剑平1

(1. 武汉市测绘研究院,湖北 武汉 430022; 2. 长江水利委员会,湖北 武汉 430010)

Study of Data Processing Technology of City Comprehensive

Atlas Compilation

LIU Meichun,ZHANG Li,XIAO Jianping

摘要:城市综合性地图集是综合反映一个城市自然、经济、文化、历史、发展状况的信息载体,是人们全面了解该城市最直观、最全面的信息工具,需要通过方方面面的信息进行综合与融合。本文以《武汉城市地图集》为例,从城市综合性地图集的内容、资料和数据情况分析和处理、数据挖掘技术应用和知识表示效果等方面进行展开,充分体现了数据处理技术在综合性图集编制中的重要性。

关键词:资料收集;资料分析与评价;数据仓库;数据挖掘;知识表示

随着地理信息技术和计算机、网络等技术的趋向成熟,所有文字、图片、数据等有形和无形的信息都能与地图挂钩,都能通过图文形式进行有效表达,可以说人类活动、自然界所发生的所有信息都可以在图集中充分体现。城市综合性地图集是一定时期内城市市容市貌及生产、生活信息的综合体。资料的全面性、现势性、权威性是地图集实用性和综合性的前提,围绕图集所要表达的内容进行资料分析和数据挖掘是关键所在,针对所挖掘的信息进行知识的表达,以及应该如何表达、表达到什么程度是图集研究的最终目的。

一、城市综合性地图集内容构成

1. 城市综合性地图集常见内容形式

城市综合性地图集一般要反映城市的自然状态、市政建设、人类活动、精神文化与城市管理等几个基本方面,不仅包含资源环境地图、人文地图、经济地图和历史地图等内容,同时包含环境评价、区域规划、预测预报等与经济建设和人类生活直接相关的选题。如《重庆市地图集》内容包含城市历史、政区、地势、交通、人口、资源、环境、经济与社会、区县图和规划等;《北京城市地图集》包含北京区位、地势、政区、交通机中心城区详图等信息。

2. 《武汉城市地图集》内容情况介绍

《武汉城市地图集》以武汉市主城区地图数据为主,从区位、环境、资源、交通、地质结构、行政区划6个方面着手,将武汉的地理位置、气候、人口、行政区划、面积、交通、人文、环境、历史、发展、规划等方面信息通过时间轴连接在一起,从时间和空间两个方面,详细反映一定时期城市的发展变化和人文、经济、管理状况;通过历史与现状、现状与规划、地图与文字、图片与图表、符号与数字等相结合的方式细细描绘,共同表示武汉的历史久、城市大、发展速、规划全等特点,突出武汉市城市的特色及区位优势。内容分以下4个图组:

1) “极目楚天”图组:突出武汉区位优势,表示武汉在全国的位置图、武汉在湖北省的位置图、武汉城市圈地图、武汉市政区图、武汉市中心城区图和武汉市影像图,从地理定位方面让读者对武汉有一个框架性的了解。

2) “巍巍江城”图组:从环境、资源、交通及发展现状4个方面详细表示城市面貌。这是图集的主体内容,采取先整体后局部的形式,首先采用DEM与矢量相叠加的形式,突出武汉总的地貌特色;在此基础上,结合历年相关统计资料,用图表、文字、专题图等将武汉的气候、地质、人口、交通、医疗卫生,以及各项自然和人文经济指标进行纵向和横向比较;然后将中心城区采取矢量和影像对照的形式、以大比例尺1∶4000~1∶16 000的图幅详细表示。

3) “览胜三镇”图组:从城市历史变迁、楚风汉韵、商贸重镇、都市点睛等体现武汉发展历程。通过历史图片、文字、效果图、三维立体影像图等对三镇演变、城市扩展、风俗民情、风味美食、文娱生活、体育特色、商业网点、主要经济开发区、示范生活小区、主要景点、景区等进行特色描述。

4) “展望武汉”图组:通过城市近期和中远期规划图件展示武汉未来发展方向。以规划专题图为主题,配合相应的文字说明和图片,通过都市发展组团规划、主城区特色景观规划等图件和文字介绍的形式,展现若干年后武汉市的格局和面貌。

二、编图资料与数据情况

城市综合性地图集所需资料和数据涵盖城市发展过程中的方方面面,数据类型多种多样,往往不是一个数据库就能解决问题的,是基础地理数据库和各专题数据库的集合体。从我国目前对于地理信息方面的管理模式来看,综合性地图集的编制少不了资料收集这一重要环节,需从各相关单位获取最现势、最完善的第一手资料。在收集资料的过程中,设计者必须做到心中有数、有的放矢,只有明白自己需要什么样的资料、大概在什么地方获得,将所要的资料列出详细清单,才能保证信息的完备性和权威性。

《武汉城市地图集》的编制资料以武汉市“十五”以来连续3个五年规划1∶2000地形数据库、“十一五”以来1∶500~1∶10 000系列比例尺地形数据库和时间跨度达几十年的遥感影像数据为基础,并辅以各行各业文字、图片、统计图表等反映城市历史、经济、现状、发展、规划等与城市发展相关的专题信息,其数据类型涵盖面向对象数据库、空间数据库、时间数据库、文本数据库、多媒体数据库、专题数据库和互联网数据库等。

三、资料分析与数据预处理

在图集编制过程中,对资料的分析和数据处理是编辑制作的前期准备工作,是设计内容能否实现的关键。设计者首先从一堆杂乱无章的资料中将面向主题的信息筛选出来;然后对与时间相关的数据(如历史数据)按时间轴进行整理,建立编制资料的信息库;最后通过数据挖掘技术和制图综合技术将数据集成为成果图集。图集工作流程如图1所示。

图1 图集工作流程

1. 资料的整理、分析与评价

(1) 资料的分类、分级整理

鉴于每类数据的来源和管理方式不同,不同的数据库之间的数据存在穿插性,并且同类数据在不同数据库中表现形式和时间段也存在偏差。为提高资料的使用效率,简化作业流程,首先必须将收集到的资料进行分类、分级整理,根据数据的表现形式可分为地图资料、遥感影像资料、数据资料、文字资料、图片资料等几类,在此基础上将每一类资料又分为基础资料、补充资料、专题资料等不同级别。在数据管理上,紧密结合图集内容结构进行,基本上采取星形结构,在数据仓库的统一集合下,将数据以图组为单元建立数据库,在各数据库的基础上再分专题逐级、逐层进行管理。

(2) 编图资料的分析与评价

从地图编制、审核和使用几个方面来说,城市地图集编制资料必须具备政治性、科学性、完备性、现势性等特性,因此对所收集到的资料首先进行科学分析与评价,优先使用具备这些基本特性的资料,将政治性和现势性不强的资料剔除出来,从源头消除地图成果的质量隐患。如对基础地理数据进行数据格式、数据坐标系、数据质量等分析;对环境监测、气候等动态变化的资料进行时间性评价;对统计图表进行定位性、统一性等评价。

2. 数据预处理及数据仓库的建立

从不同渠道收集到的资料经常会存在完整性和规范性不一致等特点。要想实现资料的有效利用,简化数据处理过程,提高最终成果质量,在数据利用前必须进行数据预处理,对资料进行筛选,通过格式转换、扫描、数字化等手段改变原有的分类、分级、规范表示方法,去除冗余数据,根据时间序列和已知的变化规律补充不完全数据等。在此基础上进行数据集成和数据形式转换,将数据转换成统一的数据坐标、投影方式及统一存储在便于挖掘的数据平台,把不同来源、格式、特点性质的数据在逻辑上或物理上进行有机集中,将数据由多个源统一到数据仓库进行存储,在此基础上分图组、分专题进行整理。数据处理流程如图2所示。

图2 图集数据处理流程

四、数据处理技巧与表达效果分析

1. 数据挖掘技术应用

任何一个数据都包含直观表示的信息和潜在深层次的信息。直观表现的信息在层面上一般让人一目了然,这是一般读者都能轻易获取的信息;而潜在的信息往往容易被忽视,这些隐藏的、深层次的信息获取一般需要有一定的数据库作支撑,通过系列的专业技术,从大量的信息源中经过分析、对比、统计、归纳,提取隐藏于其中的、有效的信息和知识。所谓的的数据仓库,实际上就是图集所需资料数据的集合,包含基础数据库、统计图表、文字信息,以及其他专题信息库。在进行数据挖掘之前,首先建立数据仓库等数据集中管理模式,然后分析数据,明确目标,确定需要挖掘什么样的信息,根据信息源实际情况采取聚类分析、关联分析、演变分析及统计等有效的方法,从各种非结构化数据(如文本、图形、图像等数据)中寻找最有用的数据。

在地图集的编制过程中,使用频率最多的是空间数据挖掘技术、文本挖掘技术、多媒体挖掘技术等,利用基础地理数据库编制地理底图,在以研究范围的地理底图为背景的情况下,从各行各业的经济和建设专题数据库中获取城市发展历程、发展现状和城市发展规律的知识和信息。

《武汉城市地图集》编制的数据源主要是现实性较强的基础地形矢量数据、多个时间段的航空数码影像数据,以及各行各业、各专题的文字统计图表等文本信息和图像信息。从中获取时空信息和统计信息是城市地图集编制的目的之一。其中城市大比例尺基础地形和影像数据中涵盖现实世界一定时间段内几乎所有信息。以1∶2000地形图为例,包含水系、居民地、交通、管线、境界、地貌、土质与植被、注记8大类城市基础地理信息资源及数据库中各类经济指标属性信息,厘米级航摄影像图中包含地表以上信息中除注记外的7大类信息。因此,数据源的信息挖掘空间很大,从中不仅可以获取反映城市发展变化的时空信息,同时城市行政、建设、经济、交通、土地利用等详细情况都能从中分析和统计出来,如图3所示。

2. 知识表示效果分析

虽然基础数据库包含十分丰富的信息资源,从中探索并提炼出大量隐藏的信息并非易事,将这些潜在的信息转化为人们可接受的表现形式可以说是难上加难。如何将这些来源复杂、形式多样、时空跨度长达几年甚至几十年的且基本上不能直接使用的资料转化为设计者所要表达的内容形式,是地图集设计过程中比较棘手的问题。

在数据挖掘过程中获取图集设计思路中所要表达的信息,通过制图综合和统计分析等方法进行知识提取和转化,通过地图语言以通俗、直观、实用的图片、文字、图表、符号等进行特征化、可视化、模型化处理,从而实现知识合理及正确的表达;然后将数据进行整合、包装和输出成印刷图件,完成资料—数据—数据库—单幅图—图集的编制过程;最终形成图幅信息的表示方式,以地图集的形式展示给读者。

图3 专题信息挖掘

图4 文本信息知识表示效果

在此过程中,将文本信息转化为专题图和统计图表,以及时空信息的挖掘和表示难度较大,在很多情况下没有确定的分界线和明确的分级指标,一般凭借人的知识积累和实践常识来分析和评判。因此,在数据挖掘和知识表达的整个流程中,不仅需要计算机技术、多媒体技术、制图综合技术,同时人工智能技术、模糊分析、时空分析和神经网络技术的使用也较多。以文本信息为例,同样的信息内容在不同的专题中可以表示成专题地图、统计图表、文字与图片穿插等不同的表达方式,如图4所示。《武汉城市地图集》将专题地图、统计图表、文字介绍、图片信息等融合在一起,采取图文并茂的形式进行表示,在表达上突出艺术性,效果如图5、图6所示。

图5 专题地图与文字图片结合表示效果

图6 专题地图与统计图表结合表示效果

五、结束语

综合性地图集的编制是一项系统工程和精细工

程,数据挖掘和信息表达技术在其中表现得特别充分,广大地图编制工作者必须在长期的生产实践中进行积累,并与时俱进,利用先进的技术理念和方法来指导实践。在当今的大数据时代,能充分利用和开发数据,才能引领时代。地图学是站在时代最前沿的学科之一,各行各业的信息化建设都离不开地图这个载体,地图也是利用数据最多、最全面的学科,从现实世界中挖掘知识是地图学发展的精髓所在,数据挖掘技术必将在这个领域得到更好的发挥和延伸。

参考文献:

[1]HAN J,KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,译. 2版. 北京:机械工业出版社,2007.

[2]李新运.城市空间数据挖掘方法与应用[M]. 山东:山东大学出版社,2005.

[3]吕晓玲.数据挖掘方法与应用[M]. 北京:中国人民大学出版社,2009.

[4]汪前进.罗明坚编绘《中国地图集》所依据中文原始资料新探[J]. 北京行政学院学报, 2013(3):120-123.

[5]唐静,王贝,赵飞.城市专题地图指标内容的分析和处理[J]. 地理信息世界, 2010(4),35-39.

[6]SOWA J F. 知识表示[M]. 北京:机械工业出版社,2003.

[7]庞玉华. 对地图集总体设计的思考[J]. 测绘通报,2007(5):63-65.

[8]王秀斌. 区域综合地图集总体设计思路探讨——《福建省情地图集》总体方案设计研究[J]. 测绘通报,2008(1):59-61.

引文格式: 刘美春,张力,肖剑平. 城市综合性地图集编制中数据处理技巧研究[J].测绘通报,2016(1):128-131.DOI:10.13474/j.cnki.11-2246.2016.0032.

作者简介:刘美春(1973—),女,高级工程师,主要从事地图编研、数据处理等工作。E-mail: lmcwhkc@sohu.com

收稿日期:2014-10-17

中图分类号:P283

文献标识码:B

文章编号:0494-0911(2016)01-0128-04

猜你喜欢
数据仓库数据挖掘
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据挖掘的学业预警模型构建
基于数据仓库的住房城乡建设信息系统整合研究
软件工程领域中的异常数据挖掘算法
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
基于数据仓库的数据分析探索与实践
数据复用在存储数据仓库中的运用