数字城市关键技术研究

2012-04-29 00:44王建虎吴昊
科技资讯 2012年17期
关键词:数据仓库数据处理数据挖掘

王建虎 吴昊

摘 要:本文基于笔者多年从事数字城市理论的相关研究,以数字城市中涉及的关键技术为研究对象,论文探讨了元数据与海量数据处理、数据仓库与数据挖掘、数据融合与虚拟现实、互操作与超链接等现代信息技术四项关键技术,全文是笔者长期研究基础上的理论心得,相信对从事相关工作的同行能有所裨益。

关键词:数字城市关键技术元数据数据融合

中图分类号:P2 文献标识码:A 文章编号:1672-3791(2012)06(b)-0010-02

从广义上讲,“数字城市”是指信息化的城市,它与城市国民经济和社会信息化的概念是一致的。所谓“数字城市”或城市的信息化是指在城市的生产、生活等活动中,利用数字技术、信息技术和网络技术,将城市的人口、资源、环境、经济、社会等要素数字化、网络化、智能化和可视化的全部过程。“数字城市”或城市信息化的本质是要将数字技术、信息技术和网络技术渗透到城市生产、生活的各个方面,通过运用这些技术手段,把城市的各类信息资源整合起来,再根据对这些信息处理、分析和预测的结果来管理城市,以促进城市的人流、物流、资金流和信息流的通畅和高效运转。

1元数据与海量数据处理

建立元数据的主要任务是制定元数据标准、开发元数据的操作工具和建设元数据库。制定元数据标准其内容应包括以下部分:主题内容与适用范围、参考标准、术语、元数据层次结构、元数据分级、元数据内容和元数据扩展原则与方法。开发元数据的操作工具是编写一系列软件,这些软件须具备元数据的输入、编辑、查询、检索和显示等功能。建设元数据库要依据元数据标准来收集、整理元数据,并利用元数据的操作工具将数据录入建库。元数据对数据的生产者、管理者和使用者都十分有用,它是沟通上述三者之间的桥梁,在实现“数字城市”的信息共享中占有重要地位。

“数字城市”涉及的数据巨大而浩瀚,它不仅有空间数据,而且有非空间数据,这些数据来源广泛、种类繁多、形式各异、结构复杂并且数量十分庞大,其数据量至少要以Tb级来计算,因此,人们把如此大量的数据比喻作海量数据。海量数据处理技术是对海量数据进行快速、高效地存取、运算和传输的技术,它是实现“数字城市”的重要基础,也是支撑“数字城市”的关键技术之一。近年来该项技术的研究与开发已取得了较大的进展。目前,直接针对海量数据处理的技术解决方案有两种:一种是硬件的解决方案,它是采用高性能的并行计算机,通过多个CPU的并行计算来提高数据处理的速度。另一种是软件的解决方案,它是采用基于小波变换的算法,通过对数据的高效压缩与解压来提高数据处理的效能。此外,针对海量数据处理的辅助技术解决方案也有两种:一种是数据组织的解决方案,它是采用分布式存储管理,通过将集中式数据存取化为分散式数据存取来提高数据存取的效率;另一种是通讯网络的解决方案,它是采用超高速光纤网,通过大幅度增加通信信道的带宽来提高数据传输的速率。上述海量数据处理的各种技术解决方案,仅单一地运用其作用是有限的,必须综合起来运用才能发挥最佳的效果。

2数据仓库与数据挖掘

数据仓库的主要任务是:将分布在不同地点、不同单位的数据库中的内容不同、类型不同、结构不同、格式不同的原始数据,首先进行标准化、过滤与匹配、净化、标明时间和确认数据质量的处理;然后根据任务的需要,再对这些数据进行集成与分割、概括与聚集、预测与推导、翻译与格式化、转换与再影像的处理;最后进行数据仓库的建模、数据的概括、数据的聚集、数据的调整与确认、建立结构化查询和创建词汇表。数据仓库对于“数字城市”的建设具有十分重要的支撑作用,因为它是“数字城市”整合信息资源的重要载体,也是“数字城市”实现信息共享的基础平台。

数据挖掘有三大技术支柱,它们分别是数据库技术、人工智能技术和概率与数理统计学。数据库技术是支撑数据挖掘的基础,它通过对数据的存储与管理为数据挖掘提供数据源。目前数据库技术正由传统的数据库向数据仓库发展,而数据仓库则把数据挖掘作为其数据处理的重要功能,这两者的结合既给数据挖掘带来了便利,又使数据仓库的决策支持能力得到了增强。人工智能技术是支撑数据挖掘的核心,它为数据挖掘的知识发现提供模拟机理。概率与数理统计学是支撑数据挖掘的算法,它为数据挖掘的分析预测提供数学方法。数据挖掘的知识发现大致可分为:关系发现、模式发现和趋势发现。数据挖掘能发现的知识有以下几种:广义型知识、特征型知识、差异型知识、关联型知识、预测型知识和偏离型知识。

数据挖掘如何从大量的数据中来挖掘知识,其根本的途径就是建模。建模实际上是根据已知的情况经抽象建立其数学模型,并将该模型应用于对未知情况的求解。数据挖掘的应用一般须经历确定数据挖掘对象、准备数据、建立模型、数据挖掘、结果分析和知识应用这样几个阶段,这些阶段在具体实施时可能要反复多次,并需要业务人员和管理人员的相互配合。数据挖掘技术从一开始就是面向应用的。它把人们对数据的应用从简单的统计分析,扩展到微观、中观乃至宏观的预测分析;从低层次的信息查询,提升到高层次的知识发现;从而使数据挖掘具备了决策支持的能力。

3数据融合与虚拟现实

GIS的空间数据是多种数据的重要体现,其按数据结构可分为栅格数据和矢量数据,按表现形式可分为数字高程模型(DEM)、数字正射影像图(DOM)、数字栅格地图(DRG)和数字线划地图(DLG)。GIS空间数据融合的主要内容有栅格数据之间的融合、栅格数据与矢量数据之间的融合和矢量数据之间的融合。栅格数据之间的融合是指遥感影像之间的复合,这一技术已经成熟,应用也较普遍。栅格数据与矢量数据之间的融合是指遥感影像图与数字线划图的叠加,这种融合相对简单,常用的GIS软件都能实现。矢量数据之间的融合是指数字线划图之间的融合,这种融合对多种矢量数据的融合来说比较复杂。因为它不仅要融合其中的图形数据和属性数据,而且要融合图形数据各元素之间的拓扑关系,此外还要融合图形数据与属性数据之间的链接关系,这是全世界都在进行攻关的难题。

虚拟现实系统主要由显示子系统、检测子系统和模拟子系统三大部分组成。显示子系统也叫输出装置,它的功能是进行感觉信息的合成,以满足身临其境的要求。检测子系统也叫输入装置,它的功能是把操作信息传递给电脑,以满足交互作用的要求。模拟子系统是虚拟现实系统的核心部分,它的功能是实现虚拟环境的描述和构筑,以满足仿真客观世界的要求。虚拟现实系统的技术基础是高级三维图形技术、问题求解工具、多媒体、网络通讯、数据库、信息系统、专家系统和面向对象的智能决策支持系统等技术的集成。虚拟现实系统有三种应用类型:一种是视频映射系统。它是指使用常规计算机的显示器来表达虚拟世界的应用技术系统。另一种是沉浸式系统。它是指运用头盔式、手套式、盔甲式的传感器及显示器,使人的视觉、听觉和触觉沉浸在虚拟世界中的应用技术系统。还有一种是分布式虚拟系统。它是指利用互联网技术将存放在不同地点、不同单位分布式数据库中的数据加以集成,再经过虚拟现实技术的加工处理与显示,然后通过遥测、遥控技术把用户的感觉与真实世界结合在一起。

4互操作与超链接

互操作是信息共享和系统集成的基础,它是指异构环境下两个或两个以上的实体,尽管它们实现的语言、基于的模型和执行的环境不同,但它们都可以相互通讯和协调运行,以完成某一特定的任务。这些实体包括应用程序、处理对象和系统运行环境等。互操作是一个比较复杂的问题,它既需要基础理论的研究与核心技术的开发,又需要各个组织机构之间的协调与配合。互操作对软件业来说意味着界面的开放,它要求软件的生产者开放其数据的内部结构,以便系统的建设者能够开发用于互操作的接口。在地理信息系统领域,OpenGIS的规范是开放界面的重要进展。互操作对用户来说意味着在各系统之间可自由地交换数据,并能协调地进行数据处理。互操作的技术问题可以从网络链接、数据模型和应用程序三个方面来说明。网络链接涉及到传输介质、交换设备和通讯协议,它的互操作须解决各通讯协议之间的接口问题。数据模型既有同构数据又有异构数据,它的互操作须解决异构数据之间的转换问题。各系统的应用程序是多种多样的,它的互操作须解决在网络环境下各应用程序协调进行数据处理的问题。互操作在“数字城市”的建设中占有显著地位,它是“数字城市”实现信息共享和系统集成的重要技术途径。

超链接起源于万维网,它是万维网的精华和魅力所在。因特网的普及得益于万维网的超链接技术,它将世界各地的网站通过IP地址超链接起来,建立了分布在不同地点各网站之间的联系,把本来处于孤立状态的大量信息点组成一个有机的整体,使人们在任何时间、任何地点都能共享网站上的信息资源。超链接的概念是定义一个定位点,它指明了一个网页的确定位置,便于超链接跳转时的定位。超连接就象一个信息向导,它带领访问者在万维网里浏览用户所需要的信息。万维网能够超链接的是超文本信息。未来的“数字城市”将拥有庞大的信息资源,它也需要超链接技术将这些资源联系起来。从硬件技术和网络协议上来说,超文本链接的问题已经解决,但是“数字城市”涉及的信息种类繁多,结构复杂、环境各异,特别是地理空间信息,它的超链接远没有超文本链接那么简单,还需技术人员对现有的超链接技术作进一步地开发,以便用户能利用新的超链接功能在“数字城市”的信息海洋中尽情遨游。如此看来,超链接是人们对“数字城市”进行信息浏览的重要技术支撑。

5结语

综上所述,元数据与海量数据处理、数据仓库与数据挖掘、数据融合与虚拟现实、互操作与超链接等现代信息技术都是支撑“数字城市”的关键技术,它们对于“数字城市”的实现均具有重要作用。在建设“数字上海”的过程中,如何根据本市信息化的现状和目标,将这些关键技术进行集成并加以有效应用则是一项极具挑战性的工作。

参考文献

[1] 武汉市委研究室课题组.关于构建武汉“数字城市”的思路与对策[J].学习与实践,2001(5).

[2] 郑剑宇.数字城市与数据仓库[J].上海城市管理职业技术学院学报,2005(4).

猜你喜欢
数据仓库数据处理数据挖掘
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
探讨人工智能与数据挖掘发展趋势
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于数据仓库的数据分析探索与实践