数据挖掘在政府信息系统设计中的应用研究

2010-10-08 05:58住房和城乡建设部信息中心郭理桥
中国建设信息化 2010年4期
关键词:数据仓库数据源电子政务

◎ 住房和城乡建设部信息中心 郭理桥

1、引言

随着网络技术和数据库技术的飞速发展,政府的信息化进程正在逐渐加快。政府信息化,就是指政府行政管理方式、内容和手段的数字化、网络化和智能化。当今,人们对政府和职能部门高效运转的要求越来越高,政府重塑理论和新公共管理理论也在逐渐发展。电子政务自产生后就得到了快速发展并且迅速成为支持政府从传统的管理方式向新型管理体系转变的重要技术保证。电子政务的核心是利用信息技术优化提高行政效率,实现行政和日常事务的优化,建立政府、社会和公众之间的有机互动。经过最近几年电子政务基础资源的大规模建设,海量政务信息资源挖掘和电子政务知识管理等深层次应用正逐步进入电子政务舞台,对电子政务实施数据挖掘将成为政府信息化的一个新的研究方向。

2、数据挖掘理论概述

数据挖掘(Data Mining)又称数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。

2.1、数据挖掘过程

数据挖掘的工作过程从技术上可分为:数据的归集、数据的存储和管理、数据的展现等关键技术。

(1)数据的归集:数据的归集是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过归集过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据归集在技术上主要涉及互连、复制、增量、转换、调度和监控等方面的处理。在数据归集方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

(2)数据的存储和管理:数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。

(3)数据的展现:在数据展现方面主要的方式有:

查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;

报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;

可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;

统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;

挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

从数据分析的角度,数据挖掘实现的功能可以分为:描述式数据挖掘和预测式数据挖掘。描述式数据挖掘以简捷概要的方式描述数据,预测式数据挖掘则通过分析建立模型并试图预测新数据集的行为。

2.2、数据预处理

数据预处理是数据挖掘过程中第一个重要处理步骤,涉及数据清洗、数据集成、数据转换和数据消减等主要处理方法。

数据清洗,主要用于填补数据记录中(各属性)的遗漏数据,识别异常数据,以及纠正数据中的不一致问题。数据集成,主要用于将来自多个数据源的数据合并到一起并形成完整的数据集合。数据转换,主要用于将数据转换成适合数据挖掘的形式。如:规格化数据处理。数据消减,主要方法包括:数据立方合计、维度消减、数据压缩、数据块消减和离散化。这些方法主要用于在保证原来数据信息内涵减少最小化的同时对原来数据规模进行消减,并提出一个简洁的数据表示。

2.3、数据挖掘中的关联规则

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。关联规则挖掘的相关算法主要有:Apriori算法、基于划分的算法、FP-树频集算法。近年来大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。

2.4、数据挖掘中的聚类分析

聚类(Clustering)是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。聚类分析是数据挖掘中的一个很活跃的研究领域,已提出的聚类算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题,以下就是对数据挖掘中的聚类分析的一些典型要求:

(1)可扩展性。许多聚类算法在小数据集(少于200个数据对象)时可以工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果,这时就需要可扩展的聚类分析算法。

(2)处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设计的。但是有些应用需要对其它类型数据,如:二值类型、符号类型、顺序类型,或这些数据类型的组合。

(3)发现任意形状的聚类。许多聚类算法是根据欧氏距离和Manhattan距离来进行聚类的。基于这类距离的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类。而实际上一个聚类是可以具有任意形状的,因此设计出能够发现任意形状类集的聚类算法是非常重要的。

(4)处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据,有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。

(5)高维问题。一个数据库或一个数据仓库或许包含若干维或属性。许多聚类算法在处理低维数据时(仅包含二到三个维)时表现很好。人的视觉也可以帮助判断多至三维的数据聚类分析质量。然而设计对高维空间中的数据对象,特别是对高维空间稀疏和怪异分布的数据对象,能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。

(6)基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚类分析。假设需要在一个城市中确定一些新加油站的位置,就需要考虑诸如:城市中的河流、高速路,以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。

(7)可解释性和可用性。用户往往希望聚类结果是可理解的、可解释的,以及可用的。这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚类方法选择也是非常重要的。

3、数据挖掘与电子政务现状分析

经过多年的实践,我国电子政务建设和应用已初见成效。人口基础信息库、法人单位基础信息库、自然资源和空间地理基础数据库、宏观经济数据库的建立产生了海量的空间数据和非空间数据。这些数据中隐藏了丰富的知识和规则,但目前的许多系统只是实现数据的输入、查询、统计等功能,难以发现数据中存在的关联、关系和规则,无法从大量的数据中提取有用信息以预测发展趋势。从海量的数据中提取出这些规则,将有望为电子政务空间辅助决策系统建立提供支持。在电子政务中数据挖掘的常用方法主要有决策树方法、统计的方法、归纳法、神经网络方法、遗传算法、粗糙集方法、人工智能、模糊集方法等。

3.1 现有信息系统常见缺陷

当前政府机关的各种应用信息系统虽然已经基本上建立起来,但是各种信息系统在建立之前,缺乏数据信息和系统的统一标准接口的规划,使得整个信息系统有如下缺陷:

(1)数据格式多种多样,一致性较差,存在数据冗余;

(2)数据来源多,数据存放分散,缺乏统一管理和联系;

(3)数据量虽大,但对数据资源的开发利用不充分。

3.2 电子政务对数据挖掘技术的要求

(1)降低成本、减少财政开支。数据挖掘技术的应用可以打破各级政府之间文件传递的繁琐性,用快捷的电子方式在政府上下级之间进行信息传递。不仅降低了政府办公用品及相关开销,而且无形中节约了大量的时间、减少了大量的额外开支,大大提高了工作效率。

(2)提供实时、有效的信息。政府部门若要充分发挥其职能作用,就必须进行及时、有效的监控和管理。数据挖掘技术可以帮助增强公众与政府间沟通、通讯的时效性,保证双方都可以及时、准确地掌握到有效信息,建立起一个可以有效收集、监理、分析所获数据的系统。

(3)提供形势分析与决策支持。电子政务中的数据挖掘技术,可以对政务系统中的海量数据进行开采、挖掘和分析,从中识别、抽取隐含信息,并利用这些信息为政府部门重大决策、法规的制定提供依据。

(4)提供功能强大的搜索引擎。数据挖掘技术是目前网络信息检索发展的一个关键。如通过对网页内容的挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过对用户所使用的提问式历史记录的分析,可以有效进行提问扩展,提高检索效果;另外,运用数据挖掘技术还可以改进关键词加权算法、提高网络信息的标引准确度,从而改善检索效果,大大提高电子政务处理的效果和效率。

4、基于数据挖掘的实际系统设计

2007年,我在杭州市主持建设政务信息资源共享与业务协同项目,建立了市级政府各部门之间的目录体系与交换体系,利用目录和交换体系的基础支撑作用,实现经济调节、市场监管、社会管理、公共服务四大政府职能领域的多项业务协同应用。现有交换体系是基于Tibco的交换中间件产品构建的交换平台,任何一项数据交换需求都需要独立进行交换设计和流程部署。在交换部门不断增加、交换需求也日益增多的情况下,交换平台的监控与管理就显得日益复杂,重新优化设计交换模式就显得尤为需要。

4.1 目录和交换体系设计总体目标

基于人口与法人单位数据库,具备初步的数据挖掘、分析和预警能力,支持初步的辅助决策要求。基于数据挖掘的需求建立主题库,以利于进一步工作。系统设计的主要任务是建立三个主要的功能模块:个人信息数据分析功能模块、法人信息数据分析功能模块和个人与法人信息数据分析功能模块。

4.2 目录和交换体系架构

以电子政务外网为基础,构建包含交换中心和资源目录中心以及部门交换节点在内的政务信息资源综合交换平台。各业务部门通过交换体系的通用桥接系统将本部门的业务信息发布到共享信息库中,并根据协同应用规范编制并部署有关服务应用。通过目录体系的编目软件将包括服务的信息进行编目操作提交到中心审核并发布。使用部门通过目录分类查找信息资源并根据有关规章制度进行信息资源的索取(人-机界面)、信息资源的交换(机-机界面)和信息服务的调用(机-机界面)。目录中心与交换中心提供共享目录服务与交换服务和四大基础信息库,为业务协同应用提供支撑服务。

图4.1 系统架构图

现有的前置机系统存在比较普遍的“一数多源”现象,在此基础之上构建数据仓库系统存在一定的困难,数据的清洗和校验必须有既定的数据标准,因此有必要在现有系统基础之上构建标准的共享信息库。

处理流程和数据流程包括:

(1)根据现有的前置机数据,对共享数据指标项进行多方比对和校验,之后存入中心共享数据库,作为标准共享数据供所有部门使用。

(2)根据部门业务数据库构建部门共享信息库,和中心共享信息库的指标进行比对校验,和中心共享标准数据不符的,以中心数据为准存入部门共享信息库。

(3)根据部门共享信息库和中心共享信息库的数据,构建数据仓库,提供人口和法人数据挖掘信息,作为辅助决策依据。

4.3 数据挖掘层次结构分析

在数据采集层中(即前置机部分),其数据内容是依靠事先约定由各个相关业务部门提供,这些数据是后续数据分析的根本。

在数据存储层中,将根据数据采集层中提供的数据源,建立数据核心级的数据仓库。数据仓库中的数据,依据大数据量的建库模型,形成多数据源的索引数据结构。这种数据结构既解决后续数据分析请求的及时响应,又要解决与数据采集层中数据源的及时性数据同步。数据仓库是系统的数据存储核心。

图4.2 数据挖掘层次结构图

图4.3 数据挖掘流程分析图

在数据分析层中,依据数据源与数据应用,将建立多种数据分析模型。这些数据模型都作为不同应用而采用不同的数据算法,并能将杂乱的数据信息转换为应用数据结构。数据模型是系统的技术算法核心。

在数据展现层中,依据数据分析层提供的数据分析结果,将数据结果通过易用的B/S模式提供给使用者与管理者。

4.4 数据挖掘流程分析

首先,数据采集层中提取各业务部门的数据源,这里的数据传输是业务部门主动的单向推送数据至前置机中,系统不会操作业务部门的数据库,保障业务部门原始数据的安全性和稳定性。在业务数据到达前置机后,系统的预处理过程同时会对数据进行初次清理,主要会处理数据的唯一性、可用性,以及数据不完整时做标记提供后续工作的依据。

其次,数据经过采集层后,将依据数据储存模型,建立核心的数据仓库。各个数据源数据汇总至数据仓库,并依据不同业务类型、数据类型等关键信息,存储完成的数据内容,建立关键信息索引。

之后,各数据处理模型,依据应用的请求,从数据仓库中查询、提取、索引相关的数据集,综合处理不同数据类型,转化为可展现的结果集,提供给数据展现层。

最后,数据展现层将数据提供的终端显示给使用者与管理者 。

4.5 系统技术特点

(1)系统的安全性

系统的安全是整个系统的重要部分,政务信息数据是政府的重要资源,数据挖掘功能是辅助决策工作的重要补充,建立完善的安全体系,保障系统安全,保证数据安全,是方案的主要内容。数据挖掘系统的主要安全需求有:应用安全、网络的安全管理、入侵检测与监控、主机防护和访问控制、身份认证、信息记录和安全审计、病毒防护、数据备份与恢复、安全集中管理。

(2)系统的扩展性

数据仓库系统是一个面向未来的分析系统,数据与业务的发展对该系统的未来产生最大的影响,因此系统的设计必须着眼于未来,具备良好的扩展性。系统的扩展性主要针对系统容量扩展、系统性能扩展和系统应用功能扩展三个方面。

5、结论

利用数据挖掘技术建设目录体系和交换体系,可以向政府工作人员提供个性化的多维信息,使分析处理信息的能力大为提高,并帮助决策者更快、更好地制定和做出决策,进而实现政府职能部门的多项业务协同应用。数据挖掘是电子政务一项重要的应用技术和支持技术,可以为各级政府的决策提供科学的依据,提高各项政策制订的科学性和合理性。随着分析决策难度的增强,人们对决策分析工作的智能化、自动化要求越来越高,数据挖掘将成为实现政府决策支持的核心技术,以数据挖掘为依托的政府决策支持系统将发挥重要作用。今后电子政务研究的重点主要包括研究实用的数据挖掘算法,开发业务型数据挖掘平台和工具,实现其与电子政务系统的集成,促进电子政务向智能化分析的发展。

猜你喜欢
数据仓库数据源电子政务
基于数据仓库的数据倾斜解决方案研究
论基于云的电子政务服务平台构建
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
探析电力系统调度中数据仓库技术的应用
电子政务工程项目绩效评价研究
中国电子政务的“短板”
基于数据仓库的数据分析探索与实践
基于真值发现的冲突数据源质量评价算法