数据挖掘在环境科研领域的应用研究

2009-06-05 03:59李丽萍
新媒体研究 2009年9期
关键词:数据挖掘环境应用

姚 鹏 李丽萍

[摘要]随着信息化时代的到来,如何在这些海量数据信息中找到用户真正需要的内容,对于科学研究的顺利开展有着十分重要的意义,介绍数据挖掘的相关概念、数据挖掘基本原理,并对其在环境领域中的应用进行了研究。

[关键词]数据挖掘 环境 应用

中图分类号:G31文献标识码:A文章编号:1671-7597(2009)0510098-01

一、数据挖掘概述

(一)数据挖掘的概念。数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种多学科交叉的全新信息技术,尤其是随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要课题。数据挖掘是指从海量的数据中出潜在的、有价值的知识(模型或规则)的过程,他反复使用多种数据挖掘算法从观测数据中确定模式或合理模型。也就是根据预定义的目标,对大量的数据进行探索和分析,揭示其中隐含的规律,并进一步将其模型化的先进有效的技术过程。

数据挖掘主要做以下不同的事情:分类(classification)、估值(estimation)、预测(prediction)、相关性分组或关联规则(affin

ity grouping or association rules)、聚类(clustering)、描述和可视化(description and visualization)。

1.分类。分类也就是区分数据类别。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘的分类技术,建分类模型,对于没有分类的数据进行分类。

2.估值。估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出,同时分类的类别是确定数目的,估值的量是不确定的。

3.预测。通常,预测是通过分类或估值来产生作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。预测其目的是对未知变量的预测,这种预测是需要时间来验证的。

4.相关性分组或关联规则。通过分析记录或数据间的关系,决定哪些东西将同时发生。

5.聚类。聚类是对记录进行分组,把相似的记录分在一个聚集里。聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。

6.描述和可视化。即对数据进行归约、概化或图形描述等。

(二)数据挖掘的基本原理。数据挖掘的基本原理的处理过程:1. 目标数据集就是根据用户要求,从各种资源中提取的相关有用数据,数据挖掘主要从这些数据通信中进行数据提取;2.预处理是整理目标数据,除去明显错误和冗余的数据,进一步精简所选数据的有效部分,并将数据转换成有效形式,以使数据通过算法和建模(包括选取合适的模型和参数)构造成模型,并用一定的方法表达成某种易于理解的形式;3.模式分析是对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤进行反复提取,最后将发现的知识以能理解的方式提供给用户。

二、数据挖掘在环境科学研究领域中的应用

(一)环境科学领域信息化的现状。随着信息化的进一步推广,环境科学作为一个跟我们生活息息相关的领域,能快速、准确获取有用的信息,对于开展正常的科研工作有这非同一般的意义。当前的查询手段(主要指搜索引擎)一般只限于一些基本的数据查询操作,只能对数据“粗加工”,不能从这些数据中归纳出隐含的有用的知识,使得这些知识不为人知和无法利用,这实际上是对网络信息资源的一种浪费。如何快速方便的获取满足需要的准确信息一直是关注的热点。

(二)通过数据挖掘技术实现环境信息资源最大限度的共享。根据目前环境信息资源的现状和对未来环境信息管理的需求,利用数据挖掘和元数据管理、XML数据交换等技术相结合,集中政务信息、业务数据、环境监测、环境统计、排污收费、排污申报、污染源监控等和遥感地理信息、环境科研、环保产业以及相关基础资料数据等信息资源,实现全省环境信息资源共享。基本实现对各个地区环境信息的统一管理和查询,为各级环境管理部门提供环境信息共享支持和服务。

(三)通过数据挖掘技术实现规范环境信息资源的科学规范管理。特别是对已有的基础资料以及政务信息、环境质量监测和污染源管理重点业务应用系统积累的数据进行整理,转化成可开发利用的环境信息资源;改造、整合和集成各种环境数据,初步建成集中-分布式省级环境数据库体系,其中包括环境法规与标准信息数据库、环境政务信息数据库、环境统计信息数据库、环境质量监测信息数据库、排污申报信息数据库、辐射环境管理信息数据库、环境科技情报信息数据库、重点污染源数据库、生态环境数据库、自然保护和生物多样性数据库、重大污染事故数据库、城市环境综合整治数据库、环境地理信息数据库、环境遥感数据库等等。采用数据挖掘技术,通过神经网络和近似推理等手段,建立非线性预测、分类模型研究分析各种环境数据之间的联系与规律,并且把通过分析得来的规律和环境管理决策结合起来,从而提高环境管理的科学性、客观性和准确性。

(四)通过数据挖掘技术提供科学的环境管理决策支持。通过数据挖掘分析、整合、加工各类环境信息资源,为环境信息管理工作和辅助决策提供所需的各类信息资源,对各级环境管理部门的管理者和决策者提供有效信息资源,建立可伸缩的知识分类引擎、实现智能的知识发现功能。以实现环境信息资源共享为出发点,提高环境信息资源开发利用水平、为环境信息管理与决策提供支持和服务。数据挖掘是一个活跃的研究领域,也是人工智能、计算机科学与技术、网络技术的发展和普及所提出的迫切需要解决的重要课题。作为一项新技术,大力开发使用数据挖掘技术,实现全省环境信息的统一收集、存储、加工与发布。采取多种措施,有效利用环境信息资源,提高环境信息的资源价值,开发和利用水平,保证最大限度地为环境管理与决策提供环境信息支持和服务。

(五)有利于指导环境问题的解决。通过采集环境科研方面的各种信息数据,经过数据挖掘技术的处理和加工,可以发现环境的信息动向,从而可以据此给出及时解决措施,调整环境布局,达到我们治理环境的目标。

本文探讨数据挖掘的相关知识,并对在环境科研决策领域中如何使用数据挖掘技术进行了一些阐述。如何进一步发展数据挖掘,充分利用各种信息资源,势必需要进行更加深入的研究,数据挖掘的研究将充满挑战又极富发展潜力。随着数据挖掘技术的不断发展,它将会更加广泛的应用在环境科学领域。

参考文献:

[1]刘富刚,环境问题的分析与对策[J]德州学院学报,2001(04).

[2]黄添强,基于空间数据挖掘的环境调控空间决策支持系统研究[D].中国优秀博硕士学位论文全文数据库(硕士),2003(02).

作者简介:

姚鹏,男,宁夏中宁人,宁夏化工技师学院助理讲师,同济大学软件学院在读研究生,研究方向:信息系统、环境工程;李丽萍,女,宁夏工商职业技术学院助教,同济大学软件学院在读研究生,研究方向:数据库及信息管理。

猜你喜欢
数据挖掘环境应用
环境清洁工
数据挖掘综述
软件工程领域中的异常数据挖掘算法
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析
气体分离提纯应用变压吸附技术的分析
会计与统计的比较研究
基于R的医学大数据挖掘系统研究
漫观环境
一本面向中高级读者的数据挖掘好书