廖美红
(广西工商职业技术学院,南宁 530003 )
煤炭行业控制生产流程时需要布置数以百计的监控点,收集和积累大量的数据,并将这些数据集合起来成作为监控数据。如果计算机能从这些历史数据中自动提取知识或规则,应用所提取的知识来评估或预测即将发生的事件,并实时纠正偏差,煤炭行业就能在数据集成后,引入数据挖掘技术,实现系统智能化和自动化。科学有效的管理手段可以提供更有效的方法来保证煤矿生产安全,产生良好的经济效益和社会效益[1]。
煤炭系统数据主要是关于空间定位和空间关系的地理数据。这些数据拥有一般数据所没有的特征[2]:
1)空间性:空间数据描述了空间位置、结构和空间拓扑关系;2)抽象性:人工选择数据,使数据生成多语义;3)多尺度和多态性:不同的观测尺度有不同的准确性;4)多时空性:空间数据不仅具有空间信息,而且包含非信息附属信息;5)多语义:当解决问题时,不同的系统有不同的重点,因此他们可能存在语义差异。
总之,煤炭系统的测量数据和生产数据具有多源性和异构性。系统应该为用户挖掘多源和异构数据提供一个统一的访问接口,使用户可以更加方便有效地访问异构信息源。多源异构数据挖掘的最重要特征是用户将专注于调查的内容,而不是调查的方法,因此,为了从煤矿系统的测量数据和生产数据中得到有用的信息,我们需要建立煤矿系统的多源空间数据挖掘模型。
数据挖掘方案和数据挖掘算法的选择是煤矿安全监控空间数据挖掘所应解决的关键问题[3]。虽然很多数据挖掘算法和实现方案,但是对于空间数据挖掘,尤其是煤矿安全数据的空间数据挖掘,可选的方案并不是很多。煤矿安全空间数据挖掘可以从以下四个方面实现。
1)基于数据库的空间数据挖掘
这个方案简单可靠。转化空间数据需要考虑空间的自相关性和拓扑结构特征,根据空间数据的特点,系统设计新算法,并将算法插件集成到数据库中,但是这个方法的可视化效果不好。
2)基于地理信息系统(GIS)的空间数据挖掘
这个方案实现了地理信息系统(GIS)强大的空间数据管理能力和结果可视化功能。然而,地理信息系统(GIS)软件通常仅限于空间数据分析,对空间数据挖掘算法的考虑较少,这需要在现有的地理信息系统(GIS)软件中集成数据挖掘插件或挖掘功能模块,因此它对编程能力具有较高的要求。
3)使用现有的空间数据挖掘软件
GeoMiner软件是关系数据库的挖掘系统DB Miner的扩展版本。它能够挖掘空间数据特征规则,对规则进行关联和比较。该软件旨在二维空间数据的挖掘,如果将其用于煤矿三维空间数据的挖掘,会受到很大的限制。
4)开发自己的设计SDM
这个方案可以针对实际的煤矿数据来设计,所以具有很强的针对性。但这种方法对编程能力的要求最高,它对数学、计算机科学、煤矿和其他学科进行整合,所以是最困难的。
空间数据挖掘的四种方案比较如表1所示。
表1 不同空间数据挖掘方法的比较
这四个方案有各自的优缺点。基于数据库的空间数据挖掘和基于地理信息系统(GIS)的空间数据挖掘方案更可行。正如本文上面所提到的,这两个方法都很难独立地完全实现煤矿安全监控系统中的空间数据挖掘和结果可视化。本文提取两种方案的优点,提出了结合SDM和地理信息系统(GIS的)空间数据挖掘方案。
这个方案基于数据库系统,保持研究对象作为一个或多个特定属性的空间数据的空间自相关性。它使用数据库系统的数据挖掘模块来进行煤矿安全监控空间数据的空间数据挖掘操作。数据挖掘生成若干模式。该系统利用地理信息系统(GIS)来找出有用的模式,然后GIS对这些有用的模式进行可视化处理。
这个方案操作相对简单,不仅考虑到空间数据的空间自相关性,而且充分发挥了数据库软件的数据管理功能和数据挖掘功能,以及地理信息系统(GIS)软件的可视化功能。
空间数据挖掘系统可分为三层体系结构(如图1所示)。第一层是一个数据源,利用空间数据库或数据仓库管理系统提供的索引,查询优化功能,访问并完善词问题域的相关数据或者直接使用空间数据库中的数据。
第二层是数据挖掘,首先进行数据处理,原始数据可以转化为数据挖掘算法的目标格式。之后,系统删除冗余数据和不相关数据,转换原始数据并进行特征提取。接下来,使用空间数据挖掘系统中的数据挖掘方法来分析所提取的空间数据。最后,系统使用挖掘算法从大量数据集合中确定模式,并在挖掘过程中通过可视化技术,调整阈值和参数。
第三层是用户界面。在这一层中,系统通过可视化工具将获得的信息和发现的知识展现给用户。
用户对发现的知识进行分析和评估,然后将知识提供给支持空间决策,或者将有用的知识存储到知识仓库中。
安全监控系统中的空间数据挖掘主要包含三方面的内容。分别是数据处理、空间数据挖掘过程和知识表达。
1)数据处理
本系统中数据处理可分为四类:
(1)数据提纯:填补数据空缺值、识别异常值、排除干扰数据、修正不一致数据。
(2)数据集成:集合多个数据源的数据,并将数据存储在一个数据存储器中,例如数据仓库。
(3)数据转换:将数据转换成适于挖掘的格式。它涉及到数据平滑度、数据集合、数据泛化和标准化、属性构建等。
图1 煤矿安全监测系统模型
(4)数据简化:由小型数据集合形成大型数据集合,但仍然保证原始数据的完整性。
2)空间数据挖掘过程
空间数据挖掘与大多数的数据挖掘和知识发现具有相同的过程。这个过程可以分为数据选择、数据处理、数据转换、数据挖掘、模式判读或知识评价等。数据选择是定义感兴趣的目标及其属性,数据处理是排除干扰数据及处理丢失数据,数据变换是通过数学变换和降维技术来提取数据特征,模式判读或知识评价是采用人机交互模式执行目标数据的模式或知识分析(如图2所示)。
图2 空间数据挖掘过程模型
3)知识表达
知识表达使挖掘的知识满足知识库的要求,并通过人机交互的方式显示、验证和评价挖掘的知识。知识表达的方法主要有基于规则的知识表达、基于模式的知识表达、面向过程的知识表达、面向对象的知识表达等。
为了反映空间对象的结构,以及空间和空间(或空间和非空间)之间的关联规则、空间挖掘需要设计一组空间。图2所示空间数据挖掘过程模型来判断表达空间关系。空间关联规则是空间数据挖掘的重要内容。关联规则可以表示为X_Y(c%, s%, I%),X和Y表示空间属性(空间元素或其属性),以及属性集合。C %, S %, I%分别显示了可信度,支持度和兴趣度三方面的程度[4]。
空间关联规则包括不同空间属性,不仅表达空间对象的拓扑关系,例如相邻、共生、包含、覆盖、重叠等,也表达距离信息,比如接近,交叉,远离等。所有的这些空间属性可以总结为广义接近(g_close_to)和粗略接近(coarse_g close_to)。
为了验证空间关联规则算法,从空间数据库中挖掘空间关联规则,脱离空间属性,获得拓扑关系的概念层次结构。概念层次树如图3所示。
在许多应用程序中,我们很难从原始数据或更低层次的数据项中找到的强关联规则,但可以从更高层次的概念结构中找到强关联规则,可以提供普遍重要的知识。因此,我们设计的任何数据挖掘工具,都应该提供从一系列的概念层次中挖掘空间关联规则以及在不同概念空间中方便地转换的功能。
图3 拓扑关系概念层次树
空间数据挖掘算法的选择与煤矿安全所需要的空间知识和模式有关。一般来说,空间数据挖掘包括三种主要模式:1)分类和预测模型;2)集群和单点检测模型;3)空间关联规则。
空间关联规则是一种重要的知识。空间关联规则是指空间数据价值和数据项之间关系描述的相关知识。这些知识可以显示特定的参数和空间位置之间的共生关系,表示在某些地区现象出现的可能性。显然,对于煤矿安全分析来说,这些知识具有十分重要的意义。
关联知识挖掘的核心算法是Agrawal在1993年设计的Apriori算法,目前此算法已经发展了多种修正版本。
煤矿安全数据的空间关联规则将适用于方法的双向挖掘。双向挖掘是在在对象和对象属性中同时挖掘关联规则。
空间关联规则的双向挖掘可以分为两个步骤。第一步是根据统计结果得到非空间项目。第二步是使用算法来生成规则,或者返回到多维关联规则挖掘的空间关联。煤矿安全监测系统中空间关联规则的双向挖掘如图4所示。
空间数据库中的空间对象关系在拓扑表中被隐藏。使用专业的空间分析工具,基于空间数据挖掘的地理空间对象数据抽象模型和抽象数据类型操作可以完成大部分的空间分析计算和部分复杂空间分析。
图4 煤矿安全监测系统空间关联规则的双向挖掘
基于空间数据挖掘的煤矿安全监测系统可以提供相关的地下动态操作的信息,采用信息处理的不同挖掘工具,为决策提供有用信息,并通过网络将信息发送到监控中心。空间数据挖掘为煤矿安全监测中空间数据处理和解释提供了智能管理,目的是为了从海量的数据中挖掘目前未知的、可能有用的知识,为煤矿提供安全保障。
[1] 刘艳霞, 刘晓华, 等. 网络系统指导煤矿生产的优越性[J].煤炭技术, 2012, 31(2): 67-69.
[2] 崔沪. 国外煤矿安全管理对国内矿难的启示[J]. 煤矿现代化, 2005(2): 32-33.
[3] 范明, 孟小峰, 等. 数据挖掘概念与技术[M]. 北京: 机械工业出版社, 2000.
[4] 卢启程, 邹平. 数据挖掘的研究与应用进展[J]. 昆明理工大学学报, 2002, 27 (5): 62-66.