黄楠
摘要:属性约简算法是数据挖掘领域发展的核心内容,是确保我们能够从海量的数据中快速、准确的找到最具价值数据内容的关键。但目前的属性约简算法还并不够完善,远远跟不上互联网飞快发展的脚步,存在运算效率还不够高、应用范围太过狭隘等缺陷,还有待我们去做突破性研究。因此,数据挖掘技术的研究和开发应侧重于努力从属性约简算法上寻找突破口,进而优化算法,提高数据挖掘技术的工作效率。粗糙集理论方法及模糊集理论方法在处理不确定数据过程中各具特点,两者都可用来砚察、侧试数据并进行推理。虽然它们之间有一些重处,但两者的粉眼点和计算方法是不一样的,因此不能相互替代,而是必须结合起来使用。该文在研究粗粗集和模栩集理论的基础上将两者相结合,提出了一个断的篇性约简算法。
关键词:粗糙集;模糊集;约简算法
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2012)32-7718-02
1背景
随着网络计算机及数据库的大量建立并迅速发展,世界范围整体数据库所存储的数据总量也随之飞速庞大起来。然而,大量数据库的建立起初目的仅仅是作为存储数据,数据库内部及各数据库之间大部分数据是相互孤立的,许多数据长时间得不到有效利用,长期处于冗余状态,因此,海量的数据虽然丰富,但其知识却处于贫乏状态,这就要求数据库工具具有极强的数据分析能力。数据挖掘领域的发展应能够从海量的数据中快速、准确的找到相应的数据内容,能够正确的理解历史数据并作出合理解释,从而对未来的行为发展作出准确预测。数据挖掘是结合人工智能、统计学、并行计算、模式识别、数据库及模糊智能等技术而兴起的一个全新的科学领域,并受到有关学者的密切关注。一个优秀的数据挖掘方法应具备有效、新颖、高效及转为可视等特点。目前,常用的方法包括数理统计学、概率论、模糊集、粗糙集、遗传算法、神经网络及决策树等,或是结合了上述两种或多种方法。
近些年,粗糙集数据挖掘方法从各种方法中脱颖而出,成为了人们的研究重点,它能够在各种运行环境下有效地获取知识,并能对不确定和模糊数据进行不可分辨类型及不可分辨关系处理,过程中不需要对知识做任何附加信息处理或先验知识处理。粗糙集数据挖掘方法首先要做的是将数据系统做约简处理(值约简及属性约简),这同时也是该方法的重要步骤之一。值约简过程是指将数据系统中那些没有价值的重复内容删除。属性约简过程是指在保证数据系统分类能力不发生改变的条件下进行一系列信息变换,最终得到一个最小的条件属性子集。
2粗糙集及模糊集
纯粗糙集属性约简过程中,要求数据通常具有一定的精确性,要求数据属性对应等价。约简计算中过程中,计算内容必须是经离散化后属性值,而现实的数据系统通常无法做到这一点,例如气象数据系统中湿度、风速、温度等属性值均不是确切的固定值,而是随时间在不断变化。所以,利用粗糙集数据挖掘方法做属性约简前,必须将这些连续属性值做离散化处理,这就有可能在某种程度上对一些数据造成不可避免的数据缺失,这是因为属性值离散化后与其实数值所存在的差异信息没有被保留。
粗糙集方法是传统集合论的延拓,它将用于分类的数据嵌入集合中,并视为集合的组成部分。可依据现有的理论来判断对象a是否包含于集合X,通常将其分为三种类型:①已确定集合X包含对象a;②已确定集合X不包含对象a;③集合X可能包括对象a也可能不包含对象a。集合的划分与我们现有的论域知识具有密切关系,具有相对性。论域U是一个有限非空集合,U中的一族与I为等效关系,则称K=(U,I)为其一个近似空间。设x对象及X子集均包含于U,I(x)则表示为与x不可分辨的所有对象构成的一个集合,也就是说,该等效类是由x对象所决定,I(x)包含的所有对象均和x有共同的属性特征。
模糊集理论同样也是数据系统中不精确、不完善数据内容的研究理论,侧重于数据的模糊性研究。粗糙集理论同时结合模糊集理论便可以实现决策属性及条件属性均能符合模糊性要求,因此,属性约简的对象是相似类数据。在属性约简过程中,其约简对象的属性值无须经过离散化,固可以保持其原有性,粗糙集理论每个经离散化符号与其属性下的模糊等价类相对应,相应地,因此,属性模糊化也将替代相应的过程离散化。
模糊集又被称为模糊集或模糊子集,指的是模糊性数据的集合。一般的集合指的是具有某种特定属性值的全体对象。通常这种特定属性值指的是一个精确的值,具有明确的区分界限,这个集合中的每个对象与其集合的关系是明确的隶属关系,反之,则每个对象或部分对象与集合的隶属关系并不明晰。然而,在人的思维意识中有着太多模糊概念(如大小、很快、一点、很高等等),这类模糊概念所指对象的属性并不能直接明确其“是”或“否”。这是因为模糊类概念自身并没有清晰、明确的界限值,有时还会随着条件的变化而产生变化。
模糊集的表示: