符 钰
(泰州职业技术学院电子信息与工程系,江苏 泰州 225300)
基于粗糙集的数据挖掘方法分析
符 钰
(泰州职业技术学院电子信息与工程系,江苏 泰州 225300)
文章从数据挖掘和粗糙集的基本概念出发,研究粗糙集理论在数据挖掘中的典型运用,为大型数据挖掘提供了一种新的方法。基于粗糙集的数据挖掘,首先通过粗糙集理论对数据进行预处理,然后对属性约简,最后进行决策规则提取,寻找最优解。
粗糙集;数据挖掘;数据处理
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润。这种从海量数据库中挖掘信息的技术,就称之为数据挖掘技术。美国S A S软件研究所将数据挖掘定义为:“按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步模型化的先进、有效的方法[1]。”数据挖掘能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。比如,通过对公司整个数据库系统的分析,数据挖掘可以回答诸如“哪些客户最有可能购买我们公司的什么产品,为什么?”等类似问题。数据挖掘还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易察觉的极有用的信息。数据挖掘的一般步骤如下:问题理解和提出→数据准备→数据整理→建立模型→评价和解释。
(1)问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。(2)数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是,如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。(3)数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。(4) 建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型。(5) 评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。
以上的步骤不是一次完成的,可能其中某些或者全部要反复进行。
1982 年,波兰学者Z.Pawlak提出了粗糙集理论,它是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确、不一致(inconsistent)、不完整(in CO Mplete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律[2]。粗糙集理论是建立在分类机制基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来(近似)刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的。
定义1信息系统S可表示为S=(U,A,V,f),其中U是对象的非空有限集合,称为论域;A是属性的非空有限集合;V=∪a∈A V a,V a是属性A的值域,f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值。如果属性集A可以分为条件属性集C和决策属性集D,即C∪D=A,C∩D=Ф,则该信息系统称为决策系统或决策表,其中D一般只含有一个属性。
定义2在知识表达系统S中,对于一属性集P∈A,对象x,y∈U,二元等价关系I N D(P)={(x,y)∈U×U|所有的a∈P,f(x,a)=f(y,a)}称为S的不可分辨关系。不可分辨关系是一个等价关系,通过一个不可分辨关系,可以得到一个决策系统的划分。
定义3给定信息系统S=(U,A),B∈A,对B中的属性a,如果I N D(B)≠I N D(B-{a}),则称属性a是必要的(Indispensable),否则称a是不必要的(Dispensable)。
近年来,粗糙集理论在数据挖掘中的应用取得了较大的进展,基于粗糙集理论的方法逐渐成为数据挖掘主流方法之一。基于粗糙集理论的数据挖掘系统一般都由数据预处理、基于粗糙集理论或其扩展理论的数据约简、决策算法等组成。其大概思想是:首先通过粗糙集对信息表中的数据缺损进行处理;然后根据已定义的可辩识距阵,通过属性简约算法对信息表中的数据进行属性简约和知识发现;最后根据值约简等减少属性和个体数目,最终提取规则并将之应用于新对象的分类。
(1) 数据预处理 在现实世界的很多情况下,我们拿到的第一手数据都会存在噪音数据、空缺数据和不一致性数据等我们不希望出现的数据,甚至因为数据库过于强大,这样的数据多达数千兆字节。因此,不得不去想一个问题:“怎样处理数据才能提高数据的质量,从而提高数据挖掘结果的质量呢?”现今已经存在的数据预处理技术有很多,常用的有数据清理、数据集成、数据归约等。其中数据清理可以去掉数据中的噪音,纠正不一致。数据集成可以将数据由多个源合并成一致的数据存储。数据归约可以通过聚集、删除冗余特性或者聚类等方法来压缩数据[3]。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘的模型,降低实际挖掘所需要的时间。
(2)属性约简和属性值约简 在一个决策系统中,各个条件属性之间往往存在着某些程度上的依赖或关联,约简可以理解为在不丢失信息的前提下,最简单地表示决策系统的结论属性对条件属性集合的依赖和关联。属性简约算法如下:
步骤1:计算属性表的可辩识矩阵。
步骤2:对可辨识矩阵中的所有取值为非空集合的元素Cij建立相应的析取逻辑表达式。
步骤3:将所有析取逻辑表达式进行合取运算,得到一个合取范式。
步骤4:将合取范式转换为析取范式形式。
步骤5:输出属性约简结果,其中析取范式中的每个合取项对应一个属性约简的结果,每个合取项中所包含的属性组成约简后的条件属性集合。
值约简的目的是为了提取决策规则,将缺失的属性值约简掉。和属性约简不同,值约简是针对每一个对象而言的。虽然对整个决策表来说没有冗余的属性,但对于每一个对象来说,仍然存在着属性冗余,去掉这些属性对决策规则的提取、规则的简化有重要的作用。根据定义一般值约简算法基本描述如下:对于规则集合中的每条规则,对于该规则中的任意条件属性,如果去掉该属性,该规则不和集合中的其他规则冲突,则可以从该规则中去掉该条件属性。
(3)决策规则提取 对进行属性约简和值约简后的信息表,就可以进行规则的获取,使用一个约简集R E D从决策系统S=(U,A)中产生规则的过程相当直接。直观地,将每个约简用在决策表的每个对象上,只要简单地从表中读出适当的属性值来形成决策规则。用类似逻辑语言中α→β的形式表示决策规则,α和β分别称为决策规则的前件和后件,α代表条件属性值的组合。
现在商场对销售数据和客户信息的处理一般还停留在简单的数据备份和查询阶段,而把基于粗糙集的数据挖掘方法引入到对销售数据的分析中,可以找到影响销售额的真实原因,有利于有针对性地提高商场的销售业绩。经过数据收集和数据确认,从商场销售数据库以及消费积分卡客户信息数据库中,选择(性别、年龄、职务、收入、积分、总消费额、羽绒服档次)作为预处理前的信息集合(见表1)。
表1 预处理前信息系统
从表1可以看出,条件属性中,年龄、积分、总消费均为连续属性,需要进行离散化;同时多条记录里存在若干属性值的缺失,需要进行数据完备化处理。
(1) 数据预处理 对a 2,a 5,a 6进行离散化。设用户控制阈值t=2,最多不超过4个断点,计算得 P 2={27.5,38},P 5={919.5},P 6={1299.5},P为已选的断点集合。计算缺失属性最相似值:x 2=1;x 4=1;x 6=0;x 8=2;x 10=1(见表 2)。
表2 经过数据预处理后的完备信息系统表
表 2中 () 代表缺失值。其中,a 1:0(男)、1(女);a 2:0(27.5岁以下)、1(27.5岁至38岁之间)、2(38岁以上);a 3:0(一般员工)、1(高级职员)、2(高级管理人员);a 4:0(1-2千元)、1(2-4千元)、2(4千元以上);a 5:0(919.5以下)、1(919.5以上);a 6:0(1299.5元以下)、1(1299.5元以上)。
粗糙集理论是一种处理不确定和不精确问题的新型数学工具,为数据挖掘提供了一条崭新的途径。粗糙集理论在数据挖掘中的应用研究目前正成为信息科学中的一个研究热点,其发展空间广阔。
[1]朱明.数据挖掘[M].合肥:中国科学技术出版社,2003.
[2]李红梅,周桂红,王克俭.基于粗糙集和遗传算法的知识发现方法[J].计算机应用,2007,8(1):76-78.
[3]Jia Weihan.D Atamining Concepts and Techniques[M].北京:机械工业出版社,2001,8(1):70-93.
Data Extraction Based on Rough Set
FU Yu
(Taizhou Polytechnic College,Taizhou Jiangsu 225300,China)
Based on the theory of data extraction and rough set,this article tries to study typical application of rough set in data extraction and introduce a new approach for data mining.First of all,we retreats our data with rough set,and then reduce attributes,finally we extract the best rule of decision.
rough set;data extraction;data processing
TP391
A
1671-0142(2011)02-0067-03
符钰(1981-),女,江苏泰州人,讲师.
(责任编辑李冠楠)