基于rough sets的不完备数据分析研究

2011-01-31 15:38赵东阳
科学之友 2011年12期
关键词:约简粗糙集结点

赵东阳

(鲁东大学信息科学与工程学院,山东 烟台 264025)

1982年,波兰数学家Pawlak等人首次提出了粗糙集理论,粗糙集理论的主要思想是在保持知识库分类能力不变的前提下,导出问题的决策和分类规则。粗糙集理论自身的特点和优势使其在数据挖掘方面获得了巨大的成功,在数据挖掘和数据库知识发现等研究领域正在扮演越来越重要的角色,逐渐成为该领域研究的重要分支。

1 不完备信息系统RS处理方法

Pawlak所提出的RS理论是面向完备信息系统的,在面对某些不完备系统时,必须对 RS理论的基本概念进行必要的扩充,以使其能够对这些系统进行直接处理。扩充法是一种直接处理方法,也是研究不完备信息系统的最有效的方法。

1.1 容差关系

在“遗漏”语义下处理不完备信息系统而定义的一种二元关系即容差关系。每个个体对象都具有潜在的完备信息,而当前只是遗漏了这些值,于是由于这些不精确的知识迫使人们去处理只有部分信息的不完备信息表。

1.2 非对称相似关系

由Stefanow ski 等人提出的面向不完备信息系统的相似关系则是基于对“缺失值”语义的如下理解:一个属性的缺失值不仅可能由于现有知识的不精确,还可能因为它根本就不能用现有的属性值来描述。因此相似关系中不允许比较缺失值,不完备信息系统S=(U,A)上的相似关系定义S为:

显然,相似关系S是不对称的,实质上是一种包含关系的表示,因为只要满足“x的描述”包含于“y的描述”就可以认为“x相似于y”。

1.3 限制容差关系

王国胤教授将容差关系和相似关系看作是对不可分辨关系扩充的两个极端,因为容差关系的条件太宽松,易于将根本没有相同已知属性信息的实例误分到同一个容差类;而相似关系却可能将具有很多相同关系一直属性信息的实例分到不同的相似类。因此,王国胤教授提出了一种介于这两种极端扩充之间的限制容差关系——限制容差关系的粗糙集模型。该模型是基于容差关系与基于非对称相似关系粗糙集模型的改进。

1.4 量化容差关系

为了进一步刻画容差关系和相似关系中两个实例之间的“相似”程度,Stefanow ski等人提出了基于量化容差关系的扩充 RS理论模型。通过应用不同的比较规则可以得到不同类型的量化容差关系。给定一个量化容差关系,对论域U中的每个实例,Stefanow ski定义了“容差类”的概念,它是一个用关于参考元素的“容差度”作为成员函数的模糊集。量化容差关系着重于对存在容差关系或相似关系的实例之间的“容差(或相似)程度”进行进一步的细化,其研究思路是自然、正确的。

2 属性约简

数据挖掘要处理的初始信息系统中经常包含大量的无关或冗余属性,这些属性的存在不仅会阻碍挖掘进程,而且会降低最终挖掘知识的正确性和精简度。RS理论中将删除信息系统中的无关或冗余属性的过程称作属性约简。通过属性约简最终得到的属性集成为信息系统的一个约简(Reduct),它是保持原始决策表中条件属性和决策属性的依赖关系不发生变化的最小属性集合。由于求取一个决策表的所有约简是一个 NP问题,通常在实际应用中很难实现。因此 Liang等人提出了一种不完备信息系统中求取属性约简的启发性算法。对数据进行属性约简的意义,主要从以下几个方面考虑:①从机器学习的角度来看,属性约简对于去除噪声非常有意义;②对一些学习算法而言,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;③假如不进行属性约简,噪声或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响;④当用较多的特征来描述数据时,数据均值将表现得更加相似,难以区分。

3 规则抽取

使用 RS理论进行数据挖掘,其最终获得的知识是以规则的形式给出的。规则抽取是数据挖掘中最重要和最关键的一步,它是指从经过处理的决策表中抽取出以规则形式表示的知识。目前用于分类问题的方法主要分为两类:符号方法和连接主义方法。符号方法是基于决策树、粗集理论等技术,得到的分类知识以分类规则的形式出现;而连接主义方法则以神经网络为代表,其知识蕴含在结构中不易为人所理解,因此一度被人们认为不适合进行数据挖掘。然而由于神经网络在分类问题中具有分类精度高、鲁棒性好等优点,很多研究者都致力于从神经网络中抽取分类规则。神经网络的基本思路是基于搜索的算法,对于任一给定的隐结点或输出结点,先提取符号规则,然后对生成的规则按网络的传导途径进行连接和整理。有的文献提出了一种从训练后的三层前馈网络中抽取分类规则的方法。该方法首先对每个隐层结点的输出值进行离散化;然后分别导出隐层结点与输出层结点之间的规则(规则集 1)和输入层结点与隐层结点之间的规则(规则集2);最后将两部分规则进行合并得到最终的分类规则。总之,从神经网络中抽取规则是一个复杂的过程,这其中隐结点的离散化过程不仅繁琐,而且易丢失信息。另外,当数据量增多、网络规模变大时,网络训练和规则抽取的时间代价将会非常大。

1 陈珂、宣仲良.一种基于粗糙集理论的 ROUSTIDA改进算法[J].电脑与信息技术,2008(3):32~33.

2 朱小飞、卓丽霞.一种基于量化容差关系的不完备数据分析方法[J].重庆工学院学报,2005(5):23~24.

猜你喜欢
约简粗糙集结点
粗糙集与包络分析下舰船运行数据聚类算法
基于隶属函数的模糊覆盖粗糙集新模型
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
基于0-1规划的最小属性约简算法
面向特定类的三支概率属性约简算法
多粒度犹豫模糊粗糙集*
粗糙集的Mallow’s Cp选择算法*
直觉模糊序决策系统的部分一致约简*
近似边界精度信息熵的属性约简