监督机制多粒度决策粗糙集模型及应用

2020-09-15 04:48骆公志
计算机工程与应用 2020年18期
关键词:类间粗糙集子集

骆公志,梅 焘

南京邮电大学 管理学院,南京 210003

1 引言

粗糙集理论作为一种有效处理不精确和不确定性信息的有效工具[1],当前已广泛应用于数据挖掘、聚类分析、预警系统和图像处理等领域[2-5]。经典Pawlak 粗糙集将论域分为正域和边界域的集合,而未恰当解释决策类的负域,导致经典粗糙集中负域恒为空。

鉴于经典Pawlak 粗糙集存在无法描述决策类负域的问题,Yao 在长期研究概率粗糙集过程中,用概率粗糙集将论域分为三个区域[6],即正域、负域和边界域,提出符合人类实际认知能力的三支决策模式,并依据贝叶斯最小风险决策规则,定义概率粗糙集中两个参数在现实里的语义解释,建立决策粗糙集模型[7-8]。之后有学者针对Yao 的三支决策模型并未考虑决策时所遇到的多样性以及适应性的现实问题,将其引入到邻域[9]、动态粒度[10-11]、群决策[12]等方面。

技术上的进步促进了信息科技的飞速发展,随之导致了信息处理量的剧增,梁吉业等学者针对单一粒度空间下粗糙集的缺点,考虑粒计算[13]下多粒度的特点,提出了多粒度粗糙集[14],同时定义了悲观多粒度粗糙集和乐观多粒度粗糙集[15-16]。由于多粒度粗糙集模型不但可以处理分布式数据[17-18],且在处理时间上呈现出更加高效的特性,因此在应用上有更加宽广的前景。Dai 等针对多粒度粗糙集的属性约简问题,将粒子群算法引入其中,提出一种新的多知识快速约简方法[19]。Jing 将知识粒度与视图相结合,提出新的增量式属性约简方法[20]。

钱宇华等学者进一步将多粒度数据分析的理念引入决策粗糙集中,建立了多粒度决策粗糙集模型[21-23]。史进玲从决策信息表视角出发,着眼于粒度划分数量和粒化决策权重,提出了基于风险最小化的多粒度三支决策模型[24]。Wu针对多粒度标记信息系统考虑了不同标记尺度,提出了多粒度划分粗糙集分析方法[25]。顾沈明在多粒度标记信息系统的前提下,寻求单个粒度的最优点,提出了多粒度决策系统下的局部最优粒度选择[26]。Li 从集合近似的角度出发,将多粒度与三支决策相结合,给定了一种新的学习认知概念[27]。

传统多粒度决策粗糙集使用单一阈值,大大限制了对论域粒化以及降低信息不确定性的能力。本文借助监督学习中对象现有或预测的标记信息[28],引入类内阈值和类间阈值的概念,结合多粒度数据分析的优势,构建新的多粒度决策粗糙模型,提出了基于监督机制的多粒度决策粗糙集,验证了模型的相关性质,并讨论了模型之间的关系。该模型是传统多粒度决策粗糙集的推广形式,通过理论分析和实例证明,该模型可以通过变更类内阈值和类间阈值来提升多粒度决策粗糙集刻画不确定性知识的能力,帮助优化决策,具有更好的实用性。

2 基本概念

2.1 决策粗糙集

设信息系统S=<U,A=C⋃D,V,f >,A=C⋃D,其中U={x1,x2,…,xn}为有限对象集,称为论域;A表示全体属性集,C为条件属性集,D为决策属性集,Va为属性a∈A的值域,f(x,a)表示对象x在属性a上的取值。

定义1[1]设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中属性子集Ai⊆A,可构成二元不可分辨关系:

IND(A)称为自反的、对称的和传递的。

定义2[6]设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中属性子集Ai⊆A,对于任意X⊆U,决策粗糙集的下近似、上近似和边界区为:

其中:0 ≤β < α≤ 1 。

2.2 多粒度粗糙集

定义3[15]设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集,对于任意X⊆U,乐观多粒度粗糙集的下近似、上近似和边界区分别为:

定义4[16]设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集,对于任意X⊆U,悲观多粒度粗糙集的下近似、上近似和边界区分别为:

3 基于监督机制的多粒度决策粗糙集

为区分类内关系和类外关系,本文在已有研究基础的前提下,给出参数λ的定义:即X与Y的交集超过一半及以上可判定为类内,否则判定为类外。

本文规定当P(Dk|[x]Ai)>λ时,采用类内阈值α0、β0,否则采用类间阈值α1、β1。

定义5设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。给定类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1 。Dk的关于属性子集A1,A2,…,Am的乐观多粒度监督决策粗糙集的下近似、上近似以及边界区为:

当α0=1,α1=β1=β0=0 时,基于监督机制的乐观多粒度决策粗糙集退化为传统的乐观多粒度粗糙集。为降低信息的不确定性,采用如下方法:使类内阈值α0等于传统下近似阈值α,减小类间阈值α1,即0 ≤α1<α0≤1。

定理1设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。给定类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0< α1< α0≤1 。可知:

证明

同理可证(2)。

由定理1可知,基于监督机制的乐观多粒度决策粗糙集的下、上近似是各粒度分类规则下的下、上近似集合的并。

定义6设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。给定类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1。Dk的关于属性子集A1,A2,…,Am的悲观多粒度监督决策粗糙集的下近似、上近似以及边界区作如下定义:

当α0=1,α1=β1=β0=0 时,基于监督机制的悲观多粒度决策粗糙集退化为传统的悲观多粒度粗糙集。为降低信息的不确定性,采用如下方法使类内阈值α0等于传统下近似阈值α,减小类间阈值α1,即0 ≤α1<α0≤1。

定理2设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。给定类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0< α1< α0≤1 。可知:

证明

同理可证(2)。

定理3设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。给定类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0< α1< α0≤1 。可知:

证明

同理可证(2)。

由定理3可知,基于监督机制的悲观多粒度决策粗糙集的下、上近似是各粒度分类规则下的下、上近似集合的交。

定理4设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。给定类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0< α1< α0≤1 。则基于监督机制的多粒度决策粗糙集有如下性质:

证明由定义5和定义6可得。

定义7设S=<U,A=C⋃D,V,f >是一个完备的决策信息系统,其中A={A1,A2,…,Am}是条件属性C上的m个属性子集。决策属性D将U划分为K个决策类,表示为D={Dk},k=1,2,…,n。且类内阈值α0,β0和类间阈值α1,β1满足 0 ≤β1≤β0< α1< α0≤1 。则集合X在乐观与悲观条件下的分类精度作如下定义:

分类质量分别定义为:

4 应用实例

为说明该算法的可行性和有用性,本章将基于监督机制的多粒度决策粗糙集应用于工地项目建设后的评价问题。考虑15个已经完成的工地项目,表1从三个一级指标:项目建设质量评价、技术评价、环境保护评价,以及相对应的8个二级指标(以分号划分):桩基工程质量、基础工程质量、主体工程质量;工艺流程、工艺路线、工艺创新;“三废”排放情况、环保设施运行状况进行判别,从而得到的关于工地项目建设后的评估数据表。

将整个评估表看做一个完备决策信息系统,论域U={x1,x2,…,x15}表示15个已经完成的工地项目,条件属性集合C={a1,a2,a3,a4,a5,a6,a7,a8} ,决策属性集合D={D1,D2}分别表示验收通过和不通过,并分别用1和2表示,决策信息系统的条件属性子集族为R={R1,R2,R3}={{a1,a2,a3},{a4,a5,a6},{a7,a8}}。其中评价指标被分成4类e={1,2,3,4},分别表示e={优,良,中,差}。

表1 工地项目建设评价

基于专家经验,在这里以β0=0.45,β1=0.4,λ=0.5为例,调整类内阈值α0和类间阈值α1,获取不同情况下基于监督机制的多粒度决策粗糙集的下、上近似集。

步骤1根据决策属性D划分决策类如下:

步骤2在条件属性集子集族下,根据表1划分等价类如下:

根据定义5~7,计算基于监督机制的多粒度决策粗糙集的下近似和上近似分别如下。

(1)当α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 时 ,基于监督机制的乐观多粒度决策粗糙集的下、上近似求得为:

基于监督机制的悲观多粒度决策粗糙集的下、上近似求得为:

(2)当α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5时,基于监督机制的乐观多粒度决策粗糙集的下、上近似求得为:

基于监督机制的悲观多粒度决策粗糙集的下、上近似求得为:

(3)当α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 时,基于监督机制的乐观多粒度决策粗糙集的下、上近似求得为:

基于监督机制的悲观多粒度决策粗糙集的下、上近似求得为:

(4)当α0=0.7,α1=0.4,λ=0.5 时,此时α1< β0=0.45,因此只考虑下近似,基于监督机制的乐观多粒度决策粗糙集的下近似求得为:

基于监督机制的悲观多粒度决策粗糙集的下近似求得为:

(5)当α0=0.7,α1=0.25,λ=0.5 时,此时α1< β0=0.45,因此只考虑下近似,基于监督机制的乐观多粒度决策粗糙集的下近似求得为:

基于监督机制的悲观多粒度决策粗糙集的下近似求得为:

步骤3以基于监督机制的乐观和悲观多粒度决策粗糙集为例,求得三种情况下决策类的分类质量。

(1)当α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 时:

(2)当α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5 时:

(3)当α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 时:

以β0=0.45,β1=0.4,λ=0.5 为例,求得三种不同类内阈值情况下,基于监督机制的乐观多粒度决策粗糙集的分类质量均为100%,基于监督机制的悲观多粒度决策粗糙集的分类质量分别为40%、60%、80%。对比发现固定β0、β1,随着给定类内阈值α0的不断减少,决策信息系统中的对象越能被正确分类,这表明调整阈值α0,在一定程度上可降低噪声的影响。通过实例也能看出,随着类间阈值α1的减少也会使得乐观与悲观多粒度决策粗糙集的下近似集变多,即正域变大。因此根据监督信息合理控制和调整类内、类间阈值,能够提高决策属性D关于条件属性C的分类精度,使模型具有一定的容错能力和很强的分类能力。而且观察表1可以发现,第五个工地属性均为良及以上,却被认为验收不通过,基于监督机制的乐观多粒度决策粗糙集在三种情况下均能将该工地正确分类,可见由于人工处理的时候,会出现一定的误差,而基于监督机制的多粒度决策粗糙集能够及时发现,帮助人们进行正确决策。

为进一步验证模型在决策信息系统能够有效分类,与经典乐观、悲观多粒度决策粗糙集进行对比,并以本文表1 案例的数据为例。当α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5,α=0.7,β=0.4 时,基于监督机制的乐观多粒度决策粗糙集分类质量为100%,基于监督机制的悲观多粒度决策粗糙集分类质量为60%,经典乐观多粒度决策粗糙集分类质量为100%,经典悲观多粒度决策粗糙集分类质量为53%。结果表明基于监督机制的多粒度决策粗糙集对决策信息系统分类后,相比经典多粒度决策粗糙集,在分类质量上有所提高。这是由于本文构建的新模型不仅借鉴了多粒度决策粗糙集能够从多层次、多角度综合考虑不同属性子集的优点,更能通过调整类内和类间阈值,使模型具有一定的容错能力,同时兼顾考虑属性子集的特征,使得对象分类更为准确。

5 结束语

为降低信息不确定性,本文引入类内阈值和类间阈值,使决策系统中类对象内的数量增加而减少类间对象的数量,将其应用在多粒度决策粗糙集,提出一种基于监督机制的多粒度决策粗糙集,给出了乐观多粒度决策粗糙集和悲观多粒度决策粗糙集两种模型的完整定义,并着重讨论了基本性质和度量参数。通过类内和类间阈值的不同取值可以得到不同程度的对象分类,使得本文提出的模型具有一定的稳定性和灵活性,并有效提升多粒度决策粗糙集刻画不确定性知识的能力。接下来,将进一步研究类内和类间上近似阈值间的关系、决策规则获取和属性约简等问题。

猜你喜欢
类间粗糙集子集
拓扑空间中紧致子集的性质研究
基于Pawlak粗糙集模型的集合运算关系
基于OTSU改进的布匹检测算法研究
基于贝叶斯估计的多类间方差目标提取*
关于奇数阶二元子集的分离序列
基于二进制链表的粗糙集属性约简
基于类间区分度的属性约简方法*
优势直觉模糊粗糙集决策方法及其应用
完全二部图K6,n(6≤n≤38)的点可区别E-全染色
基于改进最大类间方差法的手势分割方法研究