不协调广义多尺度序决策信息系统的知识获取

2025-01-01 00:00:00黄彪韩邦合
郑州大学学报(理学版) 2025年2期

摘要: 针对不协调广义多尺度序决策信息系统中的最优尺度组合和IF-THEN知识获取问题,首先,提出了集值优势矩阵的概念,给出了其判断序决策信息系统是否协调的条件。然后,在不协调的广义多尺度序决策信息系统中,引入基于优势关系的广义决策概念,同时通过定义区间值优势关系的方法,构造了新的协调广义多尺度序决策信息系统,并设计了通过集值优势矩阵求最优尺度组合的算法,挖掘了隐藏在不协调广义多尺度序决策信息系统中的决策规则。最后,通过实验验证了所提广义决策最优尺度组合的有效性。

关键词: 广义多尺度序决策信息系统; 集值优势矩阵; 广义决策; 属性约简; 决策规则

中图分类号: TP18

文献标志码: A

文章编号: 1671-6841(2025)02-0051-10

DOI: 10.13705/j.issn.1671-6841.2023139

Knowledge Acquisition of Inconsistent Generalized Multi-scale Ordered

Decision Information Systems

HUANG Biao, HAN Banghe

(School of Mathematics and Statistics, Xidian University, Xi′an 710126, China)

Abstract: Aiming at the problem of optimal scale combination and IF-THEN knowledge acquisition in inconsistent generalized multi-scale ordered decision information systems, the concept of set-valued dominance matrix was firstly proposed, and the conditions for judging whether an ordered decision information system was consistent were given. Then, in the inconsistent generalized multi-scale ordered decision information system, the concept of generalized decision based on dominance relation was introduced. At the same time, a new consistent generalized multi-scale ordered decision information system was constructed by defining the interval-valued dominance relation, and an algorithm for finding the optimal scale combination through the set-valued dominance matrix was designed. The decision rules hidden in the inconsistent generalized multi-scale ordered decision information system were mined. Finally, the effectiveness of the proposed optimal scale combination of generalized decision was verified by experiments.

Key words: generalized multi-scale ordered decision information systems; set-valued dominance matrix; generalized decision; attribute reduction; decision rules

0 引言

粗糙集理论最初由Pawlak[1提出,它以各种信息系统、决策信息系统为研究对象,通过定义论域上的等价关系,把不可区分的对象组合在一起构成论域的划分,并通过属性约简2-3来挖掘信息系统里的最简决策规则,达到知识发现的目的。随着粗糙集理论的不断发展,经典粗糙集理论的缺点日益明显,考虑经典粗糙集理论信息系统中的属性值都是符号数据的问题,以及日常生活很多数据都是有序的,如考试成绩、价格波动等,Greco等[4提出了一个基于优势关系的粗糙集模型,即优势粗糙集。该模型的研究对象为有序数据,如序信息系统、区间值序信息系统、直觉模糊值序信息系统等,它用优势关系代替经典粗糙集中的等价关系,构造近似空间达到知识发现的目的。

另外,传统粗糙集模型的研究对象为信息系统,它的每个对象、每个属性只能取唯一的值,称之为单尺度信息系统。然而,在实际的生活中,人们处理的数据可能是多层次、多尺度的。为此,Wu等提出了多尺度决策信息系统的概念,简称Wu-Leung[5模型,并研究了协调和不协调多尺度决策信息系统的最优尺度组合[6-10、知识获取11的问题。接着,Li等在Wu-Leung模型的基础上提出了广义多尺度决策信息系统[12的概念,并给出了互补模型、格模型的算法求最优尺度组合和知识获取。随后,Huang等[13、Wu等[14分别研究了在协调和不协调的情况下,决策属性也具有多尺度的广义多尺度决策信息系统的最优尺度选择问题,尤其在不协调中引入广义决策函数的方法值得称赞。

上述针对广义多尺度决策信息系统的研究主要基于等价关系[5-14的,而基于优势关系15-16来研究广义多尺度序决策信息系统的最优尺度组合很少。尽管张嘉茹等15和杨烨等16分别研究了决策属性为多尺度的协调、不协调广义多尺度序决策信息系统的最优尺度选择问题和知识获取问题,但文献[16]所提出的广义决策未像文献[14]一样给出构造新的协调广义多尺度决策信息系统的方法,它重新定义了协调和最优尺度选择,不是传统最优尺度选择定义的延续。另外,所定义的广义决策最优尺度很大概率会是最细尺度,从代价来看未必是最优的。这些是当前基于优势关系的不协调广义多尺度序决策信息系统研究的不足。

为了弥补上述不足,本文在文献[13-18]和传统协调和最优尺度定义基础上,引入更加有效的广义决策并消除不协调性,构造协调广义多尺度序决策信息系统,并借助集值优势矩阵来讨论研究不协调广义多尺度序决策信息系统的最优尺度组合、属性约简和知识获取问题。最后,通过实验验证了所提广义决策最优尺度组合的有效性。

1 基础知识

定义1[19 信息系统是一个二元组(U,A),其中U={x1,x2,…,xn}是一个非空有限对象集,A={a1,a2,…,am}是一个非空有限属性集,a∈A,亦表示映射a:U→Va,Va为属性a的取值域。

定义2[15 设L为非空集合,≤为L上的二元关系,若下面条件1)~4)成立,称二元组(L,≤)为一个全序集。

1) 自反性:x∈L,x≤x;

2) 反对称性:x,y∈L,x≤y,y≤xx=y;

3) 传递性:x,y,z∈L,x≤y,y≤zx≤z;

4) ≤是线性序:x,y∈L,x≤y或y≤x。

如果一个信息系统(U,A)属性a的取值域Va是全序集(对不同a,在没有歧义的情况下,本文均用≤或者≥表示对应的线性序,且假设属性值域均为实数),那么这个属性就称为一个准则。如果信息系统(U,A)的所有属性都是准则,则该信息系统(U,A)称为一个序信息系统。若决策属性dA也是一个准则,称(U,A∪{d})是一个序决策信息系统。

对于一个序决策信息系统(U,A∪{d}),(U,A∪{d})中的广义决策17-18

δA(x)=[lA(x),uA(x)],

其中:

lA(x)=min{d(y):yR≥Ax,y∈U},

uA(x)=max{d(y):xR≥Ay,y∈U}。

广义决策反映了关于准则集A对象x根据优势原则可能属于决策类的区间,常用于不协调序决策信息系统中的分类和约简[17-18。uA(x)和lA(x)为该区间的上、下界。若x∈U,lA(x)=uA(x)均成立,则称序决策信息系统是协调的;否则,称为不协调的。

2 广义多尺度序决策信息系统

2.1 集值优势矩阵

定义3 设(U,A∪{d})是一个序决策信息系统,U={x1,x2,…,xn},记

Dij={aa(xi)≥a(xj),a∈A∪{d}},i,j=1,2,…,n,

则称Dij为xi支配xj的集值优势集,即Dij刻画了xi不比xj差的准则集合,称D=(Dij)n×n为(U,A∪{d})的集值优势矩阵。

命题1 设(U,C)=(U,A∪{d})是一个序决策信息系统,如果i,j=1,2,…,n,使得{a1,a2,…,am}Dij,dDij成立,则称(U,A∪{d})是不协调的;否则,称(U,A∪{d})是协调的。

2.2 广义多尺度序决策信息系统

在现实生活中,很多属性值数据都是有序的,所以基于优势关系研究广义多尺度序决策信息系统的最优尺度是非常有意义的。下面介绍广义多尺度序决策信息系统的定义和相关性质。

定义4[15 对于全序集(L1,≤1)和(L2,≤2),若映射g:(L1,≤1)→(L2,≤2),x,y∈L1,有

x≤1yg(x)≤2g(y),

则称映射g为保序的。

定义5 广义多尺度序信息系统是一个二元组S=(U,C),其中:U={x1,x2,…,xn}是一个非空有限的对象集;C={a1,a2,…,am}是一个非空有限的属性集。若属性aj有Ij个等级尺度,则一个广义多尺度序信息系统可以表示为S=(U,{akjk=1,2,…,Ij,j=1,2,…,m}),其中:akj:U→Vkj是一个满射函数;Vkj是属性aj在第k个尺度下的值域;≤kj是Vkj上的线性序,即(Vkj,≤kj)是一个全序集。对j=1,2,…,m,1≤k≤Ij-1,存在一个保序的满射函数

gk,k+1j:(Vkj,≤kj)→(Vk+1j,≤k+1j),

使得ak+1j=gk,k+1jakj,即

ak+1j(x)=gk,k+1j(akj(x)), x∈U,

gk,k+1j称为序信息粒度转换函数。

另外,称S=(U,C∪{d})是广义多尺度序决策信息系统,其中(U,C)是一个广义多尺度序信息系统,

d{akjk=1,2,…,Ij,j=1,2,…,m},d:U→Vd,

是一个决策属性且(Vd,≤d)是全序集。

定义6[5 设S=(U,C)为一个广义多尺度序信息系统,若将条件属性aj(1≤j≤m)限制在该属性的第lj(1≤lj≤Ij)个尺度下,记为L=(l1,l2,…,lm),则L称为S的条件属性的一个尺度组合。S的所有尺度组合记为={(l1,l2,…,lm)1≤lj≤Ij,j=1,2,…,m}。

定义7[5 设S=(U,C)为一个广义多尺度信息系统,对于两个尺度组合L1=(l11,l12,…,l1m)∈,L2=(l21,l22,…,l2m)∈。若j∈{1,2,…,m},都有l1j≤l2j,则称尺度组合L1比L2细,记L1≤L2。若L1≤L2,且j∈{1,2,…,m},使得l1j<l2j,则称尺度组合L1严格细于L2,记L1<L2。

j∈{1,2,…,m},L1=(l11,l12,…,l1m)∈,

L2=(l21,l22,…,l2m)∈,定义

L1∧L2=(l11∧l21,l12∧l22,…,l1m∧l2m),

L1∨L2=(l11∨l21,l12∨l22,…,l1m∨l2m),

其中:l1j∧l2j=min(l1j,l2j);l1j∨l2j=max(l1j,l2j)。

那么

L1≤L2L1∧L2=L1L1∨L2=L2,

且(,≤,∧,∨)是一个有界格,其中最大元为(I1,I2,…,Im),最小元为(1,1,…,1)。

显然,对于一个广义多尺度序决策信息系统,可以分解成∏mj=1Ij个序决策信息系统且具有相同的决策属性d,也可以分解得到∏mj=1Ij个不同的集值优势矩阵,即定义7中格结构的每个节点加上决策属性d对应于一个集值优势矩阵。

定义8[5 设S=(U,C∪{d})为一个广义多尺度序决策信息WbQN1B/09fUg7OYPDmeT4KKebZWHt17O2FHqC6IM1hM=系统,L=(l1,l2,…,lm)∈为S的一个尺度组合,定义关于准则集CL的优势关系R≥CL、对象x的优势类[x]≥CL为

R≥CL={(y,x)∈U×Ualjj(y)≥aljj(x),aljj∈CL},

[x]≥CL={y∈Ualjj(y)≥aljj(x),aljj∈CL}=

{y∈U(y,x)∈R≥CL}。

性质1 设S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})为一个广义多尺度序决策信息系统,Q1=(K1,d)=(k11,k12,…,k1m,d),Q2=(K2,d)=(k21,k22,…,k2m,d)。若Q1、Q2、K1、K2对应的集值优势矩阵分别为DQ1、DQ2、DK1、DK2,则性质1)~4)成立。

1) K1≤K2R≥CK1R≥CK2,[x]≥CK1[x]≥CK2

2) BCR≥CR≥B;

3) 如果K1≤K2,ak1jj∈DK1i1,i2(ak1jj∈DQ1i1,i2),则ak2jj∈DK2i1,i2(ak2jj∈DQ2i1,i2),i1,i2=1,2,…,n;

4) K1≤K2DK1i1,i2≤DK2i1,i2,i1,i2=1,2,…,n,其中Di1,i2表示集值优势矩阵中项Di1,i2的元素个数。

3 不协调广义多尺度序决策信息系统的最优尺度组合

在本节中,基于优势关系引入广义决策,研究了不协调广义多尺度序决策信息系统中的最优尺度组合,并用于生成单尺度序决策信息系统和提取决策规则。

3.1 不协调广义多尺度序决策信息系统的广义决策

定义9 设S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})是一个广义多尺度序决策信息系统,L1=(1,1,…,1),如果存在i,j=1,2,…,m,使得{a11,a12,…,a1m}DCL1∪{d}ij,dDCL1∪{d}ij成立,即序决策信息系统(U,CL1∪{d})不协调,则S被称为不协调的;否则,称S是协调的。

性质2 设S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})为一个广义多尺度序决策信息系统,L1,L2∈,L1<L2。如果SL1=(U,CL1∪{d})是不协调的,则SL2=(U,CL2∪{d})也是不协调的;如果SL2=(U,CL2∪{d})是协调的,那么SL1=(U,CL1∪{d})也协调。

证明 根据性质1易证。

由于L是最优尺度组合当且仅当L是协调的,且所有比L粗的尺度组合都不协调,则根据性质2可知,若最细尺度组合和决策属性d形成的序决策信息系统不协调,那么广义多尺度序决策信息系统S的所有尺度组合和决策属性d形成的序决策信息系统都不协调,则我们无法直接遍历S的尺度组合的格结构寻找最优尺度。于是,为了确定S的最优尺度组合,我们在给定尺度组合下,定义广义多尺度序决策信息系统的广义决策。

定义10 设

S=(U,C∪{d})=

(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})是一个广义多尺度序决策信息系统,K=(L,d)=(l1,l2,…,lm,d),在诱导的序决策信息系统(U,CL∪{d})中定义广义决策函数

δCL(x)=[lCL(x),uCL(x)],

其中:

lCL(x)=min{d(y):yR≥CLx,y∈U};

uCL(x)=max{d(y):xR≥CLy,y∈U}。

R≥δCL={(y,x)∈U×UδCL(y)≥δCL(x)},

R≥δCL表示广义决策δCL诱导的优势关系,通过用广义决策δCL替换(U,CL∪{d})中的决策属性d,我们就能得到一个新的序决策信息系统(U,CL∪{δCL})。为了得到(U,CL∪{δCL})的集值优势矩阵,就需要定义广义决策δCL的优势关系。在具体问题中,常采用3种方法定义区间值优势关系。

定义11 设w1=[u1,v1],w2=[u2,v2],定义任意两个区间值的优势关系方法为

1) 下界偏好关系:[u1,v1]≤[u2,v2]u1≤u2;

2) 上界偏好关系:[u1,v1]≤[u2,v2]v1≤v2;

3) 直觉偏好关系:

[u1,v1]≤[u2,v2]12(u1+v1)<12(u2+v2)或12(u1+v1)=12(u2+v2)且12(v1-u1)≥12(v2-u2)。

定理1 如果采用上述3种方法定义区间值优势关系,则用广义决策δCL替换(U,CL∪{d})中决策属性d得到的序决策信息系统(U,CL∪{δCL})是协调的。

证明 采用定义11的1)定义区间值优势关系,即证

x,y∈U,yR≥CLxlCL(x)≤lCL(y)。

H1={d(z1):z1R≥CLx,x,z1∈U},

H2={d(z2):z2R≥CLy,y,z2∈U}。

由于yR≥CLx,有[y]≥CL[x]≥CL,所以H2H1,即min(H1)≤min(H2),故lCL(x)≤lCL(y)。

同理可证,定义11的2)和3)定义区间值优势关系也成立。

综上,由定义11知,用广义决策δCL替换(U,CL∪{d})中的决策属性d得到的序决策信息系统(U,CL∪{δCL})是协调的。

记GLδ=(U,C∪{δCL})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{δCL})。

显然,GLδ是由尺度组合L诱导生成的广义多尺度序决策信息系统,决策属性为δCL,且GLδ是协调的。

定义12 设S=(U,C∪{d})是一个不协调的广义多尺度序决策信息系统,L=(l1,l2,…,lm)∈,L1=(1,1,…,1)∈。 如果i,j=1,2,…,n,使得{al11,al22,…,almm}DCL∪{δCL1}ij,dDCL

{δCL1}ij成立,则称(U,CL∪{δCL1})是广义决策不协调的;否则,称为广义决策是协调的。

定理2 设广义多尺度序信息系统GLδ=(U,C∪{δCL})的集值优势矩阵为DGLδ,K=(k1,k2,…,km)∈。如果i,j=1,2,…,n,使得{ak11,ak22,…,akmm}DGLδij,δCLDGLδij成立,则序决策信息系统(U,CK∪{δCL})不协调;否则,(U,CK∪{δCL})协调。

定理3 设S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})是一个不协调的广义多尺度序决策信息系统,L,K∈且L<K。如果

(U,CL∪{δCL1})是广义决策不协调的,则

(U,CK∪{δCL1})也是广义决策不协调的;如果

(U,CK∪{δCL1})是广义决策协调的,则(U,CL∪{δCL1})

也是广义决策协调的。

定理3表明,给定一个不协调广义多尺度序决策信息系统S,若广义决策δCL1与较粗尺度组合形成的序决策信息系统协调,那么它一定与较细尺度形成的序决策信息系统协调。这一结论将帮助我们在不协调的广义多尺度序决策信息系统定义和寻找最优尺度组合。

3.2 不协调广义多尺度序决策信息系统的最优尺度

定义13 设S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})是一个不协调的广义多尺度序决策信息系统,L1=(1,1,…,1),L=(l1,l2,…,lm)∈。若不存在i,j=1,2,…,n,使得{al11,al22,…,almm}DGL1δij,δCL1DGL1δij

成立,则序决策信息系统(U,CL∪{δCL1})是协调的,即称尺度组合L是S中广义决策协调的。如果尺度组合L是S中广义决策协调的,且L′=(l′1,l′2,…,l′m)∈,L<L′,L′都不是S中广义决策协调的,则称L=(l1,l2,…,lm)∈是S的广义决策最优尺度组合,简称最优尺度组合。

由于条件属性aj具有Ij个尺度,则中所有尺度组合的数量为∏mj=1Ij,每个尺度组合加上决策属性δCL1可代表一个集值优势矩阵。又因为(,≤,∧,∨)是一个有限格,所以可以从上到下搜索格结构(,≤,∧,∨)求最优尺度组合。L=(l1,l2,…,lm)∈是S的最优尺度组合,当且仅当L为格(,≤,∧,∨)中使得(U,CL∪{δCL1})协调的最大元素。于是我们设计了一种基于定义13寻找一个最优尺度组合的算法,见算法1。最糟糕的情况下,该算法的时间复杂度为O(∏mj=1Ij×U2)。

算法1 在不协调广义多尺度序决策信息系统中求最优尺度组合的算法。

输入:一个不协调广义多尺度序决策信息系统

S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})。

输出:S的一个最优尺度组合。

1. 计算DGL1δ;M←

2. For i,j=1∶n

3. If δCL1DGCL1δij

4. M←DGCL1δij

5. End if

6. End for

7. Queue←NULL;(l1,l2,…,lm)←(I1,I2,…,Im)

8. L0←(l1,l2,…,lm);Queue.put (L0)

9. While (Queue≠NULL)

10. L←Queue.get()

11. If CLM

12. Return (L)

13. End if

14. For k=1∶m

15. If (lk>1)

16. L←(l1,l2,…,lk-1,lk-1,lm);Queue.put(L)

17. End if

18. End for

19. End while

3.3 不协调广义多尺度序决策信息系统的知识获取

本小节主要研究不协调广义多尺度序决策信息系统的知识获取,分为属性约简和规则提取。序决策信息系统的属性约简是在所有对象的基础上,保持序决策信息系统协调性不变的最小属性子集。

定义14 设S=(U,C∪{d})=(U,{akjk=1,2,…,Ij,j=1,2,…,m}∪{d})是一个不协调的广义多尺度序决策信息系统,L=(l1,l2,…,lm)∈是S的最优尺度组合。对BCL={al11,al22,…,almm},若不存在i,j=1,2,…,n,使得BDCL∪{δCL1}ij,δCL1DCL∪{δCL1}ij成立,存在i,j=1,2,…,n,b∈B,使得B-{b}DCL∪{δCL1}ij,δCL1DCL∪{δCL1}ij成立,则称B是CL的一个约简。

序决策信息系统中的决策规则一般形式为t→s,t是规则的条件部分,s是规则的决策部分。对同时满足决策规则的条件部分和决策部分的对象,称为支持该条规则的对象。决策规则的确定度为r=t∧s/t,确定度体现了根据条件部分能得出决策部分的可信度。对于不协调广义多尺度序决策信息系统,与文献[20]类似,

根据最优尺度组合和属性约简就可以提取确定规则与可能规则,其规则形式为

(ak11,≥,r1)∧(ak22,≥,r2)∧…∧(akmm,≥,rm)(d,≥,rd)。

显然确定规则的确定度为1,可能规则的确定度小于1。

例1 假设S=(U,C∪{d})=(U,{a11,a21,a12,a22,a32,a13,a23}∪{d})是一个广义多尺度序决策信息系统,如表1所示,则该广义多尺度序决策信息系统共有12个尺度组合,即L1=(1,1,1),L2=(2,1,1),L3=(1,2,1),L4=(1,1,2),L5=(2,2,1),L6=(2,1,2),L7=(1,2,2),L8=(1,3,1),L9=(2,3,1),L10=(1,3,2),L11=(2,2,2),L12=(2,3,2)。显然,L1=(1,1,1)和L12=(2,3,2)分别为格(,≤,∧,∨)中最小元和最大元,格结构如图1所示。

例2 在例1中,需要解决问题1)~3),

1) 判断S是否是协调的;

2) 确定S的最优尺度组合;

3) 确定S的属性约简和决策规则。

1) 计算在尺度组合L1=(1,1,1)下,序决策信息系统(U,CL1∪{d})的集值优势矩阵,篇幅原因,在此不具体展示。显然{a11,a12,a13}

DCL1∪{d}11,4,dDCL1∪{d}11,4,

所以

广义多尺度序决策信息系统S是不协调的。

2) 根据广义决策的定义,在最细尺度L1=(1,1,1)下,可计算得到表1中第10列所示的广义决策函数δCL1(x)。由于S不协调,则替换决策属性d为δCL1,并分别采用定义11的3种方法定义广义决策δCL1的区间值优势关系,以此来分别求最优尺度组合。

① 采用定义11的1)定义区间值优势关系,根据定理1可知(U,CL1∪{δCL1})是协调的。另外可得GL1δ=(U,C∪{δCL1})的集值优势矩阵

DGL1δ,由于矩阵太大和篇幅原因,在此只展示GL1δ=(U,C∪{δCL1})

的集值优势矩阵中不含决策属性δCL1的项,如

DGL1δ=x1x2x8x9x10x12x1{a21,a12,a22,a32}x2{a21,a12,a22,a32,a23}x3{a32}{a32}{a12,a22,a32}{a12,a22,a32}{a11,a21,a12,a22,a32}{a32,a23}x4{a11,a21}{a11,a21,a12,a22,a32}{a21}x5{a11,a21}{a11,a21,a12,a22,a32}{a21}x6{a32}{a32}{a22,a32}{a32}{a12,a22,a32}{a32,a13,a23}x7{a12,a22,a32}{a13,a23}x8{a32}x10x11{a32}{a32}{a11,a21,a22,a32}{a32}{a11,a21,a12,a22,a32}{a11,a21,a32}x12{a12,a22,a32}。

对于CL12={a21,a32,a23},由于

{a21,a32,a23}DGL1δ2,9={a21,a12,a22,a32,a23},δCL1DGL1δ2,9,故(U,CL12∪{δCL1})不协调。

对于CL10={a11,a32,a23},由于不存在

i,j=1,2,…,n,使得{a11,a32,a23}DGL1δij,δCL1DGL1δij

成立,故(U,CL10∪{δCL1})协调。

同理,也可计算得到(U,CL11∪{δCL1})不协调,

(U,CL9∪{δCL1}),(U,CL6∪{δCL1})协调。

根据最优尺度组合的定义和图1的格结构,可知最优尺度组合为(2 3 1), (1 3Yfdjh9sZcb8T1TEjXaBkgg== 2)。

② 采用定义11的2)和3)分别定义区间值优势关系,计算过程在此不具体描述,方法与①一样,可分别得最优尺度为(2 1 2)和(1 1 2), (2 1 1)。

3) 选择定义11的1)所得的最优尺度组合L9=(2,3,1)为例求其属性约简。

由于可求得不存在i,j=1,2,…,n,使得

{a21,a13}DL9∪{δCL1}ij,

δCL1DL9∪{δCL1}ij,

{a21}DL9∪{δCL1}4,8,

δCL1DL9∪{δCL1}4,8,

{a13}DL9∪{δCL1}7,12,

δCL1DL9∪{δCL1}7,12。

所以,根据定义14知{a21,a13}是序决策信息系统

(U,{a21,a32,a13}∪{δCL1})的一个约简。

又因为{a21,a32},{a32,a13},{a32}均不是

(U,{a21,a32,a13}∪{δCL1})的约简,所以

{a21,a13}是(U,{a21,a32,a13}∪{δCL1})的唯一一个约简。

因此可得

S=(U,C∪{d})=(U,{a11,a21,a12,a22,a32,a13,a23}∪{d})。在L9=(2,3,1)下的部分序决策规则为

r1:(a21,≥,9)∧(a13,≥,93)(d,≥,2),该规则的支持对象为x2,x9,确定度为1;

r2:(a21,≥,7)∧(a13,≥,71)(d,≥,1),该规则的支持对象为x1,x2,x3,x8,x9,x10,x12,确定度为1;

r3:(a21,≥,8)∧(a13,≥,58)(d,≥,2),该规则的支持对象为x1,x2,x4,x8,x9,x12,确定度为

34;

r4:(a21,≥,8)∧(a13,≥,85)(d,≥,3),该规则的支持对象为x1,x8,x9,确定度为34。

4 实验与分析

为了验证本文提出的算法1的有效性,即验证所提出的广义决策最优尺度组合是合理的。本节在一些公开的数据集上进行数值实验,这些数据集来自加州大学欧文分校(UCI),具体信息如表2所示。

由于这些数据集对应的信息系统的条件属性是单尺度的,所以必须将数据集预处理转换成多尺度信息系统。采用文献[11]方法获得多尺度信息系统,步骤如下。

1) 通过a1(x)=(a(x)-ma)/std(a)」计算得到属性a的第一个尺度,其中a(x)是原始数据集对象x的属性值,ma和std(a)分别是属性a的最小值和标准差,y」表示满足z≤y的最大整数z。

2) 为了模拟数据有序的分类任务,首先计算样本在条件属性下的平均值,接着具有较大平均值的样本被分配较大的类标签,具有较小平均值样本被分配较小的类标签。考虑类标签的数量远小于样本数量,在基于平均值对类标签进行赋值过程中,采用根据类标签数量进行批量赋值的方法。例如,对于数据集iris,我们按照平均值的顺序将其分成3个数量相等的部分,并按照对应顺序为样本分配标签值。然后为了保证不协调性,随机选择5%的样本且使选择的每个类标签样本个数相等,并用其余类标签值平均替换原有标签值,就获得了不协调序决策信息系统。

3) 在第一个尺度的基础上,从下到上依次合并属性值来得到后续的尺度,直到当前尺度级的属性值域不超过3个,如假设属性a的第1个尺度的属性值域为a1={0,1,2,3,4,5},则a2={1,2,3,4,5},a3={2,3,4,5},a4={3,4,5},故属性a有4个尺度。

显然,通过步骤1)~3)求得的广义多尺度序决策信息系统是不协调的,并利用算法1和定义11三种不同方法就可求得最优尺度组合,结果如表3所示。表3还显示了最优率和平均尺度,最优率表示尺度级2的属性百分比,平均尺度为所有尺度的平均值。如数据集iris包含4个属性,在定义11的3种定义区间值优势关系方法下,最优尺度组合分别为(1,3,2,2), (2,1,2,1), (1,1,2,1)。与最细尺度组合相比,最优率分别为0.75, 0.50, 0.25,平均尺度分别为2.00, 1.50, 1.25。

通过使用MATLAB R2020b提供的分类器K近邻(KNN, K=3)、分类回归树(CART)来评估算法所求得的最优尺度组合的性能。为了进行充分的比较,采用三种不同尺度组合比较,即最细尺度组合、最粗尺度组合、最优尺度组合。

实验中使用这些分类器的默认参数设置,采用三重交叉验证,即对于每个数据集,选择2/3的样本作为训练集,其余1/3的样本作为测试集。分类准确率作为评价指标。重复实验10次,计算分类准确率的平均值和标准差作为最终结果。实验结果如表4~5所示。在此需要说明的是,表4~5中最优尺度组合的三个分类准确率数据是在定义11的三种不同区间值优势关系定义方法下得到的,即相当于三个不同参数所得的结果。而最细尺度组合和最粗尺度组合不受其影响,三种定义方法下所得结果均相同。

从表4~5可以看出,对于分类器KNN,在iris数据集上,最优尺度组合取得了最大分类准确率;分类器CART在数据集iris和vertebral-column-3c上的最优尺度组合也取得了最大分类准确率,说明将单尺度信息表转换为多尺度信息表并求得的最优尺度组合可以在一定程度上提高分类性能。相比最细尺度组合,所有数据集的最粗尺度组合分类效果较差,主要在于尺度不断合并过程导致大量信息丢失。但对于大多数数据集,最优尺度组合的分类精度与最细尺度组合分类精度接近,理论上代价也降低了,说明所提出的广义决策最优尺度组合是有效的,在一定条件下能取得较好的决策结果。

5 总结

目前,广义多尺度决策信息系统的研究大多基于等价关系,而基于优势关系进行的研究仍然较少。本文定义序决策信息系统的集值优势矩阵和广义多尺度序决策信息系统,并给出了通过集值优势矩阵判断序决策信息系统是否协调的方法。针对不协调广义多尺度序决策信息系统的最优尺度组合、知识获取问题,引入广义决策的概念,用理论证明了用广义决策δCL替换序决策信息系统中的决策属性d能得到新的协调序决策信息系统。基于此,利用集值优势矩阵给出了求不协调广义多尺度序决策信息系统最优尺度组合和属性约简方法,这一方法简单且无须每次计算条件属性和决策属性的优势类。在下一步的研究中,考虑深入研究集值优势矩阵的性质,以此研究最优尺度组合的启发式算法。

参考文献:

[1] PAWLAK Z. Rough sets[J].International journal of computer & information sciences, 1982, 11(5): 341-356.

[2] 王君宇, 杨亚锋, 赵佳亮, 等. 基于粒化可拓决策的属性约简算法研究[J]. 郑州大学学报(理学版), 2022, 54(5):72-81.

WANG J Y, YANG Y F, ZHAO J L, et al. Research on attribute reduction algorithm based on granulation extension decision[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(5):72-81.

[3] 刘东君, 陈红梅. 高斯核模糊粗糙集中基于粒子群算法的属性约简[J]. 郑州大学学报(理学版), 2018, 50(3)53-59.

LIU D J, CHEN H M. Attribute reduction in Gaussian kernel based fuzzy rough sets based on particle swarm optimization[J]. Journal of Zhengzhou university (natural science edition), 2018, 50(3)53-59.

[4] GRECO S, MATARAZZO B, SLOWINSKI R. Rough approximation of a preference relation by dominance relations[J]. European journal of operational research, 1999, 117(1): 63-83.

[5] WU W Z, LEUNG Y. Theory and applications of granular labelled partitions in multi-scale decision tables[J]. Information sciences, 2011, 181(18): 3878-3897.

[6] WU W Z, LEUNG Y. Optimal scale selection for multi-scale decision tables[J]. International journal of approximate reasoning, 2013, 54(8): 1107-1129.

[7] 张清华, 张雪秋, 庞国弘. 多尺度决策系统中代价敏感的最优尺度组合[J]. 控制与决策, 2021, 36(10): 2369-2378.

ZHANG Q H, ZHANG X Q, PANG G H. Cost-sensitive optimal scale combination in multi-scale decision systems[J]. Control and decision, 2021, 36(10): 2369-2378.

[8] XU Y H, WU W Z, TAN A H. Optimal scale selections in consistent generalized multi-scale decision tables[C]∥International Joint Conference on Rough Sets. Cham: Springer International Publishing, 2017: 185-198.

[9] ZHU Y J, YANG B. Optimal scale combination selection for inconsistent multi-scale decision tables[J]. Soft computing, 2022, 26(13): 6119-6129.

[10]BAO H, WU W Z, ZHENG J W, et al. Entropy based optimal scale combination selection for generalized multi-scale information tables[J].International journal of machine learning and cybernetics, 2021, 12(5): 1427-1437.

[11]WU W Z, QIAN Y H, LI T J, et al. On rule acquisition in incomplete multi-scale decision tables[J]. Information sciences, 2017, 378: 282-302.

[12]LI F, HU B Q. A new approach of optimal scale selection to multi-scale decision tables[J]. Information sciences, 2017, 381: 193-208.

[13]HUANG Z H, LI J J, DAI W Z, et al. Generalized multi-scale decision tables with multi-scale decision attributes[J]. International journal of approximate reasoning, 2019, 115: 194-208.

[14]WU W Z, NIU D R, LI J H, et al. Rule acquisition in generalized multi-scale information systems with multi-scale decisions[J]. International journal of approximate reasoning, 2023, 154: 56-71.

[15]张嘉茹, 吴伟志, 杨烨. 协调广义决策多尺度序信息系统的知识获取[J]. 模式识别与人工智能, 2022, 35(9):789-804.

ZHANG J R, WU W Z, YANG Y. Knowledge acquisition for consistent generalized decision multi-scale ordered information systems[J]. Pattern recognition and artificial intelligence, 2022, 35(9):789-804.

[16]杨烨, 吴伟志, 张嘉茹. 不协调广义决策多尺度序信息系统的最优尺度选择与规则提取[J]. 计算机科学, 2023, 50(6): 131-141.

YANG Y, WU W Z, ZHANG J R. Optimal scale selection and rule acquisition in inconsistent generalized decision multi-scale ordered information systems[J]. Computer science, 2023, 50(6): 131-141.

[17]DEMBCZYN′SKI K, GRECO S, KOTOWSKI W, et al. Quality of rough approximation in multi-criteria classification problems[M]∥Rough Sets and Current Trends in Computing. Berlin: Springer Press, 2006: 318-327.

[18]DEMBCZYNSKI K, GRECO S, SOWIN′SKI R. Second-order rough approximations in multi-criteria classification with imprecise evaluations and assignments[M]∥Lecture Notes in Computer Science. Berlin: Springer Press, 2005: 54-63.

[19]杨蕾, 张晓燕, 徐伟华. 序决策信息系统中基于差别信息树的分配约简[J]. 郑州大学学报(理学版), 2019, 51(2):84-89.

YANG L, ZHANG X Y, XU W H. Assignment reduction based on discernibility information tree in ordered decision information systems[J]. Journal of Zhengzhou university (natural science edition), 2019, 51(2):84-89.

[20]GRECO S, MATARAZZO B, SLOWINSKI R. Rough approximation by dominance relations[J]. International journal of intelligent systems, 2002, 17(2): 153-171.