摘 要:就最近提出的λ-粗糙集进行变精度的扩展,更加精确地解决实际问题。首先给出变精度λ-近似空间以及对应上下近似的具体定义,其次给出变精度λ-近似空间重要的性质以及与λ-近似空间的不同之处,最后利用变精度粗糙集的优势,给出一个具体的实例,呈现它在决策中的实际应用,并说明变精度λ-粗糙模型的优越性。
关键词:λ-粗糙集;变精度;决策
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2019)23-0005-04
Variable Precision λ-Rough Set Model and Its Application in Decision-making
WU Mengxuan
(Renmin University of China,Beijing 100872,China)
Abstract:This paper extends the variable precision of the recently proposed λ-rough sets to solve practical problems more accurately. Firstly,the definitions of variable precision λ-approximation space and corresponding upper and lower approximation are given,and the important properties of variable precision λ-approximation space and the differences between variable precision λ-approximation space and λ-approximation space are given. Finally,by using the advantages of variable precision rough set,a concrete example is given to show its practical application in decision-making,and the advantages of variable precision λ-rough model are illustrated.
Keywords:λ-rough set;variable precision;decision-making
0 引 言
粗糙集理论(RS)最初是由Pawlak提出的,它是软计算中的一个重要工具。粗糙集理论中的关键概念是近似算子。然而Pawlak近似算子的定义依赖于等价关系,这对于应用领域来说过于严格。为此,许多学者提出了更为广义的粗糙集模型。粗糙集理论的普及程度可以通过它在各个领域的应用来衡量,如医学诊断、机器学习、模式识别、基于案例的推理和数据挖掘等领域。
遵循Pawlak使用等价关系的粗略近似公式,一种常用的定义广义粗糙近似的方法是基于信息系统中一组局部对象上定义的相似关系。这种方法的一个基本困难是,部分定义的相似关系不能真实、充分地反映信息系统中提供的可用部分知识,类似的方法是用部分对象描述属性。这种方法也有一些缺点。文献[1]对传统的方法进行了一些改进,在广义不可分辨关系和大数据相关性两个方面进行了分析:(1)从广义不可分辨关系的角度,对可用对象具有相同描述的属性称为λ-不可区分。作者通过所有对象(而不是部分对象)正确地描述属性。对象越多,描述属性就越准确。因此,证明了λ-不可分辨关系的存在性;(2)从大数据相关性的角度来看,谷歌流感趋势(GFT)是大数据在公共卫生领域的首次应用。GFT于2009年在线开放,立即引起了全世界的关注。随着大数据的发展,在其核心相关性量化了两个变量之间的统计关系。强相关性意味着当一个变量发生变化时,另一个变量也很可能发生变化;弱相关是指当一个变量发生变化时,另一个变量可能发生变化,也可能不发生变化。
相关性不能预测未来,它们只能用一定的可能性来预测未来,但这种能力是非常有价值的。基于相关性的预测是大数据的核心。决策过程(DM)可以被看作是一个从集合中选择或排序备选方案的过程,基于行为条件下的决策信息。群体决策(GDM)试图提供解决这些复杂现实问题的解决方案。然而,在现实生活中,管理科学、运筹学和工业工程实践中的许多决策问题往往需要同时解决多属性决策问题。因此,多重屬性组决策(MAGDM)在涉及存在冲突和交互标准的情况下,由一组可行的备选方案进行选择或排序。许多研究人员已经通过MAGDM进入这个领域。最近,Mardani等人在文献[2]中回顾了1994~2014年基于模糊集理论的MAGDM方法。但由于在现实中遇到的问题的复杂性,一个独特的不确定性模型并不能很好地处理这些问题。并且,粗糙集理论被用于开发解决实际问题的决策方法。但是原始的粗糙集有一些缺点:(1)原始的粗糙集方法不能确定备选方案的优先顺序;(2)对多属性或多标准决策方法的研究,只利用现有数据,不考虑属性的知识,不考虑属性之间的关系对决策结果的影响;(3)基于GFT的思想,预测精度对于大多数潜在应用来说都太低了。
文献[1]利用TOPSIS的方法帮助决策者组织问题,并对备选方案进行分析、比较和排名;且利用λ-粗糙集可以建立利用属性知识进行决策的模型。文献[1]推广了不可区分关系,并定义了属性之间的相似关系。在新的粗糙集模型下,下近似算子和上近似算子分别体现了属性的支撑性和可预测性。从理论意义上,λ-粗糙集模型既存在经典粗糙集的特征,又具备调整的新特征。在决策过程中,凭借属性相关关系的预测可能性的能力,可以从原始信息系统上衍生出预测可能性信息系统,刚好补充了决策过程的不足,而粗糙集理论为处理原始信息系统提供了方法。总而言之,此粗糙集模型不仅扩充了粗糙集的理论,而且使得粗糙集的应用结合大数据,让粗糙集的实际价值凸显得更明确。
鉴于粗糙集模型的可推广性,Ziarko于1993年在文献[3]中首次提出变精度粗糙集(VPRS)模型,作为经典粗糙集模型的重要扩展之一。在给定阈值β的情况下,VPRS模型引入了部分分类的概念,从而允许在给定的较低近似值下对对象进行分类时出现一些错误。这与经典的RS模型形成了对比,后者分类精度严格,不允许出现错误。当应用于数据集中包含错误和不确定信息的实际复杂问题时,VPRS模型具有优越的性能。
本文基于λ-粗糙集,对其进行变精度的扩展,更加精确地解决实际问题。本文的结构如下:第一部分给出粗糙集以及信息系统需要的预备知识,第二部分引入变精度λ-粗糙集的定义并且给出重要的性质,第三部分结合实际例子说明变精度λ-粗糙集的应用并且说明变精度粗糙集的优越性,第四部分对文章进行总结。
1 预备知识
粗糙集理论中的知识表达方式一般采用信息表或信息系统的形式。信息系统(或知识表示系统)是一个有限的表,其中的行由对象标记,而列是由属性标记的,表的条目是属性值。因此,信息系统可以看作是由属性值描述的对象的集合。下面给出了信息系统的正式定义。
信息系统是一个四元组S=(U,Q,V,f),其中U是非空有限对象集,被称为值域;Q是一个非空有限属性集;V=∪q∈QVq,Vq是一个属性q的值;f:U×Q→V是一个信息函数,使信息值f(x,q)∈Vq,其中q∈Q,x∈U。
在信息系统中,对象用有限的属性来表示,即对象可以通过属性来进行评价或者排序,也称为对象决策。而且,如果所有对象都可以评价或排序,并且存在一个最优的对象,则称为对象的最优排序或最优决策。在实际生活中,学生成绩、超市促销明细、员工考核明细,病人的体检明细、股票风险分析因素、个人关系等等都是信息系统。
定义1:设S=(U,Q,V,f)是一个信息系统,A⊆Q且x,y∈U。定义x和y被A不可区分的如果对于任意的a∈A,有f(x,a)=f(y,a)成立。
因此,每个A在U上生成一个二元关系,称为不可区分关系,用IND(A)表示。对于每个A⊆Q,IND(A)显然是一个等价关系。任何等价关系IND(A)产生Q的一个划分,为方便起见,[x]A代表x∈U相对于IND(A)的等价类。[4]
定义2:设S=(U,Q,V,f)是一个信息系统且A⊆
Q,X⊆U。X的A-下近似和A-上近似被分别记为 (X)和 (X),且被定义为 (X)=∪{x∈X|[x]A⊆X}和 (X)=∪{x∈X|[x]A∩X≠ø}。
子集X是可定义的当且仅当 (X)=(X);子集X是不可定义的当且仅当 (X)≠ (X),即X是粗糙集。根据以上定义,下近似也称为X关于A的正域,它可以解释为由那些根据现有知识判断出肯定属于X的对象组成的最大的集合。上近似可以解释为由那些根据现有知识判断出可能属于X的对象组成的最小集合。[4]
定义3:设S=(U,Q,V,f)是一个信息系统且a,b∈Q,λ∈(0,1]。定义a和b是λ-不可区分,如果且,其中Ja={x∈U|f(x,a)= 1},Jb={x∈U|f(x,b)=1}。
显然λ-不可区分关系满足自反性和对称性,但不满足传递性。如果λ=0,则发现所有属性之间都存在λ-不可区分关系,这样就失去了实际的意义。同时,如果λ越趋近1,则属性之间的不可区分度就越高,也就是说,λ越大,分类要求越严格。
记[a]λ为Q中与aλ-相关的所有元素组成的集合。即[a]λ 为下面这个形式:[a]λ=。[1]
定义4:设S=(U,Q,V,f)是一个信息系统。三元组(Q,f,λ)被称为S的λ-近似空间,其中λ∈(0,1]。对任意的A⊆Q,A的下λ-近似和上λ-近似分别被定义为:
, 。[1]
2 信息系统的变精度λ-近似空间
本节在文献[1]的基础上引入变精度粗糙集,给出变精度λ-近似空间以及一个集合的上下近似,进而给出变精度λ-近似空间的重要性质。
定义5:设S=(U,Q,V,f)是一个信息系统。四元组(Q,f,λ,β)被称为S的变精度λ-近似空间,其中λ∈(0,1],β∈(0.5,1]。对任意的A⊆Q,A的β-下λ-近似和β-上λ-近似分别被定义为:
, 。
性质1:如果β=1,则 (A,f,λ,β)=(A,f,λ),(A,f,λ,β)=(A,f,λ)。
證明:当β=1时,
即 (A,f,λ,β)= (A,f,λ)。
同理得 (A,f,λ,β)=(A,f,λ)。
性质2:设S=(U,Q,V,f)是一个信息系统,0≤ λ≤1且0.5<β1≤β2≤1。则对于任意的A⊆Q,有 (A,f,λ,β2)⊆ (A,f,λ,β1),(A,f,λ,β1)⊆(A,f,λ,β2)。
证明:设0.5<β1≤β2≤1。对于任意的a∈Q,若 ,则有 。即 (A,f,λ,β2) ⊆
(A,f,λ,β1)。若,则有 ,即 (A,f,λ,β1)⊆(A,f,λ,β2)。
性质3:设(Q,f,λ,β)是S的变精度λ-近似空间。设A,B⊆Q,则以下几点成立:
(1)(A,f,λ,β)⊆(A,f,λ)⊆(A,f,λ)⊆(A,f,λ,β);
(2)(ø,f,λ,β)=(ø,f,λ,β)=ø;
(3)(Q,f,λ,β)=(Q,f,λ,β)=Q;
(4)(A∩B,f,λ,β)⊆(A,f,λ,β)∩(B,f,λ,β);
(5)(A∩B,f,λ,β)⊆(A,f,λ,β)∩(B,f,λ,β);
(6)(A∪B,f,λ,β)⊆(A,f,λ,β)∪(B,f,λ,β);
(7)(A∪B,f,λ,β)⊆(A,f,λ,β)∪(B,f,λ,β);
(8)如果A⊆B,则 (A,f,λ,β)⊆ (B,f,λ,β),且 (A,f,λ,β)⊆(B,f,λ,β);
(9)(A,f,λ,β)=( (AC,f,λ,β))C且 (A,f,λ,β)=((AC,f,λ,β))C。
证明:由于证明过程相似,在此只证明(1)。由性质1知,(A,f,λ,1)=(A,f,λ),(A,f,λ,1)=(A,f,λ)。由性质2知,(A,f,λ,β)⊆(A,f,λ)且 (A,f,λ)?(A,f,λ,β)。显然 (A,f,λ)⊆(A,f,λ)。
定理1:设S=(U,Q,V,f)是一个信息系统,0≤λ ≤1且0.5<β1≤β2≤1。则对于任意的A⊆Q,则以下几点成立:
(1)(A,f,λ,β1∨β2)=(A,f,λ,β1)∩(A,f,λ,β2);
(2)(A,f,λ,β1∨β2)=(A,f,λ,β1)∪(A,f,λ,β2);
(3)(A,f,λ,β1∧β2)=(A,f,λ,β1)∪(A,f,λ,β2);
(4)(A,f,λ,β1∧β2)=(A,f,λ,β1)∩(A,f,λ,β2)。
证明:由于证明过程相似,在此只证明(1)。设0.5< β1≤β2≤1。则β1∨β2=β2。由性质2知 (A,f,λ,β2)⊆ (A,f,λ,β1)。即 (A,f,λ,β1∨β2)=(A,f,λ,β1)∩(A,f,λ,β2)。
3 变精度λ-粗糙集在决策中的应用
在现实生活中,决策问题变得越来越重要。决策是指为了实现一定的目标,决策主体对多个备选方案进行评价,并从中选择令决策者满意的方案的过程。决策的本质是为了未来目的做出的选择,为了解决决策问题,人们提出了许多方法。粗糙集理论已经被证明是一种非常有用的处理几种类型的决策问题的方法。为了说明变精度λ-近似空间在决策中的应用,提供了以下的示例:
假设S=(U,Q,V,f)是几个学生的成绩表,如表1所示,其中U=(x1,x2,x3,x4,x5)是五个学生的集合,Q=(a1,a2,a3,a4,a5,a6)是六个学科的集合。由表1可知,这五个学生的总成绩是一样的。李老师需要根据学生各科的成绩来做一个排名,排名要求能反映学生的潜力。
评价学生的成绩好坏一般是通过计算各科目的总成绩,总分越高,就认为学生越优秀,但是当总成绩相同的时候,这个方法就失效了。接下来,本文使用变精度λ-粗糙集给出的一种方法做出一个排名,这个排名可以反映学生的潜力。
假设信息系统S=(U,Q,V,f),其中U=(x1,x2,x3,x4,x5)是对象集,Q=(a1,a2,a3,a4,a5,a6)是属性集。
决策方法:
第一步:输入信息系统S=(U,Q,V,f);
第二步:根据定义3、定义5以及最优决策目的,确定β和λ值;
第三步:计算β-下λ-近似 (Oi,f,λ,β)和β-上λ-近似(Oi,f,λ,β),其中Oi={a∈Q|f(xi,a)=1},xi∈U;
第四步:
(1)对于每一个候选对象,都可以得到与Oi的下相似度 ;
(2)对于每一个候选对象,都可以得到与Oi的上相似度 ;
第五步:
(1)根据 的大小,确定每个对象xi在所有对象中的升序的排列的位置 ;
(2)根据 的大小,确定每个对象xi在所有对象中的升序的排列的位置 ;
第六步:建立排序的直角坐标系,其中,x轴表示 ,y轴表示 ,即xi在坐标系中x0y中的坐标为( , );
第七步:计算偏角θi=arctan ,并根据θi的大小,从大到小输出xi。
计算偏角的过程中,偏角越大说明排序的偏差越大,也就是潜力越大。
基于算法的模拟实验:首先根据表1建立信息系统。如果学生xi的学科成绩aj在85到100之间,则认为这个学生掌握了这个学科,记作f(xi,aj)=1;否则,f(xi,aj)=0。得到信息系统S=(U,Q,V,f),如表2所示。
第一步:输入信息系统S=(U,Q,V,f),如表2所示;
第二步:根据定义3、定义5,确定β=0.75和λ=0.6;
第三步:计算β-下λ-近似 (Oi,f,λ,β)和β-上λ-近似 (Oi,f,λ,β),其中Oi={a∈Q|f(xi,a)=1},xi∈U,同时得到 和 ,如表3所示。
以及 ,
第四步:根据 的大小,排列为x3 第五步:在排序的直角坐标系中,其中,x1的坐标为(2,2),x2的坐标为(4,3),x3的坐标为(1,4),x4的坐标为(3,2),x5的坐标为(4,1); 第六步:计算偏角θ1=45.00,θ2=36.87,θ3=75.96,θ4=33.82°,θ5=14.04°。从大到小输出为x3,x1,x2,x4, x5。即排序为x3>x1>x2>x4>x5。 为了显示变精度粗糙集的优越性,下面给出在没有变精度的时候的对比实验。把上述实验的阈值β去掉,可以得到如表4所示的内容。 根据 的大小,排列为x3 由此得出:由于变精度λ-粗糙集模型把集合的上近似集合变大,下近似集合变小,这样使得边界增大。在上述应用中,变精度λ-粗糙集模型的这种不准确性反而使得结果更加清晰,和单纯的λ-粗糙集模型相比,更容易得出想要的结果。这使得变精度λ-粗糙集模型的优越性更加明显。 4 结 论 变精度粗糙集由于允许一定错误的存在,反而在实际生活中的应用更加广泛,在解决实际问题时优越性更加明显。本文在λ-粗糙集模型的基础上进行变精度的扩展,使得λ-粗糙集模型的应用更加实际、可操作,也扩充了λ-粗糙集模型以及变精度粗糙集的理论以及实际应用。后续会更加深入地研究λ-粗糙集模型的更多扩展,使得此模型更加完善,也在完善中增加它的应用价值。 参考文献: [1] YU B,CAI M,LI Q. A λ -rough set model and its applications with TOPSIS method to decision making [J].Knowledge-Based Systems,2019,165:420-431. [2] MARDANI A,JUSOH A,ZAVADSKAS E K .Fuzzy multiple criteria decision-making techniques and applications - Two decades review from 1994 to 2014 [J].Expert Systems with Applications,2015,42(8):4126-4148. [3] ZIARKO W .Variable precision rough set model [J].Journal of Computer and System Sciences,1993,46(1):39-59. [4] PAWLAK Z.SŁOWIŃSKI R. Rough set approach to multi-attribute decision analysis [J]. s.n.,1994,72(3):443-459. 作者簡介:吴梦轩(1993.06-),男,汉族,河南平顶山人,研究生在读,研究方向:数理统计、大数据。