陈跃 王宣
(六盘水师范学院数学与统计学院,贵州六盘水 553004)
模糊集理论和粗糙集理论已经被证明是处理不确定性信息的有效工具[1-3]。模糊集注重通过隶属度函数描述对象的含糊程度,而粗糙集注重通过知识和概念构造的上下近似算子达到对目标的近似表达,其显著优势在于不需要任何先验信息,就可以比较客观地描述和处理数据信息。概率粗糙集[4-5]和决策粗糙集[6-7]是粗糙集理论的两个重要推广,为了对其三个区域提供一个合理的语义解释,姚(Yao)[8-9]提出了三支决策的概念。三支决策的思想是通过一定的方法将论域划分成三个互不相交的区域,这三个区域按照正域表示接受、负域表示拒绝、边界域表示延迟决策的划分规则来解释。三支决策已经被证明是处理复杂问题的一种新方法,被国内外学者广泛研究和推广。首先是三支决策的应用,文献[10]利用三支决策基本原理,提出了基于毕达哥拉斯模糊信息系统的三支冲突分析模型,为冲突问题的解决提供了一个新思路;文献[11]将三支决策应用到粒计算领域,并指出模糊拟阵是三支粒计算的一个典例;文献[12]分析了三支决策和经典概念格之间的关系。其次在模型推广方面,研究不同信息系统上的三支决策模型备受学者关注。例如:文献[13]将成本参数和属性值推广为到直觉模糊数,基于隶属度和非隶属度函数建立了一个新的三支决策模型;文献[14]充分考虑未知属性值和属性更新的代价,建立了动态三支决策模型;文献[15]以高斯核函数为基础定义了Tcost-模糊的等价关系,建立基于不完备实值信息系统的三支决策模型;李(Li)[16-17]先后提出了基于双论域和信息系统的三支决策模型,并根据对划分的评价提供了一种计算阈值的新方法。
多重集由经典集合推广而来,它的元素不具有互异性,即同一元素可以多次出现[18-20]。正是如此,多重集表示的信息往往更加全面完整,例如:有四位专家对某品牌手机中央处理器(CPU)性能给出他们的专业性评价,多重集{0.3,0.9,0.9,0.9}中的元素分别为四位专家的评价值。显然,从该多重集我们知道该品牌手机的CPU 能获得多数专家的认可。若换用经典集合{0.3,0.9},则我们不能获知该品牌手机的CPU 是否获得专家的认可。现有的三支决策模型大多建立在单值的信息系统上,未考虑由于评价主体等的不同导致对象属性值不唯一的情况。因此本文将信息系统推广到多重集值信息系统,并基于该系统建立了能充分体现各位评价主体意见的三支决策模型。
本文在文献[17]的基础上,将关系函数r的值域推广为[0,1]上的多重集,并基于数域上多重集的距离测度,建立了基于多重集值信息系统上的三支决策模型。另外,本文指出[0,1]上的多重集值信息系统完全可以用一个模糊多重集值函数代替,并建立了基于模糊多重集的三支决策模型。最后,本文基于模糊多重集的交、并、以及差运算提出了三种相似性测度,弥补了距离测度在某些应用中的缺陷。
定义1.1[19](多重集)设U是一个非空论域,U上的多重集M可以用函数CM:U→ℕ(ℕ 为自然数集)来表示,对x∈U,CM(x)称为x的重数。记U上的全体多重集为M(U)。
多重集有多种表示方法,如M={(x,1),(y,2),(z,3)}或M={x,y,y,z,z,z}。
定义1.2[19]分明多重集中元素的个数称为多重集的基数,记为|·|,即
下面我们介绍一种衡量数域V⊆ℝ 上的多重集接近程度的方法。
其中m=maxV-minV。当q=1,2 时,分别称为Hamming距离,Euclid距离。
注1.1V上的任意多重集都可以通过重新排列元素,使得其元素按升序排列。
例1.1某中介要根据顾客的需求从现有的房源中筛选出合适的房子推荐给顾客。设U={u1,u2,...,u5}是房源的集合,A={a1,a2,a3,a4}是房子属性集合,其中a1表示房源的面积大小、a2表示房源的方位、a3表示房源是否带花园、a4表示房源的价格。房源相关信息如表1所示。
表1 房源信息
以u1为例,关系函数r(u1)={small,east,no,moderate} 表示房子u1面积小、位于城东、不带花园、价格适中。若某顾客对房子的要求,即目标属性集={middle,east,no,low},取评价函数
若给定阈值α=0.6,β=0.4,则可知,即u1房子暂不推荐。其它情况我们也能类似算出,即可以得到房源U的三划分
房源U的三划分表明,作为销售员应该首先将u4房子推荐给相应的顾客,u1,u6作为备选是否推荐需进一步分析,而u2,u3,u5则没有推荐的必要。
本节,我们将信息系统推广到特殊的集值信息系统——多重集值信息系统,建立基于多重集值信息系统的三支决策模型。并进一步将三值属性推广到多值属性,即将属性值范围从{0,0.5,1}推广到单位区间[0,1],并根据数域上多重集的相似性测度建立了基于多重集值信息系统的三支决策模型。
定义2.1设U和A分别为非空有限对象集和非空有限属性集。四元对Ψ=(U,A,r,e)称为多重集值信息系统上的三支决策模型,其中关系函数是一个集值函数(Va为属性a的取值,是以多重集为元素的集合),(L是一个全序集)是一个评价函数。设α,β∈L是一对阈值且有β<α,则对任意的目标属性集的正域、边界域、负域分别定义为
例2.1设U={u1,u2,...,u6} 表示6 个品牌的手机,A={a1,a2,a3,a4}表示手机的4 个属性,其中a1表示处理器性能、a2表示电池续航、a3表示手机信号、a4表示屏幕材质。现有三位专业人士对以上六个品牌手机的四个属性做了测评,测评结果如表2所示。
表2 手机评测多重集值信息
根据表2可知
它表示三位专业人士对u1品牌手机的a1属性的测评结果均为强;对a2属性的测评结果分别为长、长、中;对a3属性的测评结果为中、差、差;对a4属性的测评结果分别为TFT、SLCD、AMOLED。假设某消费者希望购买一台处理器性能强、手机信号好、屏幕材质为SLCD的手机,而对手机续航不做要求。我们用目标属性集={强,*,好,SLCD} 表示消费者对手机四个属性的要求(其中*表示目标属性值不明或不作要求),并将其拓展为多重集(仍记为)得
取评价函数
其中r(ui,aj),xj分别为r(ui)和的第j个元素,且均为多重集。根据目标属性集和表2,分别计算每个手机的评价值得到如表3所示。
表3 基于消费者需求的手机评价值
以u1品牌手机为例,
在上式中,本文规定{*,*,*}与任何一个基数为3的多重集M的交集都为M。
若取阈值α=0.7,β=0.4,则的正域、边界域、负域分别为:
它表示作为导购应该优先给消费者推荐的是u2和u4品牌的手机,u1、u3和u5品牌的手机作为备选,肯定不必推荐的手机品牌为u6。
注2.1例2.1 所取的评价函数e(r(u),)事实上表示的是对象(手机)属性集与目标属性集(消费者需求)的重叠度,重叠度越高则代表该品牌手机越能满足消费者的需求。
注2.2根据表2 可知u3品牌手机的a1属性较u4品牌更能满足该消费者的需求,但用e(r(u),)作为评价函数时,两个品牌的手机在该属性上对消费者需求的满足度是相同的,这显然与事实不符,即三值属性值不能够满足实际的需求。
注2.3分析表2 可知,a1、a2和a3的属性值具有明显的序关系,即a1的属性值明显具有“强>中>弱”;a2的属性值有“长>中>短”;a3的属性值有“好>中>差”。若不考虑各种材质的屏幕好坏,消费者选择何种材质完全看个人喜好,则a4的属性值则不具备序关系。
若我们用0、0.5、1 来表示表2 中具有序关系的三个等级的基础属性值(以属性a1为例,0表示弱、0.5 表示中、1 表示强),则a1、a2和a3的属性值实际上是三值集合{0,0.5,1}上的多重集。三值集合只能粗略的描述对象该属性的优劣,而不能精确地描述其优劣程度。因而本文首先考虑将三值集合{0,0.5,1}上的多重集推广到单位区间[0,1]的多重集。而对不具有序关系的属性例如a4,我们将属于目标属性集的元素记为1,其余的属性值均记为0,则该属性的取值实际上为{0,1}上的多重集,也是[0,1]上的多重集。这样我们就可以以单位区间[0,1]上的多重集值信息表为基础建立三支决策模型。
定义2.2设M={M1,M2,...,Mn},N={N1,N2,...,Nn} 是以[0,1]上的多重集为元素且基数相同的集合,则基于距离的M,N的相似性测度定义为
其中距离d可取dmax、dmin以及dp。
下面我们基于对象属性集与目标属性集的相似性测度在[0,1]区间上建立基于多重集值信息表的三支决策模型。
例2.2(续例2.1)我们以[0,1]作为基础属性值,将表2的属性值推广为[0,1]上的多重集如表4所示,评测信息表中的多重集为三位业内人士给出的各手机属性的测评值,数值越高则表示该项属性越优秀,反之亦然。某消费者对手机的需求集={0 .8,*,0.9,SLCD},我们用数字“1”表示SLCD材质屏幕,用数字“0”表示其它材质屏幕,并将拓展为多重集仍记为,此时消费者目标属性集合={{ 0.8,0.8,0.8},{* ,*,*},{0 .9,0.9,0.9},{1 ,1,1} },而属性a4的取值为{0,1} 上的多重集如表4所示。
表4 手机评测[0,1]多重集值信息
根据表4,计算消费者目标属性集与各品牌手机属性集的相似性测度值如表5所示。
表5 用户需求与手机属性相似性测度
以u1品牌为例,有u1牌手机的属性值集r(u1)与目标属性值集的相似性测度
在上式中,由于的第二个元素{*,*,*}表示属性值不明或不做要求,则可规定不存在该元素,即的基数为3。
若取阈值α=0.6,β=0.4,则根据表5可得到的正域、边界域、负域分别为:
它表示作为中介应该优先给顾客推荐u2品牌的手机,u1、u3和u4品牌的手机作为备选暂不推荐,u5和u6品牌的手机则没有推荐的必要。
基于距离的相似性测度能满足很多场景的需求,但就例2.2 所述的场景来说仍然存在一定缺陷。例如若某消费者对a1(手机处理器性能)的要求为={0 .6,0.6,0.6},假设有A 品牌手机a1的属性值为A1={0 .8,0.8,0.8},B品牌手机a1的属性值为B1={0 .4,0.4,0.4} 。显然基于距离计算得到的A1与的相似性测度,和B1与的相似性测度完全一样,然而A品牌手机处理器能满足消费者需求,而B品牌手机却不能满足消费者需求。这就不可避免的导致了分类错误。纠其导致分类错误原因是我们接受好的,拒绝差的,而基于距离函数的相似性测度既拒绝好的又拒绝差的。
由于表4所列的属性ai的取值是[0,1]上的多重集,多重集里的每一个元素可以看成是属性ai的隶属度(我们可将r(u1,a1)={0.9,0.9,0.8}中的三个元素看成是属性a1的三个隶属度),这样我们将表4每一行的四个的多重集收集起来并进行一定整合,便可得到一个关于属性集A的模糊多重集。例如我们完全可以用属性集A={a1,a2,a3,a4}上的模糊多重集来表示表4第一行所呈现的信息。因此,本节在此基础上建立了模糊多重集上的三支决策模型,并定义了三种新的相似性测度解决了距离相似性测度可能带来的分类错误。
定义3.1设U和A分别为非空有限对象集和非空有限属性集。四元对Ψ=(U,A,r,e) 称为模糊多重集上的三支决策模型(FM3WD),其中r:U→FM(A)称为关系函数,e:FM(A)×FM(A)→L(L是一个全序集)是一个评价函数。设α,β∈L是一对阈值且β<α,则对任意的∈FM(A),的正域、边界域、负域分别定义为
根据定义1.8,模糊多重集的并是通过取两个模糊多重集中较大的隶属度来构成新的模糊多重集,这样在以大于目标值的场景中,通过模糊集并定义的相似性测度,其语义解释就得不到保证。但在以小于目标值的场景中,以模糊多重集的并定义的相似性测度有很好的应用价值。
例3.1(续例2.2)事实上,表4所示的多重集值信息系统可以用属性集A上的模糊多重集表示,即可得到模糊多重集上的三支决策模型Ψ=(U,A,r,e),其中关系函数r:U→FM(A)如下所示:
表6 对象属性集r(ui)与目标属性集的交集
表6 对象属性集r(ui)与目标属性集的交集
表7 模糊多重集r(ui)⋂的H -割集
表7 模糊多重集r(ui)⋂的H -割集
表8 r(ui)与的交相似性测度值
表8 r(ui)与的交相似性测度值
若取阈值α=0.55,β=0.35,则乐观、悲观、谨慎状态下的三个域分别为:
可以看出在不同的状态下的三个域的划分不同。乐观状态下,的正域为{u1,u2,u4},作为导购u1,u2和u4品牌的手机都可以优先推荐给消费者;而在谨慎状态下只有u2品牌的手机可以推荐;悲观状态下则没有可以推荐的手机。即在乐观状态下,对象(手机)只需满足最低目标属性(消费者最低要求);而在悲观状态下则需满足最高属性要求。
若用差相似测度e⊖作为评价函数,第一,计算得到表9;第二,计算的0-割集得到表10;第三,计算的基数比即得如表11所示。
表9 对象属性值集r(ui)与目标属性值集的差集
表9 对象属性值集r(ui)与目标属性值集的差集
表10 r(ui)⊖的0-割集
表10 r(ui)⊖的0-割集
表11 r(ui)与的差相似性测度值
表11 r(ui)与的差相似性测度值
由例3.1可知,不同的相似性测度得到的分类结果不一样。交相似性测度在综合考虑目标属性值的基础上可以选择切合自身实际的乐观、悲观、或谨慎的态度;而差相似性测度则充分尊重每一个目标属性值,使得每一个属性值在决策中发挥价值。
本文以李提出的信息系统上的三支决策为基础,将单值的信息系统推广到多重集值信息系统,并基于属性描述的精确度进一步将其多重集值信息系统推广到[0,1]多重集值信息系统,建立了基于多重集值信息系统的三支决策模型。现有的各种信息系统上的三支冲突模型没有充分考虑由于评价主体的多样性导致的对象属性值不唯一的情况,因而其应用受到一定限制。本文用多重集来表示对象的属性值,不仅能精确地表示对象的属性达成度,还能充分表示由于评价主体的不同导致的属性值的不唯一,能够充分展示各评价主体的意见。此外,基于多重集值信息系统的三支决策模型还给后续学者提供了一种处理评价主体意见分歧的方法,使得三支决策模型能够更加直接的应用于社会各领域。
评价函数是三支决策模型的一个核心要素,评价函数选取的科学性直接影响到三支决策模型的应用效果。本文先是提出了基于多重集距离的相似测度,并指出了以此作为评价函数的不足,然后我们基于模糊多重集的交、并以及差运算分别提出了交相似性测度、并相似性测度和差相似性测度,这三种测度都能弥补基于多重集距离的相似性测度在实际应用中的缺陷。
阈值是三支决策的另一各核心要素,阈值的选择直接影响到三划分的效果,是三支决策模型至关重要的一步。现阶段关于阈值的计算一般是基于贝叶斯最小风险理论给出的。后续,在本文的架构上探讨基于贝叶斯最小风险的阈值计算形式是我们可以努力的方向。但是,由于基本贝叶斯最小风险的阈值计算方法涉及的损失参数多,且其给定具有主观性,所以结合多重集这一工具研究一种新的阈值计算方法意义更为深远。