曹仪铭,崔 慧,车 璐,邹 丽
形式概念分析(FormalConceptAnalysis,FCA)理论是由德国科学家Wille[1]在1982年提出的,主要用于机器学习、模式识别、专家系统、计算机网络、数据分析,决策分析等领域[2-5].FCA的核心是形式概念和概念格,概念格的每一个节点是一个形式概念,概念格结构模型是形式概念分析中的核心数据结构,它本质上描述了对象和属性(特征)之间的关系.由于在现实生活中我们接触的大部分情况是不确定的,王国胤[6]阐述了Rough集理论的模型、算法以及基于Rough集理论的知识获取技术,Yao[7]和 Yao and Chen[8]研究了粗糙集理论框架下的概念格理论,张文修等[9]进一步研究了粗糙集与信息系统的属性约简和规则提取问题,胡明涵等[10]介绍了模糊概念分析理论,建立模糊背景下的模糊概念格,李金海等[11]首次在决策形式上进行规则提取,杨丽等[12]在有限链所形成的格蕴含代数上,建立能够直接用于处理自然语言的语言真值概念格模型.
在实际生活中,由于客观事物的复杂性及人类思维的模糊性,使人们更习惯于用模糊语言值进行表达,Xu[13]提出了模糊语言集和模糊语言集中任意两个语言值之间的距离测度,将语言信息引入到模糊多属性决策问题中,利用语言值处理模糊决策问题.
基于上述工作,为了处理语言模糊决策形式背景下的问题,尽量减少信息损失,贴近人类思维过程,实现决策过程的智能化,提出基于模糊语言概念格的相似度推理方法.
定义1[14]设 (U,A,S)是一个模糊语言形式背景,其中U={x1,x2,…,xn}为对象集,称每个为一个对象;非空集合为属性集,称每个aj(j≤m)为一个属性;S为U到A上的二元关系,S⊆U⊗A.其中,S={si|i=0,1,2,…,g}为语言集,g为偶数.对于模糊语言形式背景(U,A,S),在对象集X⊆U和属性集B⊆SA上定义运算:
其中,X⊳表示对象满足的每个属性对应的语言值交集的集合;B⊳表示每个属性对应的语言值所满足的对象交集的集合.
定义 2[14]设 (U,A,S)是一个模糊语言形式背景,如果一个二元组(X,B)满足X⊳=B且则称为一个模糊语言概念.其中,X为概念的外延,B为概念的内涵.用表示模糊语言形式背景(U,A,S)下的全体概念,并称FLL(U,A,S)为模糊语言概念格.
定义3[14]设FLL(U,A,S)与FLL(U,C,K)是2个模糊语言概念格,若对于任意概念(Y,D)∈总有且有X=Y,则称细于FLL(U,C,K),记作
定义4[14]设 (U,A,S,C,K)是一个模糊语言决策形式背景若对于Y≠∅且Y≠U,有且X=Y,则称B→C是一个规则,记为if B,then C,将所有规则记入规则集中.
(1)0<sim(B,G)≤1;
(2)sim(B,G)=1当且仅当B=G;
(3)sim(B,G)=sim(G,B);
(4)设R=(sr1,sr2,…,srn)为任意一个模糊语言集,B⊆G⊆R,则
证明(1)对任意一个ik、jk(k=1,…,n),有
(3)显然得证.
(4)因为B⊆G⊆R,则ik≤jk≤rk(k=
综上所述,定理1成立.
定义6设(U,A,S)是一个模糊语言形式背
其中X=U,
是权重
给定一个模
则模糊语言形式
背景下的模糊语言集之间的加权相似度为
定 理2设B=(si1,si2,…,sin),G=
是权重向量,其中ωk∈[0 ,1]
则模糊语言形式背景下的模糊语言集之间的加权相似度simω(B,G)满足如下性质:
(1)0<simw(B,G)≤1;
(2)simw(B,G)=1当且仅当B=G;
(3)simw(B,G)=simw(G,B);
为任意一个模糊
证明 证明过程同定理1.
注:当权重向量中的每个元素平均分配时,
时,加权相似度退化为相
似度,即相似度是加权相似度的一种特殊情况.
在模糊语言决策形式背景下,进行模糊语言推理.具体步骤为:
Step1:在模糊语言形式背景(U,A,S)上生成所有概念(X,B),构造模糊语言概念格FLL(U,A,S);
Step2:在模糊语言形式背景(U,C,K)上生成所有概念(Y,D),构造模糊语言概念格
设(U,A,S,C,K)是模糊语言决策形式背景,U={u1,u2,u3,u4}表示患者集,A={a,b,表示症状集,C={f,g,h,j}表示疾病集.病症A的具体意义如下:a为发热,b为头痛,c为胃痛,d为咳嗽,e为胸痛;疾病集C的具体意义如下:f为病毒性发热,g为伤寒,h为胃病,j为胸肺病.语言集
S={s0=极少,s1=很少,s2=偶尔,s3=很多,s4= 极多} 表示患者具有某个症状的频率,语言集K={d0=极小,d1=很小,d2=中等,d3=很大,表示患者患有某种病症的可能性.将四个患者的病例进行数据分析,得到语言直觉模糊决策形式背景如表1所示.
表1 模糊语言决策形式背景(U ,A,S,C,K)
Step 1:由表1可得在(U,A,S)形式背景下的概念如下:
构造的模糊语言概念格如图1所示.
图1 模糊语言概念格FLL(U ,A,S)
Step 2:由表1可得在(U,C,K)形式背景下的概念如下:
构造的模糊语言概念格FLL(U,C,K)如图2所示.
图2 模糊语言概念格FLL(U ,C,K)
Step 3:由图1和图2可知,FLL(U,A,S)≤FLL(U,D,P),可得到规则集:
则
综上可知,G与规则前件B7的加权相似度最大,可得到相应规则即该患者患有病毒性发热的可能性为d3.同理,给定伤寒对应的权重w2={0 .3,0.4,0.1,0.1,0.1},胃病对应的权重w3={0.1,0.2,0 .5,0.1,0.1},胸肺病对应的权重经计算分别为最大 相似度,因此取阈值为d2,该患者患有病毒性发热和伤寒的可能性较大,应该引起注意.
上述实例可以看出,其结果与实际生活中的分析结果一致,说明本算法是有效的和实用的.由于大多数患者的病症不在规则集中,本文提出的方法能够对规则集外的模糊语言集进行推理,推理结果更加全面.
由于现实生活中的不确定性,且在疾病诊断专家系统中人们习惯用语言值表达.本文在模糊语言概念格规则提取的基础上,提出模糊语言概念格相似度推理方法,从而诊断出患者患有某种疾病的可能性.本文所提出的决策方法可操作性强,适合在实际中应用.下一步考虑在权重未知的情况下,在直觉模糊语言概念格上进行多属性决策问题.