融合PFS与RS的案例知识供需匹配研究

2020-12-07 08:20张建华李方方
计算机工程与应用 2020年23期
关键词:毕达哥拉斯模糊集粗糙集

张建华,李方方,杨 岚

1.郑州大学 管理工程学院,郑州 450001

2.郑州大学 机械与动力工程学院,郑州 450001

1 引言

在知识经济时代,知识已经成为生产运营活动中必不可少的重要资源。随着知识管理研究的不断深入,如何提高知识资源的应用与创新效益,成为业内关注的焦点。知识资源与用户需求之间的匹配程度制约着知识效能的发挥[1]。知识供需匹配可以有效解决知识传递效率低的问题,是实现知识资源有效配置、应用乃至创新的前提。根据知识自身的复杂特性,可将其划分为多种类型;在完备知识结构中,模糊不确定性知识占有很大比重。探讨不确定性知识系统与用户知识需求之间的匹配问题,是提高知识资源利用率的关键。

粗糙集是处理不确定性和模糊性问题的常用数学方法。不过,其只适用于处理知识表达系统中离散型或符号型的属性值;然而,对连续型的属性值实施离散化,亦可能导致重要信息损失。于是,有学者将模糊集与粗糙集相结合,用模糊相似关系代替等价关系,以扩展粗糙集理论到模糊粗糙集[2]。近年来,随着模糊粗糙集理论的发展,越来越多的科研工作者将其与其他数学方法相结合,以研究属性约简与决策问题。(1)在属性约简方面。路艳丽等将直觉模糊集与模糊粗糙集相结合,将知识约简概念推广到直觉模糊环境[3]。王金英等将二型直觉模糊集和粗糙集理论融合,建立了二型直觉模糊粗糙集模型,并对二型直觉模糊关系进行了界定[4]。为了提高处理噪音数据的精确度,李冬梅等提出了基于区间二型模糊粗糙集的属性约简算法,该算法可在有限时间内收敛,使计算结果更加合理[5]。基于严格、平均、宽松三个视角,Zhang 等引入了三种二类分类方式,并提出了基于模糊粗糙集的多标记属性约简算法;由于该方法需要计算多个标记对应的模糊下近似,导致计算复杂度较高[6]。张照星等为了解决对不同参数约简需重新计算的问题,利用嵌套结构,提出了基于已有约简的快速约简算法,有效降低了属性约简的时耗[7]。为提高属性约简的效率,弥补现有基于模糊粗糙集的多标记特征选择算法仅能对单一的样本空间刻画属性区分能力的不足,姚二亮等考虑了属性对标记的区分能力,从标记和样本两个空间出发,提出了基于双空间模糊辨识关系的多标记特征选择算法,并通过权重融合的方式对两种多标记属性重要度进行融合,从而提出多标记属性约简算法[8]。针对模糊粗糙集中相交运算可能会导致高维数据空间中模糊决策辨别力低的问题,Wang 等将距离测度引入模糊粗糙集,基于此构建了模糊粗糙集模型,并给出了计算属性相关性与重要性的迭代公式,设计了一种贪婪收敛的属性约简算法,实验分析验证了该算法的有效性及比较优势[9]。(2)在决策研究方面。不少学者将模糊粗糙集与其他理论相结合对决策问题展开了研究。如针对模糊系统中噪声对相似度计算结果的影响,杨霁琳等通过引入阈值对,建立了基于相似度三支决策的模糊粗糙集模型。该模型保留了模糊信息系统的不确定性,并降低了噪声的影响[10]。传统的直觉模糊粗糙集未考虑属性之间的差别,赵天娜等构造了多伴随直觉模糊粗糙集模型,并将其运用到三支决策中,研究了基于多伴随直觉模糊粗糙集的三支决策算法,更符合实践过程规律[11]。根据数据的模糊性和不可区分性,Vluymans等为解决机器学习方法难以选择合适加权方案的问题,提出了有序加权平均的模糊粗糙算子,通过实验分析证明了基于有序加权平均模糊粗糙集的适用性,实现了对加权方案选择过程的优化[12]。Zhang等基于覆盖模糊粗糙集模型提出了TOPSIS-WAA 方法用于解决多准则决策问题,并将五种不同的决策方法与该方法进行了比较,并通过实证证明了TOPSIS-WAA 方法解决决策问题的优越性[13]。根据多元化、多属性的群体决策问题,Sun等将模糊粗糙集与粒计算相结合,构建了多粒度软模糊粗糙集模型,并通过定义多粒度的上下近似,提出了一种基于多粒度软模糊粗糙集和TODIM的多元化多属性群决策方法,该方法可以有效规避损失,并充分考虑了决策者的参考依赖[14]。在多属性决策系统中,一般的属性决策方法很难进行有效的决策规则提取和方案排序,刘勇等构建了一种基于优势直觉模糊粗糙集的决策方法,能很好地处理含有偏好信息和模糊信息的多属性决策系统[15]。综上,模糊粗糙集已成为研究不确定性知识获取的基本方法。

同时,为了能够更加客观地描述现实世界的模糊本质,越来越多的学者将直觉模糊集引入模糊粗糙集中。直觉模糊集考虑了隶属度、非隶属度和犹豫度信息,研究成果丰硕[16-17]。但直觉模糊集只能描述隶属度与非隶属度之和不大于1 的情况,使决策过程受限,影响其适用范围。为解决这一问题,Yager等提出隶属度、非隶属度之和大于1,而平方和不超过1 的毕达哥拉斯模糊集(PFS)[18-19]。Garg 对PFS 的相关系数进行了计算,并考虑不同元素的权重问题,对相关系数的计算方法进行改进,以得到更为准确客观的计算结果,最后将其应用到多属性决策过程中[20]。在此基础上,刘卫锋等将PFS进一步扩展,提出了毕达哥拉斯犹豫模糊集,并给出其相关测度的计算过程[21]。综上可知,PFS 是对直觉模糊集的推广,比直觉模糊集有更强的刻画模糊现象的能力[22]。随着信息技术的不断发展,面对海量的知识,用户往往会出现“知识迷向”的问题。因此,对知识资源与用户需求进行匹配是实现知识资源有效配置的关键。在既有研究的基础上,本文将PFS 与模糊粗糙集相结合,发挥其各自优势,提出毕达哥拉斯模糊粗糙集(PFRS),构建模糊知识表达系统,并将衡量知识供需匹配程度的属性相似度用PFS相关系数进行表示,同时考虑知识属性集对应的权重向量(知识视图)决定了参与匹配计算的属性数量及各属性的参与程度[23],将其与视图相似度结合,确定最终匹配结果。

2 相关知识

现实世界中存在大量的不确定性知识,快速准确地为用户提供所需要的知识,是提高知识资源利用效益和用户满意度的关键所在。粗糙集作为一种处理模糊不确定性的计算方法,自提出以来相关学者对其进行不断完善与改进,并通过与其他模糊理论相结合以突破传统粗糙集的局限性。

(1)模糊粗糙集

传统粗糙集采用离散化手段对数值型数据进行处理时,会造成信息损失。针对这一局限性,诸多学者引入模糊理论,提出了模糊粗糙集。其定义为:设U为论域,若R∈F(U×U),则R为一个在U×U上的模糊关系。给定相似关系R,模糊集合中的上、下近似为[24],对于 ∀x∈U,

模糊决策系统可用二元组进行表示:(U,A⋃D),A⋂D=∅,其中,A为条件属性集,D为决策属性集。定义为决策属性集D上的一个等价关系,则由RD产生关于U的分类为:是包含元素xi的等价类,其中,。

(2)直觉模糊集

模糊粗糙集在处理不确定性知识时,只能用隶属度刻画完全肯定的程度,而对完全否定则缺乏判断[25]。为解决这一问题,有学者通过引入直觉模糊数对模糊理论进行了扩充[26]。设X为一个非空论域,称A={x,μA(x),为论域X上的一个直觉模糊集,其中是X上的模糊集,μA(x)、νA(x)分别为论域X上元素x属于A的隶属度和非隶属度,且∀x∈X,μA,νA∈ [0,1],满足0 ≤μA(x)+νA(x)≤1。

(3)毕达哥拉斯模糊集

与传统模糊集相比,直觉模糊集更符合决策者对被评估对象表现出肯定、否定和犹豫的思维习惯,在处理模糊性和不确定问题方面更具灵活性和实用性[27]。然而,在直觉模糊决策过程中,Yager等发现专家给出的方案往往会出现属性的隶属度与非隶属度之和大于1 的现象,此时直觉模糊集无法正确地描述专家对信息的偏好,于是提出了毕达哥拉斯模糊集对其进行扩展。毕达哥拉斯模糊集的定义如下[18]:

设X为论域,则称为毕达哥拉斯模糊集(PFS),其中μA(x)为:X→ [0,1],νA(x):X→[0,1]分别为X上元素x属于A的隶属度和非隶属度。为x属于A的犹豫度或不确定度。称为毕达哥拉斯模糊数,为方便表述,将其记为在毕达哥拉斯模糊系统中,A的信息能量可表示为:

A与B的相关系数可表示为:

3 基于PFRS的知识供需匹配

源于客观世界的复杂性与不确定性,实践中存在大量模糊的、偏好型知识,如何使其精准满足用户需求,是确保知识资源有效配置的前提。传统的知识供需匹配方法多以模糊粗糙集为理论基础,但该方法在刻画不确定性现象时具有一定的局限性。毕达哥拉斯模糊集是近年来被提出的处理模糊现象的有力工具。为弥补模糊粗糙集在描述不确定性知识方面的不足,本文将毕达哥拉斯模糊集与其相结合,提出基于毕达哥拉斯模糊粗糙集的知识供需匹配模型。该模型主要包括两个部分:(1)建立毕达哥拉斯知识表达系统,通过对原始数据的处理,实现对知识属性值的毕达哥拉斯模糊数表示;(2)将毕达哥拉斯模糊集的相关测度引入知识供需匹配过程,对知识视图相似度进行改进,以提高匹配结果的准确性,并根据用户需求与既有知识之间视图相似度的计算结果确定匹配对象。

3.1 毕达哥拉斯模糊粗糙集

模糊粗糙集是处理不精确、不确定性问题的重要数学工具。它通过将模糊集中的隶属度看作粗糙集中的属性值,可有效进行特征选取;同时,亦可避免对连续属性值的离散化,减少了信息损失。毕达哥拉斯模糊集是对直觉模糊集的扩展,可描述隶属度与非隶属度之和大于1 且平方和小于等于1 的现象,又能体现决策者在二者之间的犹豫程度,是一个对不确定现象进行表达的强有力工具。将毕达哥拉斯模糊集与模糊粗糙集相结合,本文构建毕达哥拉斯模糊粗糙集(PFRS)模型。

定义1设为论域U中的毕达哥拉斯模糊集合,R是论域U上的毕达哥拉斯模糊等价关系,对x∈U,A毕达哥拉斯模糊粗糙集的上、下近似可分别表示为:

其中:

设S=(U,A,V,F)为毕达哥拉斯模糊知识表达系统,U={x1,x2,…,xn} 为论域,且是一个非空有限集合;A为属性集,可表示为A=C⋃D,且C⋂D=∅ 。其中,C={a1,a2,…,am} 为条件属性集,对于 ∀ai∈A都有一个映射:U→Vai,Vai为ai的属性值;D={d}为决策属性集,Vd为决策属性d的值域,知识i的第j个条件属性值为vij。在PFRS 中,条件属性值vij可由一组毕达哥拉斯模糊数进行表示,即ννij分别表示U上知识i的第j个属性属于A的隶属度和非隶属度;πνij表示U上知识i的第j个属性属于A的不确定度,其中πνij=f(μνij,ννij),为方便表述,后文简记为。

3.2 知识供需匹配算法

传统的匹配方法一般由用户知识需求与已有知识之间的视图相似度来衡量匹配水平。视图相似度是通过用户所需知识的各属性与所提供知识属性集之间的相近程度确定。本文通过引入PFS 相关系数对视图相似度进行改进,以提高匹配精度。PFS相关系数是将知识看作一个整体来考虑的,通过各知识与用户需求之间的相关程度确定匹配结果。基于此,本文将属性相似度通过PFS相关系数进行表征,其计算方法为式(2)~(4)。同时,考虑属性集各成分对知识供需匹配过程的影响差异,引入知识属性权重向量,对相关系数进行改进,得出视图相似度,使计算结果更为准确客观。基于前述计算公式可知,确定知识属性权重是计算知识用户需求与既有知识之间视图相似度前提。熵权法根据数据的离散程度确定权重,使计算结果更为客观可靠、区分度较高,本文选取它计算各知识属性的权重向量。

该方法的计算过程为:(1)为消除不同量纲对计算结果的影响,对原始属性数据实现归一化处理;(2)计算属性aij的信息熵,;(3)通过信息熵计算各属性的权重,。基于属性权重可以求解用户知识需求与知识之间的视图相似度,其计算公式如下:

综上,在基于毕达哥拉斯模糊粗糙集的知识供需匹配过程中(以案例知识为例),需首先构建知识表达系统S=(U,A,V,F),同时确定各知识属性的权重,即计算属性集C对应的权重向量ω=(ω1,ω2,…,ωm)T;进而计算在论域U中,各案例知识的信息量;而后输入用户需求C′,并将知识需求进行标准化处理,计算其与案例知识xi的相关指标,从而求出知识供需匹配视图相似度的计算结果(Simiq):若Simiq=1,则将匹配结果提交用户。由于在知识供需匹配过程中,视图相似度的结果为1的可能性很小,因此,本文在供需匹配过程中预设视图相似度阈值α,将Simiq与该阈值进行比较:若Simiq≠1且满足Simiq≥α,则将满足条件的案例提交适配,重构满足用户需求的解/决策属性并形成新案例提交用户(已另文探讨)。后续需计算新案例与系统既有各案例之间的视图相似度,若其最大值小于系统学习阈值,则案例入库;否则,系统不予纳入、放弃学习。若所有案例视图相似度Simiq<α,则既有知识库尚未具备满足用户需求的知识,匹配失败。如此,基于PFRS的知识供需匹配过程如图1所示。

4 实证分析

为验证前述基于PFRS 知识供需匹配方法的有效性与可行性,本文选取UCI 数据库中的“iris”数据集进行实证分析。该数据集记录了三种鸢尾花的不同生长特点,同一模式下的案例数量为150。每一案例包含4个条件属性,1 个决策属性。首先,对案例库中的原始数据进行标准化处理,即对属性值vij∈A有:为方便表述,仍用vij标记标准化的条件属性值。同时,采用熵权法确定知识库中各条件属性的权重,得该数据集的属性权重向量为:ω=(0.243 1,0.155 7,0.191 3,0.409 9)T。而后,建立知识表达系统,对预处理后的数据集中任意标准化的条件属性a,定义模糊关系:若为符号值的条件属性c,则定义:由此,该案例库转化为一个毕达哥拉斯模糊决策系统。

图1 知识供需匹配过程

已知某用户的知识需求表述为C′=(6.8,3.5,4.3,1.7 )。经标准化处理后,该用户知识需求可转化为:C′={ 0.482 3,0.093 4, 0.390 6,0.140 6, 0.312 8,0.194 2,0.444 4,0.111 1 }。在此基础上,将用户需求与知识库中的所有案例进行匹配计算。由于在实践过程中,匹配结果往往无法完全满足用户需求,即视图相似度为1。因此,本文仅得出在既有案例下,与之匹配程度足够相近的案例。在知识供需匹配过程中,设置视图相似度的阈值为α=0.95,当视图相似度Simiq≥0.95 时,返回该匹配案例;重复该过程,直至遍历知识库中所有案例知识;若在匹配过程中,视图相似度满足Simiq≠1 且Simiq≥0.95,则进行案例适配(适配过程参见文献[28])。依前文所述的方法确定供需匹配的案例集,经计算可知,满足Simiq≥0.95 的案例有15 个。为方便表述,将知识库中的案例按照决策属性d进行排序,具体的匹配案例结果如表1所示。

表1 匹配案例集

在供需匹配过程中,符合匹配要求的案例集的计算过程如下,首先,基于前文所述,计算案例知识库中xi的信息能量Eω(xi),其计算结果如表2 所示。继而,根据知识供需匹配过程,计算用户知识需求C′与案例知识之间的相关指标Cω(xi,C′ ),其结果如表3 所示。最后,根据式(7),将用户需求与案例集中各案例进行视图相似度计算,最终的匹配结果以降序排列选取前15 个视图相似度所对应的案例作为该用户知识需求的匹配案例集,计算结果如表4所示。

表2 匹配结果的信息能量

表3 相关指标

表4 视图相似度

结合以上实证结果分析可知,相较于传统处理模糊不确定知识的匹配方法,本文所提出的基于PFRS 的知识供需匹配算法具有如下优势:

(1)模糊不确定性的知识在知识供需匹配过程中大量存在,处理该类知识的匹配问题是以模糊理论为基础,常用的方法包括经典粗糙集理论、模糊粗糙集理论以及在此基础上改进的算法。毕达哥拉斯模糊集是一种新兴的处理模糊不确定信息的方法,因其既能很好地解释隶属度与非隶属度平方和小于等于1,又能描述隶属度与非隶属度之和超过1 的现象,所以在表达不确定现象时更具优势。与直觉模糊集相比,其刻画模糊现象的能力如图2 所示。因此,本文将该方法与模糊粗糙集相结合,提出毕达哥拉斯模糊粗糙集模型,并基于该模型实现知识供需匹配的过程,具备一定的理论优势。

图2 模糊现象的描述范围

(2)传统的知识供需匹配算法是通过相似度的计算确定最终的匹配结果,本文通过引入毕达哥拉斯模糊集的相关测度,并考虑知识属性权重,用PFS 的加权相关系数对视图相似度进行表征。基于PFS 相关系数的视图相似度考虑了模糊知识在知识表达系统中的不确定性,提高了知识供需匹配精度,使计算结果更加客观准确。本文算法得出的视图相似度匹配结果与一般算法得出的相似度的结果如图3 所示。由图3 可知,由加权PFS相关系数确定的视图相似度高于一般算法,可见本文算法具有更好的区分能力。

综上,本文提出的知识供需匹配算法相较于业内既有的方法,其适用范围更广,匹配结果更为客观。

图3 视图相似度算法比较

5 结语

随着信息技术的迅速发展,知识供需匹配的问题日益凸显。为提高知识资源的利用效益,本文在前人研究的基础上,提出了基于毕达哥拉斯模糊粗糙集的知识供需匹配算法。首先将PFS 与模糊粗糙集相结合,给出PFRS 的定义;而后,构建毕达哥拉斯模糊决策系统,并给出知识供需匹配的具体步骤,引入PFS 的相关测度,并通过加权PFS的相关系数对视图相似度进行表征,以提升匹配精度;最后,将用户需求与已有案例知识进行匹配,得出匹配结果。文末实证分析验证了本文所提方法的可行性与比较进步性。在该供需匹配过程中,为得到匹配结果,每次匹配需要遍历案例库中的所有案例。为提高匹配过程的效率可引入聚类算法对案例库中的案例进行聚类,以压缩匹配空间,这是未来需要进一步研究的内容。

猜你喜欢
毕达哥拉斯模糊集粗糙集
基于Pawlak粗糙集模型的集合运算关系
基于四种截集的粗糙模糊集表现定理的新表示
基于上下截集的粗糙模糊集的运算性质
复图片模糊集及其在信号处理中的应用
基于二进制链表的粗糙集属性约简
区间直觉模糊集相似度构造
优势直觉模糊粗糙集决策方法及其应用
多粒化粗糙集性质的几个充分条件
毕达哥拉斯
天才毕达哥拉斯