史德容,徐伟华
重庆理工大学 理学院,重庆 400054
区间值模糊决策序信息系统的分布约简*
史德容,徐伟华+
重庆理工大学 理学院,重庆 400054
粗糙集;区间值;序信息系统;分布约简
粗糙集理论[1-2]最早由数学家Pawlak在1982年提出,是数据分析的一种数学工具,是经典集合论的一种推广形式,其主要思想是在保持分类不变的情况下,经过属性约简推出问题的决策准则。目前,国内对粗糙集的理论基础及应用[3-4]研究取得了很大的进步,许多学者已在该领域出版了相应的专著,同时也发表了数百篇论文。当然粗糙集[5-6]的应用不仅仅是限制在知识理论方面,它已经在人工智能、故障检测、数据挖掘、医疗诊断、股票数据分析、模式识别、智能信息处理等领域得到了普遍的应用。
粗糙集理论的核心问题之一就是知识约简[7-9]。约简就是实际的知识库中所描述的知识的属性并不都是同等重要的,甚至有些属性是多余的。所谓知识约简,就是从知识库中去掉一些不重要的属性,使得知识得以简化,又不丢失其主要信息。
实际问题中,事物的一些属性值介于某个范围之间,常被用来刻画信息系统[10]中的不确定信息。为了表达这种情况,属性值通常用区间值[11-12]形式来表示,进一步将其模糊化,这种信息系统就是区间值模糊信息系统。本文通过在带有决策的区间值模糊信息系统中引入优势关系[13-16],建立区间值模糊序信息决策系统;在不协调的区间值模糊序信息系统[15-17]中引进了分布约简以及最大分布约简[18],探讨二者之间的关系,得到了分布约简和最大分布约简的判定定理以及辨识属性集和可辨识矩阵;提供了不协调的区间值模糊序信息系统的分布约简和最大分布约简的具体方法;同时经过例题验证了此方法的有效性,丰富了区间值模糊序决策信息系统中的粗糙集方法。
信息决策系统是既有条件属性又有决策属性的一种特殊信息系统。信息决策系统主要是研究条件属性和决策属性之间的关系问题。为了便于理解,下面给出一些基本概念。
定义1[15]称一个四元组I=(U,AT⋃DT,F,G)为一个决策信息系统。其中I=(U,AT,F)是信息系统,AT称为条件属性集,DT称为目标属性集。
U是有限对象集,U={x1,x2,…,xn};
AT是有限条件属性集,AT={a1,a2,…,ap};
DT是有限决策属性集,DT={d1,d2,…,dq};
F是U与AT的关系集,F={f:U→Va,a∈AT},Va为a的有限值域;
G是U与DT的关系集,G={g:U→Vd,d∈DT},Vd为d的有限值域。
设I=(U,AT⋃DT,F,G)为一个决策信息系统,若对任意 f∈F,a∈AT和xi∈U都有:
f(xi,a)=[aL(xi),aU(xi)]
则称I=(U,AT,F)为区间值模糊信息系统,I=(U,AT⋃DT,F,G)为区间值模糊决策信息系统。其中aL(xi), aU(xi)∈[0,1],且aL(xi)≤aU(xi),f(xi,a)是xi在属性a下的属性值范围(区间数)。特别地,当aL(xi)≡aU(xi)时,f(xi,a)就退化成了一个模糊数。因此区间值模糊信息系统是一般形式,单值模糊信息系统是其特殊形式。
设I=(U,AT,F)为区间值模糊信息系统。对任意的a∈AT,在区间值模糊信息系统中可对属性值进行比较,定义:
其中“≤”和“≥”可在区间值模糊信息系统中分别构建一个递增的偏序和一个递减的偏序。如果区间值模糊信息系统中属性的值域为递增的或者递减的偏序,那么称该属性是区间值模糊信息系统中的一个准则。本文只考虑由递增偏序构成的优势关系的情景,递减的偏序情形可以类似地得到相同的结论。
定义2设I=(U,AT⋃DT,F,G)为区间值模糊决策信息系统,若I中所有条件属性都是准则,则称I是区间值模糊序决策信息系统,记作I≥。称I≥=(U, AT,F)为区间值模糊序信息系统。
在区间值模糊序信息系统中,设a∈AT为准则,存在优势关系“≥a”,“xj≥axi”表示xj关于准则a优于 xi。设 A⊆AT是准则集,那么 xj≥Axi⇔(∀a∈A) [xj≥axi],优势关系可定义为:
定义3设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统,如果,则称该区间值模糊序决策信息系统是协调的,否则为不协调的。
本文仅仅考虑不协调区间值模糊序决策信息系统。
已经知道了序信息系统中属性约简理论定义的分布函数和最大分布函数,下面将给出区间值模糊序信息系统中的分布函数和最大分布函数的定义。
定义4设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统。对于任意的A⊆AT,x∈U,记:
称 μA(x)为论域U上的关于准则集A和决策d的分布函数,γA(x)为论域U上的关于准则集A和决策d的最大分布函数。
定义5[15]设α=(a1,a2,…,an)和 β=(b1,b2,…,bn)为两个n维向量,若ai=bi(i=1,2,…,n),称向量α等于向量 β,记作α=β;若ai≤bi(i=1,2,…,n),称向量α小于等于向量 β,记作α≤β;否则如果存在某个i0(i0∈{1,2,…,n}),使得ai0>bi0,称向量α不小于等于向量 β,记作α≮β。
显然由以上可立即得到下面命题。
定理1设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统。对于任意的A⊆AT:
(1)对∀x∈U,当B⊆A时,有 μA(x)≤μB(x);
(2)对∀x∈U,当B⊆A时,有γA(x)≤γB(x);
定义6设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统。A⊆AT,对于任意的x∈U,如果有μA(x)=μAT(x),则称A是I≥中关于区间值模糊优势关系的分布协调集;如果A的任何真子集均不是分布协调集,则称A是I≥中关于区间值模糊优势关系的分布约简。
定义7设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统。A⊆AT,对于任意的x∈U,如果有γA(x)=γAT(x),则称A是最大分布协调集;若A的任何真子集均不是最大分布协调集,则称A是I≥中关于区间值模糊优势关系的最大分布约简。
下面具体给出区间值模糊序决策信息系统的分布约简与最大分布约简的关系及其判定定理。
定理2设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统,则分布协调集一定是最大分布协调集。
证明 由定义直接可得。 □
推论1设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统,则分布协约简一定是最大分布约简。
定理3设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统,A⊆AT,则A是分布协调集当且仅当对∀x,y∈U,当 μAT(y)≮ μAT(x)时有。
证明 反证法。
假设当 μAT(y)≮ μAT(x)时有不成立,则有,由定理1可知 μA(y)≤μA(x)。由于是分布协调集,可得 μAT(x)=μA(x)且 μAT(y)=μA(y),故有μAT(y)=μAT(x),与 μAT(y)≮μAT(x)矛盾。 □
用同样的方法可以得到最大分布协调集的充要条件。
定理4设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统,A⊆AT是最大分布协调集,则对∀x,y∈U,当γAT(y)≮γAT(x)时有。
第3章给出了不协调的区间值模糊序决策信息系统的分布协调集和最大分布协调集的等价刻画,这是判断准则集是否协调的理论所在,因此可以得出分布约简和最大分布约简的方法。下面给出辨识属性集以及辨识属性矩阵的相关概念。
定义8设I≥=(U,AT,F)为区间值模糊序信息系统,记:
设I≥=(U,AT⋃{d},F,G)为区间值模糊序决策信息系统;U={x1,x2,…,x6}为论域,代表6个投资对象;A={a1,a2,a3},分别代表着市场风险、技术风险、管理风险;{d}为决策属性,表示风险,其中3表示“高”,2表示“中”,1表示“低“。统计数据如表1。
Table 1 Interval-valued fuzzy ordered decision information system in venture investment表1 风险投资的区间值模糊序决策信息系统
由表1可得到:
对于表1给出的关于风险投资的区间值模糊序决策信息系统,求分布约简。
情形1利用定义6、定义7求解。
在该系统中记:
由分布函数 μA(x)及其最大分布函数γA(x)定义可得:
当取 B={a2,a3}时,容易验证对于∀x∈U,有,因此有 μB(x)=μA(x)和 γB(x)=γA(x)。故B={a2,a3}是个分布协调集,也是个最大分布协调集。进一步可以计算{a2}、{a3}均不是分布协调集和最大分布协调集,因此B={a2,a3}是分布约简,是一个最大分布约简。
容易验证{a1,a3}、{a1,a2}和{a1}都不是分布协调集,也不是最大分布协调集,因此该区间值模糊决策信息系统只有一个分布约简,也只有一个最大分布约简,即{a2,a3}。
情形2利用定理5求解。
该信息系统的分布辨识矩阵如表2所示。
Table 2 Distribution discernibility matrix of intervalvalued fuzzy ordered decision information system表2 区间值模糊序决策信息系统的分布辨识矩阵
由定义9可得:
因此{a2,a3}是该区间值模糊序决策信息系统的所有分布约简,而且也是最大分布约简。
这里针对情形2提出如下算法:
算法 区间值模糊序决策信息系统分布约简
输入:区间值模糊序决策信息系统I≥=(U,AT⋃{d},F,G)
输出:分布约简
算法的时间复杂度如表3所示。
Table 3 Time complexity on case 2表3 情形2算法的时间复杂度
上述情形1和情形2所求得的结果是一致的,显然在该决策问题中技术和管理风险因子是不可缺少的,但是其时间复杂性不一样。情形1从定义出发,时间复杂度较高,不太具有可行性;而情形2的时间复杂度为O((AT+2)×U2)。在这个例子中体现了求分布约简时,利用情形2求解具有明显的时间优势。
本文在不协调的区间值模糊序决策信息系统中通过分析分布约简的性质得到了对应的判定定理以及辨识矩阵,建立了获取这种约简的具体方法,并且用两种情形对实例进行了对比分析。通过比较可以知道,本文对分布约简进行了更精确的刻画,可以简化在时间上的求解过程。
[1]Pawlak Z.Rough sets:theoretical aspects of reasoning about data[M].Boston:KluwerAcademic Publishers,1991.
[2]Pawlak Z,Grzymalabusse J,Slowinski R,et al.Rough sets [J].Communication of theACM,1995,38(11):88-95.
[3]Wang Yu,Miao Duoqian,Zhou Yujian.A summary of the theory and application on rough set[J].Pattern Recognition andArtificial Intelligence,1996,9(4):337-344.
[4]Miao Duoqian,Wang Yu.Rough sets based approach for multivariate decision tree construction[J].Journal of Software,1997,8(6):425-431.
[5]Zhang Xiaohong,Pei Daowu,Dai Jianhua.Fuzzy mathematics and the rough set theory[M].Beijing:Tsinghua University Press,2013.
[6]Xu Weihua,Zhang Xiantao,Wang Qiaorong.Experimental computing on attribute by Matlab in dominance-based variable precision rough set[J].Journal of Chongqing University of Technology,2013,27(1):107-115.
[7]Xu Weihua,Zhang Wenxiu.Knowledge reductions in inconsistent information systems based on dominance relations [J].Computer Science,2006,33(2):182-184.
[8]Mi Jusheng,Wu Weizhi,Zhang Wenxiu.Comparative studies of knowledge reductions in inconsistent systems[J].Fuzzy Systems and Mathematics,2003,17(3):54-60.
[9]Zhang Wenxiu,Mi Jusheng,Wu Weizhi.Knowledge reductions in inconsistent informaion systems[J].Chinese Journal of Computers,2003,26(1):12-18.
[10]Zhang Wenxiu,Liang Yi,Wu Weizhi.Information system and knowledge discovery[M].Beijing:Science Press,2003.
[11]Yu Yiingying,Zeng Xuelan,Sun Xingxing.Interval-valued information systems based on dominance relation and its attribute reduction[J].Computer Engineering and Applications,2011,47(35):122-124.
[12]Zhang Nan,Miao Duoqian,Yue Xiaodong.Approaches to knowledge reduction in interval-valued information system[J].Computer Research and Development,2010,47(8): 1362-1371.
[13]Greco S,Matarazzo B,Slowinski R.Rough approximation of a preference relation by dominance relations[J].European Journal of Operational Research,1999,117(1):63-68.
[14]Xu Weihua,Zhang Wenxiu.Consistent approximation spaces based on dominance relations[J].Computer Science,2005, 32(9):164-165.
[15]Xu Weihua.Ordered information systems and rough sets theory[M].Beijing:Science Press,2013.
[16]Yu Jianhang,Xu Weihua.Rough set based on logical disjunct operation of variable precision and grade in ordered information system[J].Journal of Frontiers of Computer Science and Technology,2015,9(1):112-118.
[17]Sun Wenxin,Zhuo Chunying,Wang Guodong,et al.Generalized multi-granulation rough set in ordered information system[J].Journal of Frontiers of Computer Science and Technology,2015,9(3):376-384.
[18]Xu Weihua,Zhang Wenxiu.Distribution reduction in inconsistent information systems based on dominance relations[J]. Fuzzy Systems and Mathematics,2007,21(4):124-131.
附中文参考文献:
[5]张小红,裴道武,代建华.模糊数学与Rough集理论[M].北京:清华大学出版社,2013.
[9]张文修,米据生,吴伟志.不协调目标信息系统的知识约简[J].计算机学报,2003,26(1):12-18.
[10]张文修,梁怡,吴伟志.信息系统与知识发现[M].北京:科学出版社,2003.
[15]徐伟华.序信息系统与粗糙集[M].北京:科学出版社, 2013.
[16]余建航,徐伟华.序信息系统下变精度与程度的“逻辑或”粗糙集[J].计算机科学与探索,2015,9(1):112-118.
[17]孙文鑫,卓春英,王国栋,等.序信息系统的一般多粒度粗糙集[J].计算机科学与探索,2015,9(3):376-384.
SHI Derong was born in 1991.She is an M.S.candidate at Chongqing University of Technology.Her research interest is the mathematical foundation of artificial intelligence.
史德容(1991—),女,重庆人,重庆理工大学硕士研究生,主要研究领域为人工智能的数学基础。
XU Weihua was born in 1979.He received the Ph.D.degree from Xi’an Jiaotong University in 2007.Now he is the vice-dean,professor and M.S.supervisor at School of Sciences,Chongqing University of Technology,and the director of Chongqing Mathematical Society.His research interests include artificial intelligence,granular computing,fuzzy mathematics and rough set,etc.
徐伟华(1979—),男,山西浑源人,2007年于西安交通大学获得博士学位,现为重庆理工大学理学院副院长、教授、硕士生导师,主要研究领域为人工智能,粒计算,模糊数学,粗糙集等。
Distribution Reduction in Interval-Valued Fuzzy Decision Ordered Information Systems*
SHI Derong,XU Weihua+
School of Sciences,Chongqing University of Technology,Chongqing 400054,China
+Corresponding author:E-mail:chcuwh@gmail.com
Because of the complexity and uncertainty of information systems,it's hard to use accurate value to represent the object's attribute value.The interval-value which blurred is used to deal with the issue.This paper introduces dominance relations to establish inconsistent interval-valued fuzzy ordered decision information system.Then,this paper considers distribution reduction and maximum distribution reduction to simplify the expression of knowledge, at the same time,finds out the relationship between them.Moreover,this paper obtains judgment theorem of distribution reduction and maximum distribution reduction and discernibility matrix in the system.It also provides specific method of distribution reduction and maximum distribution reduction in interval-valued fuzzy ordered decision information system.Furthermore,this paper analyzes a specific case about the venture investment and discusses the significance of study on distribution reduction.Finally,this experiment enriches rough set method for interval-valued fuzzy ordered decision information system.
rough set;interval-value;ordered information system;distribution reduction
10.3778/j.issn.1673-9418.1602002
A
TP18
*The National Natural Science Foundation of China under Grant Nos.61105041,61472463,61402064(国家自然科学基金);the Natural Science Foundation of Chongqing under Grant No.cstc2015jcyjA1390(重庆市自然科学基金);the Graduate Innovation Foundation of Chongqing under Grant No.CYS16217(重庆市研究生创新基金);the Graduate Innovation Foundation of Chongqing University of Technology under Grant Nos.YCX2015227,YCX2016227(重庆理工大学研究生创新基金).
Received 2016-02,Accepted 2016-06.
CNKI网络优先出版:2016-06-02,http://www.cnki.net/kcms/detail/11.5602.TP.20160602.1144.002.html
SHI Derong,XU Weihua.Distribution reduction in interval-valued fuzzy decision ordered information systems.Journal of Frontiers of Computer Science and Technology,2017,11(4):652-658.
摘 要:因信息系统的复杂性和不确定性,对象的属性值难以用精确的数值来表达,而是采用区间形式表示。针对这一问题,对区间值进一步模糊化,并引进优势关系,建立了不协调区间值模糊序决策信息系统。通过分布约简和最大分布约简来简化知识的表达,找出二者之间的关系,得到了分布约简和最大分布约简的判定定理以及可辨识属性集和可辨识矩阵;提供了不协调的区间值模糊序信息系统的分布约简和最大分布约简的具体方法;结合投资风险这一具体案例的求解分析,进一步阐述了对分布约简研究的意义,丰富了区间值模糊序决策信息系统中的粗糙集方法。