摘要:针对目前各领域数据的复杂性、概念边界的模糊性、需求的不确定性,该文提出了一种基于云模型的模糊数据挖掘分析方法,采用了云模型在定性语言值和定量数值之间的不确定转换模型,为定性与定量相结合的数据处理分析提供了有力的手段。其中包括:对数据进行概念和特征的模糊识别;建立隶属云模型,刻画数字特征;通过统计、计算、分析得到实际需求的分类信息。实验结果表明了该分析方法能在大量的复杂数据空间中挖掘出有价值的信息,符合实际应用。
关键词:数据挖掘;云模型;隶属度;模糊概念;特征因子;定性与定量转换
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)04-0870-03
The Research and Application of Fuzzy Data Mining Based on Cloud Model
DANG Hui, WANG Zhi-he, PAN Li-na
(College of Computer Science and Engineering, Northwest Normal University, Lanzhou 730070, China)
Abstract: Currently, in many fields, data is complicated; the boundary of concept is fuzzy; the demand is uncertain. Then a method of fuzzy data mining based on cloud model is proposed in this paper. This method adopt a uncertain transforming model between qualitative concepts and quantitative expressions, and provide an effective tool for data processing analysis combining quality with quantity. The content include: fuzzy identification of concepts and characteristic on the data; the establishment of membership cloud model and the depiction of digital characteristics; getting classified information based on actual demand by statistics, calculating and analysis. The results of experiment show that the valuable information can be mined in the large and complex data space by this analysis method with practical significance.
Key words: data mining; cloud model; membership degree; fuzzy concept; characteristic factor; transformation between quality and quantity
1 概述
随着科学技术的进步,数据的采集涉及的领域越来越广(如经济、军事、物流、金融、电信等),现实中的数据通常是复杂或混合、结构化或非结构化、不完整、特征描述非精确的,而这些模糊复杂的数据集,单纯的距离测度已不能衡量样本间的相似性,不能提取其重要特征,无法完成数据的挖掘分析。
现在的研究状况显示,许多研究者在确定性的数据挖掘技术方面已经取得的丰硕的成果,提出了许多有效地算法,并满足了各种不同的实际应用,但是对模糊复杂的数据挖掘技术研究还处在不成熟的阶段,仍存在大量的问题有待解决。目前,越来越多的领域涉及到模糊概念的处理和表达,传统的模糊数学已经不能满足模糊研究的需要,而云模型[1]作为知识表示的基础,能把数据的模糊性和随机性完全集成到一起,构成定性和定量相互间的映射,可以解决一些模糊概念下数据挖掘的实际问题。因此,利用云模型及相关理论从模糊、不确定性数据集中挖掘出有价值的知识有一定的研究意义。
2 模糊概念
“模糊”是人类感知万物、获取知识、思维推理、决策实施的重要特征。“模糊”比“清晰”所包含的信息容量更大,内涵更丰富,更符合客观世界。在人类的思维中,有许多模糊的概念,如大小,冷热等,这些概念没有明确的内涵和外延,也就无法用传统的精确数学加以描述。
模糊集理论[2]最早由zadeh(1965)提出,用来描述人的认识中关于事物自身在纵横两方面差异的中间过渡所呈现的类属和形态界限的不确定性,是“亦此即彼”界限的不确定性,其概念具有内涵分明、外延不明确的特性。由于模糊理论的核心概念一隶属函数固有的不彻底性,基于模糊理论建立的定性定量的转换模型就存在先天固有的局限性。在传统的模糊集合理论和统计理论的基础上的云模型汲取了自然语言的优点为实现定性概念与定量数据间的相互转换提供了新的有力工具。
3 云模型及相关理论
3.1基本概念[1]
云模型是李德毅院士于1996年在传统模糊数学和概率统计的基础上提出的定性定量互换模型,它把概念的模糊性(边界的亦此亦彼性)和随机性(发生的概率)有机的综合在一起。设[U]是一个论域,[U={x}],[T]为[U]上的一个概念,[U]中的元素[x]对于[T]所表达的定性概念的隶属度[CT(x)](或称[x]与[T]的相容度)是一个具有稳定倾向的随机数,隶属度在论域上的分布称为隶属云,简称云。[CT(x)]在[[0,1]]取值,云是从论域[U]到区间[[0,1]]的映射,即[x∈U,x→CT(x).]
3.2云的数字特征、正态云模型及云发生器
云的数字特征用期望值[Ex](Expected Value)、熵[En](Entropy)、超熵[He](Hyper Entropy)三个变量表征。其中[Ex]可以认为是所有云滴在数域中的重心位置, 反映了最能够代表这个定性概念在数域的坐标,即[Ex]隶属于这个定性概念的程度是100%;[En]是定性概念亦此亦彼性的度量, 反映了在数域中可被语言值接受的数域范围, 即模糊度,[En]越大,概念接受的数值范围越大,概念越模糊;[He]是熵[En]的离散程度, 即熵的熵, 反映了每个数值代表这个语言值确定度的凝聚性, 也反映云滴的凝聚程度,[He]越大,云滴离散度越大,隶属度的随机性越大,云的厚度也越大。
在实际应用中,社会和自然科学的各个分支都证明了正态分布的普适性,正态云[3]成为了最常见和常用的云模型。云模型除了完整的形态外,还有半升云和半降云两种半云形态。半云用来表达具有单侧特征的定性概念。例如用半升云表示“远”或“重”;半降云表示“近”或“轻”。由一个半升云、一个半降云和一个均匀分布,可以生成梯形云,表达裕度大的概念。例如“大约二、三十米”。
云发生器[4]有正向云发生器和逆向云发生器。正向云发生器输入为表示定型概念[A]的三个数字特征值[Ex]、[En]、[He]和云滴数[N],输出为[N]个云滴的定量值以及每个云滴代表概念[A]的确定度。逆向云发生器输入为[N]个云滴的定量值及每个云滴代表概念的确定度[(x,y)]。输出为这[N]个云滴表示的定性概念[A]的期望值[Ex],熵[En]和超熵[He]。以上是一维云模型发生器,多维云模型发生器可参见有关文献[5]。
4 基于云模型的模糊数据挖掘分析
用云模型进行知识的挖掘[6],一般来说首先找出挖掘对象的几个定性概念,对每个定性概念进行模糊地程度划分例如学习成绩可以分优、良、中、差,这四种程度,然后对概念构建云模型,确定隶属云的数字特征,最后综合每个概念,根据综合的模糊集及相关指标即可挖掘出有价值的信息。
4.1概念类型及特征的识别
1) 根据特定领域的理论和实际情况可把概念或知识分为[m]种类型[(a1,a2,…,am)],每种类型代表一种有价值的分类。
2) 抽取[n]个特征因子[(x1,x2,…,xn)],每一个特征因子有对应的实际含义(可以包含多种模糊划分),每一种含义对应一个数值(可以是一个数值区间)。
4.2正态云模型的构建
1) 根据之前提取的特征因子,视实际问题的需要定义与特征因子相对应的归属类型模糊集[{A1,A2,…,An}]。
2) 建立隶属云模型
确定[n]个模糊集[{A1,A2,…,An}]的隶属云,即确定[n]个模糊集的隶属云的三个数字特征值[(Ex,En,He)],根据统计分析和计算可以确知[n]个模糊集的隶属云的三个数字特征分别为:[A1(Ex1,En1,He1),A2(Ex2,En2,He2),…,An(Exn,Enn,Hen)]。根据三个数字特征利用正向云发生器算法计算各特征因子相对于模糊集合的隶属度[μAi(x) (i=1,2,…n)]。
4.3知识表示
令[f(x)=(x1,x2,…,xn)],即[f(x)]表示知识具有的特定的定位模式,再令综合模糊集
[H=A1⊕A2⊕…⊕An]表示一个综合的水平指标,并定义为:
[μH(x)=1 μAi(x)=1 , i=1,2,…,ni=1n∂iμAi(x) μAi(x)≠1 , i=1,2,…,n ]
其中,[∂i(i=1,2,…,n)]为权重,可以根据模拟数据和具体情况而定,且[i=1n∂i=1,(i=1,2,…,n)]。
4.4知识的挖掘归类
根据4.1中定义的概念或知识的类别将挖掘到的信息进行分类:[a1]类([μH(x)≥λ1]),[a2]类([λ2 ≤μH(x)<λ]),…,[am]类([ μH(x)<λm-1])。其中,[λ1,λ2,…λm-1]为经分析选取的参数指标。由于概念的分类是模糊的,因此类别信息和[λ]的选取有时是按需求、实际情况而定。
通过云模型在某个定性概念与其定量表示之间的不确定性转换模型将复杂的数据、模糊的概念转换成对应其概念的隶属云模型和数字特征,并经过分析、计算最后得到的有价值的分类信息,这些信息将指导各领域进行决策、分析、预测等。
5实验分析
文章以某大学依据学生对课程设置的满意程度进行课程分类为实例进行验证,为了保证方法的正确性和有效性,实验数据是通过对某大学大二学生进行抽样调查,以调查问卷进行统计得到的。
首先,根据经验可以把学生对某一门课程的满意程度分为满意,较满意,一般,较不满意,不满意五种类型,即(m=5):[a1]=“满意”; [a2]=“较满意”; [a3]=“一般”; [a4]=“较不满意”; [a5]=“不满意”。
其次,抽取了五个特征因子[(x1,x2,x3,x4,x5)]分别代表:课程人数比例(全年级选修这门课程的人数占全年级总人数的比例);课程对我的帮助;任课教师及其授课方式;课程安排(包括考核方式);课程内容 ( 注:比例取值(0.1~1.0),对剩余四项实行评分制,分为五个档次:很好(9.0~10);较好(8.0~8.9);一般(7.0~7.9);较差(6.0~6.9);差(0~5.9) )。经统计以五门有特色的课程为例进行说明,统计该大学课程根据学生满意度分类的特征因子的情况。然后,运用云模型及相关理论可以确定课程的五个特征因子对应的五个模糊集的三个数字特征,并通过计算可以得到这些课程特征因子的隶属度云团,且每一个特征因子对应多个隶属度,体现了隶属度的模糊性。以每个特征因子数值所对应的多个隶属度的平均值作为该特征因子的隶属度,分别表示为[μA1],[μA2],[μA3],[μA4],[μA5]。然后根据经验分析设定权重系数[∂i]([∂1]=0.3,[∂2]=0.15,[∂3]=0.15,[∂4]=0.2,[∂5]=0.2)和比对参数[λi]([λ1]=0.8;[λ2]=0.7;[λ3]=0.5;[λ4]=0.4)。
最后,通过4.3的计算可以得到[μH(x)],再根据分类原则可以得到最终结果如表1所示(具体计算及比较过程略)。
由于“满意”属于一个模糊的概念,根据“满意”或“不满意”很难进行分类,本实验通过云模型中的隶属云的计算和建模[7]完成了根据学生对课程满意度(即学生对课程的满意度量隶属于“满意”这个概念的程度)来对课程进行分类以指导今后对课程进行改革或帮助学生完成选课等。
6 结束语
由于概念、属性中存在着大量的模糊性和不确定性,该文利用云模型自身处理模糊和随机性的优势将定性分析和定量计算结合起来,得到了模糊概念多属性的隶属云团,并建立了一种基于云的分类方法。通过一个某大学依据学生对课程设置的满意程度进行课程分类的实例进行实验验证,证明了其分类方法的有效性和基于云模型的模糊数据挖掘研究的应用价值。
参考文献:
[1] 邸凯昌,李德毅,李德仁.云理论及其在空间数据发掘和知识发现中的应用[J].中国图像图形学报,1999,4( 11) : 930- 935.
[2] 张振良.模糊集理论和方法[M].武汉:武汉大学出版社,2010.
[3] 李德毅,刘常昱.论正态云模型的普适性 [J].中国工程科学.2004,6(8):30-32.
[4] 李德毅,孟海军,史雪梅.隶属云和隶属云发生器[ J].计算机研究与发展,1995, 2( 6): 16- 21.
[5] 杨朝辉,李德毅.二维云模型及其在预测中的应用[ J].计算机学报,1998, 21( 11) : 962- 968.
[6] 杨杰,姚莉秀.数据挖掘技术及其应用 [M].上海:上海交通大学出版社,2011.
[7] 廖芹,郝志峰,陈志宏.数据挖掘与数学建模 [M].北京:国防工业出版社,2010.