黄琼桃 刘瑞敏
摘 要:针对现有的相似性度量方法中存在区分度不高、结果不稳定等问题,提出了一种基于EW-型贴近度的云模型相似性度量方法。该方法利用正态云模型的扩展模型三角云为研究对象,分别把三角云的期望曲线及最大边界曲线看作三角模糊数,通过计算三角模糊数的EW-型贴近度来度量云模型的相似性,充分考虑了期望曲线和最大边界曲线的特点,定义了一种综合的求两云模型相似度的计算方法。通过仿真实验可以看出,提出的EMTCM方法具有一定的区分度;在Synthetic Control Chart Dataset数据集上的分类对比实验表明,EMTCM方法的分类精度明显优于先前的LICM、ECM、MCM方法,验证了EMTCM方法有一定的可行性及有效性。
关键词:三角云;EW-型贴近度;期望曲线;最大边界曲线;相似性度量
中图分类号:TP18 文献标志码:A
云模型集模糊性和随机性于一身,是定性概念与定量表示之间相互转换的一种模型,它是由李德毅院士在20世纪90年代初期提出来的[1]。该模型不仅将定性概念的不确定性体现得淋漓尽致,也在某种程度上体现了模糊性和随机性之间的联系[2]。李德毅院士随后又提出了隶属云概念[3],这也是首次向我们展示了云模型在定性概念与定量描述之间转换的桥梁作用。历经几年的发展变化,云模型在很多方面都有成功的应用,如信任评价[4]、风险及效能评估[5-6]、推荐系统[7]、智能控制[8]等。
云模型的应用过程中常需要对不同的云模型进行比较,其中比较两云模型的相似程度是目前研究的主要问题之一。相似性度量的目的是判断两个研究对象的接近程度,以便在分类[9]、聚类[10]、相似性搜索[11]等应用中提高其挖掘效率。因此,云模型相似性度量方法的优劣与云模型实际应用效果息息相关。
度测算方法主要可以分为3类:基于云滴的计算方法、基于向量的计算方法以及基于重叠面积的计算方法。如张勇等[12]利用正向云模型产生许多的云滴,通过计算云滴之间的距离来表示两个云模型间的相似度,该方法计算量较大,结果依赖于云滴个数和实验次数,结果不稳定。张光卫等[13]将两个云模型的数字特征看成两个向量的元素,用两向量的余弦夹角表征云模型的相似度,但当云模型的数字特征之间相差较大时,计算出的相似度误差较大。李海林等[14]提出的正态云模型相似度计算方法需求解两云模型的相交面积及交点;查翔等[15]通过计算截断熵获得综合云,以综合云与各云模型的期望曲线相交面积作为相似性的新度量标准,给出了相似度的间接计算公式;汪军等[16]提出了正态云模型的形状相似度和距离相似度概念,建立了云模型综合相似度测算框架。这几种方法都需要通过积分计算两云模型相交的交点及面积,其计算步骤繁琐,相对复杂。
针对上述问题,将云模型表示为三角云模型[17],将其期望曲线以及最大边界曲线看作三角模糊数,引入EW-型贴近度(similarity measure method of expectation curve based on triangular cloud model, ETCM),提出一种基于EW-型贴近度的云模型相似性度量方法。实验表明,该方法有一定的可行性及有效性。
1 三角云模型
定义1 设U是一个非空集合,其元素都是精确的数值,C是U上的定性概念,若一个确定的值x∈U,且x是对C的一次定量描述,x对C的映射μC(x)∈[0,1]是具有一定分布规律的随机数,则(x,μC(x))在论域U上的分布称为云,毎个(x,μC(x))称为一个云滴[18]。
定义2 用3个参数(Ex,En,He)来表示云的数字特征的模型,称为云模型[18]。其中,期望值(Ex):指所有定性概念的一次随机实现x的平均值;熵(En):反映数据到期望值的离散程度,表示数据的范围,即反映了数据的模糊性;超熵(He):熵(En)的熵,用符号He表示,代表云滴随机分布的范围,常常用厚度来描述它,反映了数据的随机性,表示云滴的离散程度。3个数字特征在三角云模型中代表的含义如图1所示。
2 三角云模型相似性度量方法
已知云模型的3个数字特征(Ex,En,He),通过正向三角云的实现算法产生一系列云滴,进而了解云滴的分布情况。由于三角云的期望曲线描述了三角云的总体特征,而最大边界曲线是从云模型的局部角度考虑的,因此可以借助两三角云模型的期望曲线和最大边界曲线的EW-型贴近度来刻画两云模型的相似程度。
2.1 基于期望曲线的相似性度量方法
由于三角云模型的期望曲线在[Ex-3En,Ex+3En]范围内与横轴组成的图形为三角形,因此将其看作三角模糊数,利用三角模糊数的EW-型贴近度对三角云模型的相似度进行刻画。根据云模型的“3En”规则可知,在[Ex-3En,Ex+3En]范围之外的云滴对定性概念的贡献比较小,可忽略不计。因此,三角云模型期望曲线的解析式可变为
由表1可知,4个云模型两两之間相似度大小为:(C1,C4)>(C2,C3)>(C3,C4)>(C1,C3)>(C2,C4)>(C1,C2),与图3的直观印象一致,说明了该方法的可行性。表2为本文提出的EMTCM与现有方法的比较。由表2可知,EMTCM方法与其他方法都认为(C1,C4)及(C2,C3)的相似度最高,但EMTCM方法效果更好,更能区分两云模型的相似度。LICM认为(C1,C4)与(C2,C3)的相似度差0.000 2,利用LICM方法计算出的相似度的值都相对比较大,区分度不高;ECM认为(C1,C4)与(C2,C3)的相似度差0.077;MCM认为(C1,C4)与(C2,C3)的相似度差0.002 8;而EMTCM认为(C1,C4)与(C2,C3)的相似度差0.087 4。另外,EMTCM方法的实验结果取决于云模型的3个数字特征,与实验次数和云滴个数均没有关系,因此具有一定的稳定性。
3.2 時间序列分类
时间序列数据是一类在不同时间收集到的数据,用于所描述现象随时间变化的情况,具有高维特性,能够很好地检验分类算法的精确度。且在分类过程中,相似性度量方法的优劣对分类结果起决定性作用。由于UCI中常用时间序列数据集synthetic control chart dataset(SYNDATA)[22]具有多种变化趋势,因此本文将选择该数据集作为研究对象,该数据集由600行60列的数据组成,每100行为一个类,共6类,选取每类的后10个为测试集,其余的为训练集。
为了验证EMTCM方法的准确性,使用KNN算法进行分类实验。同时,为了提高其效率,将每类的前90行数据平均分为6份,共组成6类训练数据,每类为90个数据,用A、B、C、D、E、F表示,计算其分类准确率。k取1至6时,EMTCM在6类训练数据下的分类准确率如图4所示。
为了突显EMTCM方法的优越性,当k=3和k=6时,比较方法EMTCM、LICM、ECM、MCM,找其差异,如图5所示。
由图5可以看出,当k=3时,对于C类训练数据,EMTCM的分类准确率略低于ECM,对其它训练数据而言,其分类准确率比其它方法都高;而当k=6时,EMTCM的分类准确率都优于其它方法,体现出该方法的优势。其次,ECM的分类准确率较好,但只涉及期望(Ex)和熵(En)两个数字特征,忽略了超熵(He)的影响;MCM方法次之,MCM方法在计算时加入了超熵(He)的3倍进行计算,扩大了超熵(He)的作用;LICM方法最差,利用LICM方法在期望值(Ex)远远大于熵(En)和超熵(He),熵(En)和超熵(He)对计算结果贡献较小。
4 结论
云模型相似性度量方法的优劣直接影响云模型的应用效果,因此提出一种具有良好性能的云模型相似性度量方法是很有必要的。本文将云模型扩展后的三角云的期望曲线及最大边界曲线看作三角模糊数,再利用EW-型贴近度对其求解,解决了现有的相似度方法中存在区分度不高、结果不稳定等问题,在时间序列的分类实验中,也取得了较好的效果。如何将模糊数学的相关知识更好地应用到云模型相似性度量中,是未来的一个研究方向。参考文献:
[1] LI D Y.Uncertainly in knowledge respresentation[J]. Engineeringence, 2000, 2(10): 73-79.
[2] 王国胤. 云模型与粒计算[M]. 北京: 科学出版社, 2012.
[3] 李德毅, 孟海军, 史雪梅. 隶属云和隶属云发生器[J]. 计算机研究与发展, 1995,32(6):15-20.
[4] ZHANG T, YAN L, YANG Y, et al. Trust evaluation method for clustered wireless sensor networks based on cloud model[J]. Wireless Networks, 2018, 24(3): 777-797.
[5] XU Z J, ZHANG Y P, SU H S. Application of risk assessment on fuzzy comprehensive evaluation method based on the cloud model[J]. Journal of Safety & Environment, 2014,14(2):69-72.
[6] LIU D F. Software process performance evaluation based on AHP and cloud model[J]. Computer Engineering & Design, 2013, 34(3):893-898.
[7] XIAO Y P, SUN H C, DAI T J, et al. A rating prediction method based on cloud model in social recommendation system[J]. Tien Tzu Hsueh Pao/acta Electronica Sinica, 2018, 46(7):1762-1767.
[8] GAO H B , ZHANG X Y , LIU Y C , et al. Cloud model approach for lateral control of intelligent vehicle systems[J]. Scientific Programming, 2016(11):1-12.
[9] HONG X, LIN Y L, YUAN Y, et al. Early warning classification of cluster supply chain emergency based on cloud model and datastream clustering algorithm[J]. Journal of Intelligent and Fuzzy Systems, 2018, 35(1): 393- 403.
[10]XU X H, WANG P, CAI C G, et al. Linguistic multi-attribute large group decision-making method based on similarity measurement of cloud model[J]. Control and Decision, 2017, 32(3):459- 466.
[11]JIANG R, LI D Y . Similarity search based on shape representation in time series data sets[J]. Journal of Computer Research and Development, 2000 , 37(5) : 601-608.
[12]张勇, 赵东宁, 李德毅. 相似云及其度量分析方法[J]. 信息与控制, 2004, 33(2):129-132.
[13]张光卫, 李德毅, 李鹏, 等. 基于云模型的协同过滤推荐算法[J]. 软件学报, 2007, 18(10):2403-2411.
[14]李海林, 郭崇慧, 邱望仁, 等. 正态云模型相似度计算方法[J]. 电子学报, 2011, 39(11):2561-2567.
[15]查翔,倪世宏,谢川,等.云相似度的概念跃升间接计算方法[J].系统工程与电子技术,2015,37(7):1676-1682.
[16]汪军, 朱建军, 刘小弟. 兼顧形状-距离的正态云模型综合相似度测算[J]. 系统工程理论与实践, 2017,37(3):742-751.
[17]陈昊, 王代萍, 张莉. 扩展的正态云发生器[J]. 湖北大学学报(自然科学版), 2011, 33(2):251-255.
[18]何金平, 高 全, 施玉群. 基于云模型的大坝安全多层次综合评价方法[J]. 系统工程理论与实践, 2016, 36(11):2977-2983.
[19]包玉娥, 彭晓芹, 赵博.基于期望值与宽度的区间数距离及其完备性[J].模糊系统与数学,2013,27(6):133-139.
[20]雷一鸣, 代兵, 包玉娥, 等. 关于模糊数贴近度问题的研究[J]. 纯粹数学与应用数学, 2015,31(6):611-619.
[21]阮永芬, 高春钦, 李志伟, 等. 基于改进 AHP 与熵权法的膨胀土胀缩等级云模型评价[J]. 江苏大学学报(自然科学版), 2017, 38(2): 218-223.
[22]PHAM D T, CHAN A B.Control chart pattern recognition using a new type of self organizing neural network[J] .Proceedings of the Institution of Mechanical Engineers, Part I:Journal of Systems and Control Engineering, 1998, 212(1):115-127.
(责任编辑:曾 晶)
Abstract: Aiming at the problems of low discrimination and unstable results in existing similarity measurement methods, a cloud model similarity measurement method based on EW-type closeness is proposed. This method uses the extended model triangle cloud of the normal cloud model as the research object, regards the expected curve and the maximum boundary curve of the triangle cloud as the triangle fuzzy number, and measures the similarity of the cloud model by calculating the EW-type closeness of the triangle fuzzy number. It fully considers the characteristics of the expected curve and the maximum boundary curve, and defines a comprehensive calculation method for calculating the similarity of the two cloud models. It can be seen from the simulation experiment that the proposed EMTCM method has a certain degree of discrimination. The classification comparison experiment on the Synthetic Control Chart Dataset data set shows that the classification accuracy of the EMTCM method is significantly better than the previous LCM, ECM, and MCM methods. The EMTCM method has certain feasibility and effectiveness.
Key words: triangular cloud; EW-type closeness; expectation curve; maximum boundary curve; similarity measure