刘 坤,钟佩思,张榛楠,梁中源,孙钰雁
(山东科技大学先进制造技术中心,山东青岛 266590)
基于模糊聚类的制造云服务语义自动标注技术*
刘 坤,钟佩思,张榛楠,梁中源,孙钰雁
(山东科技大学先进制造技术中心,山东青岛 266590)
制造云服务语义自动标注技术是基于语义的制造云服务组合中涉及的关键技术之一。采用Web服务语义自动标注作为制造云服务语义描述的实现技术,针对制造云服务语义自动标注的本体域定位问题,提出了基于模糊聚类思想的制造云服务本体域定位算法FCDST-DOD,有效地解决了制造云服务本体域定位问题,实现制造云服务的语义自动描述,提高了Web服务语义自动标注的效率和质量。
制造云服务;语义自动标注;模糊聚类;FCDST-DOD
制造云服务通过OWL-S的本体语义标记手段描述制造云服务的语义,使制造云服务成为计算机可理解的自治实体,从而支持制造云服务的自动发现、执行和动态组合等。但OWL-S规范仅仅解决如何描述制造云服务语义的问题,没有解决从制造云服务的语法描述MCWSDL产生制造云服务的语义描述的问题。Web服务语义标注是实现Web服务语义描述的一种有效手段,它使用来自领域本体的概念对Web服务描述中的元数据进行标注[1],利用这些带有本体语义的概念使得Web服务成为计算机可理解的自治实体。采用Web服务语义自动标注作为制造云服务语义描述的实现技术,并重点围绕制造云服务语义自动标注的本体域定位问题,提出基于模糊聚类的制造云服务本体域定位算法FCDST-DOD(Discovering Ontology Domains Based on Fuzzy Clustering and Dempster-Shafer Theory),实现制造云服务的语义自动描述。
在MCWSDL的基础上,利用制造云服务语义标注建立基于制造领域本体的制造云服务语义描述,为基于语义的制造云服务组合的静态语义组合层和动态语义组合层提供上下文语义信息支持。制造云服务语义自动标注技术将自动标注过程分为本体域定位和本体概念映射两个阶段[2],如图1所示。在此基础上提出一种新的、高效的基于模糊聚类的本体域定位算法。在图1中,制造云服务语义自动标注的第一阶段为本体域定位,采用本体域定位算法确定与制造云服务相关的本体域;第二阶段为本体概念映射,基于本体概念与制造云服务元数据的语法相似度和结构相似度[3],在与制造云服务相关的本体域中发现与制造云服务元数据语义相似或相同的本体概念,并在它们之间建立概念映射关系。
图1 制造云服务的语义自动标注
目前,基于Web服务的WSDL,通过Web服务语义自动标注实现Web服务的语义描是工业界广泛应用的方法[4]。采用MCWSDL文档中包含的特征项作为制造云服务本体域定位的依据,并基于互信息熵、模糊聚类和D-S证据理论提出一种新的、高效的制造云服务本体域定位算法FCDST-DOD,如图2所示。
图2 FCDST-DOD本体域定位算法
2.1 基于互信息熵的特征向量抽取
制造云服务的MCWSDL以半结构化的XML文本文件形式存在,其中包含了大量的噪音信息。预处理操作主要包括提取MCWSDL文档中的信息内容以及一些基本的词汇处理操作。为了提高本体域定位的准确率和减小计算的工作量,需要抽取MCWSDL文档中少量的关键词汇作为MCWSDL文档的特征项。以每个词在MCWSDL文档中出现的频度作为每个词汇权重的度量标准[5]。
定义1(制造云服务本体域集):给定制造云服务的预定义本体域集O={o1,……,on},若制造云服务MCWSDL文档s的元数据与本体域集Os⊆O中的本体概念存在映射关系,即可以通过Os完成制造云服务MCWSDL文档s的语义标注,则Os称为s的制造云服务本体域集。
定义2(互信息熵):对于统计不独立的两个随机变量X和Y,可以使用H(X)-H(X|Y)表示已知随机变量Y的取值之后,随机变量X不确定性的减少,即已知随机变量Y的取值后所提供的有关随机变量X的信息,这个差值称为随机变量X和Y的互信息熵,记为I(X,Y)。
已标注集TR的制造云服务本体域集类不确定性为:
其中p(ci)为已标注集TR中制造云服务本体域集类ci的概率。
当已知已标注集TR含有词汇wi时,已标注集TR的制造云服务本体域集类不确定性减小为:
其中p(vl(wi))为已标注集TR中词汇wi的权重值为vl(wi)的制造云服务MCWSDL文档的概率,p(ck|vl(wi))为已标注集TR中词汇wi的权重取值为vl(wi)时,其制造云服务本体域集类为ck的制造云服务MCWSDL文档的概率。
由上可以得出,在已知已标注集TR中词汇wi的权重值后,已标注集TR的制造云服务本体域集类的不确定性减小了。其不确定性的减小量即词汇wi对制造云服务本体域定位的贡献率,根据互信息熵的定义可以表示为I(TR,wi)=H(TR)-H(TR|wi)。
2.2 模糊聚类
模糊聚类是用模糊集合理论进行聚类分析,本文采用模糊系统聚类的方法,如图3所示。图3表示了已标注集TR的制造云服务特征向量集与未标注制造云服务MCWSDL文档的特征向量模糊系统聚类的过程:首先使用已标注集TR的制造云服务特征向量集与未标注制造云服务MCWSDL文档的特征向量,建立制造云服务特征向量矩阵,然后生成制造云服务特征向量模糊相似矩阵,最后进行模糊聚类,并输出模糊聚类的结果。
图3 制造云服务特征向量模糊聚类的过程
(1)建立制造云服务特征向量矩阵Mf,如下所示:
其中n为已标注集TR中的制造云服务特征向量与未标注制造云服务MCWSDL文档的特征向量的总个数,fij为第i个制造云服务特征向量的第j(1≤j≤|F|)个分量值。
(2)构建制造云服务特征向量模糊相似矩阵Ms。模糊理论[6]将数学应用于对模糊现象和模糊概念的描述,并在数学领域以及其他领域中得到了广泛的应用。基于制造云服务特征向量矩阵Mf,可以构建制造云服务特征向量模糊相似矩阵Ms如下:
(3)模糊聚类算法Fuzzy Clustering。
定理1:设V={v1,v2,...,vn}为有限点集,R是V上的具有自反性和对称性的模糊相似关系,则称有序对G=<V,R>为模糊图。μR是R上的模糊隶属函数,μR(vi,vj)为点vi与点vj的连接强度。G=<V,R>是连通模糊图,如果S(vi,vj)是点vi与点vj在G中的连通强度,则S(vi,vj)是V上的模糊等价关系。
定理2:设T是连通模糊图G=<V,R>的生成树,则以下陈述等价:T是G的最大树;对于任意vi,vj∈V(vi≠vj)在G中的连通强度等于T中vi与vj之间唯一路径P的连通强度S(p)。
定理3:设V={v1,v2,...,vn}为有限点集,R是V上的具有自反性和对称性的模糊相似关系,Rn=(μij)n n×n是R的传递闭包,模糊图G=<V,R>是连通模糊图,如果S(vi,vj)是G中不同的两点vi和vj的连通强度,μR(vi,vj)=(μij)n=S(vi,vj),vi≠vj。
求取制造云服务特征向量模糊相似矩阵Ms的λ传递闭包比较复杂,本文依据定理1、定理2和定理3[7],将模糊理论与图论结合,避开求制造云服务特征向量模糊相似矩阵的传递闭包,直接从制造云服务特征向量矩阵,求取未标注制造云服务特征向量的模糊聚类。
算法Fuzzy Clustering:
输入:制造云服务特征向量模糊相似矩阵Ms
制造云服务特征向量矩阵Mf
阀值λ
输出:聚类结果φs
2.3 基于D-S证据理论的证据判别
D-S(Dempster-Shafer)证据理论[8]是一种基于统计的信息融合分类方法。采用D-S证据理论作为模糊聚类算法Fuzzy Clustering的制造云服务本体域集类的证据判别规则,可以降低阀值λ对模糊聚类φs中未标注制造云服务特征向量的制造云服务本体域集类的判别影响。
未标注制造云服务特征向量se的制造云服务本体域集类为cqs∈θ(1≤q≤k)的信任度和似真度分别为:Belei({cqs})=ωei和Plei({cqs})=1,其D-S证据区间如图4所示。
图4 未标注制造云服务特征向量组合前的D-S证据区间
模糊聚类φs中所有制造云服务本体域集类为cqs∈θ(1≤q≤k)的已标注制造云服务特征向量si∈φs(1≤i≤m)作为独立的证据源,对未标注制造云服务特征向量se的制造云服务本体域集类判别为cqs∈θ(1≤q≤k)提供直接证据支持和间接证据支持,其组合后的基本概率赋值可以利用D-S证据组合规则的正交和公式得到如下:
同理,模糊聚类φs中所有制造云服务本体域集类不为cqs∈θ(1≤q≤k)的已标注制造云服务特征向量si∈φs(1≤i≤m)也作为独立的证据源,对未标注制造云服务特征向量se的制造云服务本体域集类判别为cqs∈θ(1≤q≤k)提供直接证据支持和间接证据支持,可以利用D-S证据组合规则的正交和公式m,得到组合后的未标注制造云服务特征向量se的制造云服务本体域集类判别为cqs∈θ(1≤q≤k)的直接证据和间接证据。
在组合模糊聚类φs中所有已标注制造云服务特征向量si∈φs(1≤i≤m)作为独立的证据源后,未标注制造云服务特征向量se的制造云服务本体域集类为cqs∈θ(1≤q≤k)的信任度和似真度分别为:,其D-S证据区间如图5所示。
图5 未标注制造云服务特征向量组合后的D-S证据区间
对比图4,在组合模糊聚类φs中所有独立的证据源后,图5中出现了否定证据区间,这是由于独立的证据源提供了矛盾性的证据所造成的,是获得证据的不可靠性、表达证据的不严密性和运用证据的不成熟性的反应。组合模糊聚类φs中独立证据源提供的矛盾性证据同时也带来了未标注制造云服务特征向量se的制造云服务本体域集类判别的不确定性。对于这种矛盾性证据引起的判别上的不确定性,有以下判别概率分布的解决方案[8]:
依据判别概率分布最大化的原则,可以得出未标注制造云服务特征向量se的制造云服务本体域集类的证据判别规则:
由图5可知,在未标注制造云服务特征向量se的制造云服务本体域集类的证据判别规则中,由于不同制造云服务本体域集类的证据不确定性区间是恒定不变的,最大化的判别概率分布判别同时也是最大化的直接证据区间判别和最小化的否定区间判别,符合证据判别的一致性和逻辑性,满足证据判别的实际需求。
综上所述,完整的未标注制造云服务特征向量se的制造云服务本体域集类的证据判别过程如图6所示。
图6 制造云服务本体域集类的证据判别过程
为了验证制造云服务本体域定位算法FCDSTDOD对制造云服务本体域定位的有效性,采用Hamming Loss评估指标作为制造云服务本体域定位算法FCDST-DOD的性能评价标准[9]。
定义3(本体域定位函数):给定制造云服务的预定义本体域集O和制造云服务未标注集TE,制造云服务本体域定位算法FCDST-DOD在O和TE上的本体域定位函数f定义为f:S→2O,即本体域定位函数f以未标注制造云服务作为输入,输出该未标注制造云服务的本体域集合。
定义4(Hamming Loss):本体域定位函数f的Hamming Loss(HL)定义为:
其中,HL(f)∈[0,1],而且值越小,表明制造云服务本体域定位算法FCDST-DOD的性能越好。
实验环境为Core2 Duo2.2GHZCPU、2.0GB RAM,Windows XP操作系统,所有测试程序采用Java语言开发,Java虚拟机版本为JDK1.6。因缺少标准的制造领域基准实验数据集,本文采用的实验数据集[10]在WebServiceX.NET等公共Web服务门户网站收集,并从中抽取分属8个不同本体域的750个Web服务。750个Web服务分为5个独立的实验数据集,每个独立的实验数据集由包含100个Web服务的已标注集TR和包含50个Web服务的未标注集TE组成。实验在5个独立的实验数据集上,对不同阀值λ下的Ham-ming Loss评估指标进行实验测试,并取五次实验测试结果的平均值作为最终的实验测试结果,实验测试结果如图7所示。
图7 不同阀值λ下的Hamm ing Loss
制造云服务本体域定位算法FCDST-DOD采用模糊聚类算法Fuzzy Clustering得到未标注制造云服务特征向量集TE中任意的未标注制造云服务特征向量se在已标注制造云服务特征向量集TR中的模糊聚类φs后,根据D-S证据判别规则,将未标注制造云服务特征向量se的制造云服务本体域集类,判别为模糊聚类φs中已标注制造云服务特征向量si∈φs(1≤i≤m)的判别概率分布最大的制造云服务本体域集类ci,i∈{1,2,……,2n};采用KNN算法得到未标注制造云服务特征向量集TE中任意的未标注制造云服务特征向量se在已标注制造云服务特征向量集TR中的K最近邻集后,根据MAP判别规则,将未标注制造云服务特征向量se的制造云服务本体域集,判别为K最近邻集中已标注制造云服务特征向量si∈φs(1≤i≤m)后验概率最大的制造云服务本体域集。
从图7可以看出,当阀值λ变化时,制造云服务本体域定位算法FCDST-DOD的Hamming Loss评估指标比较平稳,对阀值λ变化的敏感度降低,其最大值为0.25,最小值为0.14,这些结果和文献[2]所得的结果0.193相比,具有更好的性能。
[1]赵文栋,陶晓臻,彭来献,等.一种基于功能语义的Web服务描述及预检索方法[J].计算机科学,2013,40(11):222-227.
[2]李胜辉.基于本体的图像语义的自动标注研究[D].长沙:湖南大学,2011.
[3]刘一松,杨玉成.基于文本聚类和概念相似度的语义Web服务发现[J].计算机科学,2013,40(11):211-214.
[4]John Miller,Kunal Verma,Preeda Rajasekaran,et al.WSDL-2:A Proposal to W3C WSDL2.0[EB/OL].http://lsdis.cs.uga.edu/library/download/wsdl-s.Pdf,2005.
[5]成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报(自然科学版),2013,33(5):63-68.
[6]张玲.基于模糊理论及其扩展的图像分割研究及应用[D].济南:山东大学,2012.
[7]曾山.模糊聚类算法研究[D].武汉:华中科技大学,2012.
[8]谢勇来.基于D-S证据理论的几种组合算法的研究[J].科技致富向导,2014(2):108-109.
[9]黄沈权.制造云服务按需供应模式、关键技术及应用研究[D].杭州:浙江大学,2013.
[10]A.He,E.Johnston,N.Kushlneriek.Learning to Attach Semantic Metadata to Web Services[C].Proceedings of the Second International Semantic Web Conference,Florida,USA,2003.
(编辑 李秀敏)
Manufacturing Cloud Service Semantic Annotation Technology Based on Fuzzy Clustering
LIU Kun,ZHONG Pei-si,ZHANG Zhen-nan,LIANG Zhong-yuan,SUN Yu-yan
(Advanced Manufacturing Technology Research Center,University of Science and Technology,Qingdao Shandong 266590,China)
The manufacturing cloud service automatic semantic annotation technology is one of the key technologies involved in manufacturing cloud service composition based on semantic.The research report uses the Web service automatic semantic annotation as the implementation technology of manufacturing cloud service semantic description,and around the ontology domain location problem of manufacturing cloud service automatic semantic annotation,presents the ontology domain location algorithm called FCDST-DOD for manufacturing cloud service based on the machine learning theory.It solves the problem of manufacturing cloud service ontology domain location effectively,achieves the automatic semantic description of the manufacturing cloud service and improves the efficiency and quality of Web service automatic semantic annotation.
manufacturing cloud service;automatic semantic annotation;fuzzy clustering;FCDST-DOD
TH162;TG659
A
1001-2265(2015)01-0079-05 DOI:10.13462/j.cnki.mmtamt.2015.01.022
2014-05-06
山东省自然科学基金资助项目(ZR2011EEM014)
刘坤(1989—),男,山东聊城人,山东科技大学硕士研究生,研究方向为数字化设计与制造技术,(E-mail)liukunlk6@163.com;钟佩思(1966—),男,山东莱阳人,山东科技大学教授,博士,博士生导师,研究方向为现代设计理论与方法、并行工程与虚拟样机、基于知识的工程等,(E-mail)pszhong@163.com。