邓兴宇,胡双演,李 钊,隋中山,3,孙登会
(1. 第二炮兵工程大学,陕西 西安 710025;
2. 二炮驻石家庄地区军事代表室,河北 石家庄 050081;
3. 第二炮兵工程大学 士官学院,山东 潍坊 262500;
4. 中国人民解放军96161部队,安徽 池州 242800)
基于SVSM的装备故障案例相似度匹配算法
邓兴宇1,胡双演1,李钊2,隋中山1,3,孙登会4
(1. 第二炮兵工程大学,陕西 西安 710025;
2. 二炮驻石家庄地区军事代表室,河北 石家庄 050081;
3. 第二炮兵工程大学 士官学院,山东 潍坊 262500;
4. 中国人民解放军96161部队,安徽 池州 242800)
摘要分析和总结了电子防护装备故障案例的特点,设计了电子防护装备故障诊断的领域本体。利用本体在表示案例时所体现的语义关联信息,提出了基于领域本体的语义特征向量空间模型(Semantic Vector Space Model,SVSM),弥补了传统的向量空间模型在描述故障特征项语义关联度时忽略了文档词条的位置和结构因素的缺陷。引入自定义权值的语义特征项标志位,提出了一种改进的基于案例推理的电子防护装备故障诊断算法,提高了SVSM各维度值的准确性和相似度匹配算法的自由度。通过实验,验证了算法的有效性和可靠性。
关键词案例推理;故障诊断;领域本体;语义向量空间模型;相似度匹配;电子防护系统
Similarity Matching Algorithm of Equipment Fault Case Based on SVSM
DENG Xing-yu1,HU Shuang-yan1,LI Zhao2,SUI Zhong-shan1,3,SUN Deng-hui4
(1.TheSecondArtilleryEngineeringUniversity,Xi’anShaanxi710025,China;2.MilitaryRepresentativeOfficeofPLASecondArtilleryForcesStationedinShijiazhuangRegion,ShijiazhuangHebei050081,China;3.SergeantCollegeoftheSecondArtilleryEngineeringUniversity,WeifangShandong262500,China;4.Unit96161,PLA,ChizhouAnhui242800,China)
AbstractThe domain ontology of electronic protective equipment fault diagnosis is designed by analyzing and summarizing the characteristics of equipment fault cases. Considering that the traditional vector space model (VSM) ignores the role of the document entry position and structure factors in describing the semantic correlation of fault features,the semantic vector space model (SVSM) based on semantic characteristics of domain ontology is proposed by exploiting the advantages of ontology in semantic knowledge representation. The accuracy of each dimension value of SVSM and the flexibility of the similarity matching algorithm are improved by using the flags of semantic characteristics weights,and the electronic protective equipment fault diagnosis algorithm based on case-based reasoning (CBR) is proposed. The validity and reliability of the algorithm are proved through experiment.
Key wordscase-based reasoning;fault diagnosis;domain ontology;semantic vector space model;similarity matching;electronic protection system
0引言
电子防护装备在提高部队作战效能的同时,对保障人员快速诊断及维修装备故障的能力也提出了更严格的要求。电子防护系统故障机理复杂和缺乏系统专家维修知识的装备,应用基于案例推理(Case-based Reasoning,CBR)的故障诊断方法具有明显优势。CBR故障诊断方法通过模拟人类求解问题的思想,借鉴历史案例,经调整修改后以解决新的问题,具有知识获取简单,求解质量效率较高等优点[1]。案例推理的主要过程包括案例检索、重用、修正和存储这4个步骤,其中相似度匹配是案例检索及重用的核心,直接决定CBR系统的速度和精度。
针对目前案例检索主要采用基于特征项关键词的匹配,而缺乏对案例语义信息利用的现状,本文引入基于本体的案例表示,利用案例间的语义关系驱动案例推理的过程,从而极大地提高了CBR的效能。
1基于本体的装备故障案例表示
CBR系统中的知识以案例的形式存储,案例描述的完整性和表示形式的有效性是CBR的基础,其主要目的是抽取领域知识中隐含的事实、关系及业务流程,便于计算机识别、理解及应用[2]。目前,常用的框架和面向对象等知识表示方法缺乏对案例语义信息的描述,而语义网以知识本体作理论基础,通过对知识本体进行理解和推理,可以得到满足用户需求的语义信息,故本文引入本体理论来表示故障案例。
本体可以形式化地表示为一个7元组:O={C,AC,R,AR,H,X,I},其中C是概念的集合,AC表示概念属性的集合,R是关系的集合,AR表示关系属性的集合,H是层次的集合,I是实例的集合,X是公理的集合[3]。构建装备故障诊断领域本体的关键在于确立该领域概念范围(类)、属性和故障实例3个部分[4]。装备故障案例的主要组成有3种基本元素:数值型、布尔型和文本型。其中,数值型和布尔型易于处理,文本型是数据处理的难点所在。为了便于计算,先对故障案例文档进行预处理,包括分词、去掉停用词、语义标注和生成关键词词频矩阵等。首先采用NLPIR/ICTCLAS 2015分词系统[5]对案例文档进行分词;然后采用哈工大停用词表去掉停用词,得到案例集词表[6];再采用交叉信息熵[7]的算法提取关键词,建立关键词词频矩阵;最后抽取案例文档集中的相关概念,构建出本体概念、属性和故障实例。
1.1故障案例领域本体建模
本文设计的故障案例领域本体概念主要有:案例信息本体、案例特征本体、案例方案本体、故障代号本体和案例资源本体。
案例信息本体OI是指案例发生的背景信息,可表示为5元组:OI={ID,EI,UI,TI,WI},其中ID为案例编号,EI为故障装备名称,UI为使用单位,TI为故障时间,WI为检修人员。
案例特征本体OC是指装备发生故障时的状态描述,也是故障诊断的关键信息,可表示为6元组:OC={EC,MC,AC,FC,SC,WC},其中EC为故障装备代号,MC为故障模块代号,AC为故障部位代号,FC为故障模式,SC为故障等级,WC为故障特征权值。
案例方案本体OF可表示为5元组:OF={CF,IF,EF,AF,NF},其中CF为故障原因分析,IF为故障隔离策略,EF为故障排除方法,AF为故障排除效果评价,NF为该案例被成功匹配使用的次数。
故障代号本体ON是为便于系统推理所设计的代号本体,可表示为4元组:ON={EN,MN,AN,FN},其中EN为故障装备代号,AN为故障部件代号,MN为故障模块代号,FN为故障模式的代号。
案例资源本体OS是指案例所涉及的其他资源,可表示为4元组:OS={PS,VS,MS,TS},其中PS为图片资源,VS为视频资源,MS为音频资源,TS为文档资源。
1.2概念间的属性定义
本文定义的领域本体属性如表1所示。其中,对象属性(Object Properties)包括故障诊断的目标装备,装备故障时对应的操作规程和动作部件,针对该案例的故障类型判别、原因分析、隔离策略及排除方案等。数据属性(Data Properties)包括故障特征参数和关键字,以及对该故障排除效果的评价、被成功匹配使用的次数和补充说明等。注释属性(Annotation Properties)是指对故障原因分析、隔离策略及排除方案的文本表述。
表1 装备故障诊断领域本体属性列表
1.3本体库的构建
本文定义的实例包括装备对象实例、故障特征实例、故障排除实例和测试实例。装备对象实例包括装备编号、装备名称和装备组件实例。故障特征实例是案例库中记录的真实故障案例,包括故障部位、故障等级和故障现象等。故障排除实例是该故障的原因分析、隔离检测和处理方案。测试实例是用于推理测试的目标故障案例。本文采用本体开发工具Protégé进行电子防护装备故障诊断领域本体的构建,Protégé是语义网中本体构建的核心开发工具。它提供了本体概念、关系、属性、层次、实例和公理的构建,并且屏蔽了具体的本体描述语言,只需在概念层进行领域本体模型的构建[8]。本文建立的电子防护装备本体知识库如图1所示。
图1 电子防护装备本体结构
2基于SVSM的案例相似度匹配优化算法
电子防护装备故障案例的主要数据属于文本类型,由于中文语言的特点,对文本特征项的相似度匹配是案例推理故障诊断系统的难点问题。
2.1基于领域本体的语义向量空间模型
向量空间模型(Vector Space Model,VSM)的基本理论是:文档包含的信息只与所含词条在该文档中出现的次数有关,而与词条出现的顺序或位置无关,文档空间可视为由一组正交向量组成的向量空间[9]。VSM首先建立基于词条或短语的关键词字典,然后采用TF-IDF[10]等方法将案例表示成多维向量,再采用反转文档或二进制向量等方法将案例表示出来。由于传统的向量空间模型忽略了文本词条的位置和结构因素对表述故障症状的作用,因此本文提出SVSM,采用本体库代替包含关键词的字典,利用案例文档中涵盖的概念及其属性所组成的语义特征向量来表示案例[11]。
定义只包含正半轴的n维向量空间P:
(1)
式中,每个维度n都表示一个语义领域,并且各领域之间是正交的。除语义领域的数量外,领域空间的维度不受其他因素的影响。语义特征向量仍以中文词条作为案例的特征项,每个特征项s在空间中的向量表示为:
(2)
式中,sk∈[0,1],k∈{1,2,…,n}表示特征项与语义领域k的相关度,并且它的值越大则该特征项与领域k的相关度就越高。由于空间中的坐标轴只包含正方向,所以各特征向量之间的夹角满足cosθ∈[0,1]。
本文针对案例特征项在语义领域空间的关联度和该特征项对案例文档的重要程度,将特征项与语义空间中各领域的相关度作为语义特征,特征项在案例文档中的特征权重作为统计特征,将案例的语义特征向量表示为:
(3)
2.2语义特征向量的计算及自定义加权
为计算案例文档特征项在语义领域空间中所对应的具体向量,结合图论和本体知识表示方法,将特征项与语义领域的关系用语义关联图来表示[12]。本文将语义关联图定义为一个以命名类概念为领域结点,以匿名类概念为非领域结点,不同的关系属性为不同权值的语义链接边的有向无环图:G=
为提高案例检索速度和准确度,在构建系统知识库时,针对每个结点设置一个可为空的特征标志位,用以改善语义向量空间模型的加权方式,即根据案例集中的文档特征来自定义加权。标志位可用来记录:
① 加权系数:特征项加有数值标识时,根据给定的加权系数计算权重;
② 特征标识:给案例集中的文档加注“标签”标识,在构建特征向量时,根据标识调节权重。
并约定多级领域结点的权重计算关系为:
(4)
(5)
现在假设文档事先已有c个特征标识,这些被标识的特征项表示为s1,s2,…,sc,加权系数分别为θ1,θ2,…,θc,没有标识的特征项表示为sc+1,sc+2,…,sn,(c≤n),则对应的文本向量表示为:
(6)
自定义特征加权是根据实际需要设定,用来提高案例匹配相似度算法的自由度。
2.3案例语义相似度计算
由于基于余弦的相似度算法不受坐标轴旋转、放大和缩小的影响,适用于多维向量空间,故本文采用案例di和案例dj之间的特征向量夹角的余弦值来表示相似度。因此,2个案例之间的相似度可以表示为:
(7)
当Sim(di,dj)≥γ(匹配阈值)时,表示案例di和案例dj是相似的,γ一般通过领域专家的经验来确定。用与2个案例都有关联的语义领域作为案例之间的相似元,体现了语义对案例的影响,最后求得的相似度值可以近似代表2个案例在语义层次上的相似度。
2.4基于相似度匹配的故障诊断方法描述
对于一个新的目标装备故障,当用户按照要求输入对故障的症状特征描述后,采用基于相似度匹配的故障诊断方法如下:
输入:新的装备故障特征描述,即目标案例q;
输出:被标记的源案例;
步骤1:对q进行分词、去停用词、提取概念及其关系等预处理;
步骤2:将q的预处理结果与本体库中的概念进行比对,通过式(4)和式(6)计算q的语义特征向量Vq;
步骤3:通过式(7)计算Vq与案例库中源案例的语义特征向量的相似度Sim(q,di);
步骤4:若Sim(q,di)≥γ,则案例di进行标记,并将标记的案例集Q按照相似度从高到低的顺序排列输出;
Step5:若Q∈∅,则调整阈值γ;若γ<β(最低相似度匹配阈值),则输出“没有与目标案例匹配的源案例”,算法结束;否则转到步骤3。
3实验结果分析
本文以电子防护装备故障诊断为例,计算案例库中若干案例的相似度。针对本文提出的方法,分别设计2组实验:第1组实验采用传统的向量空间模型计算案例间的相似度,第2组实验采用本文的基于语义特征向量空间模型的案例间的相似度。
故障实例1:席位软件启动后显示无法连接服务器。
故障实例2:启动席位软件框架,输入用户名和密码后,显示无权限访问。
故障实例3:文电流转失败。
故障实例4:席位应用软件无法正常启动。
故障实例5:席位应用软件提示无法连接数据库。
故障实例6:席位与服务器网络连接失败。
根据对案例集的分析以及结合领域本体库的知识结构,本文将故障案例表示为8维向量:G=[ZB,BJ,MK,ZT,DX,LX,SZ,BE],ZB为故障装备,BJ为故障部件,MK为故障模块,ZT为故障出现时装备所处的状态或执行的动作,DX为装备动作的对象,LX为故障类型,SZ为数值类型的数据,BE为布尔类型的数据。针对某一具体的故障案例,部分维度的值可以为空。据此,将上述案例及其各维要素与所在语义领域的关联权重进行整理,如表2所示,括号内的值为对应特征项的语义关联权重。
表2 案例的向量表示
按照VSM计算方法[13],可得各故障实例的向量表示为:
D1= (0.240,0.280,0.482,0.482,0.633)
D2= (0.207,0.242,0.547,0.547,0.547)
D3= (0.244,0.644,0.644,0,0.334)
D4= (0.348,0.406,0.698,0,0.476)
D5= (0.256,0.299,0.514,0.676,0.353)
D6= (0.285,0.333,0.572,0.572,0.392)。
按照式(6)计算,可得各故障实例的语义特征向量表示为:
M1= (0.664,0.515,0.421,0.303,0.0.156)
M2= (0.716,0.502,0.334,0.264,0.235)
M3= (0.776,0.501,0.354,0,0.145)
M4= (0.764,0.527,0.348,0,0.129)
M5= (0.718,0.527,0.398,0.190,0.108)
M6= (0.70,0.528,0.414,0.204,0.102)。
再求两两向量之间相似度,如图2所示。
图2 两两向量之间的相似度
从图2(a)~图2(f)分别表示在同一向量空间中两两故障实例之间的相似度及不同向量空间之间的区别,例如图2(a)表示实例1分别与实例1~实例6的相似度。由于实验故障均为指控装备软件故障,分析可知,实例1与实例2、实例5和实例6都出现与服务器的连接故障在语义上相似度较高;而实例3、实例4与其他实例的相似度较低,这与实验结果一致。
实验表明,基于领域本体的语义特征向量表示的实例之间的相似度高于传统的向量表示,这与实例之间现实的语义关联度一致,体现了采用基于SVSM的相似度算法优点:一是对案例包含的概念进行了规范,有效地起到了降维作用;二是充分考虑了文本信息的语义关联,使得相似度的计算更加准确。
4结束语
在装备故障案例相似度计算中,传统方法对中文文本特征项语义关联度描述的缺乏,本文通过建立装备故障领域本体库,引入语义特征向量空间模型,给出了一种基于案例推理的电子防护装备故障诊断算法。首先对特征项进行预处理,然后结合本体库计算各领域要素之间的语义关联度,将案例表示成语义特征向量,最后采用特征向量夹角的余弦值来表示相似度,并通过实验证明了算法的有效性和可靠性。在后续的工作中,将重点研究通过案例间的相似度和属性重要度进行案例的约简及案例库的维护策略。
参考文献
[1]SHOKOUHI S V,SKALLE P,AMODT A. An Overview of Case-based Reasoning Applications in Drilling Engineering[J]. Artificial Intelligence Review,2014,41(3):317-329.
[2]WONG F S Y,CHUAH K B,VENUVINOD P K. Automated Inspection Process Planning:Algorithmic Inspection Feature Recognition,and Inspection Case Representation for CBR[J]. Robotics and Computer-Integrated Manufacturing,2006,22(1):56-68.
[3]陆健江,张非亚,苗壮,等.语义网络原理与技术[M].北京:科学出版社,2007.
[4]李炜卓,魏秀丽,黎槟华,等.基于受限领域本体的中文问句分析[J].计算机应用,2013,33(S1):94-97.
[5]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,5(2):41-45.
[6]顾益军.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-339.
[7]熊志斌,朱剑锋,王冬.K-means聚类算法的研究和应用[J].电脑编程技巧与维护,2014(8):10-12.
[8]唐鹏钦,杨鹏,陈仲新,等.利用交叉信息熵模拟东北地区水稻种植面积空间分布[J].农业工程学报,2013,29(17):96-104.
[9]吴昊,谢红薇.基于本体和案例推理的高血压诊疗系统的研究[J].计算机应用与软件,2013,30(12):155-159.
[10]RYLEY F J,SAFFER J,Gibbs A. Advanced Document Retrieval Techniques for Patent Research[J]. World Patent Information,2008,30(3):238-243.
[11]FABRIZIO S. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys,2002,34(1):11-33.
[12]郝文宁,穆新国,陈刚,等.基于军事训练本体的文档向量空间模型构建[J].计算机应用,2012,32(S2):10-12.
[13]柳玉,贲可荣.基于VSM的软件故障案例相似性匹配算法研究[J].武汉理工大学学报,2010,32 (20):189-193.
邓兴宇男,(1990—),硕士研究生。主要研究方向:机器学习与人工智能。
胡双演男,(1978—),讲师。主要研究方向:图像处理和目标识别。
作者简介
中图分类号TP391.3
文献标识码A
文章编号1003-3106(2016)02-0031-05
收稿日期:2015-11-03
doi:10. 3969/j.issn. 1003-3106. 2016.02.08
引用格式:邓兴宇,胡双演,李钊,等. 基于SVSM的装备故障案例相似度匹配算法[J].无线电工程,2016,46(2):31-35.