陈维义,王克明,邓万彬
(1.海军工程大学 兵器工程系,湖北 武汉 430033;2.海军装备部,北京 100841)
面向CBR的案例库组织与快速检索方法
陈维义1,王克明1,邓万彬2
(1.海军工程大学 兵器工程系,湖北 武汉 430033;2.海军装备部,北京 100841)
用面向对象的知识表示方法实现案例表示,用分层组织结构完成案例库组织,采用距离相似度计算方法实现案例间的相似度的计算,提出类选、粗选、精选三步走的案例检索方法。以防空火炮的故障诊断为例,验证了快速检索方法的有效性,提高故障诊断效率。
故障诊断;案例推理;案例检索;专家系统
随着科技的发展和计算机技术的广泛应用,智能故障诊断技术得到快速发展,基于案例推理(Case-Based Reasoning,CBR)的故障诊断专家系统成为故障诊断领域的热点,越来越受到重视。CBR故障诊断专家系统是通过访问案例库中过去相似案例的处理经验而获得当前问题解决方案的一种新的推理模式。
CBR的工作原理是利用已有的经验和知识来解决遇到的新问题。根据Aamodt,Plaza和国外其他学者提出的 “4R”[1-2]模型,一个典型的案例推理问题求解过程的基本步骤可以归纳为4个主要的过程,即案例检索、案例重用、案例修正和案例学习。案例的检索是CBR的关键技术之一,本文将对CBR案例检索技术展开研究。
面向对象 (Object Orientation,OO)[3]的知识表示方法能将多种知识表示方法按照面向对象的程序设计原则组成一种混合知识表示形式,以对象为中心,将对象的属性、动态行为特征、相关领域知识和数据处理方法等有关知识封装在表达对象的结构中。本文将采用面向对象的知识表示方法和数据库技术相结合的方法对故障案例进行表示。
一个故障案例可以定义为对象:
采用面向对象的知识表示方法,一个故障案例可表示为如表1所示结构的对象。
表1 故障案例的结构Tab.1 The structure of fault case
故障特征信息包括故障特征向量和故障特征权重向量。故障特征向量是指在1个故障案例中所有特征值经参数化处理后,按照一定的顺序组成的向量。故障特征权重向量是故障特征值对应的权重组成的向量。采用基于粗糙集理论故障特征权重提取方法[4-5]。
故障特征向量表示为:
式中:Ai为第i个案例的故障特征向量;Ai(k)为第i个案例中的第k个指标参数化处理后得到的特征值。
故障特征值可分为以下3种类型:
1)数值型。数值型是用数值记录的定量数据,案例的特征值就等于实际测量值,使用时只需要考虑其数值是否在一定的合理的范围内。但对于不同故障的特征值,其量纲是不一样的,因此在使用这些前,必须先对其进行归一化处理。归一化处理函数为:
2)枚举型。为了便于提取使用需要数字化处理,建立相应特征值索引表。即对每一特征建立故障特征表现与其索引值的对应表,索引值分别用0,1,-1等整数表示,并规定所有故障特征的正常属性值都用0表示。不同的故障特征信息其特征值索引表不同,对应的索引值个数也不同。如表2所示。
表2 故障特征索引表Tab.2 The fault case index
3)逻辑型。逻辑型故障特征的观测值只有True和False两种取值状态,根据对象是否处于故障状态,作如下定义:
式中:ai为故障案例的第i个属性;V(ai)为属性ai的值。
相似度是故障案例之间相似性的一种度量。相似度是案例聚类的依据,也是案例检索匹配的基础。
案例间相似度量的基本方法大都是基于距离测度的相似评判方法,常用的距离测度方法有:欧氏距离、曼哈顿距离、无限模距离、海明距离、明考斯基距离、Hausdorff距离、Mahalanobis距离等[6],本文将采用基于海明距离的相似度计算方法。
基于海明距离的相似度计算方法的定义如下:
为了提高系统检索效率,必须对故障案例库进行分层组织,具体分为3层。以火炮故障案例库为例,案例库的组织结构如图1所示。
图1 防空火炮故障案例库Fig.1 The case base of the antiaircraft artillery
第1层是系统总案例库,第2层是按照防空火炮系统结构分成的各个子库,第3层是按照故障类型分成的各案例集。
案例集是按照相似度进行聚类的,只有相似度满足一定阈值的一些案例才能聚类在一起,从而构成一个案例集。同一个案例集中的案例相似度大,而不同的案例集之间的相似度小。案例相似度的计算用式(5)进行计算,案例集之间相似度的计算用式(7)进行计算。同一个案例集中的与其他各个案例相似度最大的案例作为本案例集的代表案例,在该案例集中编码排第一个,以利于下一步案例检索时计算案例集的相似度。
案例检索就是要解决如何快速从系统案例库中的大量案例中,找到与目标案例匹配的历史案例,以解决当前的故障问题。随着CBR故障诊断专家系统的使用,新的案例将不断添加到案例库中,案例库中的案例数量将不断增加。案例数量的增加将案例检索提出了新的要求。检查方法可分为以下3步:
1)类选
系统案例库由多个子案例库组成,类选就是从系统案例库中找出与当前故障案例匹配的一个子案例库。
故障诊断的最终目标是找到故障发生的根本原因,定位故障的位置,是一个复杂的过程。但是根据当前的故障现象,可初步确定故障模式,如目标探测系统故障、运载系统故障,相对较容易。而子案例库的构建是以设备的组成结构和原理为基础的,因此通过人工初步的故障模式判断,系统通过子案例库编码匹配可以找到对应的子案例库。这个过程就是类选的过程。
2)粗选
粗选就是从子案例库中找出与当前故障案例匹配的一个案例集。
子案例库由多个案例集组成,其中每个案例集有一个代表案例,用式(5)计算当前案例与各代表案例的相似度。取相似度最大的代表案例所在案例集作为粗选结果。计算所得相似度最大的代表案例所在的案例集就是与当前故障案例匹配的案例集。
3)精选
精选就是在案例集中找出与当前故障状态匹配的数个案例。
案例集由多个具体的案例组成,用式(5)计算当前故障案例与案例集中各案例的相似度,设置一个相似度阈值η,将相似度大于该阈值的案例提取出来,作为精选的结果。将满足阈值条件的案例按照发生频率从大到小排序,取发生频率最大的案例作为最优的匹配案例。
检索步骤如图2所示。
图2 案例检索原理Fig.2 The case retrieval principium
以某型防空火炮发生的一个故障为例进行案例检索。
故障情况如下:某型防空火炮跟踪目标后无法开火射击,转为手动射击后仍然无法开火射击。
经检查当时系统状态:跟踪雷达工作良好,射控电路正常,随动系统工作正常,供输弹系统正常,可能是火炮自动机故障。
检索第1步类选,初步判断自动机故障,进入自动机案例子库。
故障描述信息如表3所示。
表3 故障描述Tab.3 The description of fault case
检索第2步粗选,输入当前故障描述信息,经量化处理后,诊断系统在自动机案例子库中进行粗选,取相似度最大的代表案例所在的案例集作为精选的案例集。
检索第3步精选,在相似度最大的案例集中,计算各案例与当前故障的相似度,取相似度阈值η=0.8,将相似度大于该阈值的案例提取出来,取发生的频率最大的案例作为精选的结果。
表4 故障案例检索Tab.4 The fault case retrieval
检索得到相似案例如表5所示。
表5 案例检索结果Tab.5 The result of case retrieval
用传统的检索方法,需要在整个系统案例库中对所有的案例都要检索1次,随着案例的不断增加,系统案例库的规模越来越大,案例检索效率将越来越低。而采用新的快速检索方法可以很好地解决这个问题。例如:当系统案例库案例总数为106个,而分层组织的案例库中相似案例集中案例数为104个时,快速检索方法比传统的检索方法效率提高100倍。
本文采用面向对象的知识表示方法进行案例表示,通过对案例库采用分层组织结构,相似案例聚类组织,可以缩小案例检索范围。并进一步探索出一种高效的案例检索方法,提高了案例检索速度。
[1]AAMODT A,PLAZA E.Case-based reasoning:foundational issues,methodological variations,and system approaches,Artificial Intelligence Communications,1994:39 -59.
[2]LEAKE D B.Case-based reasoning:experiences,lessons and future direction,AAAI press/MIT press[M].Menlo Park,CA,1996.
[3]BLAHA M,PREMERLANIW.Object-oriented modeling and design for database application[M],Prentice Hall Inc,1998.
[4]张光轶,苏艳琴,许爱强.粗糙集理论在装备故障诊断中的应用[J].舰船科学技术,2012,34(1):104 -106.
ZHANG Guang-yi,SU Yan-qin,XU Ai-qiang.Application analysis of the equipment fault diagnosis based on rough set theory[J].Ship Science and Technology,2012(1):104-106.
[5]苗夺谦,李道国.粗糙集理论、算法与应用[M].北京:清华大学出版社,2008:186-190.
MIAO Duo-qian,LIDao-guo.Rough set theory algorithms and applications[M].Beijing:Tsinghua University Press,2008:186-190.
[6]杨健,杨晓光,刘晓彬,等.一种基于k-NN的案例相似度权重调整算法[J].计算机工程与应用,2007(23):43.
YANG Jian,YANG Xiao-guang,LIU Xiao-bin,et al.K -NN-based feature weights adjustment algorithm for case similarity measurement[J].Computer Engineering and Applications,2007(23):43
Research on the case base structure and retrieval based on CBR
CHENWei-yi,WANG Ke-ming,DENGWan-bin
(1.Department ofWeaponry Engineering,Naval University of Engineering,Wuhan 430033,China;2.Naval Armament Department,Beijing 100841,China)
This paper realized case representation by the object-oriented knowledge representation approach.The case base is hierarchically organized.The case similarity is calculated by themethod based on distance similarity degree.A new case retrieval strategy which consisted of three steps had been explored,and the three steps were sort selection,rough selection and accurate selection.Finally,an example in the antiaircraft artillery fault diagnosiswas given,which verify the effectiveness of the rapid retrievalmethod,and improves the efficiency of fault diagnosis.
fault diagnosis;case-based reasoning;case retrieval;expert system
TP392
A
1672-7649(2014)04-0126-04
10.3404/j.issn.1672-7649.2014.04.027
2013-03-12;
2013-04-15
陈维义(1966-),男,教授,主要研究方向为武器系统仿真与测试技术。