呼凯凯, 徐宗昌, 刘 凯, 郭 建, 金 飞
(装甲兵工程学院技术保障工程系,北京 100072)
基于N层向量空间模型的装备IETM数据查询
呼凯凯, 徐宗昌, 刘 凯, 郭 建, 金 飞
(装甲兵工程学院技术保障工程系,北京 100072)
为了提高IETM数据查询的准确率,通过对数据模块编码层与XML内容层进行分析,结合N层向量空间模型查询算法,从IETM数据模块编码层中的型号识别码、系统层次码、信息码以及数据模块内部数据信息入手,提出了一种基于N层向量空间模型的装备IETM数据查询算法,并通过IETM实例验证了该算法的正确性与实用性。
N层向量空间模型;IETM;数据查询
交互式电子技术手册(Interactive Electronic Technical Manual, IETM)作为装备综合保障领域一项新的研究内容,为装备综合保障活动提供了一种全新的信息处理与获取手段,其涵盖了装备维修保障活动过程中所需的各种技术信息。然而,随着武器装备的发展以及高新技术的不断应用,装备维修保障活动中所需的技术信息越来越多,如何从IETM中准确、快速地获取所需的信息已成为IETM研究急需解决的问题。N层向量空间模型作为一种常用的信息检索模型,已被广泛应用于不同领域的信息检索和数据分类过程[1-3]。因此,本文将N层向量空间模型引入到IETM的数据查询之中,提出了一种基于N层向量空间模型的IETM数据查询算法。
1.1 向量空间模型
向量空间模型(Vector Space Model,VSM)最早是由G.Salton提出的一种代数模型[4]。该模型将每一个对象都映射为一个向量,进而利用相似法计算查询对象与查询语句的相似度,另外,通过设定相应的相似度阈值,筛选出查询结果,并根据相似度大小对查询结果进行排序[5]。
向量空间模型作为传统的查询模型具有简单、直观、处理快速等优点。但是,在实际应用中,向量空间模型也表现出了一些弊端,具体表现在:1)未考虑文档不同位置对特征项权重的影响;2)对查询语句与数据对象进行向量化的过程中,由于文档集合中特征项的数量往往大于单独一篇文档中特征项的数量,致使所得到的向量中多数项都为0,最终影响相似度查询结果的准确性。因此,在实际应用中,向量空间模型在很多情况下无法满足用户的实际查询需求。
1.2N层向量空间模型
N层向量空间模型是在向量空间模型的基础上提出的,其根据文档的结构将文档划分为N层,并针对不同层的内容设定不同的向量空间模型和权重,进而计算出不同层与查询语句的相似度。另外,在不同层的权重计算上,不同的部分也采用不同的标准,将各层中关键词的权重分别乘以不同的比例系数,这样就可以显著地提高相似度计算结果的精度,得到更好的查询结果[6-7]。
N层向量空间模型是对传统向量空间模型的一种改进,其通过对查询对象进行分层,解决不同位置上的特征项权重的区分,另外,分层很大程度上解决了查询对象向量化后所得到的向量中多数项为0的弊端,从而提升了查询结果的准确度。
IETM作为一种电子技术手册,其界面文档显示的数据内容主要来源于IETM内部的数据模块;而数据模块内部各个层次代表的文档信息,其重要程度各不相同,层次较为分明。因此,可以根据IETM数据模块的结构层次,提出基于N层向量空间模型的IETM数据查询算法。
2.1 数据层次划分
1) 数据模块编码层。IETM是通过数据模块编码(Data Module Code,DMC)来实现对数据模块的区分。DMC的一般结构如图1所示。DMC最长是由37个数字和字母组成,最小长度是17个字符,其中主要是型号识别码(Model Identification code,MI)、系统区分码(System Difference Code,SDC)、系统层次码(Standard Numbering System,SNS)、分解码(Disassembly Code,DC)、分解差异码(Disassembly Code Variant,DCV)、信息码(Information Code,IC)、信息差异码(Information Code Variant,ICV)和位置码(Item Location Code,ILC)[8]。其中MI、SNS、IC分别描述了装备的相关型号、基本系统结构以及数据模块所描述的信息类型,这3种编码是数据模块编码中最重要、最具代表性的编码体系结构[9-10]。因此,对于数据模块编码层的查询主要从这3个编码结构进行查询。
图1 数据模块编码的一般结构
2) XML内容层。IETM中内容信息的描述采用可扩展标记语言(eXtensible Markup Language,XML),它具有和HTML相似的性质,因此,同样可以根据N层向量空间模型对页面进行层次划分。由于页面的特殊格式,一个数据模块内容层最少由指向该数据模块的标题、副标题以及正文3部分组成。因此,对XML内容层进行查询时也可以分为3部分:第1部分是标题部分;第2部分是副标题部分;第3部分是
2.2 特征项选取
特征项作为N层向量空间模型查询算法过程中对数据进行向量表示的元素,其合理性的选择直接决定了查询语句与查询对象向量化的正确性,并将决定查询结果的准确性。因此,在查询计算之前,必须合理地选择特征项。特征项的选取必须遵循以下原则。
1) 独立性原则。在对特征项进行选择时,必须使得所选取的多个特征项之间相互独立,不存在任何包含与被包含的关系,进而使得查询向量以及每个数据模块对象能够准确地进行表示。如:在对相关故障信息进行查询时,不能选取故障、故障隔离和故障描述同时作为其特征项,而应只选取故障隔离与故障描述作为查询的特征项。
2) 代表性原则。特征项的选取必须能够对查询对象进行完整性表达,并且能够突出不同查询对象之间的本质区别,即不同的特征项能够代表不同类的查询对象。同时,在特征项选取过程中要确保该词是出现在查询对象当中,尤其是标题、副标题这类具有明显性与总结性的词语。
3) 简洁性原则。在特征项选择过程中应尽量对选词进行简化,在确保能够表达相应对象的基础上,尽量地对词语进行缩减,进而减小向量化计算的复杂度,提高系统的计算速度。同时,所选择的特征词中应去除虚词、感叹词以及连词等修饰词,实现对特征项的简洁化。
2.3 相似性计算
在基于N层向量空间模型的IETM数据查询算法中,首先需要根据相应的特征项对查询语句与查询对象进行向量化,但是,并不是每一个特征项都同等重要,因此需要对特征项的权重进行调整,常用的是文件集的统计频率权值(Term Frequency-Inverse Document Frequency,TF-IDF),其由2部分组成:一部分是检索单元在文件中出现的频率wTF;另一部分则被称为反转文件频率wIDF。其中:
(1)
式中:d为整个文件集的文件总数;dj为在整个文件集中包含特征词j的文件数。
而对于一个给定的检索单元,其TF-IDF权值是两者的乘积,即
(2)
通过对N层向量空间模型进行分析并结合IETM数据模块内部结构,本文在N层向量空间模型的基础上对其特征项权重的计算进行完善。
在N层向量空间模型中,由于文档同一区域内不同的特征项所表达文档内容的能力不同,故为了提升查询结果的精确度,需要对不同的特征项赋予不同的权重。在计算特征项频率wTFijk时应乘以一个比例因子log2(M/mk),其中:M为该特征项在数据模块Di中出现的总次数;mk为该特征项在第k个区域出现的次数。但是在对数据模块层的特征项进行加权的过程中,当M=mk时,相应的加权计算将无法进行。因此,在基于N层向量空间模型的IETM数据查询计算中,本文将其频率计算公式调整为
(3)
在对查询语句以及查询对象进行向量化表示后,还需要选定合适的方法对两者之间的相似度进行计算,判定查询对象是否是用户需求的内容。余弦相似法作为一种常用的相似性计算方法,常被用于向量空间模型中的相似性计算。因此,在基于N层向量空间的IETM数据查询中,可以选用该方法来计算数据模块di和查询语句q的相似度:
(4)
(5)
式中:λk为不同层所计算出的相似度的权重;n为向量di和q的维数。
为了验证本文所提出算法的正确性,以含有5个数据模块的某型装备IETM为例,对其发动机故障信息进行查询。
1) 对查询语句与数据模块进行简单形象地描述。
Q:“发动机,故障描述”。
D1:“发动机/曲轴连杆机构的一般故障描述”数据模块。
D2:“发动机的密封”数据模块。
D3:“发动机/曲轴连杆机构的组成和功能描述”数据模块。
D4:“传动装置的主离合器一般故障隔离”数据模块。
D5:“通信设备VCR-8000电台的一般故障描述”数据模块。
2) 查询语句与数据模块的向量表示以及相似性计算。
第1步:根据式(1)计算各词语所对应的IDF权值。计算结果如下:
IDF发动机=0.222;
IDF传动装置=0.699;
IDF通信设备=0.699;
IDF发动机一般故障=0.699;
IDFVCR-8000电台一般故障描述=0.699;
IDF主离合器一般故障隔离=0.699;
IDF发动机密封=0.699;
IDF发动机组成和功能描述=0.699。
第2步:根据式(1)中关于区域特征项频率(k=1,2,分别对应系统层次码、信息码),计算出wTFijk,再由式(2)、(3)计算出在不同数据模块中不同特征词所对应的ωij和wTFij(假定w1=1.2,w2=1.1),进而得到查询语句和不同数据模块的表示向量。
q=(0.222, 0, 0, 0.699, 0, 0, 0, 0);
d1=(0.266, 0, 0, 0.739, 0, 0, 0, 0);
d2=(0.266, 0, 0, 0, 0, 0, 0.739, 0);
d3=(0.266, 0, 0, 0, 0, 0, 0, 0.739);
d4=(0, 0.839, 0, 0, 0, 0.739, 0, 0);
d5=(0, 0, 0.839, 0, 0.739, 0, 0, 0)。
第3步:利用第2步所得的向量模型,再根据式(5),得到不同数据模块的编码层与查询语句的相似度,如表1所示。
表1 数据模块编码层与查询语句的相似度
同理,得到不同数据模块的XML内容层与查询语句的相似度,如表2所示。
表2 数据模块XML内容层与查询语句的相似度
第4步:把利用向量空间模型进行计算的结果按照一定权重比例进行汇总计算,分别将数据模块编码层、XML内容层相似度计算结果的权重设为0.4、0.6。利用式(4)计算出不同数据模块与查询语句的最终相似度,结果如表3所示。
表3 数据模块与查询语句的相似度
综合所得查询排序结果为D1、D3、D2、D5、D4。可以看出:采用该算法计算出的相似度与实际结果完全吻合;另外,该算法要优于现有IETM系统根据关键字进行排序的算法。
本文以N层向量空间模型为基础,提出了基于N层向量空间模型的IETM数据查询算法。与传统的IETM查询算法相比,从数据模块的不同数据结构层出发进行数据查询具有良好的查询效果。然而由于不同的用户在查询过程中对相同查询请求的表达上存在一定的差异,因此,针对查询词的语义分析将是下一步研究的方向。
[1] Jing L P,Ng M K,Huang J Z. Knowledge-based Vector Space Model for Text Clustering [J].Knowledge and Information Systems,2010,25(1):35-55.
[2] 王方,阮梅花,朱海刚,等. 基于向量空间模型的科技文献自动分类研究[J].情报探索,2009,194(12):1-3.
[3] De Smet W,Moens M F. Representations for Multi-document Event Clustering [J]. Data Mining and Knowledge Discovery, 2013,26(3):533-558
[4] 张凌宇,陈淑鑫,张光妲,等.一种基于向量空间模型的模糊本体映射方法[J].计算机应用研究,2014,31(5):1459-1462.
[5] 夏立新,陆伟,沈吟东,等.信息检索可视化[M].北京:科学出版社,2009:19-21.
[6] 刘红芝. 基于N层向量空间模型和两重过滤方法的文本过滤系统的研究[J].科技信息,2009,32(1):36-37.
[7] 仲华,崔志明. 基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52.
[8] 徐宗昌. 装备IETM研制工程总论[M].北京:国防工业出版社,2012:259-260.
[9] 安钊. 装备交互式电子技术手册若干关键技术研究[D].北京:装甲兵工程学院,2009.
[10] 徐宗昌. 装备IETM技术标准实施指南[M].北京:国防工业出版社,2012:64-66.
(责任编辑:尚彩娟)
IETM Data Retrieval of Equipment Based onN-level Vector Model
HU Kai-kai, XU Zong-chang, LIU Kai, GUO Jian, JIN Fei
(Department of Technical Support Engineering, Academy of Armored Force Engineering, Beijing 100072, China)
Aiming at improving the accuracy of IETM data retrieval, through analyzing the levels of data module code and XML content, in combination with the retrieval algorithm ofN-level vector space model, this paper presents a data retrieval method of IETM based onN-level vector space model from model identification code, standard numbering system, information code of data module coding layer and the information in the data module. At last, it proves the correctness and practicability of the algorithm in accordance with IETM instance.
N-level vector space model; IETM; data retrieval
1672-1497(2015)01-0086-04
2014- 07- 16
呼凯凯(1987-),男,博士研究生。
TP391
A
10.3969/j.issn.1672-1497.2015.01.017