浅谈基于本体的问答查询系统

2009-07-01 02:42钱晓雯
新媒体研究 2009年23期
关键词:同义网络结构术语

钱晓雯 华 英

中图分类号:TP2文献标识码:A文章编号:1671-7597(2009)1210115-01

随着网络技术的发展,远程教育越来越受到人们的关注。答疑系统作为网络教育平台的一个重要组成部分,在老师和学生之间的交流方面发挥着重要的作用。传统的答疑系统比较集中在答疑方式和答疑系统的实时交互方面,对其中的关键部分-语义的理解,涉及的不是很多。

针对上面的问题,本文提出用领域本体作为语义理解的基础。本体(ontology)是一种用来描述概念以及概念和概念之间关系的模型,领域本体是本体的一种,它包含该领域的比较完整的知识和丰富的语义关系,把这些资源通过一种方法应用到问答查询系统中,使得一定程度上解决目前答疑系统中语义的理解不足的问题成为可能。

在问答查找系统中,针对特定领域的答疑,需要建立相应的领域本体。领域本体一般是由该领域的专家来建立。领域本体定义了该领域的一组术语,这些术语称之为概念。概念和概念之间的关系描述了该领域的概念结构。

目前已有的领域本体很多,出于对各自问题域和具体工程的考虑,构造领域本体的过程也是各不相同的。由于没有一个标准的构造方法,不少研究人员从实践出发,提出了不少有益于构造本体的标准,其中最有影响的是Gruber于1995年在文献中提出的5条规则:

1.明确性和客观性:本体应该用自然语言对术语给出明确、客观的语义定义。2.完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。3.一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。4.最大单调可扩展性:向本体中添加通用或专用的术语时,不需要修改已有的内容。5.最小承诺:对待建模对象给出尽可能少的约束。

当前对构造本体的方法和性能评估还没有一个统一的标准,这是一个需要进一步研究的方向。目前对于特定的应用,本体的构造方法不完全相同。但在构造特定领域本体的过程中,有一点是得到大家公认的,那就是需要该领域专家的参与。下面,针对我们的答疑应用,采用语义网络的描述方法来构造领域本体。

领域本体的开发和完善是一个反反复复不断补充的过程。领域本体中的概念应该贴近于要研究的专业领域中的客观实体和关系法则。它的构造要经过五个步骤:

1.确定领域本体的专业领域和范畴。可以通过确定专业领域和范畴作为开发领域本体的起点。首先,要明确构建的领域本体将覆盖的专业领域、应用本体的目的、本体应该在哪些方面发挥作用以及它的系统维护者与应用对象。

2.复用现有的本体。如果系统需要和其它的应用平台进行互操作,而这个应用平台又与特定的领域本体或相关概念联系在一起,那么复用现有的本体是行之有效的方法。许多现成的本体,例如前面提到的Ontolingua的

本体文库、DAML的本体文库UNSPSC、和DMOZ等,可以导入到本体开发系统中,本体的格式转换也并不困难。

3.列出本体涉及领域中的重要术语以及术语的属性与属性值。领域本体是描述概念以及概念与概念之间的关系,首先要列举出该领域中的所有概念以及对该概念的详细解释,在特定领域,这些概念就是有关的专业术语。除此之外,针对每个概念,要列出它所有可能的属性,每个属性都有对应的属性值。

4.定义关联结点。为了对概念和概念之间的关联关系进行详细的说明,需要对概念定义关联结点。例如,为了说明概念“内模式”和“外模式”的区别,在概念“内模式”下存在一个关联结点:区别,该结点关联另外一个概念“内模式”。并需要对该关联结点详细说明。

5.定义概念之间的各种关系。在领域本体中,概念和概念之间通过关系来交互。在知网中,一共描述了概念之间的8种关系;上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、整体部分关系、材料-成品关系、事件-角色关系。

知网可以看成是一个庞大的通用本体,构建这样的本体是件非常费时费力的事情。针对特定领域答疑系统的特点,在我们构建的领域本体中使用了四种关系:继承关系、部分关系、相关关系和同义关系,其中的继承关系可以看成是知网中的上下位关系。

1.继承关系(is_a)。继承表示概念之间的包含和被包含关系,也可以看成是概念之间的泛化和特化关系。如果概念Ci是Cj的一种特殊概念,那么我们说概念Ci是概念Cj的特化,概念Cj是概念Ci的泛化,概念Ci继承于概念Cj。概念都有它自己的属性。如果两个概念间存在继承关系,那么继承的概念将拥有被继承概念的所有属性。例如,概念Cj继承于概念Ci。那么概念Cj将拥有概念Ci的所有属性,另外还可能有它区别于概念Cj的特殊属性。

如果概念Cj同时继承于Ci和Ck。这是一种多重继承(与面向对象的概念非常相似)。

2.整体部分关系(part of)。概念和概念之间存在着整体部分关系。如果概念Cj是概念Ci的一个组成部分,那么我们说概念Ci和概念Cj之间存在整体部分关系。在数据库领域中,概念“前像”、“后像”都是概念“运行记录”的组成部分,所以“运行记录”和“前像”、“后像”之间是整体部分关系。

3.相关关系(relevant of)。相关关系表明概念和概念由于某个主题而相互关联。概念 “前像”和“后像”由于都是“运行记录”的一部分而存在一种相关关系。相关关系可由继承关系和部分关系中导出, 所以图中可以不画出来。

4.同义关系(synonymy of)。在一个领域中,一个概念可能有几种不同的表示方式,也就是可以用不同的词语来表示一个相同的概念。例如:“数据库管理系统”和“DBMS”、“聚集”和“簇集”都是同一概念的两种不同的说法,所以这两个概念之间存在同义关系。在图中,同义关系用一根不带箭头的实线相连,继承关系和部分关系是两种最主要的关系,相关关系可以从继承关系和部分关系中体现出来。出现同义关系的概念不是很多。

应用上面的四种关系,我们可以把领域中的概念构建成一个具有等级的网络结构。构建的过程是一个概念不断细化或泛化的过程。下面介绍构建等级网络结构的方法。建立一个等级网络体系有3种可行的方法。

自顶向下法:由某一领域中最大的概念开始,通过逐层的添加子概念将这些概念细化。最终得到本体的等级网络结构。

自底向上法:由最底层、最细小的概念定义开始,将这些细化的概念一层一层的组织在更加综合的概念之下,形成一个等级网络结构。

综合法:首先定义很多非常显而易见的概念,然后分别将它们向上层进行恰当地归纳和向下层进行细化,构成一个等级网络结构。

至于具体在实践中采取什么方法构建等级网络结构, 主要取决于于开发人员对专业领域的个人观点。由于综合法是从一些最普通的概念入手,比较符合人的习惯,所以综合法对本体开发者而言最便捷。

参考文献:

[1]Ontology Development 101:A Guide to Creating Your First Ontology.http://protege.standford.edu/publications/ontology_development/ontology101noy-mcguinness.htm.

猜你喜欢
同义网络结构术语
基于SNA的网络舆论突发事件信息传播网络结构研究
祈使句小练
until用法巩固精练
第三届“面向翻译的术语研究”国际学术研讨会(论文征集)
试论分布式计算机网络结构分析与优化
带通信配网故障指示器故障监测方法及安装分析
非常规突发事件跨组织合作网络结构演化机理研究
同义句转换专项练习50题
同义句转换专练