计量学主题词表词间关系构建方法探析

2014-12-11 03:46张明李丽刘羿彤潘峰阳彩军
中国科技纵横 2014年22期
关键词:查全率计量学词表

张明 李丽 刘羿彤 潘峰 阳彩军

(中国计量科学研究院 信息与实验室条件保障部,北京 100013)

计量学主题词表词间关系构建方法探析

张明 李丽 刘羿彤 潘峰 阳彩军

(中国计量科学研究院 信息与实验室条件保障部,北京 100013)

为了防止叙词性汉语主题词表可能存在的词义模糊甚至歧义的问题,防止在应用中出现“误检”“漏检”的现象。在构建计量学主题词表时,本文通过“前方一致”、“后方一致”等方法对专业术语进行排序,并针对不同特征进行归纳演绎,有效的获得了词间关系,提高了实际应用中“查准率”和“查全率”。

叙词表 计量学 查准率 查全率

1 前言

叙词表以规范化的、受控的、动态性的叙词为基本成分,并以参照系统显示词间关系,主要用于信息的标引与检索。它是通过代表概念的、来源于自然语言的具体词汇实现[1]。这些词汇也可以称为术语或者概念。概念间有一定的关系,统称为词间关系。因此在构建主题词表时,构建词间关系是一项最重要和基础性的工作。叙词表的词间关系包括以下三种:等同关系、等级关系和相关关系[2]。(1)等同关系(Equivalence Relationship),用代关系,这种关系含有概念相同或用法相同的关系。揭示等同关系有利于增加检索的入口率。(2)等级关系(Hierarchical Relationship),又称属分关系,这种关系包含属种、整部和多层级关系,每种层级关系的下位词都必须与上位词的概念类型相同,即两者都必须属于同一范畴内的事物、行为或性质。揭示等级关系有助于通过它扩大和缩小查找范围,提高族性检索能力。(3)相关关系(Associative Relationship),是相互关联的一种关系。相关关系是揭示叙词间各种主要联系、扩大检索范围、进行相关信息查找的重要手段,揭示相关关系有助于提高检索的查全率[3]。

2010年,中国科学技术信息研究所启动了《汉语主题词表》(简称《汉表》)的修订工作。新《汉表》一方面要吸纳先前的专业概念,借鉴已有的参照关系;更为重要的是充分利用文献数据库中的关键词以及检索系统中的检索词作为叙词选择的重要来源。中国计量科学研究院作为项目组成员单位之一承担了计量学汉语主题词表的编制工作。本文从计量学的实际出发,提出一些构建词间关系的方法以及思考。

图3 属分关系合并模拟图

2 构建词间关系

2.1 构建原则

通过网络查询信息时,经常会发现有时检索结果并不满意,检索结果要么太多,要么太少或未能找到自己所需的相关信息,因此如何选择恰当的检索词,对用户来说是至关重要的。因而一部具有优秀概念和语义工具的主题词表,带着其独有的知识组织体系和语义结构,在组织信息和查找信息资源,尤其在网络数据库检索等实践应用方面,势必发挥着越来越大的作用,有着重要的现实意义。基于以上考虑,在建设网络版主题词表时我们充分考虑这些因素,秉承以下构建原则建立词间关系。

(1)准确性。尽可能的提高检索的准确性,即“查准率”,一方面是尽量减少麻烦。应该使读者在少问路的情况下很快找到自己要找的目标或对象。

(2)直观性。机器检索系统包括计算机检索系统要同人接触的,人要把自己的检索要求,检索词或由检索词构成的检索公式,告诉机器系统,机器系统要把查找结果告诉查者。这就不能不考虑查找者的习惯。因此直观明了的叙词更容易被使用者接受。

(3)通用性。在一个专业领域所使用的通用词是最适用于科技交流和思想交流的,特别是当读者自己在终端进行检索时,这一点就显得特别重要,因此选择叙词的通用性也至关重要,因此共现词频很大程度上也反映了词语的通用性。

2.2 构建方法

2.2.1 通过“前方一致”获得词间分类

通过系统平台提供的“前方一致”功能,将相关叙词聚类,并按照2.1原则并结合贡献频次等方法,确定叙词及属分关系。属分关系是最常见的关系,确定的这些叙词可直接应用到叙词表或本体构建中。

2.2.2 通过“后方一致”获得词间关系

建好上下级关系之后,我们在聚类词中通过“后方一致”来获得词间关系,对这些词进行聚会,在同级词中通过演绎法来构建等同级相关等关系[4]。

2.2.3 对各种词间关系进行合并

对已经分好组建好叙词的词之间进行关系合并,在合并过程中有几种情况需要处理。

(1)等同关系的合并。选定一个词为叙词的前提下,与其他词设为等同关系;在词汇合并的等同关系集合里,根据构建叙词表的选词规则重新确定叙词身份,在合并后的等同关系词汇集中,也会继承过来一些等级关系、甚至概念对立的概念词汇,具体细化为等级关系,还是保留等同关系。如图1所示。

(2)相关关系的合并。如果两个叙词是等同概念,相关关系则直接进行合并,根据叙词选定规则,重新确定一个词为叙词,另一个词为非叙词,其他词都改为相关词。一般我们按照2.1的原则来确定叙词。如图2所示。

(3)属分关系的合并。等级关系的合并从最小的节点或从最大的节点均可,通过人工判断每个相同的节点,如果是相同的概念,则在该节点将两个词族进行连接合并去重,该节点的下位概念或关系,如果是同等级别的概念,则以同位类关系合并;如果下位概念不是同位类关系,甚至含有等级关系,则应该表达合理的等级关系。如图3所示。

3 思考

3.1 扩大选词规模

备选词资源丰富,可以获得更多的词间关系,当然也需要更多的人力成本,在人力资源丰富的前提下,扩大选词规模必然会获得更多更完整的词间关系,同样搜索的准确率查全率都会随之提高。

3.2 确定词间的等同关系是核心

从上述论述中可以看出,词间关系的合并大多是通过等同关系为契机点的,所以准确的找出等同关系,是处理的核心。要想找出等同概念,途径有两条,一是通过计算机匹配,直接找出相同的术语,然后人工判断是否为等同概念; 二是通过词间关系推荐或推理,通过人工进行确认。

3.3 实际操作中要结合应用方向,结合其他的方法进行构建

在实际应用,不同的学科有不同的倾向性,我们在实际操作中应该结合本学科进行有针对性的构建词间关系,这才应该是学科主题词表的精髓[5]。

4 结语

构建词间关系在叙词表编制中是至关重要的一部分,在获得一定数量的专业领域术语以后,我们通过“前方一致”、“后方一致”等方法对这些术语进行排序,针对不同特征的归纳演绎方法,获得有效的词间关系,在实际应用中有极高的使用概率且准确率高[6]。另外,目前词间关系的建立多数要依靠操作人员的经验来完成,我们应该更多的找到机器识别的方法,减少人力成本投入,能更好的提高构词效率。

[1] 刘华,曾建勋,沈玉兰.网络环境下叙词表编制标准的国际发展趋势[J].情报杂志,2009,28(11).

[2] 常春,卢文林.叙词表编制历史、现状与发展[J].农业图书情报学刊,2002(5).

[3] 吴雯娜,曾建勋.叙词表微观结构的描述与评价:EI叙词表与中文叙词表的对比分析[J].图书情报工作,2009,53(8).

[4] 常春,吴雯娜,曾建勋.基于后方一致获取词间关系[J].情报科学,2009.7.27(7).

[5] 朱礼军,赵新力,乔晓东,等.跨领域多来源主题词表集成与服务研究[J].现代图书情报技术,2007,(1).

[6] 吴雯娜,王星.叙词表融合方法研究[J].中国图书馆学报,2012,4(110).

In order to prevent Chinese Thesaurus may exist vague even ambiguity and mistake and Omissions in application. When building thesaurus of metrology, Specialty vocabulary is ordered by the method of front unanimous and rear unanimous in this paper, generalized by characteristic. So the relationship towards the vocabulary is got effective, increase the accuracy and coverage.

thesaurus metrology accuracy coverage class number g253

张明(1983—),男,北京人,职称:馆员,学位:硕士。

猜你喜欢
查全率计量学词表
生物化学计量学原理在离散生物动力系统的应用
针刺治疗失眠症的文献计量学分析
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
海量图书馆档案信息的快速检索方法
叙词表与其他词表的互操作标准
基于科学计量学的公安院校科研与评价
2004-2013年中医药治疗性早熟的文献计量学分析
国外叙词表的应用与发展趋势探讨*
常用联绵词表