张 榕
(北京语言大学汉语速成学院,北京 100083)
面向术语识别的术语界定研究
张 榕
(北京语言大学汉语速成学院,北京 100083)
术语的界定问题一直都是术语学界研究的课题。术语与普通词语之间的交融渗透关系使得术语的界定复杂。如何提供一种可操作的术语界定标准来指导术语识别是亟待解决的现实问题。提出一种面向术语识别的术语界定方法,对于术语词典的编纂与更新都是一项有意义的工作。
术语界定,术语识别,定义性描述
术语尤其是新术语的识别一直都是术语学研究的重点之一。近年来该领域的研究成果颇丰。施水才[1]、刘豹[2]、何琳[3]等都使用各种语言学及统计学的方法进行术语的识别发现。然而究竟哪些词语是术语需要被识别出来,学界在该问题上的处理始终存在一定的盲目性与主观性。各家各派从不同的角度对术语界定问题都进行过阐述,遗憾的是这些术语界定,在面向中文信息处理的目标背景下,可操作程度较低。术语的界定原则与术语识别的最终结果,以及术语词典编纂的收词原则紧密相关。如何给出一个科学的、可操作的术语界定方法以服务于术语识别、术语词典编纂是本文的研究重点。
一个词语在一个上下文中可以是术语,在另一个上下文中可能是普通词语。术语本身是一个词语,和普通词语之间互相渗透表现为术语也可泛化为普通词语;普通词语可以抽象为术语。
1.术语的泛化现象
术语的泛化指特定领域的术语,在通用领域被广泛使用,成为日常用语的过程。术语的泛化改变了术语的单义性和专业性的特性。单义性指在一个特定领域内,一个术语只表述一个概念,同一个概念只用同一个术语来指称,术语与概念之间一一对应[4]。术语的泛化使得术语含有一个以上的概念,但由于这些概念分属不同的领域,所以并不会造成理解上的混淆。举例如下。
在计算机科学技术领域,“软件”指一系列按照特定顺序组织的计算机数据和指令的集合,一般来讲软件被划分为系统软件、应用软件和介于这两者之间的中间件;在普通词汇中指服务水平、管理模式、人员素质、企业氛围等内容。
在遗传学中,“克隆”有两个含义:(1)又称“无性[繁殖]系”,遗传组成完全相同的分子、细胞或个体及其组成的一个群体。(2)利用体外重组技术将某特定的基因或DNA序列插入载体分子的操作过程。而现在也指复制与原件完全一样的副本的过程。
有些术语已经成为日常用语,经过泛化后的术语具有了多义性和普遍性。例如“盲点”:
“这件事情你没弄明白,是你理解上的盲点吧。”
2.普通词语的专业化现象
与术语的泛化相对应的是普通词语的专业化现象。某些普通词语在特定领域与语境下,可以专业化为术语。但在不同的上下文环境、不同的领域中,这些词语的概念内涵不尽相同,有时甚至完全不同。普通词语成为术语,概念上可能保持一致,也可能指代不同的概念内涵。
(1)普通词语可成为具有相同概念的术语。例如“失眠”在《现代汉语词典》中的释义为:“夜间睡不着或醒后不能再入睡。”而在医学科技词典中的释义为:“由于精神活动长期过度紧张,致使大脑的兴奋和抑制功能失调,精神活动能力因而受到影响而造成的不充分的睡眠或不完全的睡眠,临床特点是失眠、多梦,常伴有头痛、头昏、胸闷、心悸、腹胀、注意力不集中,临床表现有入睡困难、多梦、易醒、醒后难以再入睡。”
普通人对“失眠”一词的理解与专科大夫的理解就有很大的区别。可见日常生活中一个很普通的词语,在某个特定领域,对该领域的研究者来说是一个专业术语。
(2)普通词语可以成为具有不同概念的术语。例如“指针”“协议”“地址”三个词语可以被认为是普通词语,也可被认为是专门术语。在《现代汉语词典》中的义项就是它们作为普通术语的解释,在计算机词典中的义项就是它们作为术语的解释。
在《现代汉语词典》中的释义分别如下:
指针:(义项1)钟表的面上指示时间的针,分为时针,分针,秒针;仪表指示度数的针。 (义项2)比喻辨别正确方向的依据。
协议:(义项1)协商 (义项2)国家,政党或团体间经过谈判,协商后取得的一致意见。
地址:人、团体居住或通信的地点。
计算机词典中的释义分别如下:
指针:保存对象地址的变量。
协议:一种成文的公约集,管辖两台相互通信的系统间的信息交换格式化和相对定时。
地址:(义项1)数据源出地和目的地的代码。 (义项2)确定传输目的地和来源的数字位或字符序列。 (义项3)文件的位置。可以使用地址查找Internet 和计算机中的文件。Internet 地址也称为URL。
可见一个词语是否为术语并不是一成不变的,而是与领域以及不同的使用对象紧密相关的。术语的泛化以及普通词语的专业化两个过程是联动的。
术语的界定始终是术语学界和语言学界争议的问题。国际标准、国家标准、辞书、词典都曾经给术语下过定义,一些专门从事术语研究的专家学者也纷纷发表各自的观点,其中包括:“术语指专业领域中一般概念的文字指称”[5]“术语是指称专业概念的词或词组”[6]“通过语音或文字来表达或限定专业概念的约定性符号”[4]“术语是经常在专业领域中出现,而很少在其他领域中出现的词语”[7]等多达几十种的界定方法。上述的术语界定在术语识别的任务前提下,都不能或不完全能准确提供一个可操作性标准,给术语识别以及术语词典的收词造成了一定的困难。在该背景下,本文提出一种可操作的术语界定方法,来提高术语识别、术语词典编纂的客观性,这是前人的工作尚未涉及的。
上述对术语的各种界定,例如,什么是“专业领域”“专业概念”,针对不同的人群,有不同的理解。对某个领域的专家来说属于专门领域、专业概念的词语对普通人群可能就是一个普通词语。这些概念和术语一样也是需要界定的。人都难以界定的概念,对于进行中文信息处理的计算机而言,更难具有实际的操作性。
例如“门”这个概念,一般对普通人来讲就是“指房屋等的出入口”。但是在建筑学里,“门”的概念是指在出入通道处所设可开关或转动的装置。在生物学里,“门”的概念是指生物分类法中的一级,位于界和纲之间。在电子学中“门”是一种逻辑电路。若按照上述的术语界定方式去判断,“门”很大概率是一个普通词语,它可能出现在多个领域中,不具有领域特异性,如果按照通常的术语识别方法,例如tf-idf的方法(一种用于资讯检索与资讯探勘的常用加权技术),则抽取出该词语的概率很低。由此本文提出了一种不同于前人的术语的界定方式。该方法建立在国家标准《术语工作 计算机应用 数据类目》(terminology work computer applications data categories)的基础之上。其中关于术语的界定为:专门语言中表达已定义概念的词语的指称。
以术语识别为目的驱动,本文将术语定义为:在某一特定领域内,有定义性描述的词或词组。该界定方法将术语与被定义项的关系结合起来。某种程度上可以认定:术语是某一特定领域的被定义项。一个词语是否为术语,它所在的上下文即句子起了决定性的作用。例如以下两个句子:
(1)门是指在出入通道处所设可开关或转动的装置。
(2)客厅的门通向卧室和厨房。
依据本文的界定标准,句1中的“门”就可以被认作是术语。句2中“门”只是个普通词语。因为句子1中的“门”存在于定义性描述的语句中,以一个被定义项的语言形式存在。
依照这一界定标准可提高术语识别的客观性与可操作性,理据如下:
首先概念清晰。该界定排除了人名、地名、机构名等命名实体类专用名词。因为这些专名指称现实中的唯一个体,不可能有定义。排除了各种修饰性的语言成分如形容词、副词、成语、俗语等。能被抽出来的一定在某专业领域有定义性描述,符合前面所列的所有关于术语的定义。
其次可操作性强。因为定义性描述是由语言形式表现的,根据这些形式特点可建立起形式系统,设计算法,让计算机自动操作。
再者能与专业领域直接建立联系。纵观前面引用的各种有关术语的界定,核心都是要同专业领域相关。定义的语言内容本身及定义的上下文语境会明确地指示该术语所述的专业领域。该界定解决了同一个词形用在不同领域充当术语的身份辨认问题。
同时预测到对该界定方法可能有如下缺陷。第一,认为大量的术语在文本中的出现都是使用性出现,并非定义性出现,按照这种方法无法抽取出来;第二,这种方法能抽取新术语,抽不出老术语。比如,能从网上抽出“蓝牙”“WiFi”这类较新术语,因为这类术语能找到定义;但是“电灯”“电话”这类老术语因为找不到定义,也就抽不出来了,但只要认真分析,就可以看出这种批评是不正确的。
基于中文信息处理的术语研究通常分为两种类型:
(1)以构建术语表为目的,抽取术语的词形,识别其所属的领域;
(2)事先已有术语表,在上下文语境中识别术语的各种词例,目的是研究术语出现的频率、用法等动态性质。
术语的识别就是抓住术语出现的源头,将所有定义性描述的词语给找出来。第一种缺陷中指出的没有定义性描述的术语可能在一篇文本中无法被识别,但只要它是术语,就一定会作为被定义项在句子中出现,基于大规模的真实语料,这是完全能被识别发现的;同时可通过术语聚类方法,识别出该术语所在的领域,进行领域分类后放进术语词典的收词表中。当然,具体操作中要看能否把术语出现的源头都找到。诚如第二种缺陷所指出的,用这种方法识别出的术语多数是新术语。因为几十年前、几百年前出现的术语,其定义所在的文本许多尚未数字化,更不会进入网络,计算机暂时还没法抽取到,但那些老术语早已收进各种术语词典中。对于它们来说,第一种类型的术语识别工作根本没必要重复去做。
依据已有的术语界定标准进行的术语识别存在以下几个问题。第一,抽取出来的词语若果真是术语,绝大多数都是各种术语表中已经收录的,从构造术语表的角度看并无很大意义。第二,抽取出来的词语中包含着一定数量的非术语,仍需花费大量人力去鉴别。比如使用tf-idf的方法,识别出来的只是领域特异词,即在某个领域经常出现而在其他领域很少出现的词语,但这些词语中有可能是人名、地名、常用语、俗语。使用互信息的统计方法抽取出来的也会有一些非术语的固定词语搭配。第三,把所有的词语都作为初选的对象,极为低效。依据本文的术语界定方式可抽取出新术语,连同术语词典中的老术语,就可以构造出完整的术语表,并不断补充发展。利用这样的术语表,就可采用一般的分词和词义排歧的方法,在大规模文本的各种上下文语境中抽取术语的词例,完成第二种类型的工作,而上述两项工作的结合,正是术语词典编纂的主要任务。本文的术语界定研究对于术语识别、术语词典的编纂与更新都是一项有意义的工作。
[1] 施水才,王楷,吕学强.基于条件随机场的领域术语识别研究[J].计算机工程与应用,2013(10):147-149.
[2] 刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008(23):147-150.
[3] 何琳.基于多策略的领域本体术语抽取研究[J].情报学报, 2012(8):45-47.
[4] 冯志伟.现代术语学引论[M].北京:语文出版社,1997.
[5] ISO/TC 37. Terminology work-Vocabulary-Part 1:Theory and application[S].
[6] 标准化与信息分类编码研究所. GB/T 10112—1999 术语工作 原则与方法[S]. 中国标准出版社,2004.
[7] 王强军.信息技术领域新术语提取的初步研究[J]. 术语标准化与信息技术,2003(1):32-35.
动 态
电气工程名词审定委员会第四次会议纪要
2014年7月19日,中国电工技术学会在北京铁道大厦召开了电气工程名词审定委员会第四次会议(全体),与会的领导及专家共50多人。会议由中国电工技术学会理事、电气工程名词审定委员会主任顾国彪院士主持。中国电工技术学会副理事长兼秘书长裴相精讲话,感谢各位专家百忙之中前来参加会议并积极完成名词定义阶段的工作。全国科学技术名词审定委员会审定室主任邬江,根据目前上报的词条定义撰写中的问题,向与会专家讲解了撰写名词定义工作中应注意的问题及解决思路。全国科学技术名词审定委员会副主任刘青也参加了本次会议,他在讲话中指出,此次由中国电工技术学会组织审定电气工程名词的工作非常重要和及时,该名词是我国科技名词规范化事业的重要组成部分,并对如何解决工作中存在的问题提出了一些建议。
(史金鹏)
Research on Term Definition Based on Term Identification
ZHANG Rong
s: Term definition is one of hot topics for terminology researchers. The interrelate relations between terms and common words make term definition more complicated. In this paper, we propose a kind of definition which provides a workable criterion for term identification. The research is helpful for the compilation and updating of term dictionaries.
term definition, term identification, definitional description
2014-02-19
张榕(1975—),北京语言大学汉语速成学院讲师,博士,研究方向为英语语言文学。通信方式:lostballoon@sina.com。
H083;N04
A
1673-8578(2014)04-0005-04