三词型术语抽取研究

2017-07-10 07:52那日松刘青
中国科技术语 2017年3期

那日松+刘青

摘 要:主要讨论了由三个词组成的术语的抽取问题。首先从实验语料中抽取了三个词组成的词串,利用语法规则剔除了不符合要求的三词串,最后对剩下的三词串进行了人工判别,判断其是否为术语。研究发现:1)由三个词组成的术语数量相对较少;2)所获得术语中被赋予新含义的术语占多数;3)同一领域术语间的流通性不同;4)三个以上的词组成的术语仍然存在,只是数量直线下降。

关键词:三词型术语,术语抽取,法律术语

中图分类号:H083;H087;D90 文献标识码:A DOI:10.3969/j.issn.1673-8578.2017.03.002

Research on Triword Term Extraction//Narisong,LIU Qing

Abstract: This paper mainly discussed the topic of triword term extraction. We extracted all the linguistic strings formed by three words from the corpus, and filtered those illegal phrases based on the rule of grammar, and judge whether the rest of triword linguistic strings could be identified as terms. Our conclusions are: 1) there are a relatively small number of triword terms in the corpus; 2) many triword terms have been given new meanings; 3) terms in the same field have different negotiability; 4) there are terms formed by more than three words in the corpus, but the number of this kind term is falling sharply.

Keywords: triword term,term extraction,legal term

引 言

术语是专业领域中概念的语言指称[1]。从不同的角度出发可以对术语进行多种分类。从术语语言结构的角度,可以把中文术语系统中的术语分为单词型术语和多词型术语[2]。单词型术语是指由单词构成的术语,多词型术语是指采用原有的单词构成词组来表示新概念的术语。也就是说术语的长度不一,正如冯志伟在《现代术语学引论》中提出的,以组成术语的单词数作为长度单位,术语的最小长度为1,大量术语分布在2~6词之间[2]。

从目前的术语抽取研究来看,主要是基于语料库利用规则和统计相结合的方法[3-6]来抽取术语,不过很多研究主要是侧重于抽取单词型的术语。多词型术语数量较少、抽取难度大,使得其受到的关注度较低,而一些研究不再将术语分为单词型术语和多词型术语。

本文主要是讨论法律术语[7-8]的抽取问题,在之前的研究中笔者主要探讨了单词型和双词型法律术语的抽取[9],这里重点讨论三词型法律术语抽取的问题。首先对实验语料进行分词和词性标注,然后利用三元语法,将所有三词串提取出来,之后利用排除法,剔除不符合语法规则的三词串,最后人工识别出了所有可能的三词型法律术语。

一 语料与研究方法

研究材料选用了香港双语法例资料系统(BLIS, Bilingual Laws Information System)[10]中的1万个句子,包含37万多个词的语料。语料利用ICTCLAS分词系统进行了分词和词性标注,标注时遵循了北大词性标准。

研究采用了统计和语法规则相结合的方法。三个词组成的词串的抽取主要使用了n元语法,即将语料中同时出现在一个上下文中的三个词组成的词串都挑选出来,并对其出現次数进行统计。之后对所有三词串进行是否合法的判别,判断三词串是否符合语法规则,是否为符合人类语言规律的词串。

n元语法(ngram)[11]是指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。本文使用三元语法,提取了语料中所有三词串,并计算了它们的出现次数。

按照国家标准GB/T 10112—1999 术语工作·原则和方法,术语选择和术语构成的要求是:1)单名单义性;2)顾名思义性;3)简明性;4)派生性;5)稳定性;6)合乎本族语言习惯。我们严格按照该原则和方法来人工识别了语料中所有的法律术语。

二 数据与讨论

除去标点符号,我们共获得了94 823个三词串,去掉包含助词(/u)、介词(/p)、副词(/d)、方位词(/f)、非语素词(/x)、连词(/c)、量词(/q)的词串后,剩下16 778个三词串。人工识别出406个候选三词型术语,在百度百科和法律词典中查询和确认后,共获得了76个待定的法律术语和36个法律术语。

1.待定的法律术语

76个待定的法律术语大部分以“法律、条例、程序、合约、令、规则、状、罪、诉讼、权、法则、法令、事宜”等词结尾,这类词虽然由多个修饰成分组合而成,而且大部分能让大家理解所表述的内容,但是也存在着法律层面对于这种条例新的诠释和解读,所以类似这样的词该如何判别其是否为术语呢?如果从术语的定义出发,这样的组合词已经在法律领域赋予了新的定义,而不是人们普遍理解的字面含义,应该有法律层面的解释。这类词主要特点是使用频率相对较高,频繁出现在法律领域文献中,只是组成部分组词能力较强。我们将这类法律术语称为法律常用词。

2.法律术语

严格来说,我们从16 778个词串中只抽取到了36个法律术语,占全部三词串的0.2%,非常低,假设我们把前述76个词也认作术语,其比例也只占到0.67%,这也是人们很少讨论或者忽略讨论多词型法律术语的原因所在。表1是我们从实验语料中提取出来的36个法律术语。表中分别列出了每个词的词性和出现频数。由于分词工具无法做到百分百正确,所以有些分词和词性标注结果有误。这些法律术语大部分是赋予了法律含义后的词,所承载的含义不是组成它们的三个词的含义的相加,所以这类法律术语是真正的法律专用词。

3.问题讨论

(1)频率不是判断法律术语的关键指标。从表1可见,这些法律术语的出现频数并不高,基本都在10次以下。主要原因可能在于我们选择的语料规模不够大,而且这些法律术语使用范围受限,只适合在法律领域或者其中某些部分使用,即有些法律术语只是在某些章节中集中出现,而在其他章节较少提及或者基本不会提及。但有些组合能力较强的术语,在整个法律语料中使用的频率都比较高。所以有必要将术语分为两个等级:领域常用词和领域专用词。领域常用词主要特点是在某一个领域内使用频繁,组词能力强,而领域专用词使用频率并不高,但是所承载的领域信息较强。这也充分说明了在流通性方面,术语间有较大的差别。

(2)多词型术语虽然少,仍有少量以片段的形式出现在三词串中,例如:“监/g 理/v 誓/g (2)”(监理誓章);“知/v 会/v 备/v (45)”(知会备忘);“皇/g 制/v 诰/v (4)”(英皇制诰);“饷/v 租/v 值/v (41)”“课/n 差/v 饷/v (41)”(应课差饷租值)。

(3)分词和词性标注错误也部分影响术语的判别。特别是对于兼类词的分词和词性标注错误常有发生。例如:“双/b 语法/n 例/v”。

(4)多词型术语的自动识别难度较大,因为这些术语出现频次较低,组词能力较弱,都是些新生词,且赋予了新的含义,分词工具无法正确地应对和切分这些词,反而有所妨碍。

三 结 语

以上针对性地讨论了三个词组成的三词型法律术语的抽取问题,由于大部分词和术语的长度集中在一词或二词范围内,所以三词组成的术语相对较少。我们将所有可能的三词串都抽取出来,对其进行了进一步的研究分析,最后只获得了极少的术语。这也說明了自动抽取多词型术语的难度相当大,而且完全靠自动的方法获得所有多词型术语需要付出比较大的代价,需要大量的人力和时间才能实现。不过也不能因为多词型术语数量少,抽取难度大而忽略了对它们的研究,也应积极搜集并补充相应的术语词典。

研究中我们总结出:1)建议将术语进行分类,例如分为领域常用词和领域专用词,这样更利于术语特点的掌握及自动提取。2)分词和词性标注出现错误,会影响语法规则(词性,短语结构)在剔除非法律术语时所起的作用。3)从词的层面或者词间关系的层面,较难给出判别术语的特别有效的规则来,所以可以考虑从句子结构的层面出发,通过句法分析来发现和抽取术语。

参考文献

[1] 国家技术监督局. GB/T 10112—1999 术语工作·原则和方法[S].北京:中国标准出版社,2000:1-8.

[2] 冯志伟.现代术语学引论[M].北京:语文出版社,1997.

[3] 周浪. 中文术语抽取若干问题研究[D]. 南京:南京理工大学, 2009.

[4] 张榕.术语定义抽取、聚类与术语识别研究[D].北京:北京语言文化大学,2003.

[5] 张勇.中文术语自动抽取相关方法研究[D].武汉:华中师范大学,2006.

[6] 凌祺,樊孝忠.领域词汇自动获取的研究[J].微机发展,2005(8):148-150.

[7] 刘红婴.法律语言学[M].北京:北京大学出版社,2007.

[8] 封鹏程.现代汉语法律语料库的建立及其词汇计量研究[D].南京:南京师范大学,2005.

[9] 那日松.法律术语抽取研究[D].北京:中国传媒大学,2008.

[10] 揭春雨,刘晓月,冼景炬,等.从网络获取香港法律双语语料[C]//南京师范大学.全国第八届计算语言学联合学术会议(JSCL-2005)论文集.北京:清华大学出版社,2005:193-199.

[11] Manning C D, Schütze H. Foundations of Statistical Natural Language Processing[M].Cambridge: MIT Press, 1999:192-195.