法律领域术语部件的描述

2011-01-04 01:41那日松陈永朝
中国科技术语 2011年6期
关键词:库中单字贡献度

那日松 刘 青 陈永朝 朱 磊

(1.杭州师范大学,浙江杭州 310012 2.全国科技名词审定委员会,北京 100717 3.比利时鲁汶大学,比利时鲁汶)

法律领域术语部件的描述

那日松1刘 青2陈永朝3朱 磊1

(1.杭州师范大学,浙江杭州 310012 2.全国科技名词审定委员会,北京 100717 3.比利时鲁汶大学,比利时鲁汶)

从实现自动抽取法律术语的目的出发,立足于法律术语具有术语部件的特点,建立了由579条部件组成的法律术语部件库,并针对各种属性的术语部件做出统计分析,完成了每个法律术语部件“生成能力”和“贡献度”两个属性的详细描述。

法律术语,术语自动抽取,术语部件,贡献度,生成能力

前言

任何领域的术语都有其构成的部件。比如信息科学领域术语多用“程序”“自动”“操作”“软件”“数据”“型”等部件;而法律术语多用“法”“案”“罪”“证据”“犯”等部件。不同领域术语方面的差异从表面上来看,主要表现在部件使用的不同上。本文基于这个特点,重点搜集、总结和描述法律术语部件,把法律术语分为有特殊标记的法律术语和无特殊标记的法律术语两类,建立了应用于法律术语自动抽取研究的法律术语部件库。这对于自动发现和判断法律术语具有重要的作用。

本研究使用由8589条词条构成的法律术语库[1],分析所用语料来源于香港双语法律信息系统(Bilingual Legal Information System,BLIS)[2],分词工具使用汉语分词系统 (Institute of ComputingTechnology,Chinese Lexical Analysis System,ICTCLAS)。

一 法律术语部件的选择依据

课题组主要依据GB/T 19102—2003对术语部件的定义和描述,参照吴云芳在信息科学与技术领域选取术语部件的方法来选取法律术语部件。

2003年,GB/T 19102—2003《术语部件库的信息描述规范》中对“术语部件”给出的定义是:术语部件是组成多词术语的词。特定领域中结合紧密、生成能力强、使用稳定的语言片段也可以看作术语部件[3]。

吴云芳通过对30 000条信息科学与技术领域的术语进行分析,给出术语部件描述的方法与策略,并由何燕将术语部件库应用到术语自动抽取工作中[4]。吴云芳认为单词型术语本身就是术语部件,术语部件比术语有更强的术语生成能力[5]。她把单词型科技术语和科技术语中出现较多的单字选为科技术语部件。参照她的方法,课题组把选择法律术语部件的重心放在单词型法律术语和一些法律术语中出现较多的单字上。

课题组要建立的法律术语部件库中包括对每个术语部件的属性的详细描述,为实现法律术语自动抽取研究服务。在术语提取中结合术语部件库,可以提高术语识别的正确率与召回率[4]。

二 法律术语部件库的建立和属性

法律术语部件库的建立主要包含两部分内容:法律术语部件的选取和法律术语部件属性的描述。建设法律术语部件库的基本流程如图1所示。

1.法律术语部件的选取

法律术语部件的选取包括选取单词型法律术语部件和选取单字术语部件两方面工作。

(1)单词型法律术语部件

对法律术语库中的法律术语进行自动分词标注,选取单词型法律术语,再通过人工标注进行筛选,最后共获得459个单词型法律术语部件。

(2)单字术语部件

图1 术语部件库建设的基本流程

首先对法律术语库进行字频统计,总共有1607个单字,然后通过人工标注对获得的所有单字进行数字和标点符号的过滤,最后剔除与单词型法律术语部件共同的单字(也有部分单词型法律术语是单字)后得到120个单字部件。

2.法律术语部件的描述

吴云芳认为:部件描述是从内部结构出发来为术语的自动发现提供知识[5]。为了更好地表示和掌握这些具有领域特异性的术语部件,同时从实现法律术语自动抽取服务这个目标出发,课题组选择了两个不同的属性进行描述。

(1)对生成能力的描述

课题组将法律术语部件在法律术语库中出现频次的多少,以及该术语部件对于包含它的词/词组中所起的作用视为该法律术语部件的生成能力。课题组重点关注法律术语部件的术语生成能力,统计每个术语部件构成的法律术语个数的统计。例如:在法律术语库中包含“条例”部件的法律术语有1342个,占整个法律术语库的15.6%,那么15.6%即为部件“条例”的生成能力。

所有的法律术语部件都有生成能力,但是能力的强弱不同,有些部件生成能力较强,如“罪”,很多新生术语会包含该部件;有些部件生成能力较弱,如“服刑”,很少有法律术语包含该部件。不管生成能力强弱,法律术语部件对于包含它们的词/词组被判断为法律术语都起到关键的作用。

(2)对贡献度的描述

课题组首次提出对法律术语部件贡献度的描述。所谓贡献度,即法律术语部件对包含它的词/词组被判断为法律术语起到的作用或贡献程度。例如:部件“条例”在法律术语库中出现1342次,而包含部件“条例”的这1342个条目全都成为了法律术语,因此部件“条例”的贡献度是100%的。

大部分单词型法律术语基本上都具有100%的贡献度,而大部分单字部件不具有100%贡献度。这也说明了有些部件直接决定一个条目是否为术语,而有些部件还需要其他信息(搭配)的辅助才可以决定一个条目是否为术语。比如部件“则”单独出现时无法提供完整的法律相关概念和信息,但当有其他信息辅助时,有可能将该条目判断为法律,“原则”和“否则”均不是法律术语;“通则”和“规则”是法律术语,也具有法律概念。在法律术语库中共出现了6个带部件“则”的搭配:附则、规则、守则、原则、准则和通则,6个搭配中除了“原则”外都具备法律概念,因此部件“则”的贡献度为83.3%(5/6)。

因此,在描述法律术语部件时,需要对不能有100%贡献度的部件做特殊处理。以部件“法”为例,课题组以法律术语库中的条目为考察对象,提取出所有包含部件“法”的搭配,然后选择对法律术语判断起到排除作用的搭配,也即包含部件“法”但是没有法律概念的条目,例如“办法”“语法”“分类法”等,把这些条目列出来,用于今后排除非法律术语操作的参考。

建立的部分法律术语部件库如图2所示:

图2 法律术语部件库

该法律术语部件库现阶段包含579条法律术语部件,对法律术语库中全部8589条法律术语的覆盖率为96.7%。其中单词型法律术语部件的覆盖率为81%;单字法律术语部件的覆盖率为88.24%。

三 结语

法律术语部件库的建设是一个不断完善的过程,需要时时更新部件和属性描述。随着法律术语部件库的完善,可以更多地发现法律术语判断中的问题,并为法律术语自动抽取工作服务。

[1]那日松,刘青,朱磊.法律术语特征研究[J].中国科技术语,2011(4):22-26.

[2]揭春雨,刘晓月,冼景炬,等.从网络获取香港法律双语语料[C]//全国第八届计算语言学联合学术会议论文集.北京:清华大学出版社,2005:193-199.

[3]中国标准研究中心.GB/T 19102—2003术语部件库的信息描述规范[S].北京:全国术语标准化技术委员会,2003:1-4.

[4]何燕,穗志方,段慧明,等.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006(23):4-7.

[5]吴云芳,穗志方,邱利坤,等.信息科学与技术领域术语部件描述[J].语言文字应用,2003(4):34-39.

[6]冯志伟.现代术语学引论[M].北京:语文出版社,1997:1-18.

[7]封鹏程.现代汉语法律语料库的建立及其词汇计量研究[D].南京:南京师范大学,2005.

Building the Legal Term Component Database for Automatic Term Extraction

Narisong LIU Qing CHEN Yongzhao ZHU Lei

Based on the purpose of automatic extraction and characteristics of term components in the legal field,we constructed a legal term component database which is composed of 579 components.Also,based on statistical analyses of these term components,we described the“generation capacity”and“contribution”of each term component.

legal term,automatic term extraction,term component

N04;D9

A

1673-8578(2011)06-0013-03

2011-10-09

国家自然科学基金专项基金项目“基于语料库的术语自动处理关键技术研究”(J1025001)

那日松(1980—),女,内蒙古兴安盟人,博士,杭州师范大学应用语言学研究中心助理研究员,研究方向为计算语言学、术语学等。通信方式:narsujin@163.com。

猜你喜欢
库中单字贡献度
动物城堡
动物城堡
河北大名话单元音韵母、单字调及双音节非轻声词连调的实验语音学初探
充分把握教育对经济社会发展的贡献度
基于贡献度排序的肾透明细胞癌串扰通路分析
智能盘库在自动化立体库中的探索和应用
“对仗不宜分解到单字”毋庸置疑——答顾绅先生“四点质疑”
盐城方言单字调声学实验研究
需求侧资源促进可再生能源消纳贡献度综合评价体系
ID3算法在构件库中的应用