英语法律语篇词汇特征计量化研究

2020-03-12 07:26房宇华胡志红
牡丹江大学学报 2020年2期
关键词:主题词语料语料库

房宇华 胡志红

(中国地质大学(武汉)外国语学院,湖北 武汉 430074)

引言

随着全球化趋势的推进发展,近年来涉外法务事件的频率不断上升,法律语言研究与法律英语ESP教学也逐渐进入人们的视野。语料库语言学的兴起与发展为语言研究提供了可计量化途径,使得语言研究更为科学化,规范化,并与相关学科联姻孕育了语料库翻译学、语料库文体学等等新兴学科。本文应用语料库语言学的量化方法,以自建法律英语语料库为观察语料库,LOB语料库为参照语料库,对法律英语语篇中词汇应用的基本特征及主题词应用类型进行实证探讨。

1 法律英语研究述评

法律英语(Legal English)是指普通法国家以普通英语为基础,在立法和司法全过程中逐渐形成的,具有规约性的民族语言的社团分支,包括规范性法律文件以及法律工作者在执法过程中使用的一整套规范化的法律公务用语。[6]国内法律英语研究聚焦于法律翻译与法律英语教学,[3]但了解法律英语本身的特质是其应用研究的基础。相关研究对于法律英语的语法、词汇、句法等基本要素而言已有一定程度的解析,如马庆林(2003)认为法律英语具有准确性和正确性、正式拘谨性、晦涩难懂性、模糊性,[4]赵春义(2006)指出法律语言须简洁、准确,文体须严肃、庄重,[4]但上述研究多为内省式探讨并辅以少量语料进行佐证,这样的研究结果难免缺乏一定信度,而语料库技术的孕育和发展为法律语言研究提供了可计量化途径。近年来应用语料库方法的法律英语研究多为以平行语料库开展的翻译研究(参见徐珺,王清然,2017;蒋婷, 杨炳钧,2013;王子颖,2013等)或教学研究(参见孟超,马庆林,2019等),而情态动词的应用又是其中研究重心所在,如朱英毅等(2017)以自建法律语料库与CLOB语料库进行对比,指出法律英语与一般用语的情态动词使用频率差距极大;[11]此外王子颖(2013)、胡丹(2011)等也对其进行了探索。

简而言之,目前法律英语研究已取得一定成果,但较少应用量化方法,对其中词汇进行的研究多集中于单个或单类词的应用剖析,研究尚不够深入、全面。

2 研究设计

2.1 研究问题

本文拟在已有研究基础上,针对英语法律语篇中的词汇应用情况,对以下问题进行探究:

英语法律词汇的基本统计特征是怎样的?

英语法律话语的主题词有哪些? 它们反映出英语法律语篇词汇应用的哪些特征?

2.2 研究语料

本研究所用语料为自建法律英语语料库(Corpus of English Legal Texts,以下简称为CELT语料库),语料来源为123部大陆法律和香港法律英语版本,具体包括中华人民共和国公司法、保险法、标准法、著作权法、专利法、银行法、招标投标法、中外合作经营企业法、职业教育法、信托法、刑法、消费者权益保护法等,收录法规近10万条,共计300万词。对比语料库为LOB语料库(Lancaster-Oslo/Bergen Corpus),LOB收录100万词汇,涵盖500个大约2000词的文本内容,是涵盖了多种文本类型的平衡语料库。

2.3 研究方法

本文采用WordSmith Tools 6.0对语料进行定量分析。第一,采用词表分析,统计出自建CELT语料库及LOB语料库的基本信息进行比对,以对研究问题1进行回答。第二,使用主题词分析,以自建CELT语料库为观察语料库,以LOB语料库为参照语料库,自动提取CELT语料库中的正向词汇,对英语法律语篇具体词汇应用进行剖析,以对研究问题2进行回答。

3 研究结果及分析

3.1 基本统计结果对比

词频分析是语料库计量化研究方法重要因素之一。词频涉及形符(tokens)和类符(types) 两个概念,形符类似我们日常说的“词”,而类符指语料库文本中任何一个独特的词型。比如在The damage caused thereby shall be borne by the person who built 这句话中有12个词,即12个形符;the虽出现2次,但属于同一类符,因此这句话的类符数为10。WordSmith 在统计词次时,把包含数字等符号在内的统计结果称为语料库中的所有词次(tokens running words in text),将剔除上述符号的统计结果称为用作词表的词次(tokens used for word list),故后者总是少于前者,如表1所示。

表1 CELT语料库与LOB语料库基本统计信息对比

形符/类符比 ( type/token ratio) 是衡量文本词汇密度的常用方法,但由于文本中功能词的重复出现,形符量将随文本量增大而增大,类符量则不会随之变化,因此可采取标准化形符/类符比(standardized type-token ratio)进一步计算词汇密度。本文以1,000词作为参考词数,将两语料库中的形符/类符比进行均值处理,最终得出其标准形符/类符比。

统计数据显示CELT语料库的形符/类符比为34.48,低于LOB语料库的37.40,这说明法律英语语篇是专用型文本,其有一定数量的专门集中性用词,而LOB语料库的内容覆盖面较广,因此涉及词型较多。CELT语料库的标准形符/类符比标准差为66.18,高于LOB语料库的61.88,这说明法律语篇词型差异性更大。CELT语料库的平均词长为4.84,略高于LOB语料库的4.26,二者在词长方面相差不大。

3.2 法律英语语篇中的主题词

主题词(Keyword)是一种文体标识词,其频率与其在标准语境中的频率明显不同。(Culpeper,2009)因此我们可以通过主题词的使用规律来进一步探讨法律英语语篇的文体特征。本文应用WordSmith 6.0的词表功能 (WordList),生成两个分别基于观察语料库CELT语料库和参照语料库LOB的词表,然后启动主题词功能 (KeyWords),选择对数似然率检验 (Loglikelihood statistics),将p值设为0.000001,并选取生成的前500个正向主题词进行分析。表2列出了前10个主题词的相关信息:

表2 英语CELT语料库中主题词(前10)

根据对主题词表的统计及分析,我们将法律语篇中较之一般语料(LOB)频率异常的主题词分为以下几类:古体词、情态动词、专业术语、连接词,以下部分将对这几类主题词分别开展讨论。

3.2.1 古体词

根据统计结果显示,法律英语语篇中有较多古体词的使用。古旧词汇在现代英语中已经很少使用,但在法律英语中,为了凸显其正规、严肃的特点,现代法律语篇中仍常见古体词。法律英语中常见古体词多为there/here/where+介词构成,如表3所示词根为there的古体词如thereof(由此),therein(在其中),thereto(另外),thereon(关于那),therefrom(从中)在CELT语料库中都有一定的使用量,但在LOB语料库中的使用寥寥无几。

表3 词根为THERE的古体词在两语料库中的主题词对比

例1.Provided further that this policy shall be subject to the Conditions herein contained and to any Memoranda endorsed hereon and such Conditions and part of the Policy and the observance and performance by the Insured of the times and terms therein contained so far as they relate to anything to be done by the Insured are of the essence of this contract and shall be conditions precedent to any liability on the part of the Insured under this Policy.

如在例1中,herein,hereon,therein都是典型的古体词,它们对一方面以旧词沿用的形式增强了法律语篇的权威性,另一方面以简写形式增强了法律语篇的简洁性,如herein即相当于here in,意为于此。

3.2.2 情态动词

情态动词的应用是法律英语研究中的热点之一,在法律英语语篇中,“当事人”是一个避不开的概念,其享有的权利及应履行的法律义务都是法律语言着重表达的部分,shall是表示义务职责的强制词,may是表示权利许可的授权词,[7]因此这两个情态动词与法律语言有着较高契合度,表4所示数据显示shall和may在CELT语料库中出现频率远远超过LOB语料库,因为在其他文体中较少涉及“义务”和“授权”的概念,而法律语篇正需要应用此种表达来提升其文体正式性。

表4 情态动词在两语料库中的主题词对比举例

例2.An authorized institution shall not provide to any one of its employees any facility specified in subsection (2) to an aggregate amount of such facilities in excess of one year's salary for the employee.

例3.If the hawker on whom a notice is served under sub-paragraph (a) fails to comply with any of the requirements thereof,the Council may remove the stall, or cause it to be removed, to the place specified in the notice and may recover any expenses thereby incurred from the hawker.

如例2中法律限定了经授权机构提供给雇员的融通总额,是对其义务职责的说明,因此用shall来强化其强制义务意味。

例3中法律条款表明若摊贩有违反条例行为,市政人员可将其摆摊物品移走,这是法律的一种授权行为,以明确市政工作人员的管理权力,因此用may来强化其授权意味。

3.2.3 专业术语

英语法律语篇使用了很多法务范畴的专业术语,限于篇幅,本文仅在表5列出统计结果中的部分专业术语主题词:

表5 法律术语在两语料库中的主题词对比(部分)

法务专业术语在整个主题词表中占据主导地位,以表5中列举词汇为例,其中便包括形容法律法规的article(条款)、subsection(附属条款),表示法务活动中各主体的person(行为人)、court(法庭)、company(公司),表示承担法律责任的liable(责任承担),imprisonment(监禁)等等。此外,这些法务术语多为实义词,主导着句子和语篇的语义走向,如例4所示:

例4.Any person who contravenes regulation 3 or 3A commits an offence and is liable to a fine at level 5 and to imprisonment for 6 months.

表6 连接词在两语料库中的关键词对比

在例4中出现的法务术语有7个:person(行为人)、contravene(抵触)、regulation(规章)、commit(犯罪)、offence(犯罪行为)、liable(责任承担)及imprisonment(监禁),约占句子总词数的28%,构成了法律语篇中的主要枝干,表明法规的具体意义,而其余词如any,who,or,a等等为非实义词,语义鲜明度远远低于上述专业术语。

3.2.4 连接词

统计数据显示法律英语语篇中表并列关系的or,表条件假设的unless和if相较于平衡语料使用频率更高,尤其是or的使用频率排在生成关键词表首位,在CELT语料库中的使用频率约是LOB中使用频率的11倍,这与法律语篇需要保证准确无歧义的要务是密不可分的,使用or来对多个名词或条件进行并列可有效起到加强解释的作用,以此规避可能产生的歧义和模糊,而unless和if在法律语篇中的大量使用与or的目的相同,即补充限定条件,使法律更加严谨,如例5所示:

例5.The Council may refuse to grant or renew a licence, or may revoke a licence granted,to a person if he is under the age of 21 years or if,in the opinion of the Council,such refusal or revocation is in the public interest.

例5中以多个or和if对市政局撤销或拒绝未满21岁居民申请牌照的条件进行了详尽描述,列出了所有可能条件和处理方式,尽管多次并列和条件引出会造成一定的阅读曲折,但法律语篇需保证其文字的准确性,消除可能产生的歧义,因此较之平衡文本,法律语篇中高频的并列连接词or及条件连接词是难以规避的。

结语

法律英语是专门用途英语(ESP)的一种,其诞生与演化与所在的语言生态环境密不可分,具有较强的交际功能。本文以自建法律英语语料库为观察语料库,平衡语料库LOB为参照语料库,通过基本统计特征分析和主题词分析索引探索英语法律语篇的文体特征。基于两语料库的对比统计和分析与平衡语料表明,法律英语语篇中的词汇应用较为集中化,体现了法律英语语篇的保守性,从主题词特征上看,法律英语语篇中应用的大量古体词增强了其权威性和简洁性;情态动词shall和may的使用增强了其正式性;专业性词汇引导了法律英语语篇语义走向;并列和条件假设连接词消除了可能产生的歧义和模糊。

猜你喜欢
主题词语料语料库
基于归一化点向互信息的低资源平行语料过滤方法*
《语料库翻译文体学》评介
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
《中国骨与关节杂志》2016 年第五卷英文主题词索引
基于JAVAEE的维吾尔中介语语料库开发与实现
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入