语料库证据在美国法庭应用的再审视

2014-11-21 04:26:18李文中
当代外语研究 2014年7期
关键词:意见书词典语料库

李文中

(北京外国语大学,北京,100089)

1.引言

在美国法庭对法案的解读中,针对法案中未做确切定义的概念或术语,一般采用“平义规则”(plain meaning rule),又称“字面规则”(literal rule),即词语的平常意义和用法。在英国,确立“平义”并不考虑立法者的意图。而在美国,法庭一般采用“软平义规则”(soft plain meaning rule),即通过确立“平义”推定立法者的意图(参见 Wikipedia)。传统上,法官确定“平义”的途径有两种,一是凭直觉,二是查词典。近年来,随着语料库应用的普及,律师或法官开始使用语料库寻求证据。语料库作为一种新的文本资源和语言分析方法,对观察和发现语言运用中典型的型式和意义,尤其是基于概率判断确立词语及搭配的常用结构和意义,具有极强的可靠性和说服力。在法律语言学中,利用大规模语料库,分析和研究法庭话语,或为法庭提供语言证据,逐步成为常见的实践活动。但是,如何有效使用语料库,其分析程序和步骤是否合乎语料库语言学原则,以及如何对待语料库数据,仍然是一个值得探讨的问题。本文就美国法庭应用语料库的一个典型案例,以语料库语言学视角,重新审视该案例中对语料库证据的运用。

2.案例介绍

美国电信公司AT&T参加了美国联邦通讯委员会(Federal Communications Commission,简 称FCC)的E利率计划(E-Rate Program),即由公司以折扣价为学校提供电子通讯系统设备和服务,其折扣差额可从FCC报销。2004年,AT&T公司告知FCC,其违规超收了费用,后者所属的执行局介入调查,要求AT&T准备相关资料。AT&T公司听从要求,并同意向FCC支付50万美元,执行局终止了调查。之后的2005年,代表AT&T竞争对手公司的Comptel商会依据美国联邦政府1966年颁布的《信息自由法案》(简称FOIA),向宾夕法尼亚的美国第三巡回起诉法庭提出起诉,要求FCC公开其对AT&T公司账目的所有调查文件,AT&T公司到庭并依据该法案(FOIA)第七项豁免条款第三条规定——当合理预期会构成对个人隐私的不当侵犯时,可免于公开相关信息——认为公开调查文件构成侵犯其公司的“个人隐私”(personal privacy),要求不予公布。AT&T的主要论点是,由于在FOIA法案中,公司(corporate)也被定义为“人”(person),而单词personal是名词person的形容词形,在语义上与名词同义,所以,personal privacy既指自然人的个人隐私,也指公司隐私。2009年,第三巡回上诉法庭认可了这种说法,认为FOIA法案界定的“人”既然包括了公司,则该词的形容词词义如不与其名词同义就很怪异,法案界定了名词,也就界定了其形容词①,并依此判定AT&T公司胜诉。

此后,美国总检察长艾里娜·卡根(Elena Kagan)把此案上诉到美国最高法院,认为FOIA从未被解读为保护公司的个人隐私,此案随后于2011年3月开庭重审。美国最高法院最高法官罗伯茨根据法庭意见,认为FOIA中的personal privacy并不包含公司隐私,因此推翻了上诉法院的判决②。此案审理前,尼尔·歌德法波等律师(Goldfarb et al.2010)代表“政府监督计划”(Project on Government Oversight)提交了一份“法庭之友意见书”(以下简称“意见书”),并利用语料库检索,分别论证了personal和privacy的含义,提出personal作为形容词具有自己独立的语义,在语义关系上并不直接继承名词person的语义。该“意见书”首次使用了大量的语料库文本证据,试图证明自己的结论,并成功影响法庭的判决,引起了较大反响。对此,词典学家泽墨(Zimmer 2011:1)宣称,“跟词典定义说再见,长期依赖变化莫测的语言的法庭,如今可以使用新的定量工具,以确定词语的确切含义”。

3.语料库语言学的基本原则及应用

语料库语言学对语言研究的基本原则包括:(1)语言研究应基于实际发生的语言实例,而不是孤立的或生造的句子;(2)语言学研究意义,而意义与形式不可分割;(3)应通过比较研究文本类型(Stubbs 1993:2)。应用上述原则,我们重新审视该案例中对短语personal privacy意义的确立和讨论,并探讨该案例的语言学意义。

3.1 词源、词典与词语意义

FCC首先提出,personal的平常意义就在词典中,美国韦氏词典对personal定义只包括“人”,而不包括公司。按照语料库语言学的观点,词语平常意义既不取决于词典,也不取决于词源。意义产生于交际,而交际依赖语境。词源意义仅仅反映了词语出现时最初始的运用,经过长时间在不同语境中的使用,词语意义得到反复解读和创造,其变化难以预测,所以理解词语的当前意义,不需要追溯其历史意义。在“意见书”中,歌德法波首先论证,从词源上,形容词personal的意义与名词person同源不同流,在意义上互不相关。他论证,英语中的personal一词于十三世纪借自法语personnel,而该法语词借自拉丁语personalis,是拉丁词persona的形容词形式。他辩驳说,一个词语的意义并不取决于其词源义,词义在使用中不断变化。如person来源于拉丁词persona,从词源上讲,该词在拉丁语中最早指舞台演员所戴的面具,后指演员所扮演的角色。此外,他还举出其他实例,说明词源意义与当前意义的联系非常脆弱(Goldfarb et al.2010),根据词源确定词语当前意义的做法并不可靠。莫里森(Mouritsen 2011:1939)引用斯威特(Henry Sweet)的观点,“某语言中一个词语在某一特定时期的意义,或者其在更早时间的意义,或者在其他同源语言中的意义,都不一定能确定其当前的意义”。这个观点的正确性是显而易见的。莫里森(Mouritsen 2011)指出,纯粹依据词源确定词义会导致荒谬的结果,如December的词源义是“十月”,而anthology(选集)的词源义是“花束”。

与之相关的是,词典定义作为词语意义的依据也不可靠,尤其不能根据词典去确定某个词语的主要意义或次要意义。莫里森(Mouritsen 2011)认为,人们对词典存在两大谬见,一是认为词典中的意义排序具有主次含义,二是认为词源对词义有决定性。词典中词条的意义排序依据一是词语或意义的历时产生顺序,再就是词语或意义的共时使用频率,而二者都不能确定词语的“主要意义”。他认为,词语不存在“主要意义”或“次要意义”。此外,词典中这种词语意义呈现型式也存在很大问题。语料库语言学家辛克莱(Sinclair 1991:7)对此提出批评,“传统词典乐观地把词语呈现为具有多个孤立的义项,却从不提示语言使用者在实际中如何区分这些意义”。

从语料库语言学的观点看,词语的当前意义只有在其使用语境中才能确立。换言之,理解某一词语的意义,只需分析其所在语境,而不需要追溯其历史。辛克莱指出,“每一意义都与一种独特的型式相关联”,“形式与意义绝无分割”(同上:6-7)。按照托伯特(Teubert 2003)的观点,词语意义是人们对该词语的叠加解释(interpretation),其结果是文本(李文中2010),所以文本是语言使用的可靠证据源。但这也为词语意义确立带来了很大的不确定性。因为如此一来,需要大量的实例,尤其是同一词语在相似语境中的使用实例,来归纳和确立某个词语的常用意义。

3.2 词性变化与词语意义

针对AT&T公司关于personal只是名词person的“形容词形式”,其意义必定与该名词定义保持一致的观点,歌德法波也进行了反驳。他认为personal一词在长期的运用中已获得了自己独立的含义,其意义与名词大不相同。歌德法波试图论证,尽管在FOIA中,名词person(个人)也可以指corporate(公司),但该义项并不能影响到形容词personal的意义。歌德法波考察了personal运用的多个搭配语境,从而证明该词主要指具有生物属性的“人”,而不是公司。这项论证所隐含的语料库语言学观点是,传统上对词语屈折变化的划分,似乎假定词语的形式变化并不影响词义的稳定,在语言实际运用中不能得到验证。辛克莱指出,语料库证据对传统语言学中许多想当然的观点提出了挑战,其中之一就是形态学及词语形态还原(lemmatization),“任何一个单独的词形都是一个潜在的独立词语单位,而这些词形只有在运用中具有极相似语境时,才能合并还原”(Sinclair 1991:7-8)。

歌德法波还提出了一系列证据,证明形容词意义并不依赖与其相关联的名词意义,如:actual—act、crucial—crux、local—locus、partial—part、special—species、usual—use、verbal—verb、virtual—virtue(Goldfarb et al.2010:8)等。这些词语与其对应的名词意义各不相同。值得注意的是,歌德法波所举出的与名词相对的形容词实例并非名词的屈折变化形式,而是派生词,与案例中所讨论的问题并不相同。一个原形词的各种屈折形式在用法和意义上可能相互区分,也可能意义相同,这要取决于运用型式和语境。

词形和意义的型式关系是语料库语言学的一个重要发现,而这一发现对英语语言研究及学习具有深刻的意义。在英语教学中,我们习惯把词性作为主要依据,注重学生对词语原形及所派生的各种屈折形式的背记和学习,而不去区分那些不同的词性在用法和意义上的差异。在语料库研究中,辛克莱(1987,1991,2004)发现,一个原形词不同的屈折形式在语料库中不但分布极不均匀,其用法和意义由于语境的变化而存在极大差异。这就意味着,在外语学习中,真正把握一个词语的意义,需要在其具体的运用语境和搭配中观察和分析,孤立地背记单词及其“对应的”的词意甚至翻译,是非常不可靠的。然而,辛克莱并不完全否认词语形态还原的价值,但强调形态还原的前提条件是“大量相似的语境”,相似的语境使不同可还原的词形在语义上也具有相似性。所以,在当前讨论的案例中,歌德法波等所提出的形容词personal与名词person意义完全无关的看法,其论据并不充分。尽管他援引了大量同类证据,却未能就FOIA这一关键文本以及其他法律文本进行分析。

3.3 语料库证据与词语搭配

歌德法波等的“意见书”接着使用语料库验证自己的观点。他们使用的语料库有三个:《时代》杂志语料库(自1923年至2009年,1亿词)、当代美国英语语料库(以下简称COCA,4.5亿词)、历史美国英语语料库(以下简称COHA,自1810年至2000年,4亿词)。其方法是,首先查找语料库,观察personal作为修饰词所修饰限定的名词,以名词为线索分析personal的语义,以验证其主要语义属性是“人”而不是“公司”,其语料检索范围分别为COHA、COCA,以及《时代》杂志语料库中,十九世纪50年代至90年代与二十世纪初至二十世纪90年代以personal为关键词的短语搭配。结果发现,personal右面最常见的搭配词为life、computer、experience、relationship、responsibility、information、trainer、communication、use、finance、history、income、interest、level、problem等(COCA语料库),通过这些短语,“意见书”论证了该词在不同的搭配中意义都指向“人”,而不是“公司”。第二步,“意见书”还检索了三个语料库中privacy的指称搭配词,如his、their、your、her、our、my、its,认为除了最后一个词its,其他的词都是指人。

作为“意见书”的核心部分,其对语料库的使用值得我们进一步的讨论。其一,由于“意见书”是根据词语的常用意义来推断美国国会的立法意图,其对语料时间的框定是值得商榷的。词语意义是不断变化的。如果“意见书”否定词源对词义的先决价值,某一词语在给定时期的意义也同样不能作为该词当前含义的依据;对该词的运用意图也不能以某一个时间点为依据,而忽略之后立法者在各种修正案和法案中对同一词语的运用。从语料库语言学视角看,某一词语在1970年代的意义并不能反映该词在当前的含义。词义在变化,美国立法者的意图也在变化,各种修正案就是明证,所以不能以最早的法案为原点,观察和推测当年立法者的意图,还要参照该法案颁布以来,该法案的各种修正案以及其他法案中该短语的运用证据。通过某一词语以前的意义,来确立该词语当前的含义,无异于刻舟求剑。为说明问题,我们以personal privacy为关键词,分别检索COHA和COCA两个语料库,可统计出该短语在各个时间段上的分布(见图1、2),下图中第一行为年代,每10年为一个统计段,第二行为该短语的生频数,第三行为标准频数,及每百万词出现的词次。从图中可以看出,该短语在1960年前,其使用标准频数都低于0.1/百万词,从2000年开始,该短语使用频率增长,并在二十一世纪初达到最高值,说明该短语到了二十一世纪后才得到更普遍的应用,如果确定其“平义”,应参照最近的语料,并通过对比才能得出较为可靠的结论。

图1 personal privacy短语在COHA中的历时分布(http:∥corpus.byu.edu/coha/)

图2 personal privacy短语在COCA中的历时分布(http:∥corpus.byu.edu/coca)

其二,词语搭配具有很强的语境依赖性,且对文类高度敏感。通过对COCA检索发现,personal privacy在5种文类中分布很不均匀,主要集中在报纸、学术和口语等3种文类,虚构文类中使用最少(图3)。由于本案例属于法律文本,其他文类中该短语的意义只能作为参照,而不能作为直接证据。辛克莱(Sinclair 1987,1991)指出,语料库的重要用途之一,就是跨库对比,尤其是不同文类之间的对比,通过对比,才能识别语言中那些核心的、典型的特征。由此可见,所谓“平义”原则在实践中存在极大的解释空间,即应该选择哪一种文类或语言使用群体的平常意义?把不同类型的文本放在一起,抽取某一个短语搭配,并以此确立其意义,无论其意图如何,结论很难令人信服。所以,抛开美国的法律惯例不谈,纯粹从语言分析角度看,确立personal privacy平常意义的最直接证据,不是那些离法律文本甚远的普通文本,而是同质的法案文本。

图3 COCA中personal privacy在文类中的分布

其三,语料库语言学的一个重要观点是,短语搭配的意义是独立的,与短语中个别词语意义关联不大。“意见书”试图通过观察personal及privacy分别与其他词的搭配,来证明这两个词在personal privacy短语中也具有相同的含义,这显然与短语分析的意旨相去甚远。比如辛克莱意义单位分析的两个经典案例“naked eye”和“a free hand”(参见Sinclair 2003,2004),如果把这两个短语拆开,其中任何一个词在其他短语中的意义,并不能证明其在当前短语中的意义。此外,“意见书”从语料库中抽取的搭配短语都是脱离语境的两词搭配,不经过索引行分析,不借助短语所在的语境,仅看孤立的短语搭配很难确定该短语的意义及型式。以“意见书”中对privacy的搭配词统计为例,如果不深入索引行进行观察和分析,如何确定所列举的那些指称词语都是指“人”的呢?

其四,我们在“意见书”的语言验证和分析整个过程中没有看到反证。“意见书”的作者先后通过词源分析、词性分析、词典征引(此三种方法对于确定词语意义中的价值作者同时也予以了否定)、语料库证据检索以及案例引用,其方法无论是否有效,都无一例外地指向对作者观点有利的论证,有个别的相反证据,也是一笔带过,从不提供数据说明。比如,针对“意见书”中通过privacy的搭配而得出的结论,即拥有“隐私”的只有“人”而不是公司,我们通过Antoinette Renouf教授的网络语料库(WebCorp)检索“corporate privacy”,共检索了43,5000个网页,并从中抽取64个网页,WebCorp成功访问了其中49个网页,并生成123个索引行③。其出现时间为:2000年(1次)、2004年(1次)、2005年(4次)、2008年(1次)、2009年(7次)、2010年(12次)、2011年(7次)、2012年(20次)、2013年(58次)、日期未知(12次)。下表为部分索引行④:

61:Sign up for our publications and other resources Corporate Privacy Rules:Moving Toward A Global Solution Miriam 62:use of global or enterprise-wide privacy rules(“Corporate Privacy Rules”)as a way to correct the problems faced 63:international privacy regime.The concept of Corporate Privacy Rules is based on the notion of accountability—64:assumes responsibility for protecting the data.Corporate Privacy Rules are not a new concept;rather,they are an 65:that will enable organizations to implement Corporate Privacy Rules as a global,rather than a national or 66:taking the necessary internal steps to develop Corporate Privacy Rules so that when there are a sufficient number 67:a U.S.consumer.The Emerging Global Solution:Corporate Privacy Rules Given the problems inherent in the 68:in the existing approaches,the concept of Corporate Privacy Rules is emerging as a new and better approach 69:are bound to protect the data according to the Corporate Privacy Rules adopted by the organization.Data may then 70:the information(violating the organization’s Corporate Privacy Rules).Rather than force the individual to 71:the authorities in the jurisdiction in which its Corporate Privacy Rules were approved or certified.As discussed 72:of activity or in which it is headquartered).Corporate Privacy Rules offer significant benefits to individuals.73:of multiple contracts.For the company,use of Corporate Privacy Rules would reduce the compliance,training,and

(续表)

这个结果至少表明,在语言运用中,corporate(公司)也是privacy的一个较常见的搭配词,并不像其作者所说的,“这种用法非常罕见”。不过,在4.5亿词COCA中检索这个短语,只获得2例,而且其中一例还是对本文所讨论的案例报道;而在4亿词的COHA和1亿词的《时代》语料库中则一例也没有。可能的原因有两个,一是语料库还不够大,再就是语料库的结构或许不利于所检索的短语。此案例也反映出语料库研究的一个重要问题,那就是“说有易,说无难”。美国前国防部长拉姆斯菲尔德曾经说过,“那些总是说有些事没有发生的报告总让我感兴趣,因为我们知道,有已知之知;即有些事我们知道我们已经知道了。我们也知道还有已知之未知,即我们知道有些事我们还不知道。但还有未知之未知,即那些我们不知道自己不知道的事”。语料库中没有的东西不代表语料库外就没有。这也是语料库研究者需要时刻警醒自己的。

4.小结

本文并不试图否定或者验证该案例中通过语料库证据应用得出的结论,而是通过语料库驱动视角重新审视其对语料库的使用方法,尤其是分析程序和步骤。实际上,该案例在2010年前后在美国引起了广泛的讨论,对“个人隐私”与“公司隐私”的区分和主张,既是一个法律问题,又是一个社会政治问题。本文的视角仅限于该案例中的语言意义以及语料库应用。使用语料库的态度大致可分为两种:一是把证据当作数据,即观点和理论是先存的,通过语料库检索和分析获得证据,以支持和验证已有的观点,证据成为数据;再就是把数据当作证据,即针对某一问题直接观察语料库文本,通过文本分析获得观点或理论,数据成为证据。前者在语料库应用实践中具有很强的预设性和目的性,其目标是寻找证据,语料库的作用在于是否能提供充分证据;后者在分析前并不预设任何观点和理论,而是通过语料库分析归纳出观点或理论。尽管语料库作为一个功能强大的方法和工具,在语言相关的理论和实践领域得到愈来愈广泛的应用,但并不是仅仅因为使用了语料库,就能保证结论的可靠性。关键的问题是,语料库是怎么被使用的。

附注

① 参 见 Opinion of the Court [OL].http:∥caselaw.findlaw.com/us-3rd-circuit/1194481.html。

② 参见FCC v.AT&T INC.(No.09-1279,2011)[OL].http:∥supreme.justia.com/cases/federal/us/562/09-1279。

③ 感谢贾云龙就此例对WebCorp进行了重复检索,并从技术角度解释了检索结果:“因为GoogleAPI仅仅返回极小一部分Google的检索结果,此例约64:432000,所以如果是在整个Google中检索,返回的结果要远远多于WebCorp中的数据”。本人通过Google检索“corporate privacy”这个短语,获得1030000个结果,是 WebCorp索引行的8373倍,从而验证了贾云龙的解释。

④ 此为2013年3月17日22:07检索http:∥www.webcorp.org.uk/live/search.jsp所得。

Goldfarb,N.,M.S.Zaid,S.Amey,S.Chance & C.Hitchcock.2010.Brief for the Project on Government Oversight,the Brechner Center for Freedom of Information,and Tax Analysts as Amici Curiae in Support of Petitioners [R/OL].[2013-03-17].http:∥www.americanbar.org/content/dam/aba/publishing/preview/publiced_preview_briefs_pdfs_09_10_09_1279_PetitionerAmCuPOGO_BrechnerCtr_andTaxAnalystsnew.authcheckdam.pdf.

Mouritsen,S.C.2011.The dictionary is not a fortress:Definitional fallacies and a corpus-based approach to plain meaning [OL].[2013-03-18].http:∥papers.ssrn.com/sol3/papers.cfm?abstract_id=1753333.

Sinclair,J.McH.1987.Looking Up [M].London:Collins.Sinclair,J.McH.1991.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press.

Sinclair,J.McH.2003.Reading Concordances:An Introduction[M].London:Pearson Education.

Sinclair,J.McH.2004.Trust the Text [M].London:Routledge.

Stubbs,M.1993.British traditions in text analysis:From Firth to Sinclair[A].In M.Baker,G.Francis & E.Tognini-Bonelli(eds.).Text and Technology:In Honour of John Sinclair [C].Amsterdam:John Benjamins.23-24.

Teubert,W.2003.Writing,hermeneutics,and corpus linguistics[J].Logos and Language 4(2):1-17.In W.Teubert & R.Krishnamurthy.2007.(eds.).Corpus Linguistics:Critical Concepts in Linguistics [C].London & New York:Routledge.134-59.

Zimmer,B.2011.The Corpus in the Court:“Like Lexis on Steroids”[OL].The Atlantic[2012-11-28].http:∥www.theatlantic.com/national/[03/4/2011]archive/2011/03/the-corpus-in-the-court-like-lexis-on-steroids/72054/.

李文中.2010.语料库语言学的研究视野[J].解放军外国语学院学报(2):37-40.

猜你喜欢
意见书词典语料库
《语料库翻译文体学》评介
米沃什词典
文苑(2019年24期)2020-01-06 12:06:50
难忘那份监督意见书
人大建设(2019年8期)2019-12-27 09:05:28
评《现代汉语词典》(第6版)
词典例证翻译标准探索
把课文的优美表达存进语料库
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
张某拐卖儿童案公诉意见书
《胡言词典》(合集版)刊行
当代修辞学(2013年4期)2013-01-23 06:43:10
语料库语言学未来发展趋势