基于语料库方法在同义词辨析上的应用

2013-06-19 01:06
关键词:词项频数连词

徐 鹏

(安徽工程大学,安徽 芜湖 241000)

一、引言

“同义词是自然语言中最显著的特征之一。指的是语言中读音和拼写都不相同,但意义接近或相同的词”[1]。然而就此定义而言,仍有很多的漏洞,仅关于何为词义(word meaning),且词义中的内涵就引发许多分歧和争议。加上词义有很多方面,各方面完全同义的词是不存在的。“同义”只是相对的概念。Collinson使用9个准则阐述同义词各方面差异[2]:1.具体程度;2.强烈程度;3.感情程度;4.感情色彩;5.专业化;6.文学性;7.地域,方言差别;8.文体差别;9.儿童语言。

以上的9个层面可以简单概括为四个方面:1)语义范围和程度不同;2)文体风格不同;3)感情色彩不同;4)搭配应用不同[2]。由此可见,同义词辨析牵涉到的层面复杂,因而也成为中国英语学习者一个非常棘手的问题。传统的解决方法是借助于“同义词辨析词典”之类的参考书,书中试图详细列举各个词项的用法,在信息技术不发达的时代倒也不失为一种有效的捷径。而该类方法的缺点在于:限于篇幅,举例不充分,述理难理解,且辨析词组合不能满足学习者的需要。而英文版的同义词辨析参考书,如《韦氏同义词词典》,选词上存在“错位”:即英美人认为是同义需要区别的词,中国学习者不认为是同义词;而中国学习者认为需要辨析的,英美人却不认为是同义词。 如 《韦氏同义词词典》 将provoke,excite,stimulate,pique,quicken列为同义词,则出乎中国学习者的意料。

20世纪末,随着计算机技术的突飞猛进和大型的英语语料库的创建,语料库语言学立足于大量的真实数据成为了一个独立的学科,给语言学,尤其是应用语言学的研究开创了一个新的时代。而大型语料库的建立,也为同义词辨析开辟了新的方法。通过大量的真实文本的数据观察和统计,进而得出结论,很好的做到定量分析和定性分析的结合。从直观的大量例子中归纳出词之间的差别。语料库语言学的方法主要是通过频数、搭配、类连接、语义韵等方面来分析词项,是传统的词义辨析有益的补充,打破了传统词义辨析的局限。

二、传统参考书对原因词系的辨析

为了更好地展示语料库技术的优势,我们以英语学习中常见原因系词和词组为例分析说明语料库技术在同义词辨析中的应用。根据Collins词典中的thesaurus功能,以because为原型, 其同义词或词组有 since,by reason of,in that,on account of,owing to,thanks to等。 再根据中国学习者的习惯,加上 for,due to,because of,as a result of等词和词组。根据用法,可初步将其分为两大类:1.后接从句。如because,since,in that,for。 2.后接名词性短语。 如 by reason of,on account of,owing to,thanks to等.然而篇幅限制,在此我们只能选取部分典型词语和词组来加以分析。

传统词汇辨析书上对于because,since,for等连词的用法区别都给予详细的辨析和解释。作为国内权威的参考书,《英语同义词近义词例解词典》指出[3]:

三词均可引导原因状语从句。because指直接,明确的原因和理由;for常用于书面语,比because正式,但原因,理由不如because直接,该词所引原因或解释相对独立,常放在主句之后。since“既然,由于”,不如because正式,所表示原因不如because直接明确,带有很大的偶然性。

另一本权威语法参考书《英语常见问题解答大辞典》却认为[4]:

because指的是道德的或自然的原因,而for指的是逻辑上的理由。但对于英语更高级的读者,应该知道for也可以表示原因或理由;since从句主要用来表达听者或读者已知的原因,即表达已知信息。根据此语义特点,since不能用来回答why。

两本书对三个原因连词的使用给出了定性的说明,却均未提及in that的比较。且第一本书的解释让人读罢愕然。“直接”,“偶然”等字眼,对英语初级学习者来说难以把握。第二本书的解释也从语义上进行辨析,但仍然不彻底。较之两本书的解释各异,学界对这类词的差异仍没有统一的界定,给学习者带来困惑。所以,除了依赖这种直觉上的内省定性法,我们还需要通过对大型语料库的检索,来发现隐藏在大规模数据中的用词特征,来弥补内省定性辨析的不足。

三、基于语料库对原因词系的考查

在选择语料库上,我们采用英国国家语料库网络版BNCweb,因为无论从专业性,规模性,权威性上其都是无与伦比的,并且网络版的附加功能能够帮我们更好地统计出词汇使用各方面的数据差异。通过对大型语料库BNC检索,我们将从各词的语域分布,搭配,语义倾向等方面分别考查其用法:

(一)原因系连词的使用差异

1.根据上述参考书中的解释可得知:because的用法限制很少,似乎使用最为自由,从使用频率上来看,在BNC中,because在3,731个文本中出现共计100,480次,而since作为连词只出现2,667次;for作为连词出现频数也只有区区81次。如此之大的频数差异在两本参考书中却未被提及。其次我们设定左跨度为1检索BNC中because的搭配,发现其呈现出强烈的搭配倾向。通过对数似然率排序得知:because搭配强度最高的是“,”,似然率高达1584.74,说明because通常引导从句,置于主句之后,而非句首。 继而是partly,似然率值为584.58,第三位的simply,搭配强度明显下降,似然率值为277.73。由此可以看出partly,simply常作为修饰because的前置副词与之搭配,却从不与for和since进行搭配。若想表达部分原因使用partly because,而为了突出原因的直接、干脆,则加上simply以作强调。而这些在传统词汇辨析书中均未涉及。

表1:三个原因连词在BNC中频数比较

2.在BNC中for作为连词出现只有区区81次,我们筛选作为原因状语从句连词的for进行检索,选择前50句进行观察,发现:1)for鲜有放在句首表示原因。有个别for置于句首,实乃作为原因从句承接前一句。绝大部分的for均置于主句之后。这一结果验证了同义词辨析词典中对于for“常放主句之后”的断定。2)通过分布功能可以看出:for作为原因状语从句连词,在BNC书面语料库中每百万词频数 (标准频数)为0.89;而在口语库中仅为0.29,且908个文本中只有3例。且进一步考查这三个例子,发现例1中for作为停顿标记词,例2语法和语义上都无法判断,属于非标准英语表达;例3是牧师布道时的语言,带有书面语的性质。因此可以判定,for作连词引导原因状语从句的另一大特色是用于书面语而不是口语。偶然作为语言变异出现在口语中。

例 1.…night,bless mummy and dad die for,sweet for[pause]she's got what it takes,she's everything that the boy really rate,oh [pause]cutie,my tooty fruity,my heart,my love [pause]she's oh,oh right,she's got just what it takes,she's got what it takes and with a boogy,really,really rates,oh,oh,oh,oh,yo,oh,oh,oh[pause]…

例2.What have you got this for she goes?

例3.And we indeed,justly,for we are receiving what we deserve for our deeds,but this man has done nothing wrong.

3.对于“since后面所接内容,表示已知信息,因此不能用于回答why”。为了检验该论述,我们设定since作为连词,考查其左跨距为10的搭配词,发现只有三例有why。进一步观察发现这三例中since从句均非对why问句的回答,由此验证了《英语常见问题解答大辞典中》关于since用法的解释,即since不能用于回答why提问。

4.关于in that这个短语,我们通过词性符码PRP CJT筛选出作为原因状语从句引导词的in that,其在书面语中的比例远远高于口语。标准频数比例为6.66:2.79。且在学术性文章中比例较高,在小说和诗歌文学体裁中较少,且在口语谈话中的出现频数为零。由此可见,in that常用于正式的书面文体当中。

从年龄分布上看,in that的使用者15~24岁居多,标准频数为 12.9而值得注意的是0~14岁的使用者频数为 0,即BNC语料中并未出现0~14作者使用in that的状况。由此可以看出,in that对于儿童来说,难度较大,不易被掌握。

再通过concordance的例句观察,我们发现,in that后引导的原因状语从句与前面的主句之间有时并非强烈的因果关系,不像because引出的是自然的、道德上的、直接、明确的原因。in that引导的从句很多情况下是对前面一个描述、叙述、或结论的一个解释,以支持前面主句命题的成立。例如:

1)Row thorn’s argument is important,in that it highlights an irony of capitalist socialization.

2)The scheme is highly flexible in that no external examination is imposed at the end of the course and teachers are free to design the details of the courses.

3)The ILEA was unique in that it dealt only with education,whereas all other local authorities have education alongside other local government responsibilities,such as housing,transport and social services.

(二)原因系短语语义韵差异

传统词汇辨析参考书不太注重分析词汇的语义韵,语义韵这一术语是Sinclair(1991)借用Firth曾经使用“音韵”一词而新创的一个语料库语言学的术语,指某些词语由于经常与具有某种语义特征的语言单位共现而被赋予的一种语义色彩。由于这些具有相同语义特点的词项与关键词项在文本中高频共现,后者就被“传染”上了有关的语义特点,整个语境内就弥漫了某种语义氛围。[5]语义韵存在消极的(negative)、积极的(positive)以及中性的(neutral)三大类。消极语义韵里,关键词吸引的词项几乎都具有强烈或鲜明的消极语义特点,使整个语境弥漫浓厚的消极语义氛围。积极语义韵的情况正好相反,关键词吸引的几乎都是些具有积极语义特点的词项,由此形成一种积极语义氛围;在中性语义韵里,关键词既吸引一些消极语义项,有时也搭配一些积极语义项,语义色彩不明显[6]。在词汇的学习上,语义韵这类隐藏的特征常常被忽略,导致中国学习者遣词造句时的不地道。我们这里以owing to,thanks to,because of为例,来辨析三者语义韵上的差别。我们在BNC中分别列出三个词组的共现例句,随机选取前50句进行观察。由于篇幅限制,只列举部分如下:

1.Cameraman.Thanks to his hobby some splendid pictures of his son and daughter’s

2.Ordinary school.Thanks to his vigorous and far-seeing headmaster,it also found

3.Easily accessible,thanks to the jukebox revolution.Even if the observation

……

1.not always clear owing to the limitations of the human body and its

2.usually be small owing to cost(a minimum of 16K depth)

3.accommodation.Owing to the extremely high inflation

……

1.Be subject to tax,because of the various tax allowances you enjoy

2.In their arguments because of a current of polemic with which a reader may not

3.Since 1911,because of the loss of life in the 1914-18 war,

通过随机选取的样本,我们发现,尽管三个词组都后接名词,但是名词的语义色彩却有明显差别。Thanks to后面搭配的名词如: hobby,vigorous far seeing headmaster,splendid pictures,backing,revised policy等色彩积极的词项,鲜有意义消极的词项。Owing to后面搭配的名词包括limitation,cost,high inflation,sustained competition,radioactivity 等 消 极 意 义 的 词项,尽管也有university,copyright等中性词项,但是鲜有积极的词义项。而because of后面的词项只有如loss of life,bias,poison 等消极词项, 以及 this,current,structure,the middle 等中性词项,而鲜有积极、欢快词项。这类特征在传统辨析参考书中鲜有提及,因此实在值得学习者注意。

四、总结

以上对BNC的利用,有效地展示了同义词辨析中语料库技术的强大辅助作用。所以,尽管同义词的辨析是英语学习中一个很重要也很棘手的部分,所涉及的方面细致复杂,且传统词汇辨析参考书只在语义、用法、文体、感情色彩等方面给予概括性的描述。但在计算机技术高度发达的今天,完全可以通过语料库技术来检查辨析词汇的语体、语域分布、搭配、语义韵特征,进而在真实的语料环境下全方位、多角度来考察词项之间的细微差别,发掘这些隐含在大规模数据中的暗含特征。

[1]The Merriam-Webster Dictionary of Synonyms and Antonyms[M].Massachusetts:Merriam-Webster,Inc.1992.

[2]张维友.英语词汇学教程[M].武汉:华中师范大学出版社,2006.

[3]胡壮麟.英语同义词近义词例解词典[M].北京:北京大学出版社,2000.

[4]赵振才.英语常见问题解答大辞典[M].哈尔滨:黑龙江人民出版社,1999.

[5]卫乃兴.基于语料库学生英语中的语义韵对比研究[J].外语学刊,2006,(5).

[6]王璇,任培红.基于语料库的英语同义词辨析[J].河南理工大学学报,2009,(10)1:128-132.

猜你喜欢
词项频数连词
奥卡姆和柏力对简单指代划分的比较*
连词that引导的宾语从句
自然种类词项二难、卡茨解决与二维框架
表格大团圆,连词学得全
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲
西夏语中的对比连词 djij2
频数和频率
盗汗病治疗药物性味归经频数分析
依据语篇中多层次信息的句法分析方法