搭配对句子处理的影响初探

2012-12-04 09:41
当代外语研究 2012年10期
关键词:互信息语料库题型

郭 茜

(清华大学,北京,100084)

1.引言

在各种自然语言处理系统及作为外语/第二语言的英语(EFL/ESL)教学中,搭配已受到越来越多的关注。不过,英语教学以及电脑辅助语言学习(Computer Assisted Language Learning,CALL)更多强调搭配在语言产出中可能发挥的重要作用,而较少考虑搭配与语言理解/处理的关系。本文简要回顾有关搭配的定义及现有对搭配的研究,并初步探讨搭配对于涉及句子处理的英语测试结果可能存在的影响。

2.搭配的定义

对于搭配并没有统一的定义,最广义的定义是词汇的同现(co-occurrence)(如Sirinaovakul & Chancharoen 2002;Williams 1996)。在语料库语言学中具体定义为:基于各单词的词频,单词组合出现的频率高于预期概率的,即为搭配(Mason & Platt 2006:159)。但基于频数的方法会将his eyes和eyes were识别为搭配(Hardy 2004)。但这种意义上的搭配或多或少是一种自由组合。

另一种定义要严格得多:视为搭配的单词组合,其意思难以从各单词的意思推断(DeMark & Behrens 2004)。此意义上的搭配近似于习语(idiom)。

第三种定义将搭配定义可以从构成词汇的意思推断出其含义的单词组合,但其中至少一个组成单词不能随意选择(Benson,Benson & Ilson 1997;Chan & Liou 2005;Cowie 1994;Nesselhauf 2003;Nesselhauf & Tschichold 2002)。以do damage (to)和make a complaint为例,它们的意思一目了然,但究竟用do还是make,却不能随意选择。

鉴于本文的重点是搭配对测试结果可能具有的影响,所以采用第三种定义。自由组合可能太过普遍,以致不能真正促进或妨碍语言的理解与产出。另一方面,英语测试中考查句子处理能力多使用完成句子一类题型,这些题型很少在选项(干扰项或正确答案)中涉及习语。相比之下,将搭配的一部分(如搭配resolve a dispute中的resolve)从完成句子题的题干中取出,用作正确答案或是干扰项,却是比较常见的。

在进一步研究完成句子题中的搭配对考生成绩可能产生的影响前,下面先简要回顾不同领域里对搭配的研究。

3.现有关于搭配的研究

搭配在CALL系统中经历了从忽视到广受关注的过程。Nesselhauf和Tschichold(2002)相信,对语言学习者最具重要性的多词单元(multi-word units)中,搭配占据一席之地。她们研究操德语的英语学习者在市面上能够购买到的CALL英语词汇系统,考察这些系统在多大程度上能帮助英语学习者学习搭配。结果发现,在所有调查的系统中,唯一强调搭配的系统所编辑的练习项目对目标使用人群没有太大用处。不过近年来,随着教育者对搭配在语言学习中重要性的认识逐步加深,也随着搭配教学经验的逐步积累,状况得到了很大改善。例如,Wu,Franken和Witten(2010)介绍了一套基于数字图书馆的搭配学习系统,该系统利用自然语言处理技术自动识别输入文件中的搭配,并在教师监控下,自动生成练习供学生训练。Chang等(2008)开发了一套旨在辨识并纠正台湾英语学习者由于受母语影响而产生的动词名词错误搭配(miscollocation),这套系统还提供能与相应名词搭配的动词列表,供学习者选择。Chen(2011)也介绍了一套类似系统。

不少英语词典现在也越来越重视搭配。早在1997年出版的TheBBIDictionaryofEnglishWordCombinations列出了大量在名词前可以使用的动词和形容词搭配及在形容词前面可以使用的副词搭配等,对于广大英语学习者在进行英语写作时的选词非常有帮助。现在的朗文系列词典(如LongmanDictionaryofContemporaryEnglish)也在很多词条下加入了搭配用法。

与此同时,搭配作为词汇学习的一个重要组成部分,也受到EFL/ESL教师越来越多的关注。他们意识到,搭配是一种重要的外语知识类型,并且对英语学习者造成了学习困难(Chan & Liou 2005;Nesselhauf 2003)。有鉴于此,不少教师和研究人员指出,应该将搭配作为整体讲授,而不是单教组成搭配的每个孤立单词(Chan & Liou 2005;Ellis & Sinclair 1996;Nesselhauf 2003;Nesselhauf & Tschichold 2002)。此外,还应帮助EFL/ESL学习者认识到搭配确实存在,并且具有跨语言差异(Nesselhauf & Tschichold 2002)。部分英语教师已经有意识地在教学中专门引入搭配训练,收效普遍不错(Chan & Liou 2005)。

关于搭配的现有研究多数着眼于分析英语学习者容易出现的搭配错误以及如何帮助学习者扩展搭配知识,往往更多注重搭配在语言产出中的作用,而忽视在语言处理/理解中的作用。诚然,搭配与习语不同,能从组成词的意思推断其意,所以比较容易理解。但语言理解不仅仅涉及识别搭配,了解其意;搭配还可能对句子处理产生语境效果/启动效应(contextual/priming effect),这对于涉及句子处理的测试题型影响尤其大。搭配对句子处理的影响,鲜少有人研究,对涉及句子处理的测试结果的影响,则更是缺乏研究。进行这些研究,能填补相关的文献空白,研究结果对测试出题人员也有借鉴作用。

4.搭配与句子处理的关系

对于语言熟练使用者(如本族语者或是外语水平很高的语言学习者)和非熟练使用者,搭配在句子处理中所起作用可能不同。对熟练使用者而言,组成搭配的一部分形成一种信号,提示另一部分可能会出现。搭配越强,这种提示效果(cuing effect)也越强。换言之,搭配能通过提供语境影响语言熟练使用者的句子处理,并且这种语境效果的强度与搭配的相对强度相关联。

不少研究人员考察了搭配的语境效果。Williams(1996)证实搭配确实具有语境效果:搭配的一部分会启动激活与其语义相关的另一部分。Abu-Rabia(2003)也发现,单词(如clearing)可能激活长期记忆中的搭配(如forest clearing)。Miller(1999)、Sirinaovakul和Chancharoen(2002)以及Trost等人(2005)对于搭配的语境效果都有类似结论。这些研究显示,组成搭配的一部分出现时,可能会通过触发搭配,使得语言熟练掌握者对还有可能出现的另一部分有所预期,从而提高他们完成句子处理任务的表现。

搭配对句子处理的影响还可能因搭配的相对强度而不同。Ellis(2006:1)认为,“语言学习者是依靠直觉的统计学家”,“人类的学习对于频率具有敏感性:遭遇刺激因素的次数愈多,对其处理就愈快愈准确”(5)。因此,与相对较弱的搭配相比,相对较强的搭配出现一部分时,语言熟练使用者更容易联想到搭配的另一部分,搭配语境有助于他们完成句子处理任务。

搭配的相对强度有多种评估方法(Futagietal.2008;Li & Wong 2003)。其中一种常用方法是计算互信息(mutual information)(Hardy 2004;Trostetal.2005)。这种方法由计算语言学家Church和Hanks(1990)提出。假设两个单词(w1和w2)在某一语料库中出现的词频分别为P(w1)和P(w2),它们的联合概率为P(w1,w2),则两个单词的互信息定义为:

互信息测量两个单词间的关联,即搭配的相对强度。

下面以美国大学理事会(College Board)在学术能力评估测试(Scholastic Achievement Test,SAT)网页所给完成句子题型的例题①为例加以说明:

Hoping to ________ the dispute, negotiators proposed a compromise that they felt would be ________ to both labor and management.

(A) enforce...useful

(B) end...divisive

(C) overcome...unattractive

(D) extend...satisfactory

(E) resolve...acceptable

这道题的五个选项中,有三个选项的前半部分表示“使(纷争)消除”(即选项B、C和E),其中选项E为正确答案。这三个选项中,即使仅基于简单的谷歌搜索,也能计算发现,选项E所涉及的搭配(resolve a dispute)要比另两个选项涉及的搭配(end a dispute和overcome a dispute)互信息得分高,为更强搭配(这也与英语熟练使用者的语感直觉一致)。表1显示谷歌搜索结果数量。其中名词dispute的数量为搜索dispute和disputes的结果总和;每个动词的数量包括搜索动词原形、动词的现在分词、动词的过去式和过去分词的结果总和;动词+dispute则包括动词的上述几种形式分别接“a dispute/disputes/the dispute/the disputes”的搜索结果数量总和。

表1 谷歌搜索结果数量

在谷歌中搜索a和the这两个英语中最常见的单词,搜索结果数量都为25,270,000,000,将表1中搜索结果数量除以此数,估算词频和联合概率,再套用公式(1)计算三个搭配的互信息得分。从表2显示的结果可以看出,end+dispute和overcome+dispute的互信息得分相近,都明显低于resolve+dispute的互信息得分。

表2 基于谷歌搜索的搭配互信息得分估值

由于resolve a dispute的互信息得分比另两个搭配高,我们可以预测,与resolve为干扰项、overcome或end为正确答案(即弱搭配为正确答案)的情形相比,像该题这样,正确答案中用resolve(强搭配)时,英语熟练使用者平均答题时间会更短,正确率会更高。在考试有时间压力时,可能尤为如此,因为考生可能希望利用试题包含的线索缩短答题时间。

以上的搭配影响分析对象都是英语熟练使用者。他们与非熟练使用者之间存在搭配知识(包括对搭配强弱程度的认识)上的差异。Nesselhauf和Tschichold(2002:252)指出,搭配是本族语者语言知识的重要组成部分,却对语言学习者造成困难,因为搭配似乎并不是自动学会的。事实上,搭配知识方面的差异不仅存在于中国大学生和本族语者间,也存在于处于不同英语水平的英语学习者间(黄晓勤2007;李素枝2011;王海华、周秀娟2011;武光军、王克非2011;尹小玲2009;张文忠、陈水池2006;张元元2008)。差异主要由两个原因造成。一是大多数英语学习者是按单个单词学习词汇,而不是与其他可以和这些单词联合使用的单词一起学习。这样造成的结果是,初级学习者对搭配缺乏认识,对搭配的相对强度也没有意识。正如Ellis(2006:15)所说,“在语言习得的初期阶段,学习者往往一次只注意一条线索”。

第二个原因来自母语的干扰与习语不同,搭配的含义不难理解,因此很多英语学习者可能不太关注搭配的组成部分,以后当他们需要产出搭配或识别搭配的一部分时,他们可能会以“与母语对应词概念上相近的单词”替代搭配的这一部分(Chan & Liou 2005:231)。例如,中国学生并不难理解take medicine和strong tea,因此可能不会像记习语那样花费精力记忆这些搭配用法,但需要产出这些搭配时,他们可能又会使用eat medicine和dense/powerful tea这样的不当搭配,因为这些单词组合语义似乎不错,有些在汉语中也的确是正确用法(Nesselhauf & Tschichold 2002;Wibleetal.2003;Wolter 2006;徐世昌2008;尹小玲2009)。即便测试时有选项供选择,如果在medicine前的动词选项包括eat,那么英语学习者有可能错误地选择这个选项;如果没有这个选项,他们又可能难以在take和have(或其他类似词)中进行选择。初级学习者不如英语熟练使用者那样能够在句子处理中利用搭配语境,对强搭配提供的线索也不那么敏感,因此在正确答案中使用强搭配还是弱搭配对他们的答题结果影响也会比较小。

完成句子等题型涉及搭配时,往往正确答案中会包含强搭配。这是因为出题人员通常会尽量确保正确答案在所有意义上都是“最好”的答案。例如,resolve a dispute为强搭配,end a dispute和overcome a dispute为相对强度较低(但仍然可以接受)的弱搭配,面对这样的选择时,出题人员可能会希望在正确答案中使用相对强度较高的强搭配。其结果就是,英语熟练使用者可以利用自己对这几个搭配用法相对强度的直觉,甚至不需读完整个句子就能判断resolve...acceptable是正确答案的可能性要比end...divisive和overcome...unattractive大。

出题人员希望正确答案无可挑剔,这本无可厚非。但是,如果这样做导致不考虑选项的后一部分也能猜出正确答案,则试题就可能存在问题。SAT的完成句子题型旨在测量考生对词意的掌握以及理解句子不同部分间逻辑关系的能力②。依据此目的,如果一道试题有两空,有些考生却能根据第一空的强搭配用法猜出正确答案,那么很难说试题符合出题意图,基于此题型得分对考生相关知识能力所做出的推论,其有效性可能要打上问号。与此同时,试题的公平性也存在疑问。因为有些考生能仅仅基于正确答案中搭配的相对强度猜出答案,而另一些考生却不能,这就导致某些考生虽然在词意知识和理解句子内逻辑关系能力上都具有可比性,但回答此类试题所需时间和答题准确性却不同。基于以上考虑,为了提高试题质量,可能需要不时地在正确答案中使用相对强度不是最大的搭配,以保证试题真正测量其旨在测量的知识技能,保证基于考试成绩所做推论的有效性及考试的公平性。

5.结语

国内外已有不少教育者研究英语学习者容易出现的搭配错误以及如何帮助学习者扩展搭配知识,但是有关搭配对句子理解以及相关题型测试结果的影响,却很少有人研究。本文使用谷歌搜索进行了一些粗略的初步探索,对于搭配是否确实会影响完成句子类题型的测试结果以及对不同英语水平学生的影响是否不同,还有待更多学者使用语料库等工具、以实验等形式进行实证性研究。最后需要指出的是,本文虽是以SAT完成句子题为例,但所讨论的问题并不限于SAT考试,很多其他大型标准化英语考试中都有类似题型。加强搭配对这些题型测试结果影响的研究将能帮助多种考试在测试出题时考虑更周全,改善试题质量。

附注:

①② http:∥www.collegeboard.com/student/testing/sat/prep_one/sent_comp/pracStart.html

Abu-Rabia, S.2003.The influence of working memory on reading and creative writing processes in a second language [J].EducationalPsychology23(2): 209-22.

Benson, M., E.Benson & R.Ilson.1997.TheBBIdictionaryofEnglishwordcombinations[Z].Philadelphia, PA: John Benjamins Publishing Company.

Chan, T.& H.Liou.2005.Effects of web-based concordancing instruction on EFL students’ learning of verb-noun collocations [J].ComputerAssistedLanguageLearning18(3): 231-50.

Chang, Y., J.S.Chang, H.H.Chen & H.Liou.2008.An automatic collocation writing assistant for Taiwanese EFL learners: A case of corpus-based NLP technology [J].ComputerAssistedLanguageLearning21(3): 283-99.

Chen, H.H.2011.Developing and evaluating a web-based collocation retrieval tool for EFL students and teachers [J].ComputerAssistedLanguageLearning24(1): 59-76.

Church, K.W.& P.Hanks.1990.Word association norms, mutual information, and lexicography [J].ComputationalLinguistics16(1): 22-29.

Cowie, A.1994.Phraseology [A].In R.E.Asher (ed.).TheEncyclopediaofLanguageandLinguistics[C].Oxford: Pergamon.3168-71.

DeMark, S.F.& J.T.Behrens.2004.Using Statistical natural language processing for understanding complex responses to free-response tasks [J].InternationalJournalofTesting4(4): 371-90.

Ellis, N.C.2006.Language acquisition as rational contingency learning [J].AppliedLinguistics27(1): 1-24.

Ellis, N.C.& S.G.Sinclair.1996.Working memory in the acquisition of vocabulary and syntax: Putting language in good order [J].TheQuarterlyJournalofExperimentalPsychology49(1): 234-50.

Futagi, Y., P.Deane, M.Chodorow & J.Tetreault.2008.A computational approach to detecting collocation errors in the writing of non-native speakers of English [J].ComputerAssistedLanguageLearning21(4): 353-67.

Hardy, D.E.2004.Collocational analysis as a stylistic discovery procedure: The case of Flannery O’Connor’s Eyes [J].Style38(4): 410-27.

Li, W.& K.Wong.2003.The design of a statistical algorithm for resolving structural ambiguity in “V NP1usde NP0” [J].ComputationalIntelligence19(1): 64-85.

Mason, O.& R.Platt.2006.Embracing a new creed: Lexical patterning and the encoding of ideology [J].CollegeLiterature33(2): 154-70.

Miller, G.A.1999.On knowing a word [J].AnnualReviewofPsychology50: 1-19.

Nesselhauf, N.2003.The use of collocations by advanced learners of English and some implications for teaching [J].AppliedLinguistics24(2): 223-42.

Nesselhauf, N.& C.Tschichold.2002.Collocations in CALL: An investigation of vocabulary-building software for EFL [J].ComputerAssistedLanguageLearning15(3): 251-79.

Sirinaovakul, B.& K.Chancharoen.2002.English-Thai structure-based machine translation [J].ComputationalIntelligence18(3): 294-312.

Trost, H., J.Matiasek & M.Baroni.2005.The language component of the FASTY text prediction system [J].AppliedArtificialIntelligence19: 743-81.

Wible, D., C-H.Kuo, N-L.Tsao, A.Liu & H-L.Lin.2003.Bootstrapping in a language learning environment [J].JournalofComputerAssistedLearning19: 90-102.

Williams, J.N.1996.Is automatic priming semantic? [J]EuropeanJournalofCognitivePsychology8(2): 113-61.

Wolter, B.2006.Lexical network structures and L2 vocabulary acquisition: The role of L1 lexical/conceptual knowledge [J].AppliedLinguistics27(4): 741-47.

Wu, S., M.Franken & I.H.Witten.2010.Supporting collocation learning with a digital library [J].ComputerAssistedLanguageLearning23(1): 87-110.

黄晓勤.2007.基于中国学生口语语料库的动名词搭配研究[D].南京:南京航空航天大学硕士学位论文.

李素枝.2011.基于语料库的中国英语学习者名词搭配与类联接对比研究以ABILITY为例[J].英语教师(8):44-49.

王海华、周秀娟.2009.中国英语学习者动名词搭配行为的发展特点研究语料库驱动的研究方法[J].外语学刊151(6):59-62.

武光军、王克非.2011.基于英语类比语料库的翻译文本中的搭配特征研究[J].中国外语8(5):40-47.

徐世昌.2008.英语表达中词语搭配错误成因分析[J].乌鲁木齐成人教育学院学报16(2):79-82.

尹小玲.2009.基于语料库的大学生英语“形容词—名词”搭配研究[D].湘潭:湖南科技大学硕士学位论文.

张文忠、陈水池.2006.EFL学习者习得英语形—名搭配知识的定量研究[J].外语教学与研究38(4):251-58.

张元元.2008.基于语料库的中国大学生英语写作的动名词搭配研究[J].哈尔滨学院学报29(5):110-14.

猜你喜欢
互信息语料库题型
离散型随机变量常考题型及解法
巧妙构造函数 破解三类题型
《语料库翻译文体学》评介
一次函数中的常见题型
随机抽样题型“晒一晒”
基于COCA语料库的近义词辨析 ——以choose和select为例
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
基于JAVAEE的维吾尔中介语语料库开发与实现
改进的互信息最小化非线性盲源分离算法