完形测试中的语篇信息加工
——以少数民族EFL学习者为个案

2012-11-13 08:26:44毛延生

湖南第一师范学院学报 2012年4期

关键词：调用效度答题

毛延生

（哈尔滨工程大学外语系，黑龙江哈尔滨 150001）

完形测试中的语篇信息加工
——以少数民族EFL学习者为个案

毛延生

（哈尔滨工程大学外语系，黑龙江哈尔滨 150001）

在以边疆少数民族高/低水平英语学习者的调查发现：高分组在语篇内信息的调用频次和成功率两个方面均远远高于低分组。并且两组受试者在语篇内信息调用的策略上截然相反：高分组主要依据语篇内信息答题，然后再用分句内信息辅助确认，而低分组主要依靠分句内信息答题，再用语篇内信息辅助确认。研究结果表明完形填空能够很好地区分不同水平的英语学习者，作为一种语篇理解能力测试手段，其效度良好，具有一定的普适性。

完形填空；效度；访谈法

一、引言

完形填空是一种考察受试语篇信息处理能力的测试手段。它要求测试对象补全某一个语篇中被以任意比例或者固定比例删掉的词或短语，删词比例一般在5到10个词之间不等[1]189。基于格式塔心理学中的完形概念，完形填空强调受试综合语言运用能力的考察[2]44。实际上，完形填空是Taylor（1953）设计用于测试文章可读度的程序[3]42，后来被用于测试英语本族语者的阅读能力，再后来才被用于考查学生外语或二语综合运用能力[4]59。与国外研究相比，国内完形测试研究存在一个怪圈：国外很少使用完形测试但是相应研究很多；而国内经常使用完形测试但是研究很少（李筱菊2001：247）。就研究内容而言，国内学者着重探究其测试效度问题，其难度问题并没有得到充分的重视（毛延生、张建丽2008）。难度在语言测试研究中有两层含义，因视角不同而表现出不同的内涵特点。从数理统计的角度来看，难度具有统计学意义，此时它指受试在某个题项上答对或答错的比例（Hughes 2001）。从试题研发的角度来看，难度还具有心理学意义，因为试题难度会影响受试的心情（morale）和具体语言学能表现(language performance)(Meyers 1962)。“难度”被界定为“某一测试（项目）落入某一特定受试（群体）能力范围之内的程度”，它“常常和测试所关注的潜在能力有关”（Davies 2002：45）。从难度的定义来看，试题难度研究不但需要关注难度的统计结果分析，更应该充分探究受试能力发挥的心理认知过程（曾用强2001）。因此，结合心理学或认知科学而展开试题难度研究显得尤为必要。

基于前人研究文献，我们发现破解完形填空难度问题最好的结合点之一是以受试的语篇信息加工能力为切入点。因为这一研究视角一方面立足于夯实的认知基础之上。从认知视角出发探讨二语学生在完形测试中的语篇信息加工能力可以更好地了解完形测试的难度与效度。如果不能充分了解学生在完形测试中的语篇加工能力，很难说我们真正地了解完形测试的难度。鉴于试题“难度对于建构测试的效度是个关键”（Davies 2002：45），因此不了解完形测试的难度就谈不上保证其测试效度。另一方面，从认知视角出发研究完形填空测试中受试的语篇信息加工可以直接触及二语学生的语言学能“瓶颈”，进而为提高他们的语言能力提供有效反馈。语言测试研究本不应该盲目相信基于成绩统计的数据分析（王正元2005），重要的是如何回归到“以人为本”的语言习得实践中来（Swain&Deters 2007：831）。基于认知框架讨论二语学生在完形测试中的语篇信息加工能力正是这样的一种努力。无论是以汉族英语学习者为例，还是少数民族学习者为例，国内完形填空研究在这一方面尚属研究空白。本文仅以新疆少数民族英语学习者为例进行探讨。换言之，本文将以定量定性研究相结合的方法谈论少数民族英语学习者的身上完形填空如何深入地测量受试的内在心理结构。从方法论上来说，这一方面，从心理认知维度为以往完形填空效度研究提供佐证，另一方面，也拓宽以往研究在少数民族英语学习者群体当中的普适性。

二、研究方法

（一）研究概览

本研究具有如下几个特点。首先，从研究对象上看，本研究关注的对象是多被忽视的少数民族英语学习者。国内外语界对少数民族英语学习者的语言习得与测试研究相对关注不够，因此探讨少数民族英语学习者在完形填空测试中的表现对于了解该群体英语学习者的语言习得与测试特点意义重大。其次，从研究对象分组标准上看，我们采取综合语言能力测试与任课教师的评价相结合的办法，而非依赖某一方面的语言能力，以求避免对于完形填空效度的某种偏见性预测。再次，从关注焦点上看，本研究并不瞄定于某一特定测试（如CET4或TEM4）中完形填空效度的测算，而是探究一般性完形填空的效度特点，因此其效度建模的量化尝试不是我们关心的重点。最后，从研究设计上看，出于测试情景真实性考虑，本研究测试的答题时间为限定时间，并运用访谈法从定性角度探讨高/低水平英语学习者在答题过程中信息使用上所表现出来的差异。本文中，我们拟回答如下几个问题：第一，测试过程中，完形填空刺激受试使用了哪些类型的语篇信息来完成测试？少数民族高/低水平英语学习者是否存在差异？第二，受试答题过程中成功调用了哪些类型的语篇信息？高/低分组之间是否存在差异？第三，受试答题过程中，是否涉及语篇信息调用的策略问题？高/低分组之间是否存在差异？

（二）研究对象

8名研究对象均是中国西北少数民族聚集地区一所高校英语专业三年级学生，其中维吾尔族4名（男女各两名），哈萨克族4名（男女各两名）。依据某一年TEM4真题的部分试题，我们对该年级200多名学生进行普测，从而确定高水平（4名）/低水平（4名）共8名研究对象，其综合能力相关数据如表1所示。初步分组后，又征求各科任课教师意见，均表示同意初步分组结果。最后，高分组与低分组研究对象具体构成情况表2所示。

表1 高/低分组英语综合能力概况

表2 研究对象民族与英语水平交叉表

（三）研究工具

本研究共涉及两个研究工具。第一个是某年TEM4真题的听写、语法与结构、阅读理解和写作部分。出于保证研究对象英语水平分组的理据性，我们把它作为高/低分组别判断的综合水平参数。

鉴于阅读过程实质上就是读者在头脑中建构起关于文本内容、层次及主题的表征系统的过程，这个过程不仅包括对一个个句子和词的理解，更重要的是要将当前加工的信息与文本先前的、不在读者当前工作记忆中的背景信息相整合，以形成局部与整体都连贯的心理表征。所谓局部连贯(local coherence)是指把最新读到的句子的每一个命题与当前工作记忆中处于激活状态的命题(特别是指前一到三个句子中的命题)进行联系；所谓整体连贯(global coherence)是指新出现的命题与文章中先前遇到的命题(已超出工作记忆的范围)或与有关的一般世界知识建立联系的过程。本研究的第二个研究工具——完形填空试题设计主要遵循局部连贯与整体连贯原则设计而成。研究工具的母本源自于英语教科书[6]267。依据Bachman（1985）对于完形填空需要补足信息类型的四分法[7]191，我们按照任意比例挖空法在该语篇内设置16个空格。其中，测试分句内信息和语篇外信息的空格数为0；测试分句间信息的空格数为3，其余13个空均测试语篇内信息。试题所涉及的16个空格所需信息类型的具体分布题号如下表3所示。

表3 试题信息类型分布

以往研究[6]268表明，该试题测试信度良好：其歌德曼对半测试信度值为0.84；一般信度（Cronbach alpha）为0.80。考虑到本研究受试对象的特点，我们做了几处修改：其中的Japan/Japanese被换成了China/Chinese。

（四）数据收集与分析

为了将试题类型对于受试的影响降到最低，确定8名研究对象后，在正式测试前一个月，研究者亲自训练受试解答此类没有选项的完形填空4次。正式试验展开时，研究者亲自参与整个试验过程。研究对象在安静的教室完成测试，只有研究者和一名研究对象，数据采集共分8次完成。为了保证测试情景的真实性，我们采取测后个别访谈法①（after-test individual interview）。在正式开始访谈之前，研究对象统一接受了简单的访谈训练。受试答题过程中，我们不打扰研究对象，但所有研究对象必须在限定的时间内完成试题，然后马上接受口头访谈，以免遗忘。被访者可以讲汉语，也可以讲英语。访谈过程中，研究者不能给研究对象任何带有倾向性的提示，只是激发他们报告思维运行的情况和内容。参照一般性完形填空测试的答题时间（如CET4/6,TEM4），本研究的测试时间规定为20分钟。研究对象的实际答题时间被记录。在访谈结束以后，所有访谈信息被转写，以备定性分析。

三、结果与讨论

（一）信息调用类型与组间差异

由于受试水平差异较大，加之答题时间有限，所以部分受试对于试题采取猜测（例子中带下划线的部分）或者放弃作答（例子中的斜体部分）的应对方式，高分组和低分组受试都存在这种情况。如例（1）和例（2）所示：

例（1）低分组（哈男）:第9题不会…12题不会…14题是and,感觉吧，不确定这个…15题是社会，society,感觉…

例（2）高分组（维男）：第 1题填 however,感觉中间的关系有点转吧…第3个没做，呵呵…第7题填example吧，这个是蒙的，呵呵…

所以出于定性数据分析的科学性考虑，数据统计中除了包括Bachman（1985）提出的四种信息[7]191之外，我们又加入了猜测与空白两类情况[8]85。因此，受试完形填空中所用信息类型就包括如下六种情况：分句内信息，分句间信息，语篇内信息，超语篇信息，猜测和空白。下表给出了两组受试答题过程中所调用信息类型的总体情况。

表4 语篇信息调用频次与百分比

测试效度是指测试在多大程度上测出了预期要测量的东西[5]124。试题设计本身（考察语篇信息的空格总数为13，占该测试空总数的81.25%）就是要测试研究对象语篇信息应用能力。从或然率的角度看，通过比较两组受试实际使用语篇内信息频次的多少以及相应比率，就可以从宏观上了解完形填空在多大程度上测到了要测的东西。其原因在于只有这种信息类型调用的比率越大，答对的机率才能越高。从两组受试整体信息调用分布来看，语篇信息调用占40%，其次是分句内信息和分句间信息，各占14%和15%；最后是超语篇信息，占4%。而猜测与空白两种情况各占11%和16%。尽管试题设计上我们排除了分句内信息和超语篇信息，但是少数民族EFL学习者却调用上述类型信息应对局部连贯与整体连贯的建构。

从组间差异性上来看，除了在语篇内信息的调用频次（高分组共使用31次，而低分组共使用20次）以及空白频次（高分组3次，低分组17次）上两组受试存有明显差异之外，两组受试在分句内信息（高分组12次，低分组8次）、分句间信息使用频次（高分组10次，低分组9次）以及超语篇信息使用（高分组3次，低分组2两次）三个方面相差无几。由此可推，高分组受试语篇内信息调用意识明显强于低分组。换言之，高分组受试利用整理连贯信息进行完形补全的意识更强一些。低分组对于语篇内信息调用的不力，可能是导致他们思维混乱，无从下手，不知所云，最后放弃答题，直至出现空白的主要原因：

例（3）低分组（维男）：第7题没填…第9题填waste,但是原因我说不出来，嗯。后面的3个我都没填，嗯，不知道怎么填。

例（4）低分组（哈女）：我脑子好乱啊，第 1个空我没有填出来，第2个空，呵呵，我也没有填出来…第10题应该说的是什么样的不同点，应该是少有的不同点，我觉得可以填common要么填real,我考虑了两个，但是读的有点糊涂，我不知道是，因为它讲到了很多，从种族呀，性别呀，各方面，年龄各方面嘛，我不知道他们在讲中国还是美国，这两个，嗯他们观点的共同点还是什么。然后我脑子有点混乱，所以我两个都没填。

高分组与低分组受试在语篇内信息调用上的差异还可以解释为什么低分组答题时间比较短（如下表5所示）。该测试设计本身对于受试的语篇理解能力要求就很高，如果不能调用足够的语篇内信息，就会导致头脑混乱，无法作答，进而放弃答题。这些特点在规定时间内答题过程中表现的十分明显（如例（3）和例（4）所示），以往研究[6]269之所以对此没有报告，很可能是因为采取的不是限时答题研究方法的原因。

表5 研究对象完形成绩与答题用时概况

（二）信息调用成功率与组间差异

以上我们从受试在回答完形填空测试过程中，各个类型信息调用的总体分布以及组内差异角度初步分析了完形填空的效度特点。下面我们再从各个类型信息调用正确率与组间差异角度对其效度特点做进一步的探究。表6给出了受试答题过程中所调用的各个类型信息的成功率。

表6 高/低分组各类信息成功调用率

由上表可见，受试使用的最得心应手的是分句间信息（题项3、8），即局部连贯信息，其调用成功率最高（分别为93%和88.75%），且组间未见显著差异。这可以从受试的访谈信息中得到证明：

例（5）高分组（哈女）：第8题填while。句子前后，这个和这个是一种对比，前面是Americans prefer,然后后面是 Chinese feel…

例（6）低分组（哈男）：第 8个，应该是 but,嗯，因为前面说的是American,后面说的是中国，然后就是一种转折，所以就填but.

例（7）高分组（维女）:因为它说嘛因此“people can say‘no’”然后后面说原因是 because they are，因为他们是…所以第3题填because.

例（8）低分组（维男）：…然后，第三个就是说，就是嗯，他嗯，就是嗯，看到这个给他，比如说，就是他能够很自由的对一个人，拒绝一个人，给一个人说no,为什么呢？是因为他们之间的那个关系是，是很独立的。所以填的是because。一种解释的关系。

除了在超语篇信息方面，两组受试信息调用的成功率没有差异之外，在分句内信息和语篇内信息的调用成功率上，高分组均高于低分组：高分组两种类型信息的调用成功率分别为77%和68%，而低分组两种类型信息的调用成功率分别为33%和42%。可见，受试答题过程中，成功调用的信息中包括语篇内信息，并且组间差异明显。高水平受试不但使用语篇内信息的意识比较强，且成功率较高，而低水平受试不但语篇内信息调用的意识较弱，且成功率较低：

例（9）高分组（哈女）：第 7个空是 difference,前面有个first,因为前面有个，就是but there are important differences in attitudes towards social relationship.然后是first,second,下面是third，所以这里肯定是difference。

例（10）低分组（维女）：第 7题，嗯，我，我填的是example。第一那里面有个first,然后后面就是美国人的例子，谈了好多，这里是second,所以也该是例子，所以，嗯，我填example。

从例（9）和例（10）可以看出，高分组受试运用语篇内信息的时候，常常考虑的更全面，因此成功率较高。而低分组受试则因为语篇内信息挂一漏万，因此即使调用了语篇内信息，也容易理解偏狭，因此很难回答正确。

（三）信息调用策略与组间差距

两组受试在句内信息与语篇内信息调用上还存在一个明显区别：即在答题过程中，两组受试调用分句内信息与语篇内信息的策略大相径庭。当两组受试均运用分句内信息与语篇信息来答题时，其采纳的思路恰好相反。高分组常常能够运用分句内信息（斜体加黑）来确认通过语篇内信息（下划线）而做出的答案，如例（11）所示：

例（11）高分组（维男）：第 5个空,嗯，填 group。前边出现了一个，嗯，group members,就是while individuals are important,people also try to do everything they can for the other group members,就这，group,然后通过下文的理解，就是succeeds then each member will succeed,通过那个就是说明团队成功了，也就，后面其它各个成员也就成功了。并且,就是后面的动词是succeeds,所以这个一定是单数的，所以填group,嗯，对，就是。

而低分组则先是依靠分句内信息（斜体加黑）完成答题，然后再调动语篇内信息（下划线）来确认刚才答案的正确性，如例（12）所示：

例（12）低分组（哈女）：第4个空，我觉得整个应该，再者加上什么in addition,这个应该用在句子的后面，但是我看它。因为它第一段用的是on the other hand,下边又来一个on the other hand，它肯定要补充第二个on the other hand,所以填in addition，在另一个方面。

两组受试在语篇内信息调用策略上的差异直接受试语篇内信息调用的成功率差异：高水平受试能够把握好语篇内信息与分句内信息之间的关系，因此“双管齐下”，保证答题正确率。低分组受试虽然也是“双管齐下”，但是由于分句内信息先入为主，加之语篇内信息缺少精微把握，自然误入“歧途”，结果要么答错，要么放弃答题。因此，从信息调用策略与组间差异的角度看，高分组受试和低分组受试之间存在显著差异。

四、结语

以上我们以少数民族高/低水平英语学习者为研究对象，从定性分析的角度对真实测试情景下完形填空答题过程中各类信息的使用进行考察，结果发现：高/低分组在没有作答的题目数量上存在显著差异，且两组受试答题时间差异明显。其原因很可能在于两组受试在试题本身所要求的语篇内信息的使用上存在差异，主要表现在三个方面：第一，从或然率角度看，高分组受试使用语篇信息的频率明显高于低分组；第二，从成功率的角度看，高分组受试使用语篇信息的正确率也明显高于低分组；第三，从策略性的角度看，高分组主要依靠语篇内信息答题，分句内信息主要用来辅助确认，而低分组恰恰相反。以上定性维度的分析均表明少数民族EFL学习者在完形测试中的语篇信息处理表现出一定的特征。据此，在具体教学过程中，一线教师需要注意语篇知识的传授，注重传统语法与词汇知识的同时，强调培养学生在阅读过程中局部连贯与整体连贯的解构与二次建构能力。这对于提高少数民族EFL学习者的阅读能力以及写作能力均有重要意义。

注释：

①这里之所以采取访谈法，除了出于保证测试情景真实性的目的之外，还为了验证以往其它内省法研究结论的普适性。

[1]Henning,G.1987.AGuide To Language Testing[M].CambridgeMass.:Newbury House.

[2]Alderson,J.2000.Accessing Reading[M].Cambridge:Cambridge University Press.

[3]Lennon.P.1998.Learner-centered Testing:ARoleforCloze[J].Language Learning Journal17.

[4]Alderson,J.1980.Native and Non-native Speaker Performance on Cloze Tests[J].Language Learning 30.

[5]李筱菊.语言测试科学与艺术[M].长沙：湖南教育出版社，1997.

[6]Yamashita,J.2003.Processesof Taking aGap-Filling Test:Comparison of Skilled and LessSkilled EFLReaders[J].Laguage Testing 20.

[7]Bachman,L.F.1985.Performanceon cloze testswith fixedratio and rationaldeletions.TESOLQuarterly 19.

[8]Sasaki,M.2000.EffectsofCulturalschemataon students’test-taking processes for cloze tests:amultiple datasource approach[J].Language Testing 17:85-114.

An Em pirical Study on Textual Information Processing——With EFL LearnersofMinoritiesasa Case

MAO Yan-sheng

（Haerbin Engineering University,Haerbin,Heilongjiang 150001）

To shake off inadequacies in termsof research subject and methodology,this paper takes an empirical study of cloze test by testing and interview ing EFL learnersofm inorities in Xinjiang Uygur AutonomousRegion.By exploring“How do theymanipulate information of different types”,we try to dig further for cloze test validity.We find that the higher proficiency group always givesbetter performance than the lower proficiency group in terms of both frequency and success rate in theirmanipulation ofacross-sentence-but-within-text information.Besides,there is great difference between the two groupswith regard to information manipulation strategy:the high proficiency group givespriority to across-sentence-but-within-text information for cracking the testing items,then they turn to within-clause information to check,while the low proficiency group takesa totally opposite orbit instead.Our findingsofferhard evidence for cloze testasameansof comprehension testwith idealvalidity and applicability.

cloze test;validity;interview ing

H319

1674-831X（2012）04-0049-05

2012-05-11

中央学校基础科研项目（HEUCF121205）

毛延生（1980-），男，哈尔滨工程大学副教授，博士，主要从事语言测试和语用学研究。

[责任编辑：葛春蕃]

完形测试中的语篇信息加工——以少数民族EFL学习者为个案

一、引言

二、研究方法

三、结果与讨论

四、结语

完形测试中的语篇信息加工
——以少数民族EFL学习者为个案