“全民英检”高级写作纸笔与电脑化测验之平行研究初探

2013-09-27 00:29吴若蕙
当代外语研究 2013年8期
关键词:受测者纸笔手写

吴若蕙

(财团法人语言训练测验中心,台湾)

1.前言

由于电脑资讯产业的蓬勃发展,在英语能力测试方面,电脑化测验、电脑化适性测验与网路测验已渐趋常见,也普遍受到学习者与受测者的认同。美国教育测验服务社(ETS)的“托福”(TOEEL)电脑化测验始于1998年7月,并自2000年10月起在台湾开始实施电脑化适性测验,随后又于2006年5月改为网络测验。目前在台湾,不论政府单位或民间组织自行主办的大型测验采用电脑化的情形尚未普遍。虽然如此,电脑化测验在台湾愈来愈受到重视,政府单位(例如:考选部)已意识到电脑化的趋势,自2004年起实施航海人员电脑化测验,并计划逐年扩大实施电脑化测验,选择其他考试类科办理;而民间组织方面(例如:语言训练测验中心),也自2010年起实施“全民英检”高级电脑化写作测验,提供受测者在原有传统纸笔写作测验外之另一选择。

教育测验、评量与资讯科技结合的突破确实简化了试务流程,提高了考试的效率及效益。对以选择题为主的测验型式而言,电脑计分非常单纯,但对于非选择题的测验型式,题型的文字界面及多元计分等均涉及测验的信度、效度。美国心理学会也对此提出呼吁,希望测验专业正视电脑化测验上有关信度与效度之议题,而这也是发展语言电脑化测试刻不容缓的研究课题。特别是语言测验从原来的传统纸笔测验模式转型成电脑化测验模式的过程中,因现实因素之限制(例如:电脑化测验考场地不足),必须纸笔测验与电脑化测验双轨并行,也就是说,让一部分受测者接受纸笔测验,而另一部分受测者接受电脑化测验。如此一来就产生这两种不同应考环境下,即使是考题一样、测试时间相同,受测者的表现是否相当、对评分者是否造成影响等疑问。如受测者因接受电脑化测验而较纸笔测验的受测者表现佳或差,皆造成测试不公平,对测验的信度与效度亦皆形成挑战。

“全民英语能力分级检定测验”(简称“全民英检”)由台湾教育部补助财团法人语言训练测验中心(简称LTTC)研发。“全民英检”自2000年施测以来广受采用,迄今已达510万人次报考,成绩获申请入学、毕业、甄选、国际学程等采认。“全民英检”检测对象为一般社会人士及在校学生,共分五级:初级、中级、高级、高级及优级;测验内容包含初试(听、读)、复试(说、写)四项;初试通过者始能报考复试,初复试皆通过者获颁该级通过证书。各级综合能力说明如下(更多有关“全民英检”的资讯可查阅“全民英检”网站http:∥www.gept.org.tw)。

初级:具有基础英语能力,能理解和使用浅易日常用语,相当国中毕业者。

中级:具有使用简单英语进行日常生活沟通的能力,相当高中毕业者。

中高级:英语能力逐渐成熟,应用领域扩大,虽有错误,但无碍沟通,相当大学非英语主修系所毕业者。

高级:英语流利顺畅,仅有少许错误,应用能力扩及学术或专业领域,相当国内大学英语主修系所或曾赴英语系国家进修并取得学位者。

优级:英语能力接近受过高等教育之母语人士,各种场合均能使用适当策略作最有效的沟通。

正如国际著名语言测验学者Lyle E Bachman教授(1990)所言:“测验不是在一个与社会价值完全隔绝的试管中所研发出来或被使用的产物,测验应以服务教育、社会为最终目的。”多年来“全民英检”不论在研发或实际运作方面努力与国内英语教学建立合作、互动的机制,产生正面的回冲效应(washback effect)。在这基础上,LTTC持续进行效度研究,以期提升“全民英检”的测验品质,发挥推广全民学习英语的功效(Wu 2012)。本文所提的“全民英检”高级写作电脑化测验的开发就是一个例子。

考虑到“全民英检”高级写作测验字数要求约为500字,加上受测者大多为成年学习者,为求测验方式更加贴近其平时的写作习惯,LTTC认为有需要研议增加电脑化测验的选项。LTTC在开发“全民英检”高级写作电脑化测验模式时,即决定采纸笔、电脑两种模式并存,因此在维持测验的公平性、不影响测验效度之前提下,进行“全民英检”高级写作纸笔测验与电脑化测验是否平行之实证研究。本文说明该研究过程与结果,由作者摘译自原英文研究报告(Wu&Chao 2011)并补充文献探讨等后改写而成。以下为“全民英检”高级写作测验的介绍。

“全民英检”高级写作测验的题型为任务型导向(task-based),希望反映出与现实相符的学术性写作(academic writing),例如“从读至写”(reading-towrite)。本测验设计获学者高度肯定,认为是学术英语能力评量的佳作(Roever&Pan 2008;Weir 2005)。受测者须在限定时间内分别完成两个大题。第一大题作答时间为60分钟,题目包括两篇英文文章(每篇文章长度约350字至400字,难度设在中高级的程度),文章分别就同一议题抒发不同的看法。回答内容须包括两篇文章的重点摘要,并提出个人对该议题的看法,长度约250字。第二大题作答时间为45分钟,题目是与同一议题相关的两个图表。回答内容须包括两份图表的重点讯息,并提出解决方案,长度约250字。评分方面,评分量表分为两种:一是整体式(holistic)量表,二是分项式(analytical)量表,包含内容、组织、遣词用字及文法结构。写作测验的两大题分别给分,标准为0-5整数级分。测验总分为所有分项分数的平均数,且总分需达3级分以上始能通过写作测验。每篇文章皆由两位评分员评阅,一旦评分员之间的给分差异过大,再由资深评分员第三次评分,并决定最终成绩。另每篇文章的整体式评分与分项式总分差异过大时也须重阅。“全民英检”高级写作测验的试题样例与评分量表见附录。

“全民英检”高级写作电脑化测验在电脑教室进行,有别于纸笔测验,电脑化测验提供复制粘贴、自动字数统计、自动储存档、字体大小调整、计时等功能。为控制电脑化与纸笔测验之差异,两者作答时间一样,且写作题目内容(含阅读文章与图表)皆以纸本方式呈现,而答卷也印出来,同纸笔测验的答卷以纸本方式交由评分员评分。

2.文献探讨

电脑化测验运用在语言教育上,对学习者的影响是正面或负面,关键在于测验进行时是否有作答时间的限制。Mead和Drasgow(1993)在整理分析近160篇有关探讨电脑施测影响的论文后,指出无作答时间限制的电脑施测(power tests)对受测者的作答表现并无负面影响;但是具作答时间限制的电脑施测(speed tests)却对受测者的作答表现造成负面影响。因此,Mead和Drasgow(1993)呼吁在比较纸笔测验与电脑化测验(具作答时间限制)是否相当(equivalence)时,需确定电脑化测验的品质、效度与其原有的纸笔测验相同。这也表示在有时间限制的作答环境下,不论是在纸笔测验或电脑化测验的模式下应考,受测者的成绩表现是可能相同的,但前提是应事先确定两者是相当的。这点也深获其他学者(例如:Van de Vijver&Harsveld 1994;McDonald 2002)的认同,并主张应透过实证研究,证明两种测验模式是相当的(McDonald 2002:300)。

在进行纸笔测验与电脑化测验是否相当、平行的研究(comparability studies)时,最直接的就是比较受测者在这两种测验模式下的作答表现:一个是受测者所得的分数;另一个是受测者在作文中所使用的语言、文字,下简称文本分析。以下即依每一项分别说明。

2.1 分数比较(score comparability)

写作测验多依赖人工判断、评分,因此测验模式的改变也可能会对评分者造成影响,进而影响评分。纸笔测验时,受测者用手写的方式作答(handwritten text),可能因受测者的字迹工整度而影响评分者的判断;相对地,电脑测验时,受测者用打字方式作答(typed text),评分者评阅时所读的全是工整的印书体。因此,电脑测验作答的呈现方式很可能是影响评分的变数之一,但是它对于受测者的得分到底是利或弊? 一般人认为电脑打字的作答呈现方式应该对受测者较有利,因为手写作答可能因字迹问题影响了评分者对其写作能力的判断。但是根据研究(Powerset al.1994;Russell&Tao 2004a),事实上相同的文章以手写方式接受评分,其得分高于电脑打字方式。可能的原因包含:电脑打字方式的作答让错误更明显易见;评分者对于受测者能运用电脑作答有更高的期待;手写方式较人性化;缩短与评阅者的距离;手写作答看起来较长、较费心力等。但是这些问题应可从加强评分者的训练予以防范。Russell和Tao(2004b)比较手写、电脑打字、电脑模拟手写三种不同的受测者写作,发现评分者对电脑打字写作的给分较其他两种模式低,而手写与电脑模拟手写的得分并无显著差异。但经评分者在三种不同模式下练习评阅后,即有效降低了作答呈现方式对评分造成的影响。然而有其他研究(如Russell&Haney 1997;Aydin 2006)发现相反的结果,也就是受测者在电脑化写作测验上的表现得分高于纸笔测验。他们认为可能的原因是:电脑化写作测验提高受测者作答的意愿;评分者对电脑化写作测验的评分工作持较正面看法。总之,写作测验作答的呈现方式对受测者的得分是利或是弊并无定论。

靠人工判断、评分的测验,向来注重测验信度,特别是评分者之间的一致性(inter-rater consistency),或称为评分者间信度(inter-rater reliability)。因此,在进行纸笔测验与电脑化测验是否相当、平行的研究时,除比较两者分数的变化外,也应检视两者之评分者间信度有否差异。Aydin(2006)将40位学生平分成能力相当的两组,一组参加纸笔写作测验,另一组参加电脑化写作测验;每组接受前测(pretest)、后测(posttest)。之后所有学生的作文由两位评分者评阅,依其评分计算出每组的前、后测评分者间信度(Cronbach Alpha)并加以比较。结果显示电脑化写作测验的评分者间信度明显高于纸笔测验,但是该研究未进一步探究信度提高的原因。值得一提的是,该研究中前、后测所使用的题目是不同的,这可能是影响结果的原因之一。

2.2 文本分析(textual and linguistic features)

有别于分数的比较,我们也可针对受测者在两种作答模式的文字表现进行文本分析,以检视两者是否相当,项目包含:词汇、组织(句子、段落)、拼字、标点符号等。Chambers(2008)研究中针对英国剑桥大学考试院(Cambridge ESOL)中级测验(PET),比较电脑、纸笔两种写作模式下受测者的作答文本分析。该研究运用Wordsmith Tools(Scott 1998)、Range(Nation&Heatley 1996)、SPSS等工具分析上述项目,发现在词汇方面,受测者的作答量(作文的总字数)两者间大致相当,但电脑化的作文词汇较有变化、较丰富。句子、段落方面,两者句长相当,但是电脑化的作文平均句数、段落数皆较纸笔作文少。而拼字、标点符号的错误量两者相当,有趣的是发现错误的类型不同。电脑化的错误属于打字输入的失误(电脑化写作测验时电脑不具“拼字检查”的功能),例如:ask打成aks;纸笔的错误多数字迹乱而影响理解。

上述的研究发现让我们了解作答模式的改变对受测者语言能力表现的影响。但值得注意的是该研究所使用的写作测验为叙述文,且受测者的母语背景皆熟悉罗马字母,因此,电脑化测验对于其他文体、其他母语背景的受测者是否有类似的影响,尚需更多的研究。

3.本研究概况

过去“全民英检”高级写作测验只采用纸笔作答,有鉴于写作测验的字数要求约为500字,加上受测者大多为成年学习者,于是考虑增加电脑作答的选项,希望更能贴近受测者平时的写作习惯。为此,本研究于2009年进行,目的即为检验在纸笔与电脑化两种不同的应考方式下,受测者的写作表现是否相当,包括:分数与文本分析比较。

同年度报名高级写作测验的56位受测者获邀参加本研究,和正式测验的受测者背景(如性别、年龄、教育等)相同。随机将这些受测者分成两组,其中44位在本研究中以电脑作答,但在两周后的正式测验则以纸笔作答,目的在比较他们在两场测验中的表现,以判断不同的应考方式是否会对评分与作答表现造成影响。为排除前后测使用不同试题带来可能干扰的变数,本研究安排另12位受测者在两场测验中皆使用纸笔作答,目的是比较他们在两场测验的表现,以确认本研究(前测)和正式测验(后测)所使用的题目难易度相当。此外,本研究将这12位受测者的前测手写作文以电脑重打,制成电脑打字版付印,并将这些具有同样写作内容,但以不同方式呈现的答卷随机分配给同批评分员评阅,以检视评分员面对不同呈现方式的答卷是否能保持评分一致性。

4.结果

4.1 检验本研究与正式测验题目难易度是否相当

为确认本研究与正式测验中所使用的题目难易度是相当,本研究就上述12位受测者在两场测验的表现进行一配对样本T 检定,结果显示两者仅在第二大题的文章字数有显著差异(p<.05),而第一大题的字数、两者的平均句长和分数均大致相当。换句话说,两场测验的难易度应大致相当(表1)。

表1 分数、作文平均字数与句长比较

(续表)

4.2 评分一致性

为检验不同形式的答卷是否会影响评分,我们将这12位受测者前测的纸笔作答制成电脑打字版付印,与其原来的手写下答卷共24份答(手写和打字各12份),随机分配给3位评分员评阅,每份答卷皆经其中两位评分员评分。经比较手写和打字两组的得分无显著差异(p>.05),结果大致相当(表2)。另依每篇作文的两组得分计算相关性,相关系数达.85、.91;两者分数均差距0.5级分内,这表示评分应未受到答卷呈现形式的影响。

表2 手写组和打字组之得分比较

表3 手写组和打字组之得分相关性分析

4.3 比较受测者在不同应考方式下之写作表现

本研究中有44位受测者以电脑作答,这些受测者在本研究的两周后参加正式测验(以纸笔作答方式进行),因此得以比较他们在前后两场测验的表现,以判断不同的应考方式是否会对其得分与作答表现造成影响。

在得分方面,两场测验(电脑、纸笔)的平均得分皆为2.59(p=1.00),相关性分析显示:无论是分项或整体分数均显著相关,相关系数介于0.37-0.68,属中度相关(表4)。

表4 两场测验(电脑、纸笔)得分之相关系数

在写作表现方面,本研究比较两场测验(电脑、纸笔)作答的长度(字数)、句构复杂度(句长),并进行配对样本t检定。结果显示两者在第一大题的作答长度有显著差异(p<.05),第二大题则相当;而两者的平均句长相当,差异未达显著(表5)。

因两场测验所使用的题目已获检验难易度相当,又评分员不受手写或打字的答卷呈现方式影响,综合上述结果,这44名受测者在电脑、纸笔两场测验的表现(含得分、实际作答长度、句长)相当,显示受测者未因应考方式不同而受影响。

表5 两场测验(电脑、纸笔)字数与句长比较

5.讨论与结论

本研究结果显示,大致上不同的应考方式不影响受测者的得分、文章字数和句子长度,虽然电脑作答的文章(第一大题)长度较纸笔测验的作答长。这可能是参加“全民英检”高级写作测验者多为成人学习者,他们习惯使用电脑打字从事长篇英文写作,而非通过手写的方式。因此,有了电脑的复制粘贴功能,受测者往往会产出篇幅较长的文章。然而根据参与本研究的评分员表示,电脑打字的拼字错误比手写作答更容易发现,而且许多拼字错误皆属打字错误。按结果推论,大多数的受测者沒有花时间重新检阅文章。评分员也表示,尽管他们比较偏向评阅电脑作答的答卷,但实际上除非手写笔迹过于潦草,否则手写和打字的答卷并无太大差别。这些看法与前述文献探讨及本研究结果相符。

本研究有两个主要不足之处:第一、样本数量偏少。其实目前全民英检高级写作测验每次大约200-300名受测者,本研究样本数(56)约占20-30%,应不算过少。但考量研究的严谨度,样本数量宜增加。第二、文本分析本次仅做文章表层的分析(字数、句长),未能深入文本分析,例如:用字、组织、错误分析等(Chambers 2008)。此外,受测者的作答认知过程(cognitive process)在两种测验模式下是否相同?这也是探讨测验理论效度(theory-based validity)的重要课题(Weiret al2007)。

因本研究结果显示“全民英检”高级写作电脑化测验的结果大致与纸笔测验的结果相当,两者并存是可行的,该测验研究委员会乃议自2010年起试办电脑化测验,并由受测者自由选择报考纸笔或电脑测验;同时收集更多受测者作答资料,持续进行相关研究,致力确保纸笔、电脑化测验具有相同的效度、品质。

附录

GEPT Advanced Writing Test

General Instructions:In this test,you will have an opportunity to demonstrate how well you can extract main ideas from both verbal and non-verbal input,organize these ideas effectively in writing tasks and make clear your own viewpoint on these main ideas.There are two tasks in this test.Each task has a different time limit.You must complete both tasks or your test will not be marked.Detailed instructions will be given to you at the beginning of each task.

Read these instructions carefully and plan ahead so that you can complete all the requirements within the time limit.Insufficient development of any part of either task will result in a lower score for that task.Your performance will be scored according to the following criteria:relevance and adequacy,coherence and organization,lexical use,and grammatical use.

The entire writing test takes 105 minutes.

Task 1

You are going to take part in the GEPT Composition Contest and the winning prize is an NT$S5,000 book voucher.The title of the composition isThe Advantages and Disadvantages of Advertising.Information about this topic is provided in the two articles on the following pages.

·Eirst,read each text to establish the main points the writer is making.You can use the space provided on your test paper to make notes.

·Then,in your own wordsas far as possible,write a composition that summarizes themain ideas of both textsconcerning the pros and cons of advertising.If you use more than three consecutive words from the articles,use quotation marks(“ ”).Plagiarism will result in failure.

·In the final part of the composition,you should make clear your own viewpoint on these main ideas and come to a conclusion.

Your composition must be about250 words.You have60 minutesto complete Task

The Advantages and Disadvantages of Advertising

The Disadvantages of Advertising

Anyone who lives in America is aware of advertising.Reading newspapers and magazines,we see full-page ads urging us to buy clothes,autos,cigarettes,and kitchen appliances.Television and radio programs include commercials;we all have heard the phrases“brought to you by”and“sponsored by”hundreds of times.If we drive,we see road signs or billboards proclaiming the qualities of products or the location of restaurants or motels.If we commute on a transit system,we cannot help but notice the prominent signs displayed on the buses and subways.And in our mail,along with the bills and the letters,come shiny flyers and circulars promoting products and announcing sales.

Advertisements in some form intrude into nearly every waking minute of our lives.We simply cannot get away from their pounding,incessant messages.Because ads permeate radio and television,we find ourselves singing their silly jingles and repeating their“cute”lines.Sellers admonish us to buy through a profusion of techniques:hard sell,soft sell,music,comedy,and appeals to all our emotions and fears.

Some ads areeven potentially harmful.Perplexing or misleading sales pitches may lure unwary buyers into financial trouble.It is always best to remember:“caveat emptor”—let the buyer beware.Many commercials go far beyond the mere transmitting of information when they attempt to transform our values and attitudes.Cigarettes ads,for example,often imply that smoking is a manly or sexy habit.It is neither.

Because of these problems,many people have become extremely critical of commercials,especially those directed at children.As adults,we are often skeptical of what we read or hear in advertisements.Children,because they are not as mature or experienced as we are,cannot judge how reasonable or accurate ads are.If the man on TV says chocolate-covered,sugar-coated wheat toasts are healthful and nutritious,children may very well believe it.Many parents feel sellers take unfair advantage of children's inability to evaluate what they see or hear.

Unfortunately,despite their problems,commercials and ads are an established part of modern life.Providers of goods and services will always try to persuade us to purchase what they are selling.As consumers,we must learn not to believe everything we hear or read,so that we will not be fooled into buying things we don't need.

(Adapted from the article by Dennis Keen)

NOTES

The Advantages of Advertising

Advertising plays an extremely important role in our society.Perhaps most obviously,it keeps us informed about the latest products and services,thus enabling us to buy intelligently.Advertising also has a positive impact on our economy,by providing funding for the media and stimulating competition among goods and service providers.In addition,advertising can be used to promote public welfare,thus exerting a positive social impact on society.

We as consumers benefit greatly from advertising.By reading bank ads,for example,we might decide to transfer our money from our current bank to one offering better rates or more convenient hours.When traveling,we can save hundreds of dollars on transcontinental airfares by comparing the ads in the travel section of the newspaper.

Advertising can also be used to increase awareness in society about particular issues,and in so doing,it becomes a form of education.Anti-drug advertising such as“Just say NO”,and drunk driving campaigns are just two examples of how society uses the advertising industry as a means to promote public welfare.

In addition to the social benefits,advertising also brings huge economic benefits to society.Without advertising,the media—including newspaper,television,radio,etc.—would be much less vigorous.Advertising provides revenue for commercial mediums which would otherwise need to be funded by the actual consumer of these mediums.Eor example,a newspaper would cost up to three times as much money(since advertising provides two-thirds of the revenue of the print media),or all television,bar government funded networks,would be pay-TV(since nearly all revenue for television is currently provided by advertising).The price a consumer may have to pay to receive very cheap,or even free,news and entertainment may include sitting through a 30-second commercial break while watching a television program,or flicking a couple of extra pages in a magazine,to get through the advertisements to the articles.

Although advertising might appear to raise the prices of goods and services,a closer look will show that it actually helps to keep prices low.Advertising stimulates economic activity,with vigorous competition between institutions and higher buying rates of products.This,in turn,leads to lower product costs for the consumer.

(Adapted from article found at:http:∥www.essayworld.com/members/essays/30/4020.shtml)

NOTES

GEPT-Advanced Writing Test

Task 2

A local English newspaper has just printed some worrying statistics on the traffic accidents that occurred in the downtown area in June.The data are shown in Eigures 1 and 2 below.As a citizen,you would like to help improve the situation.

Write to the Opinion section of this local English newspaper:

·Eirstly,summarize what you think are themain findingsfrom the reported data and discuss the possible causes.

·Secondly,make suggestions about what can be done to reduce the number of accidents in the downtown area.Your report must be about250 words.You have45 minutesto complete Task 2.

(续表)

Global Rating Scale of the GEPT Advanced Level Writing Test

Non-ratable compositions

A composition is considered“non-ratable”when

◆the length is shorter than 80 words,or

◆the content is totally irrelevant,or

◆the content has apparently been copied or memorized from other known materials,or

◆the handwriting is completely unintelligible.

猜你喜欢
受测者纸笔手写
“无纸笔”闯关,乐翻天
我手写我心
怒气冲冲 或因睡不好
抓住身边事吾手写吾心
新媒体科研环境下自发式科研协同行为机制研究
投射技术在人才选拔中的应用解析
基于集成学习的MINIST手写数字识别
单宝塔诗
诗书画印纸笔——中国画的独特形式
深度学习在手写汉字识别中的应用综述