在线英语写作测评系统iWrite 2.0应用个案评估

2018-04-23 12:51李丹云
中国教育技术装备 2018年23期
关键词:信度考试测试

李丹云

摘 要 基于英语语言测试理论,试图分析和评估国内某著名在线英语写作测评系统iWrite 2.0在某高校新生入学英语摸底水平考试中所表现的优势及不足。设计启用一份半封闭调查问卷,用以收集测试使用者的反馈信息,进行测试有用性分析。

关键词 iWrite 2.0;在线英语写作测评系统;大学英语;无纸化在线考试

中图分类号:H319 文献标识码:B

文章编号:1671-489X(2018)23-0026-03

Abstract This article aims to evaluate the iWrite2.0 Online English Writing Assessment System in a case study. It addresses the advan-tages and disadvantages from six aspects based on language test theories. By utilizing a semi-open questionnaire, the study collects the feedback from test users and conducts a usefulness analysis.

Key words iWrite2.0; online English writing assessment system; college English; paperless online examination

1 前言

测试在中国教育体制中扮演着举足轻重的角色,在英语作为外语(EFL)的中国,英语测试的重要性尤其突出。语言测试学者Bachman和Palmer指出,考试评估中有六大要素能有助实现测试效果最佳化,即测试效度、信度、真实性、互通性、影响和实用性[1]。本文试图依据这六大要素,评估在线英语写作测评系统iWrite 2.0在某高校新生入学英语摸底水平考试中所表现的优势及不足。

2 测试目的及任务

该测试作为海南某医学院校2017级大一新生入学摸底测试,于新生入学后的第二个周末进行。在该校目前的课程计划中,大学英语是26个医学门类专业学生大一和大二阶段的必修课程。由于医学学科体系庞大且极具专业性,学生层次差异较大,英语差异化分级教学需求明显。因此,對入学新生进行英语水平摸底考试,对于后续两年的英语分级教学意义重大,对于部分学生来说属于高风险考试(high-

stakes test)。此次写作任务为在规定的时间内(30分钟)完成80个单词左右反馈性写作,测试学生就某一话题进行比较或对比的写作技能,满分20分。原题如下:

Directions: Please write a short composition of at least 80 words on one of the topics below.

1)Compare your high school life and college life.

2)Compare your experiences before and after giving up a bad habit.

3)Contrast an active student with a passive student.

4)Two views of your parents: before and after you left them for college.

5)Two ways of losing weight: one healthy, the other dangerous.

3 分析和评估

测试效度(Test Validity) 测试效度指的是基于考试分数所做出的解读的意义性和恰当性[1]。它是一个动态过程,在该过程中能基于测试参加者的分数不断获得证据来分析和评估被测者的能力,测试开发者能根据测试任务的特点来决定测试任务和目标测试者真实语境任务的相关性。此外,一个有效的测试能使得测试设计者解读出测试任务多大程度上能调动被测者的语言能力。目前,大部分写作测试仍然采取整体打分(holistic scoring)和单项打分(analytical scoring)结合的方式。单项通常基于语言、内容、篇章结构和技术规范这四项指标进行评分。如批改网(https://www.pigai.org/)的写作系统默认设置就是如此,该在线写作系统由整体评分和四个单项分根据不同权重构成[2]。

首先,本文基于目的性原则,以临床医学专业(医学院校的主导专业)首批被试者234人为对象,抽样10位学生的作文,对写作分数相近的学生分成五组进行初步比较,结果发现其试卷总分差距最大者竟然有42分;其次,将写作最高分作文与试卷总分最高者的作文进行对比;最后基于写作得分均为12分(及格分)的两份样文进行对比分析。显而易见,能从多次对比分析中发现语言点、内容相关度以及篇章结构方面的巨大差异。

随后对全部考生(234人)的试卷总分和各单项分之间(听力理解、阅读理解、词汇和结构、写作)以及各单项分之间进行Pearson相关系数分析。Pearson相关系数可以用来反馈两个变量之间的关联程度,以r值体现,介于-1和1之间,r值的绝对值越大,说明二者越相关。统计结果发现,写作任务与总分之间相关性较差(r=0.393,n=234,p=.000),而听力、阅读和词汇结构与总分的相关性较好(r=0.832,r=0.861,r=0.838,respectively),具体如表1所示。

测试信度(Test Reliability) Bachman & Palmer认为有四大变量能导致信度的不确定性,即被试者、评分、试题以及测试具体执行[1],因此又依次称之为学生信度、测试者信度、测试执行信度和测试信度。

1)学生信度(Student Reliability)。学生信度是指因学生突发疾病、劳累、焦虑或者其他与学生本人有关的因素而导致的非正常发挥。此次入学摸底考试是大一新生入校后的第一次全校性的大规模集体考试,且时间安排在入学后的第二个周末,学生剛刚结束高强度的军训,有理由相信学生的身体素质并非处于最佳状态;另一方面,他们得知此次考试有可能关系后续的英语分级,可能产生不同程度的焦虑。因此,鉴于身体素质、心理焦虑和准备时间不足、电脑操作技能缺乏训练等多重因素,学生信度一定程度上受损。

2)测试者信度(Test User Reliability)。Brown和Abeywickrama将测试者信度分为两类:测试使用者本人内部信度(Intra-rater Reliability)和不同测试使用者之间的信度(也称组间信度,Inter-rater Reliability)[3]。电脑在线协作考试系统能够达到很高的内部信度,因为机器本身不会感到身体疲倦,可以快速高效工作。更重要的是,评分过程中不会出现前后评分标准浮动等主观因素而影响结果,这是教师人为评卷无法企及的优势。

另一方面需要重视人机间评阅的信度分析,虽然过程棘手,但是意义重大。鉴于操作实践技巧和背后依托的评分标准复杂,尤其是该系统还处于尝试阶段,作为测试使用者不能忽视技术可能带来的隐患。初步整体评估发现,系统对于大部分学生的作文自动给出的反馈都是较为粗略且语言结构极其相似的评价意见,对于非常明显的语言错误并未识别,更无从谈及提出具体纠正建议。所谓权重和评分准则,都是机器基于人为设置的计算模型进行分析得出的结果,需要测试开发平台技术人员对测试使用者进行专业、科学的培训,才能发挥该系统的最大效用。

3)测试执行信度(Test Administration Reliability)。

根据教师反馈,此次测试在所有参与教师的大力合作下有序进行。实验室的所有电脑均经过升级检测,状态良好;学生和教师均提前进行了不同程度的电脑操作培训,相关考试信息也提前通知到位,据此可以判断测试执行信度较高。

4)测试信度(Test Reliability)。iWrite系统是一个基于互联网的在线写作评判平台,由外语教学与研究出版社联合北京外国语大学中国外语与教育研究中心梁茂成教授及其研究团队于2015年研发设计而成,具有语料库、二语写作、机器学习以及自然语言处理等语言学术研究支撑[4]。据称该计算模型是由人工评阅后的作文语料库建构的,比如谷歌词簇统计语料库(Google Ngram)、英国国家语料库(BNC),以及国内的大学英语四六级考试和英语专业八级考试语料库等。但是官方数据和此次测试的真实效果之间的差异仍需要更多的个案分析来进一步研究和证实。

真实性(Authenticity) Brown和Abeywickrama在探讨写作测试题型时,提出四种常见写作任务:比较与对比型、提出问题—解决问题型、支持与反对意见型、因果关系型[3]。此次写作任务是从iWrite 2.0题库中挑选出来,符合第一类比较与对比题型,满足题型真实性要求。另外,话题选择也与学生真实经历、世界知识紧密相关,有助于学生在测试环境之外获得素材,一定程度上提高了测试的真实性。

然而,不足之处在于此次写作任务也有可能对学生的阅读理解能力提出了挑战。一个列举五个话题的清单,对于在考场压力下,30分钟内完成一个段落写作,这就需要学生快速阅读理解、判断筛选、做出决策、完成语言写作等一系列反应,才能高效完成写作任务,这考验的不仅仅是英语写作能力,也涉及选择策略、时间分配等认知策略问题,超出了写作测试的范围。鉴于此,可以判断测试结果不一定能完全真实地反映学生的实际写作水平,因而测试真实性有所受损。

互通性(Interactiveness) 正如Bachman & Palmer书中所言,测试互通性的核心在于目的语中五个要素的参与程度,即测试开发者需要考虑该测试多大程度上调动了被试者的语言知识、元认知策略、话题知识、个人特点和情感机制,以达到测试目的。其中,比较微妙的方面是情感机制问题[1]。部分测试使用者认为,有些话题或许会给学生带来强烈的情感反应甚至不适,如戒掉某种坏习惯,描述一个被动的学生,减肥经历,等等。大家普遍认同这些话题情感上并非愉悦。综上所述,该写作任务的题型设置整体互动性较好,但是在话题选择上可以更加细致和人性化,最大限度上帮助学生发挥真实写作能力。

影响(Impact)

1)测试对学生的影响。测试具有一定目的性,且测试结果不论在个人层面还是学校层面,都会产生一定的影响。Bachman & Palmer认为测试对被试者都会产生一定的积极反拨作用[1]。学生利用电脑在线进行测试,虽然与他们以往的传统纸质笔试体验有很大不同,带来一定的不便,但这些经历也提高了他们的电脑操作技能,提高了他们对于在线网络学习和考试的意识。据教师反馈,他们很高兴看到学生对无纸化在线考试的极大热情和积极主动性,并没有他们之前所预测的反感和敌视情绪出现,这也是此次考试带来的喜人信号。

在技术发展日新月异的时代,“computer literacy”“media literacy”应该是新世纪各阶段学生应具备的基本素质,只有具备了电脑、网络以及新媒体意识和基本操作技能,才能够不被冠以新世纪“文盲”的称号。

2)对教师的影响。对测试使用者的最大影响在于教师极大地改变了对在线写作系统的认知和操作。iWrite 2.0系统是2018年新开发的在线平台,资源丰富多样,可供教师组合利用,以前繁重复杂的找题、组合排版、校对、定稿过程几乎不存在了,教师似乎得到了解放,出题似乎只在鼠标“点击”之间。

本文并不否认在线写作系统所具有的优势,也承认其快捷、方便、高效,但是必须肯定一个前提,即技术应该掌握在有能力且合适的人手里,这样才能最大限度地发挥出技术的优势。因此,对教师进行足够且高质量的业务培训是必不可少的。需要重点强调的是,应该更多涉及针对测试任务、测试目的要素之间的逻辑关系和匹配程度的专门培训,让教师明白无误地理解如何有效匹配考试目的和测试题目。这种软技能培训比平台操作“硬技能”更重要,也更迫切。

3)对学校的影响。从整个学校层面来说,举行如此大规模的全校性摸底考试,既有好处,也有不利之处。常言道:“欲速则不达。”在第一次使用无纸化在线考试系统的大前提下,因为时间、技术、认识等局限,很多教师也对在如此仓促的时间内对全校大一新生统一进行摸底测试的必要性持保留意见。

实用性(Practicality) 测试实用性是指制定考试标准、实施测试和考试评分所需要的资源总量,通常包括一些具体行政事务。iWrite 2.0系统是一个为英语教学服务的商用英语测试平台,由学校购买并安装至各实验室电脑系统。整体而言,该平台用户友好,操作简单,环境友好,实用高效。但若要对1743名大一新生同时进行测试,显然也是不现实的。因此,被试者分成八个不同批次,在四个半天的周末轮流进行摸底测试,外语部全体工作人员(45人左右)都参加了监考。由此可见,该测试还是耗费了相当多的人力资源,还包括前期的教师培训等工作。

4 结语

总体而言,iWrite 2.0在线写作测评系统在此次入学摸底测试中发挥了很大的积极作用,其优势在于较强的机器评阅内部信度,互通性较好,较为简便的实操性,对学生和教师都带来一定的积极反拨作用。然而,由于测试效度、试题信度以及真实性的局限性,该系统还有改进的空间,尤其在人机组间信度分析、来自学生的真实反馈,以及被试者对写作系统给出的评价意见吸收成效的跟踪调查研究,都有望成为接下来的研究课题。

参开文献

[1]Bachman L F, Palmer A S. Language testing in prac-tice: Designing and developing useful language tests[M].Oxford, UK: Cambridge University Press,1996.

[2]Bai L, Hu G. In the face of fallible AWE feedback: How do students respond?[J].Educational Psychology,2017,37(1):67-81.

[3]Brown H D, Abeywickrama P. Language Assessment: Principles and Classroom Practices[M].2nd ed. White Plains, NY: Pearson Education,2010.

[4]李艷玲,田夏春.iWrite 2.0在线英语作文评分信度研究[J].现代教育技术,2018(2):75-80.

猜你喜欢
信度考试测试
《广东地区儿童中医体质辨识量表》的信度和效度研究
幽默大测试
“摄问”测试
“摄问”测试
“摄问”测试
Japanese Artificial Intelligence Robotto Take Entrance Examinations
科技成果评价的信度分析及模型优化
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
你考试焦虑吗?
中文版脑性瘫痪儿童生活质量问卷的信度