远程计算机辅助普通话水平测试的改进策略研究

2013-09-18 02:14:50朱丽红韩世梅
中国远程教育 2013年11期
关键词:普通话远程考试

□ 朱丽红 韩世梅

一、引言

随着计算机网络技术的飞速发展,各个领域都在探索如何利用信息技术解决所面临的问题,寻求新的发展机遇。语言测试也不例外。从20世纪60年代开始,就使用计算机对大规模测试数据进行分析、保存测试题库和提供测试结果报告。80年代以后,传统的基于纸笔的语言测试(Paper-and-Pencil Based Language Testing,PBLT)逐步发展为基于计算机的语言测试,并向基于网络的个性化自适应性语言测试(Web-Based Individualized Self Adaptive Language Testing)迈进[1]。美国教育考试服务中心(Educational Testing Service,ETS)于2005年正式推出了网络版托福(Test of English as a Foreign Language,TOEFL)测量模式TOEFL iBT[2];全国大学英语考试(College English Test,CET,下文采用“大学英语四、六级考试”)委员会也从2008年开始了多次远程网络考试的实验研究,为全面实现远程化、网络化和自适应性考试模式奠定了基础。针对计算机自适应性语言测试的理论和实践问题正在成为远程教育测量模式研究的热点[3]。

普通话水平测试(Putonghua Shuiping Ceshi,PSC)作为我国唯一一项面向汉语母语人的口语测试,也必然顺应时代的需要,利用网络实现管理、测试、培训和研究的现代化。但尚存在一些值得深入研究的问题。

二、普通话水平测试的特点及其面临的主要问题

作为语言测试的一种,普通话水平测试具有语言测试的共同属性,但其自身存在着一定的独特性,需要探求独特的问题解决方案。

1.高测试级别及其带来的高风险问题

《中华人民共和国国家通用语言文字法》明确规定:“凡以普通话作为工作语言的岗位,其工作人员应当具备说普通话的能力。以普通话作为工作语言的播音员、节目主持人和影视话剧演员、教师、国家机关工作人员的普通话水平,应当分别达到国家规定的等级标准;对尚未达到国家规定的普通话等级标准的,分别情况进行培训。”这为普通话水平测试奠定了法治基础,也确立了普通话水平测试的高级别特性。现任教育部语言文字应用管理司司长姚喜双指出,“普通话水平测试不是一般的学术性测试,不是可有可无的,而是关系到推普大业的一项测试”[4]。从社会维度来看,“当一项考试的结果用于考试以外的目的时,该考试结果(分数或证书)就获得了社会权重,这项考试就变成了高风险考试”[5]。

2.大规模测试及其带来的高资源配置问题

普通话水平测试等级证书已经成为我国教师、播音员、主持人、影视从业人员、公务员等行业的准入条件;香港的招聘广告也有60-70%会提出对普通话水平的要求[6]。这些因素推动普通话水平测试的规模不断扩大。自1995年实施以来,全国已有约4000万人次参加了普通话水平测试,近几年的年测试量保持在300万人次左右。与托福(TOEFL)、雅思(IELTS)等大规模语言测试相比,普通话水平测试已经是不折不扣的大规模语言测试。为满足应试需要和保证评测的信度,国家及各省级普通话培训测试机构已经培训了5万余名测试员。但是,不管这支测试员队伍如何勤勉敬业、甘于奉献,远距离、长时间的人员调配对测试组织方来说仍然是一个难题。

3.纯口语测试及其带来的实施困难问题

托福(TOEFL)、雅思(IELTS)和大学英语四、六级考试(CET-4,CET-6)等语言测试,无论是从作答内容还是作答方式来看,都以笔试为主,形成了一套较为完整的理论系统和测试方法,而且相互之间参考价值很高。普通话水平测试与这些测试的主要区别在于它是完全的口语测试,对测试成绩的评判主要取决于测试者对应试者发出的语音信号及其表达的内容信息的评价[7]。普通话水平测试完全口试的测试形式使得成绩的评判常常面临准确性的挑战。

虽然有研究者指出,口语测试的重要性体现在对被试口语交际能力的评价上,通常认为面试型口语考试(Oral Proficiency Interview,OPI)是最具真实性的口语考试方式[8],但是,由于是一种主观性的语言测试,许多教师和测试专家都承认口语测试很难做到客观公正,其信度往往较低[9]。菲利普·利文斯(Filip Lievens)指出,对被试口语水平的最终评价始终无法摆脱评分员主观判断误差的影响[10]。

另外,纯口语形式一般采用人工测试,费时费力,增加了人力财力投入。根据赵昌汉对大学英语四、六级考试中面对面口语测试实考情况的调查,两名测试员在每天工作8小时的情况下最多能测试64名考生;雅思口语考试的面试员每人每天最多只能测试16人[11]。同样,在普通话水平测试的考场,两名测试员一天的测试量也只能是15-20人,否则就很难保证质量。而且,测试员的动作、表情、语气语调、施测态度和综合印象等,都是应试者产生焦虑情绪的影响因素,都会影响应试者测试水平的发挥[12]。

三、利用信息技术改进普通话水平测试的可能性

普通话水平测试是在现代信息网络技术和大规模计算机语言测试学科发展背景下酝酿、诞生和发展起来的,其信息化建设受到高度重视和不断加强。

2004年9月,普通话水平测试国家题库系统通过鉴定;2005年8月,国家普通话水平测试管理信息系统上线,逐步实现了信息管理的远程化、自动化和无纸化。目前采用的“普通话水平智能测试系统”,以《普通话水平测试大纲》(以下简称“《大纲》”)为基础,可准确地对“命题说话”之外的所有测试题型实现自动评测,并可以自动检测发音者存在的语音错误和缺陷,对使用者高效提升普通话口语水平具有积极的指导意义[13]。据报告,2007年开展“普通话水平智能测试系统”试点当年,就有27万人参加了计算机辅助测试;截止到2011年年底,全国累计参加计算机辅助测试的考生总数达到589万人次。计算机辅助普通话水平测试系统的应用,一定程度上缓解了人工测试所面临的问题,主要体现在:

1.规范了测试程序,体现了国家级测试的客观公正性

与人工测试相比,“机测”优化了测试手段,规范了测试程序,统一了测试标准,降低了测试成本,提高了测试效率,体现了国家级测试的客观性和公平性[14]。试点单位也普遍认可计算机辅助测试具有“测试效率高、组织难度降低、管理更加规范、客观性强、公平公正”等优点[15]。

2.避免了测试员在场引发的心理压力

对使用Skype网络语音电话进行英语口语测试的实证研究表明:考生对远程口语测试表现出很高的积极性,在“语言输出的真实性”、“内容效度”和“焦虑程度”等方面,普遍认为远程条件下的表现更令人满意[16]。实施基于网络的远程计算机辅助普通话水平测试,也可以有效缓解应试人员面对面测试时的心理压力。

3.缓解了大规模测试的资源配置问题

普通话水平智能测试系统实现了对前三项测试内容的自动评分,应试人完成测试后立即生成评分结果,测试员只需要对第四项进行评测,该项内容测试时间为3分钟,大大提高了整体评测效率。有的测试站一天可以完成几百人次的测试,这是人工测试难以实现的。

四、网络化普通话水平测试的主要问题及其改进策略

计算机辅助普通话水平测试系统的实施,一定程度上解决了考试的客观性,缓解了应试者的心理压力,节约了大量人力物力资源的投入。但是,有研究者认为,该系统能够解决的问题有限,其准确性与可操作性有待于进一步提高[17]。普通话水平智能测试系统将前三项作为整体进行汇总的综合评分方式,会使第一项“读单音节字词”和第二项“读多音节词汇”的测试意义不明显。有研究者指出,该系统对高分段(如一级甲等)以及低分段(如三级乙等)甚至以下的成绩判定和人工测试的误差较大[18]。鉴于此,本研究提出如下改进策略:

(一)利用网络技术改进普通话水平测试的施测和评分方式

《大纲》规定,计算机辅助普通话水平测试中采用的是四种题型[19]:①读单音节字词(不含轻声、儿化音节),测查应试人声母、韵母、声调读音的标准程度;②读多音节词语,测查应试人声母、韵母、声调和变调、轻声、儿化读音的标准程度;③朗读短文,测查应试人使用普通话朗读书面作品的水平,在测查声母、韵母、声调读音标准程度的同时,重点测查连续音变、停连、语调以及流畅程度;④命题说话,测查应试人在无文字凭借的情况下说普通话的水平,重点测查语音标准程度、词汇语法规范程度和自然流畅程度。

按《大纲》的设计,每种题型有着不同的目的,也有着不同的评分标准,人工测试时会分别给出每一种题型的成绩,从中能够清晰地分析应试人在各个题型上的表现。而当前的普通话水平智能测试系统,将前三项作为整体进行综合评分,体现不出《大纲》的设计精神,给应试人的反馈信息不够充分和具体。

1.合理利用技术,改善第一、二项测试内容的呈现方式

从第一项“读单音节字词”和第二项“读多音节词语”的试题呈现方式来看,当前的普通话水平智能测试系统只是“人测”的“平移”(如图1所示)。

虽然采取分色的方式提示不同的文字行,但对有些人来说,“由于不习惯前两题计算机视频显示的蓝黑相间字体,导致应试者漏字、漏行现象存在”[20]。要避免这些情况,应当在设计时充分考虑到屏幕阅读与书籍阅读的区别。

图1“读单音节字词”题项的呈现方式

(1)依靠详细的受试者分析,提供友好的用户界面

以现有的呈现方式,就是在平时也难免出现“漏字”、“串行”现象,更何况是在参加具有“高风险”性质的国家级考试现场。而右下角的“下一题”按钮,不管在什么情况下,只要点击,都会自动结束当前题目的测试,直接进入“下一题”。如果应试者在考试过程中出现误操作,除了取得低等级或不合格之外,“重考”往往是唯一的结局。作为一套高质量的系统,除了要提供必备的功能(如这里的试题呈现、时间提醒、音量提示等)之外,还应该考虑到以什么样的方式避免用户出现误操作,以及在出现误操作时的急救措施。

(2)发挥技术支持能力,提高测试目的的契合度

以第一项“读单音节字词”为例,试卷的编排有一定的规定性,在顺序上,音节的排列要避免同一测试要素连续出现,以此来考查应试人对普通话音节的声母、韵母、声调等要素的掌握情况。人工施测时,如果出现不按顺序朗读的情况,测试员会进行干预。在机辅测试中没有测试员干预,应试人的随意朗读就违背了试题的设计理念。另外,对读错但没有读出下一个字词前以第2次读音为准的规则、字词读音缺陷和错误的扣分规则,测试软件不能详细反映出来[21]。如果不以“屏”为单位来呈现试题,就可以摆脱这样的“顺序”关系依赖,准确地建立试题与应答之间的映射关系,不仅提高了评测的信度,对于测试题目的重现和结果的复审,也提供了基础和便利。

(3)合理规划各测试项的原子单位,提高真正意义上的自动化

当前系统采用的是固定的试卷组合方式,使得试卷的曝光率很高。以河北省为例,目前采用的是十套试题,经过几年的测试,所有内容已成为公开的秘密。有研究者建议,题库内的单音节字词、双音节词语、短文及说话题目应各有足够数量,每一套试题的形成应由题库内不同类型的题随机搭配组成[22]。这种在四项测试类别之间进行随机搭配的方式,在一定程度上降低了试卷的曝光率,但效果有限。要实现目前主流的计算机自适应测试,尚需时日。

其他单位研发过的“计算机辅助普通话水平测试评分系统”,以实验语音学和计算机语音信息处理为基础,建立了集图形、音频、文字为一体的“普通话水平测试各等级标准数据库”,通过不同等级样本音波图、语图、音高图、音强图、audio音频的对比,客观地展现出普通话水平测试不同等级的语言面貌和各种数据,为《普通话水平测试等级标准》提供言语声学的数据支持[23],是一种有效的探索。

2.尝试引入远程服务呼叫改善第三、四项测试内容的实施方式

现有普通话水平智能测试系统对第三项“朗读短文”采取了全面的自动评判,而作为分值最重的“命题说话”,则是唯一还在采用人工评分的测试项目。有研究者指出,朗读中根据回读次数扣分,增、漏、错读字音每一个音节0.1分的扣分要求,朗读中自然流畅,语调偏误等重点考查项目上的评分细则,测试软件不能详细反映出来[24]。口语交际中的说话和书面交际中的写作都很难采用纯客观题的形式加以考查,对这类综合性主观题进行计算机自动评分是个难题。计算机口语考试(Computerized Oral Proficiency Interview,COPI)是以牺牲部分交际真实性为代价来提高测试的可行性与评分的可靠性的[25]。Versant英语口语测试(The Versant English Test)号称“世界上第一个使用语音识别和处理技术的全自动口语考试”,能对跟读单词的准确性、发音、朗读流畅性进行评分,全球多个学术、商业和政府组织都用来对求职者、雇员、学生或国际助教的英语口语能力进行评估。但研究表明,Versant英语口语测试的六类试题中,能够考查到语篇运用能力的复述故事和开放问答题并不参与评分,但考生的作答会被保留下来“供相关授权人员审核”[26]。为尽量保证测试评分的准确性和一致性,托福目前采用人工评分和自动评分相结合的办法,人工评分主要评测作文的内容和意义,自动评分主要对语言特征进行评分[27]。可见,对同一测试内容采用人工评分和自动评分相结合的方法,得到较广泛的认可。因此,本文提出对第三项“朗读短文”采用自动评分和远程实时人工评分相结合的办法,而对第四项“命题说话”采用远程实时人工评分的办法,这需要通过远程呼叫中心服务的形式来实现。

当前,在远程教育中,已经采用并在不断强化呼叫中心式(Call Center)的实时学习支持服务功能,它所提供的服务主要包括:将Web服务系统和语音服务系统相结合,提供教学信息和资源的全方位教学服务;建立基于互联网的CC,提供教与学双向交互服务,如文本交谈、语音电话、网上协作等;利用远程坐席服务建立专家答疑系统等[28]。

借鉴这一研究成果,本文对现有省中心拓扑结构进行改造,将连接测试员的评测机(目前只用来调取第四项“命题说话”的考试录音,并进行评测),改为基于远程网络呼叫的“普通话水平测试呼叫中心”,其拓扑结构如图2所示:

图2采用远程网络呼叫的计算机辅助普通话水平测试系统拓扑图

其业务流程相应的更改如下:

①当考生开始应答第三、四题时,通过呼叫中心与在线的测试员发出服务请求;

②测试员接受测试任务后,建立单向语音连接,并在测试员端启动相应的评分系统;

③考生回答完该测试题目后,测试员回传其评分数据,断开本次呼叫连接;

④管理系统获取各测试员(2-3位)对该考生本次测试的成绩,进行评分汇总,生成结果报告;

⑤考试结束。

引入远程实时在线测试服务有着重要的意义。首先,对于第三项“朗读短文”,可以改善当前采用完全自动评分带来的不确定性;其次,实现了对第四项“命题说话”的实时测试,使得考生在测试结束后几分钟之内就可以得到最终结果,进一步提高反馈效果;再次,实现测试员的远程接入,减少测试员的远距离移动,提高了灵活性;最后,可以实现全国范围内测试员的整体调配。

(二)基于网络的普通话水平测试系统应该为远程学习者提供学习和培训支持服务

语言测试与语言教学密不可分,测试的终极目的是促进学习,开展普通话水平测试的目的就是为了“以测促训”,促进普通话的普及和水平的提高。信息技术作为影响学生学习的重要因素,以一种具有时代特征的物化文明为实体而“无缝嵌入”现代学习活动之中,是人类技术的外在表现,使现代学习的外在表现形态发生了不同以往的变化[29]。基于网络的普通话水平测试系统本身应该为远程学习者提供学习和培训支持服务。通过参加测试,让学习者得到反馈信息,从而发现问题,有针对性地改进学习。在国外的第二语言测试领域,以欧洲语言共同框架(the Common European Framework of Reference,CEFR)为基础开发的、由计算机传输的大规模自我评估和诊断性测试系统(DIALANG),能为语言学习者提供欧盟39种语言学习的自我评估和诊断结果[30]。目前的普通话水平智能测试系统只能提供针对前三项总体的得分评测,没有细化到各测试项,关于语调和流畅程度等要素的评测也是缺失的,对应试人准备下一次测试和真正改善学习情况来说,这些信息就显得非常有限了。利用现有的网络技术,实现与人工测试相似的分离式评分,对各个项目分别评分,这样的结果能够反映应试人究竟在哪些评分项目上存在不足。如果应试人在参加完测试之后不仅拿到等级证书,还能拿到一份诊断说明,接下去的学习就有了更明确的方向,对学习者来说真是功莫大焉。因此,计算机辅助测试带来的改变不仅是测试手段的现代化,还包括对语言能力的认识和学习普通话的方式的改变。

五、结语

在第二届全国普通话水平测试学术研讨会上,时任教育部语言文字信息管理司司长的李宇明教授曾描绘了普通话培训测试现代化建设的蓝图,“普通话培训测试手段的现代化,就是利用计算机、互联网及相关的现代技术设备,使普通话培训测试工作从管理、测试、培训到研究都实现现代化”[31]。前两个方面已经基本实现,多媒体的远程培训课程还主要是自发的探索和小范围的应用,利用计算机建立关于普通话培训测试的知识库和用于普通话培训测试研究的语音数据库,以及对这些数据库的开发利用等,更是有待加紧进行。本文针对现有普通话水平测试系统对第一、二项内容呈现方式的改善,对前三项采取综合评分所导致的准确度问题,提供了解决思路。以“字”、“词语”为单位,更有利于不断积累数据,为后续研究提供数据支持。就可否精简现有测试内容,以缩短测试时间、降低测试成本,以及能否只采用必要的测试内容对应试人的普通话标准程度和规范程度做出准确的评测等问题,已经催生了计算机自适应性测试(Computer Adaptive Testing,CAT)这种形式。但是,现有计算机辅助普通话水平测试系统要实现自适应性测试尚有很远的路要走。

本研究提出的改进策略,也存在着一些不足,也可能引发相应的问题。

1.对以字、词为单位进行屏幕呈现,上百个字、词,其操作所需的时间、可能引发的误操作等,目前还没有进行大规模的试验研究;是否具备与印刷版测试材料具备同等的效度等问题也需要进一步开展研究。

2.引入远程呼叫服务后,如何实现全国范围内测试员的资源配置,使之公平地服务于普通话水平测试业务,如何公平地对其进行评价,需要一整套改革方案。

3.采用人工评分和自动评分相结合的办法,并没有改变“命题说话”项人工评分的现状,如何部分地实现“命题说话”项的自动评测,非常值得探讨。

4.提供的改进策略,基本上还是以测试站、测试中心为基础施测的,尚不能实现“时时、处处”的网络语言测试服务。尤其是对高风险、高级别的测试而言,远程呼叫服务为实现“时时、处处”的网络语言测试服务,提供了基础设施方面的支撑,但是,如何识别应试者的身份、防止考试过程中的舞弊行为等,这也是目前各语言测试都采用“考场”制的原因之一,还需要进一步探讨。

]

[1]孔文,李清华.基于计算机的语言测试及其效度验证[J].外语界,2009,(3):66-73.

[2]Fulcher G.Practical Language Testing[M].London:Hodder Education,2010.

[3]柴省三.中国汉语水平考试(HSK)远程CAT阅读测试模式研究[J].中国远程教育,2013,(6):81-87.

[4]姚喜双.推普工作的重要抓手——谈依法推进的普通话水平测试[J].语言文字应用,2010,(3):26-34.

[5]杨惠中,桂诗春.语言测试的社会学思考[J].现代外语,2007,(4):368-374.

[6]宋欣桥.普通话水平测试在香港的基本属性及未来发展[J].语言文字应用,2008,(1):100-105.

[7][17][23]王渝光,姚一斌,杨瑞鲲等.计算机辅助普通话水平测试评分系统研究[A].第三届全国普通话水平测试学术研讨会论文集[C].北京:语文出版社,2009:215-222.

[8]金艳.大学英语四、六级考试改革思路与未来展望——解读《全国大学英语四、六级考试改革方案(试行)》[J].中国大学教学,2005,(5):49-53.

[9]Shohamy,E.,Reves,T.,and Bejarano,Y.Introducing a new comprehensive test of oral proficiency[J].ELT Journal,1986,40(3):212-220.

[10]Lievens,F.Assessor Training Strategies and Their Effects on Accuracy,Interrater Reliability,and Discriminant Validity[J].Journal of Applied Psychology,2001,86(2):255-264.

[11]赵昌汉.高校英语大规模网络化口语测试的可行性与技术设计[J].外语电化教学,2012,(7):39-44.

[12]马红英,刘春玲.PSC过程中测试员对应试者焦虑情绪的影响研究[A].第二届全国普通话水平测试学术研讨会论文集[C].北京:商务印书馆,2006:217-232.

[13][22]黄谦,张小俊,赵秀宏.计算机辅助普通话水平测试存在的问题及对策[J].廊坊师范学院学报(自然科学版),2011,11(4):122-124.

[14][20]韦素玲,黄令,杨树喆.浅析提高计算机辅助普通话水平测试质量的策略[J].高教论坛,2009,(12):37-40.

[15]韩玉华.计算机辅助普通话水平测试试点地区的调查研究[J].首都师范大学学报(社会科学版),2009,(S3):29-33.

[16]赵春荣,刘永权.远程条件下英语口语测试新探索——一项基于Skype网络语音电话进行英语口语测试的实证研究[J].现代教育技术,2012,22(2):95-98.

[18][21][24]雷峻.计算机辅助普通话测试的问题思考及技术对策[J].武汉理工大学学报,2010,(13):160-163.

[19]国家语言文字工作委员会普通话培训测试中心编制.普通话水平测试实施纲要[Z].北京:商务印书馆,2004.

[25]戴朝晖.计算机口语考试信度研究[J].外语电化教学,2011,(3):45-50.

[26]程蒙蒙.Versant英语口语测试:特点分析及其启示[J].中国考试,2012,(8):52-57.

[27]TOEFL官方网站.TOEFL iBT:About the Test[EB/OL].[2013-05-24].http://www.ets.org/toefl.

[28]潘国清.用呼叫中心技术构建学习支持平台研究[J].中国远程教育,2013,(10):84-89.

[29]李芒.学习生存性视域中的信息化学习方式[J].北京师范大学学报(社会科学版),2007,(5):38-43.

[30]Council of Europe.Common European Framework of Reference for Languages:Learning,Teaching,Assessment(CEFR)[EB/OL].[2013-05-24].http://www.coe.int/t/dg4/linguistic/CADRE1_EN.asp.

[31]李宇明.论普通话培训测试手段的现代化[A].第二届全国普通话水平测试学术研讨会论文集[C].北京:商务印书馆,2006:1-8.

猜你喜欢
普通话远程考试
让人胆寒的“远程杀手”:弹道导弹
军事文摘(2022年20期)2023-01-10 07:18:38
远程工作狂综合征
英语文摘(2021年11期)2021-12-31 03:25:18
远程诈骗
学生天地(2018年19期)2018-09-07 07:06:30
我教爸爸说普通话
Japanese Artificial Intelligence Robotto Take Entrance Examinations
中学科技(2017年5期)2017-06-07 13:01:01
如果古人也说普通话
学生天地(2016年19期)2016-04-16 05:15:26
你考试焦虑吗?
中学科技(2015年6期)2015-08-08 05:35:38
准备考试
17
高考爆笑答案