考试跃升评价
——论大数据背景下教育考试角色转变的可能与特点

2017-01-12 05:12
关键词:学习者考试测量

陈 立

(宁波市教育考试院,浙江 宁波 315000)

考试跃升评价
——论大数据背景下教育考试角色转变的可能与特点

陈 立

(宁波市教育考试院,浙江 宁波 315000)

从大数据的视角出发,对传统环境下考试功能异化的原因做了探究,分析了大数据背景下考试跃升评价的现实可能,并着重探讨了大数据背景下考试的特点,即多样化的考试内容与形式、多元化的评价主体、个性化的评价标准、常态化的评价活动,试图为后续研究提供一定的参考。

大数据;考试;评价

考试作为一种社会活动,由于其背后夹杂着众多社会关系和利益而历来备受关注。最早有文字记载的考试活动应从上古时期著名的“四岳举鲧治水”的典故开始。之后,考试在选拔人才、促进社会阶层流动方面发挥着举足轻重的作用,梁启超曾言:“夫科举非恶制也……此法实我先民千年前之一大发明也。”[1]但从另一方面看,中国根深蒂固“学而优则仕”的思想和制度已经严重影响人才选拨和人的发展。学习为了考试,教学服务考试,考试录取率成为地方政府另一个“政绩GDP”,考试取得高分也成为了考试实践的内在旨趣。因此,考试的自身角色蜕变迫在眉睫。在此背景下,由考试走向评价的命题进入了人们的视野,原教育部考试中心主任戴家干认为:“从考试到评价是教育改革的时代任务。”[2]

以教育信息化带动教育现代化已成为全球各国推动本国教育创新和发展的战略选择。当前,以大数据及其技术为代表的信息技术正影响着人类社会的生产、生活、思维。考试作为一种用数据描述事实的量化方式,在大数据的语境下如何走向评价?基于评价的考试又将呈现怎样的特点?本文试图对上述问题展开探究。

一、考试功能定位异化原因探析

考试本身是一把丈量被试者心理特质的尺子,呈现的结果是一种客观中立的事实描述。而当前考试本身功能定位出现异化,究其原因主要有以下几方面。

(一)观念固守传统

中国几千年的考试文化将考试功能定格为选拔和区分人才,这种观念忽视了考试的作用对象和考试的主体,即认为考试主体和考试的服务对象都是施考者,只要满足了施考者的测量目的,那么这样的考试便是一次好的考试,而考试活动及其结果对被试者的影响并不在考虑的范围之内。由此,考试活动和评价活动合为一体或者说考试活动代替了评价活动,其直接后果是以应试方法取代教育过程,考试受到的批评和责难也越来越多[2]。而此时的考试走向评价是一种异化的过程并不代表其自身的基本诉求。

(二)技术无法满足

人类社会发展离不开技术的进步,人类社会的每一次革新都是技术革命的结果。同样,作为社会文化活动的一部分的考试也离不开技术的支持。一方面,教育测量与统计技术虽然一直处于革新的过程,但是并没有完全满足考试对测量技术的要求,如针对学生知识掌握的测量技术较为完整,但对情感态度价值观等非学业领域的测量还有待进一步的完善;另一方面,数据存储、传递和处理技术也一直困扰着考试数据分析人员,深度挖掘和分析考试数据还存在诸多困难。所以,技术的局限性也阻碍了考试功能的转化。

美国著名教育测量与评价学者格朗兰德(N.E.Gronlund)曾就以一个公式表示了测量与评价的关系,即评价=测量(量的记述)或非测量(质的记述)+价值判断,这就是说,评价是在量(或质)的记述的基础上进行价值判断的活动[3]。显然,传统的观念和技术忽视了客观事物的价值判断,导致考试替代了评价。但大数据及其技术所引发的新的思潮和新的技术将深刻改变着教育考试的发展方向。

二、考试角色转变的支撑环境

近年,随着大数据及其技术的发展,在数据采集、数据处理分析方面取得了长足的进步,此外,现代测量理论和技术也有了新的发展,为考试走向评价的实现提供了支撑环境。

(一)理论基础:以人为本的价值取向

斯塔弗尔比姆(D.L.Stufflebeam)强调:“评价最重要的意图不是为了证明(prove),而是为了改进(improve)。”[3]而改进是为了人的全面发展。20世纪50年代,美国学者马斯洛(A.Maslow)和罗杰斯(C.R.Rogers)就当时西方心理界将人的学习混同为动物的学习,重视认知结构而忽视个人情感、价值观,忽视个体的心理感受和自我实现的需求,提出了著名的人本主义学习理论,该理论强调学习者的个性化发展和自我实现过程。与此同时,美国学者加德纳(H.Gardner)于1983年提出了著名的多元智能理论,认为一个人的能力至少有9个范畴:语言、数理逻辑、空间、身体运动、音乐、人际、内省、自然探索和存在。无论在教学过程还是在评价标准的制定上都要考虑个人多元智能的存在,以便实施全面的而又个性化的教学与评价活动。可以看到,多元评价、以人为本的评价理念已经形成并影响着考试功能的定位。大数据背景下全样本多模态的数据及其分析为真实全面地反映学习者的个性特征和多元智能提供了重要的方法和手段。

(二)测量方法:多层次全方位的诊断反馈策略

我们知道,当需要了解和比较不同事物的个体属性和特征的时候就形成了测量意识,而测量技术发展水平对于测量可靠性和有效性至关重要。现代测量理论与技术的发展主要经历了三个阶段,第一个阶段以经典测量理论(Classical Test Theory,CTT)为代表,主要测量被试对知识的掌握情况;第二阶段,以项目反应理论(Item Response Theory,IRT)和概化理论(Generalizability Theory,GT)为代表,其中项目反应理论通过获取被试者的特征参数来全面了解学习者的能力情况而不受测试工具的影响,并且在概化理论的指导下有效控制了标准误,提高了测量的信度;第三阶段,以认知诊断理论(Cognitive Diagnosis,CD)为代表,认知心理学的发展和应用,使心理测量学家逐渐认识到,传统的测量技术只能给出一个笼统的分数,只测验忽视了诊断[4],因此该理论强调基于数据提炼诊断信息并用以表现被试的心理认知过程,这一理论逐渐受到关注。可以发现,随着测量技术和理念的发展,现代测量表现出从知识、能力到心理活动的全面测量过程。

(三)技术环境:大数据下的数据挖掘与分析

近年,随着互联网、物联网、云计算技术的高速发展,大数据及其应用受到了各方的高度关注。目前关于大数据的定义并没有统一的认识,综合各方观点[5-6],大数据特征可以概括为“3V”,即Volume(量大)、Velocity(快速)、Variety(多样),其中数据量大是指数据集合的规模超乎传统IT可以承受的范围,数据规模将发展至以ZB为单位;快速是指数据基本上都是动态更新、即时产生;多样化是指数据模态多,即数据的来源多和数据的格式多。大数据与传统教育数据最本质的区别体现在采集来源以及应用方向上[7]。在数据来源上,有学业考试数据和非学业考试数据,有结构化数据和非结构化数据,有学生日常学习数据和大规模考试的数据,通过数据挖掘和学习分析技术以可视化的方式呈现学习群体和个体的学习结果,并基于数据展开研判,作出学习预测和提供学习建议,从而为实现个性化和多元化的评价创造可能。

三、考试即评价——大数据背景下教育考试的新趋向

(一)多样化的考试内容与形式

以考察知识掌握为主的纸笔考试是当前主流的考试形式,这种考试形式往往导致教育考试目的的偏离、教育考试功能的窄化、教育考试形式和内容的单一[8]。因而,当前教育考试的形式难以满足社会对教育考试多样化的需求而饱受诟病。丰富考试内容、完善考试形式成为当前教育考试的重要议题。

随着移动终端和在线学习平台的普及,泛在学习将成为一种新的学习形式而存在于我们的社会空间,依托于大数据的在线正式考试和非正式考试的形式将成为主流。学生在有计划、有规则的学习环境中参加正式考试,而在如机场、公交等非正式的学习环境中可以参加具有反馈强化性质的即时性测试(可认为是非正式考试),此举将极大丰富学生参与考试的形式。在学生参与考试的过程中,可通过身边的传感设备将学生眼动频数、脸部表情、作答停滞时间、作答流程等信息收集起来,为分析和构建学生个人的学习模型和路径提供数据原料。在考试内容方面,传统的知识测试不再以单一的图文形式呈现,而以富媒体、类真实的情景来考察学生知识掌握程度和应用情况。此外,一直被忽视的学生心理活动和能力的测试将成为一种常态,学生的学习动机、学习兴趣、学习策略、学习满意度以及高级思维能力都将被一一探明,而这些非学业成绩数据的分析对于诊断学生的个性特征具有十分重要的意义。可以预见,正式和非正式的考试形式、立体全面的考试内容将是大数据下教育考试的重要特征。

(二)多元化的评价主体

多元评价是素质教育对教育评价的一种内在要求,无论从人本主义学习理论关于人的发展,还是多元智能学习理论关于智力的培养,都在强调个人的综合全面的评价,而多元评价势必要求评价主体的多样性。传统环境下,参与评价的主体主要有教师、同伴以及应试者,而以教师为中心的教学结构下同伴互评和自评往往容易受到忽视,从而造成评价主体多元化流于形式。而在大数据背景下,参与评价的主体会呈现多元化特征。

数据分布式处理是大数据的一个重要特征,在这种思想指导下开展基于网络的分布式学习评价应该说是一种趋势。基于这种模式的考试评价至少有两个好处,其一,减轻了本地教师的压力。当一次考试结束后,将考生的试卷在线发送给全区或更大区域的教师批改,这样一来就会减少选调本地教师批改试卷的压力。其二,可以提高考试结果的信度。当大量教师批改一份试卷时,就会减少偶然因素所造成的评分误差,从而提高考试成绩的可靠性。另外,当前基于数据挖掘和机器学习等方式的文本分析技术已用于考试,机器参与考试内容的分析已经有多个案例,如上海市已经在高中学业水平考试英语口语考试中使用机器智能评测,江苏省在初中毕业生升学考试英语听说能力测试中也使用机器智能测评,而且有研究表明,机器评分的信度要高于人工评分[9]。因此,在巩固和提升传统评价主体的评价信度的情况下,开展机器评分是大数据时代保证评价主体多元的一种重要的手段。

(三)个性化的评价标准

一直以来,个性化教育都是教育研究和实践的焦点和诉求,而真正实现个性化却面临诸多困难[10]。差异化教学、个性化评价更多是在理论层面的探讨而实践案例寥寥无几。大数据及其技术的介入将对解决上述问题开辟一个新的方案,可能正是大数据大价值的最好体现。大数据在数据来源上包括学业和非学业数据,结构化、半结构化以及非结构化全过程数据,呈现出多类型、多模态的数据特点,对于全面分析学生的学习状态提供了可能。

在这样的背景下,对学生的评价呈现以下几个特点:第一,考试工具的多样化。由于不同学习者的学习风格存在差异,如有的学生喜欢纸笔测试,有的倾向于游戏测试,那么可以根据数据分析结果为学习者提供不同的测试方式。其二,评价标准的个性化。不同学习者存在个体差异,就需要我们用多种评价标准给予测评。然而在传统的环境下,主要侧重学生学科知识的掌握情况,对其他方面以及是否符合学生自身水平的评价标准涉及的并不多,而大数据环境下完全可以为学习者提供适合个体特征的评价标准,如当前自适应学习系统,通过分析学习者在线行为数据,来构造学习者个人智力水平和学习习惯模型,在此基础上为学习者提供具有个性化学习意义的学习资源和学习建议,而这种测评的思路完全符合现代评价理论对学习者进行评价的要求。其三,评价结果逼近个体真实心理特征。全样本、多模态的数据采集和挖掘分析用以全方位展现被试的心理特征,不会因为数据采集不完备或者通过统计推断而造成信息失真。

(四)常态化的评价活动

过去我们将考试定义为一种重要的评价活动,而从教学连续性的角度上说,考试实际上是一种特殊学习活动,这种学习活动的目的不是去获取知识而是诊断学生知识的掌握情况。在考试形式上面,以往一直重视终结性的评价而忽视过程性的评价,造成学生面对考试表现出焦虑、恐惧的心理,严重影响了考试结果的信度。而“小步调、多频次”的过程性评价往往难以开展,究其原因在于传统技术环境难以支持教师的形成性评价的过程。而大数据背景下,考试将变成一种常态化的学习活动。

大数据背景下,数据的即时产生并依托数据挖掘以及学习分析技术可以为教师提供便捷的过程性评价活动,而评价结果用仪表盘进行可视化呈现,从而将教师从海量的学习数据中解放出来。教师要做的是将更多的精力投入到为学生提供学习建议和指导服务中去。因此,可以将在大数据环境下的每一次学习活动都视为一次考试测评活动。那么对于学生来说,在参与的每一个学习活动后都可以及时获取自己的学习状况,以便及时调整自己的学习策略和方向;对于教师来说,可以开展全面的良好的过程性评价,及时变更自己的教学内容和路线,以便为学生提供有效的学习建议;对于教育管理者来说,可以全方位及时了解学习者的综合素质情况和教师投入教学的精力以及区域教学成效,便于做出教育决策。这样一来,便可体现考试即评价、评价即服务的理念,提高了评价的有效性,增强多元评价的可信度并减少考试的风险和压力。

从考试跃升评价,这是时代发展的要求,而这种理念的实现需借助技术的力量。大数据及其衍生出的技术和理念正革新了教育本身的格局,提高了教育的生产力。本文从大数据及其技术对教育考试的影响的角度出发,分析了大数据背景下考试跃升评价的可能性和特点。大数据及其技术在教育考试的应用理论和实践目前还处于探索阶段,面临着考试数据的去冗降噪、数据挖掘和分析的成本、数据的安全性等问题,相信这些问题在不久的将来将一一破解。

[1]梁启超.官制与官规[J].国风报,1910(5):7-18.

[2]戴家干.从考试到评价:教育改革的时代任务[J].中国高等教育,2007(13/14):21-23.

[3]陈玉琨.教育评价学[M].北京:人民教育出版社,1998:8-16.

[4]蔡楠.认知诊断理论评述[J].现代企业教育,2014(12):483-484.

[5]Big data[DB/OL].(2015-02-28).http://en.wikipedia.org/wiki/Big-data.

[6]程学旗.大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考[J].中国科学院院刊,2012(12):641-652.

[7]牟智佳.电子书包中基于大数据的学习个性化分析模型构建与实现路径[J].中国电化教育,2014(3):63-69.

[8]庞忠荣,田友谊.教育考试的异化与回归[J].中国考试,2012(11):40-46.

[9]吕鸣.智能测评技术在大规模英语口语考试评卷中的探索和实践[J].中国考试,2015(10):51-57.

[10]李曼丽,黄振中.MOOCs平台大数据的教育实证[J].科学通报,2015(5-6):577-583.

Evaluation of Examination Zooming—— On the Probability and the Features of the Role Change of Education Examinations in the Bigdata Context

CHEN Li
(Ningbo Education Examinations Authority, Ningbo 315000,China)

An exploration is to be made into the causes of the functional alienation of examinations in the traditional context from the perspective of big data.An analysis is also made of the actual possibility of elevating examinations up to evaluation under the background of the big data by discussing the features of examinations in the Bigdata environment.Namely, there would be diverse in both forms and content of examinations, diversified subjects of evaluations, personalized evaluation criteria and normalized evaluation activities.This paper attempts to provide a certain degree of references for the follow-up relative study.

big data; examinations; evaluation

G424.74

A

1008-8318(2017)02-0085-04

2017-01-11

陈立(1972-),男,浙江宁波人,助理研究员。

猜你喜欢
学习者考试测量
你是哪种类型的学习者
十二星座是什么类型的学习者
把握四个“三” 测量变简单
青年干部要当好新思想的学习者、宣讲者、践行者
滑动摩擦力的测量和计算
Japanese Artificial Intelligence Robotto Take Entrance Examinations
日出日落的观察与测量
测量
高校学习者对慕课认知情况的实证研究
你考试焦虑吗?