新课程背景下如何进行中学化学试卷的质量分析

2009-03-14 04:53侯跃平关广鹏
文理导航·教育研究与实践 2009年1期
关键词:难度质量分析区分度

侯跃平 关广鹏

【摘要】由于目前教师、学校,甚至教育研究部门对学科测验质量分析存在误区,所以笔者提出,对中学化学教学评价过程中所使用的非标准化试卷的质量分析时,首先要对试卷进行具体情况的分析,然后要收集试卷的统计数据,而重要的是对测试题目的质量分析(难度分析、区分度分析)和测验的质量分析(信度分析、效度分析)。

【关键词】中学化学试卷;质量分析;难度;区分度;信度;效度

中学化学试卷的质量分析是中学化学教学评价的重要内容,高质量的中学化学试卷分析对提高中学化学教学质量和提高化学试题的命题质量具有特别重要的意义。同时,也是教育主管部门、教育研究部门获取教育教学质量信息、提出改进教学建议的重要途径。

一、中学化学试卷的质量分析存在误区

据笔者调查了解,目前教师、学校,甚至市、县教育研究部门的学科测验质量分析,仅仅是对学生考试成绩的情况分析,也就是考试结果分析。这对于了解学生学习情况,鉴别学生学业成绩、为改进教学、提高教学质量提供反馈信息是非常重要的。但这种分析是建立在学科测验(试卷)本身是没有任何质量问题的测量工具基础之上的,严格讲这只能称为被试的质量分析,而不能称为试卷的质量分析。特别是使用没有经过标准化的教师自编学科测验时,在没有对试卷这一测量工具的质量进行有效的分析评价之前,对测试结果的分析是没有意义的。

学科测验质量分析的方法包括定性分析和定量分析。从认识论角度讲,人们对事物、现象的认识首先获得一定的质的认识,然后在此基础上进一步去考察量,以求对事物的质有更清晰、更准确的把握,这就是认识的深化与精细化。也就是说,定量分析的目的是为了精确地、深入地对事物、现象的质的认识,这就要求必须正确理解、评价、解释、运用在定量分析中所使用的各种统计指标。但据笔者调查了解,在目前的对非标准化学科测验的质量分析中,定性分析较多,定量分析较少。定性分析往往缺乏足够的依据,而在一些简单的定量分析之后,相关指标的评价标准界定不明确,相关指标的解释、理解不全面,指标的运用不充分。

二、对试卷的基本情况的分析

这项工作主要是分析试题范围及知识点,试题性质、题型及数量以及有关命题依据等方面的内容。

1试题范围及知识点

是否是在化学教材及课程标准要求的范围内,覆盖面如何。试题内容是否源于课本,并根据学生生活背景知识适当拓宽加深,有无难题、偏题、怪题及超过课标要求的拔高。试题跨度是否注意到适当增加学科内或者学科间知识的交叉渗透,体现综合性特征。试题是否科学合理、比例是否恰当。文字、图像、图表、数据等信息资源是否准确。试题陈述是否科学准确、表达是否清晰,备选答案是否明确。试题之间是否具备独立性,即相互间有无提示现象。试题是否注意到与社会实际和学生生活实际的联系,注重对学生能力的考查。

2试题性质、题型及数量

试题按性质分为客观性试题和主观性试题。那么试卷中客观性试题和主观性试题各为多少道,分别为多少分。在目前,试题按题型(除高三模拟题外)一般分为选择题(单选或多选)、填空题、简答题、实验探究与设计题、计算题等种类。试题数量指选择题的备选答案数、填空题空格数、实验探究与设计和计算题得分点数、回答要点数,以及教材、课程标准和考试要点要求的知识涉及程度、知识点覆盖面(%)。

3命题依据

是否依据教材及课程标准;是否对基础知识、主干知识和基本能力的测试;是否关注探究过程和方法、联系实际选取素材,这对“教”和“学”具有导向作用。

三、试卷的统计数据

中学化学试卷的统计数据,可以按题型与按每道小题,进行全样本分析或抽样分析(随机抽样分析,样本容量适中)除了要统计最高分、最低分、平均分、优良率、及格率、错误率、得分率外,更主要的是要做好学生典型错误或创新解答统计及原因分析。在此只谈一下选择题的试题作答率的统计分析。

试题作答率是以全体受试学生中,每一个选项的作答人数占总人数的百分比值。每一选项的作答率,可以作为筛选或进一步修改不恰当的试题、以及分析学生作答情形之用,藉以了解学生是否有一些错误或迷失概念。

选择题的结构是由两部分组成:包括题干与选项,题干就是问题本身;选项包括一个正确选项(最佳答案)和三个诱答选项。正确选项必须要能吸引较多具备该评量能力的受试者去选择;而诱答选项则应具似真实性或合理性,会吸引较多不具备该评量能力者或是概念不正确者去选择。选项的设计与选择题题目的难易程度有密切关系。如某一试题有4个选项,正确选项A作答率为0.89,选项B作答率为0.11,显示该选项具有诱答力,有约11%的学生有此错误概念;选项C及选项D作答率为0,显示该选项不具有诱答力,或受试者没有此错误概念,可考虑修改此选项。

四、测试题目的质量分析

任何测验都是由若干测验题目构成的。非标准化测验的质量分析,首先应该是对组成测验的各个测验题目进行质量分析,只有保证了构成测验的所有试题的质量达到规定的标准,才能保证一个测验的整体质量。测验题目质量分析的目的,首先是为了鉴定测验题目,并为进一步修改测验试题提供有效的依据,前述的选择题作答率统计就属于此;其次,有助于提高老师编制测验的技能和技巧,有助于建立测验题库;当然,最为重要的还是为了保证一个测验的信度和效度。测验题目的质量分析主要包括题目的难度分析和区分度分析。

(一)、难度分析

难度又称难易度、难度系数(P)是试题对学生知识和能力水平的适合程度的指标,是一个相对概念,难度的高低与被试者的水平直接相关。难度的取值范围为0≤P≤1,P值愈大,表示该试题愈容易,愈多数学生答对该试题;P值愈小,表示该试题愈困难,愈少数学生答对该试题。

1难度的计算

对于二分法记分的客观试题,通常以答对或通过该题目人数的百分比来表示难度:P=R/N(P:题目难度;N:全体被试人数;R:答对或通过该题目的人数)。

当被试人数较多时,可采用极端分组法,即先将被试按测验总分从高到低排列,取总分最高的27%被试为高分组,总分最低的27%被试为低分组,分别计算高分组和低分组的通过率,然后再求题目的难度:P=(PH+PL)/N(PH、PL分别表示高分组和低分组的通过率)。

主观题的难度一般用参加测试考生在该题的平均得分与该题分值之比,即P=X/K(X表示所有考生在该题的平均得分,K表示该得分值)。

试卷的平均难度:P=∑Pi/N(Pi代表每道题的难度值,N代表试卷的题目总数)。也可用P=∑PiWi/W表示(Pi代表每道题目的难度值,Wi代表每道题目的分值,W代表试卷的总分值)。还可以用P=X/W表示(X为总平均分,W代表试卷的总分值,P代表试卷的平均难度)。

当被试人数较多时,也可采用极端分组法计算难度:P=(XH+XL-2NL)/2N(H-L)(XH、XL分别为高分组、低分组的总分;H、L分别为最高分、最低分;N为总人数的25%)。

2难度分析

难度分析的主要目的是为了鉴定、筛选和修改题目。题目的难度水平通常取决于测验的目的、题目的形式以及测验的性质。一般情况下,测验的平均难度要适中,应在0.50左右;如果测验是为了了解被试在某方面知识、技能的掌握情况,可以不必过多地考虑试题的难度。

难度对于测验的影响,首先表现在测验分数的分布形态上。若测验题目的难度普遍较大,则分数呈正偏态分布;若测验题目难度普遍较小,则分数呈负偏态分布;只有当测验题目的难度适中时,分数分布才呈近似正态分布。其次表现在测验分数的离散程度上。太难或太易的测验题目,都会导致测验分数相对地集中在低分端或高分端,离散程度较小;当难度适中时,分数分布范围大,离散程度较大。这是用标准差σ来表示的,因篇幅关系,在此不加赘述。

只有当分数的分布范围较大时,测验的信度才可能较高,反之信度较低。可见,测验题目的难度以集中在0.50左右为最佳,以集中在两极端为最差。在非标准化学科测验中,组成测验的各试题的难度系数应当以0.50为均值(各个试题难度均匀分布在0.2~0.8之间为好),这样有利于最大程度区分不同程度学生,使试题产生区分学生的最大效果,分数将呈正态分布,但允许有少量的高难度和低难度的测验题目。

(二)、区分度分析

试题区分度又称区分度指数(D),是衡量试题对不同知识和能力水平考生的鉴别程度的指标。具有良好区分度的测验,实际水平高的该得高分,实际水平低的该得低分,它是评价试题质量、筛选试题的主要指标和依据。

1区分度计算

鉴别指数法。对于二分法记分的客观性试题,从总分分布的两端各选择27%的被试组成高分组和低分组,分别计算高分组和低分组的通过率,二者之差就是鉴别指数:D=PH-PL。

主观题的区分度,一般从总分分布的两端各选择27%的被试组成高分组和低分组,分别计算各组总分和测验最高分、最低分。再按下面公式计算:D=(XH-XL)/N(H-L)(公式中各符号含义与难度计算时相同)。

其它复杂的计算,在此从略。

2区分度分析

如果一个题目的测试结果使水平高的考生答对(得高分),而水平低的考生答错(得低分),它的区分就很强。鉴别指数是鉴别题目测量有效性的指标,鉴别指数越高,题目越有效。一般认为,鉴别指数在0.40以上的为很好;鉴别指数在0.30~0.39的为良好,修改会更好;鉴别指数在0.20~0.29的为尚可,仍需修改;鉴别指数在0.19以下的为差,必须淘汰。

任何一种测验,其所有的测验题目,都应该具有良好以上的区分度。否则,将无法保证测验的有效性。

五、测验的质量分析

当由若干质量达到要求的测试题目构成一个测验时,还必须对整个测验的可靠性和有效性进行技术鉴定,这就是通常所说的试卷分析。试卷分析最根本的含义是指对试卷的质量进行系统的分析,目的是评价作为鉴别学业成绩的测量工具的质量。对于标准化测验来说,有一整套完整而成熟的质量技术分析指标。非标准化测验在测验结束后,也可以通过抽样的方法,借助这些指标来进行试卷的质量分析,也就是要明确一个测验的信度和效度。

(一)信度分析

信度是指测验结果的稳定性、一致性和可靠性的指标。信度是测量过程中随机误差大小的反映,如果信度低,则随机误差大,测验的结果就会与真分数发生较大的偏差。一个成功的测验必须具有较高的信度,也就是说,只要遵守操作规则,测验的结果就不应该随工具的使用者或使用时间、地点等因素的变化而发生较大变化。

测验信度的种类较多。如反映测验稳定性的重测信度、检验等值性的复本信度以及描述内部一致性的分半信度、同质性信度等。在非标准化学科测验的信度分析中,最适合使用的应该是分半信度。

分半信度是将一个测验分成对等的两半,然后分析同一组被试在两个半份的一致性程度。计算分半信度的关键在于如何将一个测验分成两半,常用的分半方法有完全随机分半、奇偶题目序号分半等。计算分半信度的方法,就是求被试在两个半份测验上得分的相关系数,当然,由于只是半个测验的信度,所以必须进行校正。校正公式为r=2r0/(1+r0)(r为信度,r0为两个半卷上分数的相关系数)。

测验信度通常用来解释个人测验分数的意义,也可用来进行两种测验分数的比较分析。测验信度高,说明测验结果比较一致,测量工具具有稳定性、一致性和等值性,被试的能力水平受被试状态和施测环境变化的影响较小;若信度低,则说明测验的随机误差较大,测验结果不可靠。鉴别信度系数的高低,需要对计算的各种相关系数进行显著性检验。

要提高测验的信度,可适当增加测验的长度,并使测验中所有试题的难度系数接近正态分布,并控制在中等水平;必须保证测验题目具有较高的区分度,并尽量使用同质的测验内容题目;另外,还必须强调测验评分的客观性,并提高测验程序的统一性。

(二)效度分析

效度指一个测验实际测量的结果与所要测量的能力水平之间的吻合程度,是测验的有效性或正确性的指标。效度是随机误差和系统误差的综合反映,效度的估计就是多方寻找证据来证明一个测验有效性程度的过程。由于效度是就测量结果达到测量目的的程度而言的,所以测验的效度估计在很大程度是取决于人们对测量目的的解释。常见的解释有三种:一是用测量的内容来说明目的;二是用心理学上某种理论结构来说明目的;三是用实际实效来说明目的。于是,就有内容效度、结构效度和实证效度之分。

在非标准化学科测验的效度分析中,最适合使用的是内容效度。

内容效度指一个测验实际测到的内容与所要测的内容之间的吻合程度,也即试卷内容对于所要考查的课程内容的代表性如何。估计内容效度的核心问题,一是要测的内容范围是否明确,二是在明确的内容范围内题目的取样是否具有代表性。

确定内容效度的方法主要是逻辑分析法。其工作思路是请有关专家对测试题目与原定内容范围的吻合程度作出判断分析,所以又称专家判断法。这需要依据在编制测验时制作的“化学学科双向细目表”。

要提高测验的效度,首先,要精心编制测验试题,避免出现系统误差;其次,要妥善组织测验,控制好随机误差;第三,要合理处理好信度与效度的关系,信度不高的测验不可能具有很高的测验效度。

另外,还要做好被试团体的质量分析和被试个体的质量分析,因篇幅关系,在此从略。

综上所述,非标准化学科测验的质量分析,可借助于标准化测验的质量分析指标体系,通过抽样进行一定的定量分析,在此基础上,对测验所作的定性分析才有充分的依据。也只有在试卷的质量分析基础上,被试的质量分析才有其实际意义。

(作者单位:辽宁省丹东市第二中学)

猜你喜欢
难度质量分析区分度
浅谈试卷分析常用的几个参数及其应用
产融结合型企业利润结构质量分析体系的构建
浅观一道题的“区分度”
基于SPSS软件的高校学生课程考试成绩定量分析
财务会计下的难点及对会计工作的影响
单维参数型与非参数型项目反应理论项目参数的比较研究*