张东海++赵留庄++刚君++徐德颖+刘双
[摘要] 评价考试质量常用有8个指标,包括涉及试卷的信度以及效度、难度、区分度,还包括平均分数以及标准差、分数分布状态、成绩。本文主要对上述指标的一般常用方法做简要介绍,其方法适合一般结业试卷分析。
[关键词] 助理全科医师;试卷分析;信度;难度系数;区别度
[中图分类号] R-4 [文献标识码] C [文章编号] 1673-9701(2017)02-0125-03
Brief introduction to commonly used indicators of assistant general practitioner's examination paper
ZHANG Donghai1 ZHAO Liuzhuang2 GANG Jun3 XU Deying4 LIU Shuang3 MA Xiuhua2
1.Department of Gastroenterology, Daxing Hospital, Capital Medical University, Beijing 102600, China; 2.Office of Hospital, Daxing Hospital, Capital Medical University, Beijing 102600, China; 3.Department of Science and Education, Daxing Hospital, Capital Medical University, Beijing 102600, China; 4.General Practice and Continuing Education of Capital Medical Unicersity School, Beijing 100069, China
[Abstract] Eight indicators are used in evaluating examination quality, including reliability, validity, difficulty, discrimination testing and average marks, standard deviation, score distribution, grade. Commonly used methods for the above indexes which are suitable for general graduation examination paper analysis would be introduced briefly.
[Key words] Assistant general practitioners; Examination paper analysis; Reliability; Difficulty coefficient; Difference degree
试卷分析是针对大量的成绩数据进行统计、计算、分析,进而得出科学结论的过程。试卷分析属于“教育测量学”的范畴。通过试卷分析可能提炼出诸多对考试质量进行评价的数据,此时试卷就不是单纯地“考试”,而是变(升华)为“试卷分析”。通过试卷分析所得到的比较科学的分析结果,可以进一步展开对教学活动评价,了解教学质量以及学生的学习质量(如对知识的掌握程度)等[1-7]。评价考试质量常用8个指标,包括涉及试卷的信度以及效度、难度、区分度,还包括平均分数以及标准差、分数分布状态、成绩[8-10]。对于上述指标进行分析的方法学较多、有的较为繁杂。我们曾做过相应试卷分析工作[11,12],现结合工作体会将适合结业试卷分析的一般常用方法做一简介。
1 主要涉及试卷质量指标(信度、效度、难度、区分度)的一般分析方法[8,13-14]
1.1 试卷试题难度分析的常用具体方法
难度系数(P)通常是指试卷以及试题的难易程度,可以反映或评价大部分学生对该试题或试卷知识点的掌握程度。难度系数分析应该包括试题难度系数与试卷难度系数两部分,仅进行试卷难度系数分析不易找出具体问题(即总成绩可能掩盖具体得分点)。
1.1.1 试卷总体难度分析的常用方法 试卷整体难度一般以0.6~0.8为宜。方法1:难度系数(P)=试卷的平均得分÷该试卷的满分值。如:试卷平均分为75分,该试卷满分为100分,则P=0.75。该方法较为粗糙,故较少采用。方法2:试卷难度系数(P)=(考试成绩前27%学生的得分之和+考试成绩后27%学生的得分之和)/两组总人数满分之和(考试成绩前27%学生指考试成绩排名在前27%的学生,将这些学生的成绩相加即为得分之和;考试成绩排名在后27%的学员以此类推)。
1.1.2 试题难度系数(P)常用计算公式 方法1:难度系数=试题的平均得分÷该题的满分值。方法2:难度系数=该题的总得分÷该题的满分值。满分值是指:参加考试人数×该题卷面的分值。如果所有试题均采用1分制(即:满分100分,试题100道,每道1分;不采用扣分制),则该题得满分值就是参考人数。所得结果也是该题的答题正确率。此时用方法2就较为方便。
1.2 区别度分析的具体方法学
区别度(D)是指能够区分考试(测验)成绩好的学生和考试(测验)成绩差的学生的指标,一般通过计算高分数段和低分数段学生的难度系数而得出。要同时分析试题区别度数与试卷区别度,单独分析试卷区别度易于掩盖试题的区别指数,误导选用试题。区别度越高,区分能力越强。但是,在结业考试中允许D=0的试题出现。一般以<0.15與≥0.15作为区分点。区分度的计算方法有多种,其中“极端法”计算较为简单,故较为常用。(1)试题区别度(D):D=[2×(总成绩前27%学生的答对人数-总成绩后27%学生的答对人数)]/两组考生总人数。(2)试卷区别度:即D=PH-PL(PH为考试成绩前27%学生的难度系数,PL为考试成绩后27%学生的难度系数);该公式也可以换算为D=[2×(高分段学生得分之和-低分段学生得分之和)]/两组总人数满分之和。
1.3 试卷信度分析的具体方法学
试卷信度(α)评价该试卷检测结果的可靠程度、可重复性的指标,即为评价被测者在测试中的实际测量值与真实能力是否一致性的指标。最好的试卷信度应该在0.9以上,若低于0.7以下则不甚可靠。计算方法如下。
1.3.1 克朗巴赫公式[Cronbach系数(α)] (α)= 试题数/试题数-1×[(所有被测者第i题的方差-所有被测者总分的方差)/所有被测者第i题的方差]。该方法适用于非选择题以及多值计分题(即:试卷试题的类型较多、各题分值不同,如包括多选题、是非题、问答题等)。计算过程较为复杂,需要每道试题计算后得出结果,该方法应用较多。
1.3.2 库德-理查逊信度(简化)公式 适合用于每题1分的选择题(即试题计分为1分或0分的试题)。信度系数=[n(s-1)2-X(n-X)]/[(n-1)s2](计算较为简单)。(n为卷面满分成绩,X为平均总分,s为标准差)[11]。该方法最大的好处是不需要逐题计算通过率。
1.3.3 库德-理查逊信度(简化)公式的进一步简化 计算较为简单。此公式适用于所有试题为每题1分选择题的试卷。信度系数=[K/(K-1)]{1-[X(K-X)/Ks2]}。K为测题的数目,X为平均总分,s为标准差)[5]。
1.3.4 相关系数(R)计算[10] 该方法计算较为复杂。具体公式可以参考相关文献。
1.4 试卷效度分析
效度用于评判测量的正确性、有效性(反映测量到的与所要测量的二者之间的符合程度)[5,6,8,14-15]。如果将测验总分看作是内部效标,则该测题的区分度也就是该测题的效度(即内部效标的效度)[5,6,8,14]。所以,如果仅分析试卷本身只要有区别度即可。因此,在多数的研究中没有计算“效度”[1,3,7,11]。其他获得效度的方法如下。
1.4.1 相关系数(R)计算 基本方法是通过计算两门性质相近学科、或同一学科前后两次考试成绩的相关系数(R)来评价此次考试成绩的有效性。
1.4.2 百分一致法 按考试成绩将学生分为高、中、低3组,用各个试题中高、低分组之差除以相应的满分,即可得出此题的效度值。这实际上雷同于“区分度计算”方式,仅适应于本试卷的检测[16]。
1.5 试题难度系数(P)与区别度(D)之间的关系
P值越大则说明试题难度越小(内容为多数学生掌握),P值越小说明试题难度越大(多数学生未掌握),此两种情况试卷或试题的区别度均较差;要有较好的区别度,试题难度应适中。
较易试题的难度系数≥0.7;0.4<难度系数≤0.7属于中等难度题;较难试题的难度系数多<0.4。多数认为较好的试卷难、中、易试题的分配比例应当分别为20%、60%、20%,这在区别性测试多采用。在结业性测试(属于目标参照性测验[11])中,由于测试目的是了解学生是否掌握了必须掌握的知识,并非区别性测试,所以会允许有P=1、D=0的试题出现,但为了区别优秀与差生,仍然需要一部分难度较大的试题。例如:作者在一次《临床综合课程》学员结业测试时,分配试卷试题难、中、易试题的分配比例分别为11%、22%、67%,因为主要目的是了解学员是否掌握了培训必须掌握的知识,故试题主要测试教学大纲要求掌握的部分(定性为“易”),但试卷信度为0.9,说明该次测试符合目标参照性测验的标准,该试卷整体的看基本合理[11]。
2 主要体现学生成绩的分析指标(成绩、平均分数、标准差、分布状态)[5,6,10,13,14]
2.1 成绩
即考生试卷的总得分。这是基本原始数据,是所有数据分析的基础数据,必须仔细输入。
2.2 平均分数
是最直观的集中量数。一般认为平均分数的最佳数值为75(百分制)。
2.3 标准差(s)
例如,甲班与乙班的考试平均分数相近但分数分布差异明显,则不能说两个班级的成绩相近。此时不仅要考虑到平均分数,还要计算分数的离散程度(简单可以理解为“分数分布情况”,学术名称——差异量数)。常用的差异量数有多种,经常采用的差异量数是标准差。计算公式可以在统计学教材查找到。计算标准差,理论上讲学生人数越多越好。一般认为:标准差≤10即能符合要求。标准差过大说明全班分数差异过大,需要教师予以注意;但过小则信度下降,区别度下降,标准差也可用于信度计算。
2.4 分布状态
简单理解就是看整个班级(年级)学生的成绩分布情况。一般要求是正态分布,结业考试可以允许一定的正偏态分布,但绝不能完全一边倒。一般习惯是利用成绩分布曲线分析学生的考试成绩(纵坐标为学生人数,横坐标为分数),可以直观的下结论(定性分析);如果要进行定量分析,则需进一步计算偏态量数及峰态量数[10]。
试卷分析的方法学较多,本文仅介绍较为简单、易于掌握的部分。利用试卷分析结果,可以评价教学效果,但其评价的基础是要有高质量的“试卷”(难易程度适当、知识点掌握的较好),这同样涉及教与学两方面的努力。试卷分析仅仅是手段而已,也可称为是教育测量的工具。在进行试卷分析的准备过程中,首先要编制适合测试对象的“试卷”:编制试卷则要根据测验目的进行,最基本的是要依据测验功能决定是进行能力倾向测验(学生的潜在能力如何?)還是学业成绩测验(考察学生经过教育教学过程后学业成绩的掌握情况,也称“考试”)。进一步,则要根据培养目标进行分数解释,如果是“目标参照性测验”则其及格就是最基本的教学要求水平参照点,分数愈高说明达标的完满程度愈高;如果是“常模参照性测验”,即测验目的是鉴别性测验(优选,如高考),则测验的难度就要适当增加以利于选拔。结业测验一般是“目标参照性测验”,本文介绍的简便方法学适用于“目标参照性测验”。
研究结业考核标准与模式是不断探讨的课题[17],结业试卷分析不仅可以评价本次考核内容的学生掌握情况、教师教学效果,同时也可以评价不同教学单位在教授同一课程时其间教学效果的差异性[18]。“3+2”助理全科医师培训[19-21]是一项新的工作,我们在其中的《临床综合课程》教学实践、教学管理中,纳入试卷分析体系作为评价整体教学水平、发现不同教学单位教学差异点的手段之一[8,9],取得了较好的效果,不仅了解了教学效果,同时也为提出新的教学思路提供启发点,为集体备课提供了具体依据。因此,掌握试卷分析方法学,既是教师的基本功(特别是高校教师),也是教学管理部门应该熟悉的管理内容与管理技术。
[参考文献]
[1] 张正祥,刘国庆,王廷慧,等. 延安大学医学院药理学试卷分析[J]. 中华医学教育杂志,2008,28(4):120-122.
[2] 孙敏,王锦帆,祖勤,等. 医学生学习中期评估测试实效分析[J]. 中华医学教育杂志,2013,33(4):617-620.
[3] 卢燕,王培玉,刘宝花. 北京大学医学部八年制疾病预防医学期末考试试卷分析[J]. 中华医学教育杂志,2013, 33(5):791-793.
[4] 和永祥,王渊,徐俊丽,等. 内科学考试试卷分析与评价[J].西北医学教育,2006,14(3):304-305.
[5] 王孝玲,教育测量(高等师范院校教材)(第2版)[M]. 上海:华东师范大学出版社,2005:1-188.
[6] 黄颖,林端宜. 试卷分析研究现状综述[J]. 西北医学教育,2005,13(1):39-40.
[7] 宋青,蔡景一. 试卷考核质量评价[J]. 中国高等医学教育,2006,(11):30-31.
[8] 高卫红,任俊峰. 利用教育统计学原理进行考试质量分析方法初探[J]. 武警医学院学报,2004,13(3):214-218.
[9] 田考聪,彭斌. 试卷质量定量分析系统中的几个参数及其应用[J]. 医学教育探索,2004,3(4):52-54.
[10] 张玲玲,梅忠义. 对学生成绩评价指标体系中一些问题的思考,合肥工业大学学报(社会科学版),2006,20(2):19-21.
[11] 马秀华,张东海,黄东明,等. “3+2”助理全科医师培训《临床综合课程》结业试卷评价及相关因素分析[J]. 中国医学教育技术,2015,29(2):213-217.
[12] 马秀华,张东海,徐德颖,等. “3+2”助理全科医师培训中《临床综合课程》结业试卷分析评价[J]. 中华医学教育探索杂志,2016,15(5):445-450.
[13] 彭斌. 试卷质量定量分析系统中的几个参数及其应用[J].中华医学教育探索,2004,3(4):52-54.
[14] 刘新平,刘存侠. 教育统计与测评导论(第1版)[M]. 北京:科学出版社,2003:133-156.
[15] 史宏灿,龚卫娟,郑英,等. 以国家执业医师资格考试为参照的临床医学教学改革思考[J]. 中华医学教育探索杂志,2016,15(5):459-464.
[16] 陈欣,戴社教,赵暹,等. 不同类型试题对医学影像学考试评价的效能分析[J]. 中华医学教育探索杂志,2016, 15(5):455-458.
[17] 赵丽莉,李崭,黄艳. “3+2”培训项目结业考核标准与模式的研究[J]. 继续医学教育,2015,29(11):4-5.
[18] 张东海,马秀华,赵留庄,等. 通过临床综合课程结业试卷分析不同教学单位教学效果的差异[J]. 卫生职业教育,2016,34(12):101-103.
[19] 黄艳,线福华,赵丽莉,等. “3+2”助理全科医师培养模式的探索与实践[J]. 中华医学教育杂志,2014,34(2):31-33.
[20] 张东海,马秀华,黄东明,等. “3+2”助理全科医师培训<临床综合课程>首轮课程實施后的思考[J]. 中华医学教育探索杂志,2015,14(8):837-840.
[21] 马秀华,张东海,黄东明,等. 病例导入式教学在《临床综合课程》教学中的初步应用[J]. 首都医科大学学报,2014,(社会科学版增刊):180-182.
(收稿日期:2016-10-12)