基于项目反应理论的研究生招生考试命题质量评价 *

2023-05-19 09:38宋学玲梁正妍
心理与行为研究 2023年2期
关键词:区分度信息量心理学

宋学玲 梁正妍

(1 教育部教育考试院,北京 100084) (2 华南师范大学心理学院,广州 510631)

1 引言

全国硕士研究生招生考试(简称“研究生招生考试”)是国家高层次人才选拔的主渠道。多年来,研究生招生考试形成了“初试+复试”的成熟模式,初试“筛”的质量极大地影响着复试“选”的质量,其重要性不言而喻,而命题质量则是影响初试质量的最关键因素。从人才评价与选拔的角度来看,只有当试卷的难度与考生的能力水平真正匹配时,才能测量出考生最真实的能力水平,进而有利于选拔出最合适的考生。因此,对研究生招生考试初试的命题质量进行分析,探究其与测试目标群体的匹配程度是考试管理的重要环节。

教育与心理测量理论为考试质量评价提供了理论基础和实现路径,当前主要采用的是经典测量理论(classical test theory, CTT)和项目反应理论(item response theory, IRT)。CTT的数学模型简单易懂,但却存在着样本依赖和测验依赖的缺点,其信度指标对测验可靠性的估计也较粗略。IRT克服了这些缺点,建立了考生能力水平与正确作答概率间的联系,并引入了信息函数来对测量误差进行精确估计。项目反应模型可以分为二级计分模型和多级计分模型。二级计分模型主要有Rasch模型、单参数Logistic模型、双参数Logistic模型、三参数Logistic模型等。多级计分模型主要有称名反应模型、评定量表模型、等级反应模型、分部评分模型、拓广分部评分模型等,其中,拓广分部评分模型多用于“按步骤给分”的题目,但各步骤间的难度未必逐步递增(胡姗, 2015; 纪凌开,2002; 罗照盛, 2012; 漆书青 等, 1998; Muraki, 1992)。

近年来,许多学者就IRT在考试质量评价方面的应用开展了研究。在国外,Gonçalves等人(2023)提出了贝叶斯IRT模型,并运用该模型对巴西某大规模教育考试的数据进行了分析。Strachan等人(2022)结合美国大学入学考试(ACT)数学测试20道选择题的作答数据,对单维IRT模型如何逼近多维潜在空间中的线性复合方向进行了研究。Rahim和Haryanto(2021)采用Rasch模型对某数学期末考试进行了质量评价,发现将40道选择题精简为35道基本不影响测量效果。Lahner等人(2020)研究了瑞士3所医学院5个年级32次高风险期末考试,发现在通过分数线上IRT的条件信度显著高于CTT。Lee和von Davier(2020)研究了PISA财经素养量表的时间和国别测量不变性,并利用项目反应模型对量表进行了调整,显著提高了一国国内测量的准确性。在国内,沈励和万雅奇(2022)结合CTT和IRT对高中学业水平等级考适应性测试的数据进行了分析。闫培香(2021)采用IRT对高考英语分数进行了可比性研究,对平行试卷分数的等值处理进行了分析。庄然等人(2020)对某医学院6年间的免疫学试题进行了质量评价,通过IRT对不同年份的试题、考生能力等进行了比较分析。闫成海等人(2014)以某地高考数学考后数据为基础,基于CTT与IRT对试题质量进行了分析,认为IRT在试题评价方面更具优越性。赵守盈等人(2013)对某地高考英语模拟考试的选择题进行了质量分析,证实了IRT相较CTT的诸多优点。赵守盈等人(2012)应用Rasch模型对研究生入学考试心理学科目的选择题质量进行了分析。

虽然已有的文献为IRT在命题质量评价方面的应用提供了有价值的研究结果,但是落实在研究生招生考试的命题质量评价上仍然存在一些问题。首先,国内外的相关研究多是针对二级计分题开展的,而研究生招生考试的统考科目一般采用的是混合题型的标准化测验,既有选择题又有主观题,二级计分模型不能完全适用。其次,与高考相比,国内对研究生招生考试命题质量评价的关注度不够,研究成果不多。过往教育部教育考试院对于研究生招生考试的质量评价多采用CTT,也有部分学者采用Rasch模型对其进行了研究(赵守盈 等, 2012)。CTT的缺点众所周知,而其中涉及Rasch模型的研究也仅对心理学科目的选择题进行了质量分析。同时,Rasch模型假定所有试题的区分度参数一致,而实际上不同试题的区分度难以保持一致,且区分度参数对于评价试卷质量十分重要。综上,本研究采用项目反应理论中的双参数Logistic模型和拓广分部评分模型对研究生招生考试的整套试卷开展命题质量评价是非常必要的。

2 研究方法

2.1 研究目的

本研究拟采用IRT对2022年全国硕士研究生招生考试《心理学专业基础(312)》科目的全部试题质量进行评价,通过对试题质量参数及考生能力参数的分析来反映考试的整体质量,并通过信息函数对试题和试卷的测量精度进行探讨,以期拓宽研究生招生考试的命题质量评价路径,并为后续考试大纲的完善和命题质量的提高提供心理测量学上的参考。

2.2 研究样本

在2022年《心理学专业基础(312)》科目的作答数据中,随机抽取22,953份样本,剔除827份小题得分数据缺失的样本,实际研究可用作答样本为22,126份。

2.3 试卷结构

《心理学专业基础(312)》是研究生招生考试心理学学术学位硕士研究生(简称“学硕”)的统考科目。试卷由教育部教育考试院组织学科专家根据考试大纲统一命制,考查内容涵盖心理学导论、发展与教育心理学、实验心理学、心理统计与测量四个知识板块。2022年试卷的具体结构见下表1,各知识板块的题型、题量、分值比例与考试大纲中的要求完全一致。

2.4 数据分析

本研究中的数据分析均采用SPSS21.0以及R软件来完成。

2.5 单维性检验

单维性假设指的是假设考试只考查了考生的某一种能力,而忽略其他能力对考试结果的影响。根据考生作答矩阵,采用因子分析法进行单维性检验,当抽取的第一个公共因子解释的变异为第二个公共因子的3倍及以上时,即可认为考试是单维的(赵守盈等, 2013)。本次考试因子分析的结果如表2所示,第一个因子解释的方差占总方差的84.73%,第二个因子解释的方差仅占6.45%,可以认为该次考试是单维的。

表2 单维性检验解释总方差表

3 结果

3.1 项目参数估计

试卷共包含83道试题,其中选择题75道;简答题5道,每题10分;综合题3道,每题30分。简答题分5个步骤,每步2分,分成5个类级:难度1~5。综合题分10个步骤,每步3分,分成10个类级:难度1~10。基于项目反应理论,可以估计出项目参数和考生能力水平参数。一般而言,项目难度参数的实际取值范围为[-3, 3],项目区分度参数的实际取值范围为[0, 3](罗照盛, 2012)。针对选择题和主观题(简答题、综合题),分别采用双参数Logistic模型和拓广分部评分模型对试题进行参数估计。各个知识板块均选取了部分代表性的结果进行呈现,部分结果如表3和表4所示。

表3 项目参数表 (部分选择题)

表4 项目参数表 (部分简答题、综合题)

就难度而言,难度参数值越高,试题难度越大。本套试卷中绝大多数试题难度都在[-3, 3]的范围之内,但是难度小于-0.5的试题偏多,特别是第45、67题难度极低,难度值均小于-4。针对简答题和综合题,从平均难度来看,各试题难度都不超过0.5,其中仅有第78、80、83题的平均难度大于0;从各级难度来看,除了第80、83题之外,其余试题均是负数多、正数少。可见此套试卷难度中等偏易。

根据项目区分度参数的划分标准:大于等于1.5为优级试题,[1.0, 1.5)为良级试题,[0.5, 1.0)为中级试题,小于0.5为差级试题(涂冬波 等, 2011),本套试卷的试题可以分为四个等级。优级和良级的试题(区分度大于等于1)共有43道,占总题量的51.81%。但是,试卷中仍有10道差级试题,中级试题占比也偏高,试题质量仍需改进。特别是,本套试卷的简答题和综合题整体区分度表现一般,仅第80题区分度超过1。此外,第37、45、67题区分度异常,其中第45、67题可能是试题难度过低造成的。

差级试题在试卷中的内容分布如表5所示。结合具体试题内容分析,可以发现:这类试题要么识记属性明显,要么难度参数较为极端。比如,第1题的识记属性很明显;第67题的难度参数(-5.06)过小,该题考查了算法策略,但选项设计可以从实际生活经验中获得;第74题的难度参数(5.57)过大,该多选题对假设检验进行了深入考查,对考生能力要求很高。

表5 差级试题的内容分布

3.2 考生能力参数估计

本研究对考生能力参数进行了估计,绘制了考生的能力密度曲线图,如图1所示。

由图1可知,考生在该科目上的能力范围分布较广,主要分布在[-2, 2]的区间范围内,其中能力水平在0.5左右的考生人数最多。

图1 考生能力密度曲线

3.3 信息函数

信息函数是IRT中反映考试分数对考生能力估计精度的指标,函数值越大,估计越精确。项目及测验信息函数值随考生能力水平的不同而变化,同时,项目在某一能力水平上所能提供的信息量还受项目自身特性的影响。测验信息函数等于所含全部项目的信息函数之和(罗照盛 等, 2008;熊建华 等, 2002)。

试题的期望信息量是理想情况下各试题应达到的信息量值,其计算方式为试题满分占试卷满分的比例乘以5,所以本套试卷中单选题、多选题、简答题、综合题的期望信息量分别为:0.03、0.05、0.17、0.50。试题应提供的信息量比例等于试题的满分值占试卷满分的百分比,实际提供的最大信息量比例等于试题信息量的最大值占所有试题信息量最大值的百分比(沈励, 万雅奇, 2022)。经计算可知,整套试卷中绝大多数试题的最大信息量都高于期望信息量,没有达到期望信息量仅有9道题(第 1、33、41、44、45、64、66、67、74 题),而这9道题,除第66题外均为表5中的差级试题。从四个知识板块的信息量表现来看,各板块的平均最大信息量均远大于平均期望信息量,心理学导论、发展与教育心理学实际提供的最大信息量比例低于应提供的信息量比例,实验心理学、心理统计与测量实际提供的最大信息量比例则高于应提供的信息量比例,详见表6。

表6 各知识板块信息量

图2为测验信息函数曲线。按照ETS的标准,测验信息量10对应CTT中的信度约为0.9,属于高测验信度(Young et al., 2013)。由图2可见,对绝大多数考生而言,测验信息量都是满足要求的(>10)。但是,测验信息函数曲线整体偏左,信息量的最大值所对应的考生能力参数约为-0.8,在此点上测量误差最小,区分度最好。可见,试卷对能力水平中等稍偏下的考生群体区分表现更好。

图2 测验信息函数曲线

4 讨论

IRT将考生能力水平和试题参数放在同一坐标系下进行考量,并用信息量来刻画试题和试卷对考生能力水平的解释程度,能够为命题质量评价提供更加全面客观的信息。

从试题层面来看,IRT对试题的评价比CTT更灵敏、精细。CTT对试题的评价指标主要是难度和区分度,而IRT除了难度和区分度之外,还有项目信息函数。结合教育部教育考试院2022年基于CTT的研究,本研究绘制了全部83道试题在CTT和IRT下试题的难度及区分度对照图,见图3。

由图3可见,CTT和IRT下的难度折线基本呈高低镜像关系,即二者对试题的难易评价相似,同时两条区分度折线走势基本一致,但是IRT下的参数变化更加灵敏,更加容易被观测到。此外,在CTT和IRT下,第37、45、67题的区分度表现均异常,这一点在IRT中已经从试题难度属性、具体考核内容等方面做出了分析。下面以第67题为例,再从IRT下试题参数与考生能力的匹配性及项目信息函数方面对该试题进行更精细的分析。通过考查第67题的项目特征曲线和信息函数曲线,可以发现其项目特征函数和信息函数都是单调递减的。这说明随着考生能力水平的提高,该试题的正确作答概率反而在降低,且试题提供的信息量随着考生能力水平的提高也在降低,这完全不符合选拔人才的试题要求,需要命题人员重新审视。

图3 CTT和IRT下试题的难度和区分度对照图

以往采用CTT或Rasch模型的相关研究均缺乏对知识板块层面的分析,本研究基于IRT做出了尝试。从知识板块层面来看,心理学导论、发展与教育心理学的试题在区分度表现上差于实验心理学、心理统计与测量,这与心理学导论在整个心理学专业基础中的基底性地位密切相关,另外发展与教育心理学也历来重视基础和核心概念的考查。教育心理学的第29题将新冠疫情与亲社会行为相结合对“相关类属学习”进行了考查,从作答情况来看,大部分考生不能准确把握“相关类属学习”和“派生类属学习”的概念内涵,但高分考生作答相对更好。这类试题虽然难度和区分度可能表现都一般,但是却灵活地考查了相关的基础知识,属于有必要保留的试题。实验心理学板块试题的区分度整体表现较好,但仍有部分差级试题,鉴于其自身的实践属性,许多知识点不易以纸笔形式的单题进行考查,所以质量不高。在选择题中以“先用材料呈现心理学实验,再后接数道小题”的“串题”形式进行考查是命题改革的一个可行思路。心理统计与测量的试题质量整体相对较好,但是也存在部分试题难度过大、区分度过低的情况。从各知识板块的信息量表现来看,平均最大信息量均远大于期望信息量,但是心理学导论、发展与教育心理学实际提供的信息量比例低于应提供的信息量比例,而实验心理学、心理统计与测量实际提供的信息量比例则高于应提供的信息量比例。为提高人才选拔的有效性,建议适当增大实验心理学、心理统计与测量在试卷中的分数和题量占比,但是如何提高这部分考核内容对高能力水平考生的鉴别力也是亟待命题专家解决的问题。以心理统计与测量为例,为强化对学硕学术潜能的考查,建议适当降低计算在统计测量类试题中的比重,可以更加侧重对方法的考查和对考生数据解读能力的考查。另外将心理实验与统计测量相结合的考查方式也是一条可行的思路。

从整套试卷来看,试卷结构与考试大纲的要求完全一致,对绝大多数考生而言,测验信息量都满足要求,测验信度高,这与CTT研究下的α信度为0.90相一致。但测验信息函数曲线整体偏左,试卷对能力水平中等稍偏下的考生群体区分表现更好。这一方面与大部分试题的考查知识点过于基础有关,另一方面也是由考试大纲中所规定的考试性质和考查目标决定的,大纲中规定“测试考生掌握心理学学科大学本科阶段专业基础知识、基本理论、基本方法的水平和分析问题、解决问题的能力,评价的标准是高等学校心理学学科优秀本科毕业生所能达到的及格或及格以上水平”。因此,建议在后续修订大纲时,应在考查内容中适当加入心理学研究的新进展,在坚持“三基”考查的基础上,加入对学硕必备专业素养和科研创新能力的考查,适当调整各知识板块考试分数和题量占比,以更好地实现研究生招生考试初试“筛”的目的,从而为复试“选”出德才兼备的高层次人才减轻压力。

此外,本研究所采用的研究方法可推广至研究生招生考试的全部24个统考科目,形成质量评价报告,供研究生招生考试服务部门参考使用。评价的结果不仅能为试题的命制提供理论和经验支持,也能为今后研究生招生考试机考题库的建立奠定基础。

5 结论

本研究采用双参数Logistic模型和拓广分部评分模型对《心理学专业基础(312)》科目开展了命题质量评价,通过考生的作答反应,对项目参数及考生能力水平进行了估计,同时,通过信息函数对考试的精确度进行了分析。本研究的主要结论如下:(1)本套试卷整体质量良好,试卷结构与考试大纲中的要求完全一致;各种题型对知识点的考查均偏重基础;考生能力范围分布较广;测验信息量基本满足要求,测验精确度高。(2)从难度来看,试卷难度中等偏易;从区分度来看,仍有部分差级试题,中级试题占比也偏高,试题质量仍需改进。(3)从信息函数来看,绝大多数试题的最大信息量都高于期望信息量;各知识板块的平均最大信息量均远大于平均期望信息量,其中实验心理学、心理统计与测量实际提供的最大信息量比例高于应提供的信息量比例;测验信息函数曲线整体偏左,对于优秀考生的筛选精度不够,客观上加大了复试的选拔压力。

猜你喜欢
区分度信息量心理学
爆笑心理学
爆笑心理学
浅谈试卷分析常用的几个参数及其应用
基于信息理论的交通信息量度量
爆笑心理学
图形推理测量指标相关性考察*
爆笑心理学
浅观一道题的“区分度”
如何增加地方电视台时政新闻的信息量
单维参数型与非参数型项目反应理论项目参数的比较研究*