基于层次分析评估法的试题合格分数线确定

2014-07-23 00:51姚琳姜涌张博
中国校外教育(下旬) 2014年6期

姚琳+姜涌+张博

【摘要】现代考试系统通过智能组卷策略从试题库中抽取题目,形成试卷。但现有的组卷策略还不能完全消除所抽取试题的难易度的差异性,这样会导致考试结果的相对不公平性,基于此原因在决策领域就有必要为测试成绩建立一个可行的合格分数线。通过“目标-难度”层次分析评估方法,计算得出抽取试卷的合格分数线,可以较准确地判断出答题者对各自抽取的试题的答题结果是否达到合格要求。

【关键词】层次分析评估 组卷策略 合格分数线

一、引言

随着计算机网络、数据库、人工智能等技术的发展,利用计算机进行试卷的自动生成并逐步积累形成有效的试题库,使得对试题和试卷的管理变得高效而便捷,极大提高教务考试的工作效率,使考试系统的管理逐步走向正规化、自动化。但在试题库建立及组卷策略的应用中,由于试题抽取是随机进行的,无法控制,导致答题者有可能抽取试题库中不同难度水平的不同题目。这样,就很难把握考试对于每个答题者的公平性。利用题目“目标-难度”层次评估法,针对每次抽取的试题确定其合格分数线,判断答题者是否对此套试题达到合格水平,将很大程度上保证考试的公平性。

二、层次评估分析法

层次分析法,简称AHP(Analytic Hierarchy Process),在20世纪70年代中期由美国运筹学家托马斯·塞蒂正式提出。它是一种定性和定量相结合的、系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和有效性,很快在世界范围得到重视,它的应用已遍及经济计划和管理、能源政策和分配行为、科学、军事指挥、运输、农业、教育、人才、医疗和环境等领域。

层次分析法是把复杂问题分解成各个组成因素,又将这些因素按支配关系分组形成递阶层次结构,通过两两比较的方式确定各个因素相对重要性,然后综合决策者的判断确定决策方案相对重要性的总排序。运用层次分析法进行系统分析设计决策时可分为4个步骤:

1.进行建立层次结构模型

在深入分析实际问题的基础上,将有关的各个因素按照不同属性自上而下地分解成若干层次,同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用,最上层为目标层通常只有1个因素,最下层通常为方案或对象层中间可以有一个或几个层次,通常为准则或指标层。当准则过多时(譬如多于9个)应进一步分解出子准则层。

2.构造成对比较阵

从层次结构模型的第2层开始,对于从属于或影响上一层每个因素的同一层诸因素,用成对比较法1~9比较尺度构成对比较阵,直到最下层,通常使用1~9比例标度对重要性程度赋值。

3.计算权向量,并做一致性检验

对于每一个成对比较阵,计算最大特征根及对应特征向量,利用一致性指标,随机一致性指标和一致性比率做一致性检验,若检验通过,特征向量(归一化后)即为权向量;若不通过,需重新构追成对比较阵。

4.计算组合权向量并做组合一致性检验

计算最下层对目标的组合权向量并根据公式做组合一致性检验若检验通过则可按照组合权向量表示的结果进行决策否则需要重新考虑模型或重新构造那些一致性比率较大的成对比较阵。

三、组卷策略研究

组卷算法是试题库管理系统的核心技术,是试题库管理系统的灵魂,是基于专家知识的决策过程。组卷过程是在考试大纲的题分、难度系数、试题覆盖面、题型比例等约束都满足的条件下,根据经验和考试目的,调用相应的组卷策略,设计出符合用户要求和一定约束条件的试卷模式;然后再按试卷模式选取试题组成试卷;通过对不同的知识点赋予恰当的题型组合,并在此基础上确定各考题的难度系数(难易程度),最终由具有这样属性的试题构成考卷。通常的组卷算法有:

1.随机选取法

随机选取法以状态空间的控制指标为依据,随机抽取试题,此过程不断重复,直到组卷完毕,或己无法从题库中抽取满足条件的试题为止。该算法的主要优点是简单、快速。缺点是形成的试卷在覆盖面、难易度、重复题率等指标上无法令人满意,组卷成功率低,主要原因是这种算法很难全面考虑试题的相关参数,因此该算法通常只能应用于简易的试题库管理系统。

2.回溯试探法

回溯试探法是通过建立一个按用户设置的组卷参数要求的过滤模型,将随机选取法产生的每一状态都记录下来,当搜索失败时释放上次记录的状态类型,然后再依据一定的规律,变换一种新的状态类型进行试探,通过不断地回溯试探直到试卷生成完毕或退回出发点为止。这种有条件的深度优先法,对于状态类型和出题量都较小的题库系统而言,组卷成功率较好,但是在实际到一个应用时发现这种算法对内存的占用量大,程序结构相对比较复杂;而且选取试题缺乏随机性,组卷时间长,这两点是无法接受的。

3.遗传算法

遗传算法是一种并行的、能够有效优化的算法,以基因理论及间断平衡理论为依据,同时融合了边缘物种形成理论和一般系统理论的一些思想,模拟达尔文的自然界遗传学:继承、进化、优胜劣汰。其实质就是一种把自然界有机体的优胜劣汰的自然选择、适者生存的进化机制与同一群体中个体与个体间的随机信息交换机制相结合的搜索算法。运用遗传算法求解问题首先需将所要求解的问题表示成二进制编码,然后根据环境进行不断的所谓“生存选择”的基本,最后收敛到一个最适应环境条件的个体上,得到问题的最优解。

但目前的组卷策略算法,重点研究的都是理论算法问题,很少考虑到在组卷之后,对每个被试者的考试是否公平,因为抽取具体每道试题的难度无法掌握,设立统一的合格分数线就无法体现考试的公平性。

四、基于题目“目标-难度”层次评估

对于传统的考试,作为一位有经验的任课教师,只要审察一下测验卷中的每一个题目,便能判断考试的难易情况,甚至能够较准确地预计到参加考试的班级中具有不同能力结构的学生会有什么成绩。对教师的这种经验判断加以开发,并通过适当的方法步骤加以引导,就可以用来确定测验的分数合格线。endprint

基于题目“目标-难度”层次分析评估来确定一个测验的分数合格线时,其主要思想是根据对题目考查目标层次的认识以及对题目难易程度做出的经验判断,把整个测试卷中所有题目按照两个特征进行双向分类。然后,由组卷系统根据组卷策略为每一类题目指派一个临界概率,这个临界概率就是设想一个尚可接受的最低能力的被试者,能够正确回答该类题目的可能性大小,或者认为这一临界概率是对每一位被称为合格的被试者提出至少应答对该类题目的比例大小(同概率值大小相等)。这种方法涉及二维评判,组卷策略要考虑设计一些所谓最低能力且又是可接受的被试者,答对特定题目或答对这类题目的可能性。这种方法简述如下:

第一步:组卷系统把一份测试卷中的所有题目按K个考查目标能力层次进行分类(比如按布卢姆关于认知目标的六个层次来分),设这K类所占分数分别为M1,M2…Mk(若在组织试卷过程中有过测试蓝图设计,可直接利用命题双向细目表中的考查目标层次界定及其相应题目的权数)。

第二步:把上述每一类题目按照难、中、易分成三组,因此可得到更细的分类。计算各组题目的分数,就可得到测验题目双向分类下的数据块,以矩阵的形式记为:

第三步:设想一个可接受的最低能力的被试者,答对上述“第i个难度层次第j个能力目标层次”所有题目的可能性大小为Pij(这里i=1,2,3;j=1,2,…,K),得到一个概率矩阵,记为:

第四步:计算该试验的最低合格分数,记为:

五、实例分析

设计某次课程结业考试,其命题双向细目表的设计,题目可分成五个目标层次(即五种题型),K=5和难、中、易三种难度水平,得到如下双向分类数据,如表1,记为:

进一步地,若综合组卷策略及专家系统的智能评判,计算出一个尚可接受的最低能力被试者,答对上述各组命题的概率如表2。

则该次被试者抽取试卷考试的分数合格线可定为:

E=5×0.45+1×0.30+2×0.10+6×0.10+…+15×0.80+2×0.90=60.30(分)

如果被试者超过其选择试题的分数合格线,其能力水平基本符合测试要求,这将成为其最终测试是否达到标准水平的重要依据。

六、结论

将基于题目“目标-难度”层次分析评估法应用于考试系统,配合组卷策略及相关专家系统,按照“目标-难度”两个特征对题目进行双向分类,应用二维评判,确定被试者抽取到的各自试卷的合格分数线,判断被试者是否对此套试题达到合格水平,并且保证考试的公平性。

参考文献:

[1]张洪祥,李秀菊.对考试难度和及格分数线的初步探讨 [J].教育科学,1987,(3):50-56.

[2]韩宁.如何确定及格分数线 [J].上海教育科研,1989,(5):40-42.

[3]王伏华,蒋源.基于层次分析法的动态评估研究 [J].软件导刊,2012,11(2):8-9.

[4]潘良明.灰色层次评估法 [J].系统工程,1992,10(5):45-51.

[5]肖洋,王骁,刘凤新.在线考试组卷算法研究 [J].北京化工大学学报,2006,33(4):44-47.

[6]陈磊,姜薇.通用考试系统的设计与实现 [J].计算机工程与设计,2007,28(17):4285-4289.

[7]黄光扬.教育测量与评价 [M].上海:华东师范大学出版社,2002.

[8]张建同,吕碧玉.基于假设检验方法的考试及格线确定 [J].统计与决策,2009,(3):165-166.

[9]赵守盈,何妃霞,刘妍.Rasch模型在学绩测验质量分析中的应用 [J].教育研究与实验,2013,(1):87-91.

基金项目:辽宁省科学技术计划项目(编号:2013405003)。endprint

基于题目“目标-难度”层次分析评估来确定一个测验的分数合格线时,其主要思想是根据对题目考查目标层次的认识以及对题目难易程度做出的经验判断,把整个测试卷中所有题目按照两个特征进行双向分类。然后,由组卷系统根据组卷策略为每一类题目指派一个临界概率,这个临界概率就是设想一个尚可接受的最低能力的被试者,能够正确回答该类题目的可能性大小,或者认为这一临界概率是对每一位被称为合格的被试者提出至少应答对该类题目的比例大小(同概率值大小相等)。这种方法涉及二维评判,组卷策略要考虑设计一些所谓最低能力且又是可接受的被试者,答对特定题目或答对这类题目的可能性。这种方法简述如下:

第一步:组卷系统把一份测试卷中的所有题目按K个考查目标能力层次进行分类(比如按布卢姆关于认知目标的六个层次来分),设这K类所占分数分别为M1,M2…Mk(若在组织试卷过程中有过测试蓝图设计,可直接利用命题双向细目表中的考查目标层次界定及其相应题目的权数)。

第二步:把上述每一类题目按照难、中、易分成三组,因此可得到更细的分类。计算各组题目的分数,就可得到测验题目双向分类下的数据块,以矩阵的形式记为:

第三步:设想一个可接受的最低能力的被试者,答对上述“第i个难度层次第j个能力目标层次”所有题目的可能性大小为Pij(这里i=1,2,3;j=1,2,…,K),得到一个概率矩阵,记为:

第四步:计算该试验的最低合格分数,记为:

五、实例分析

设计某次课程结业考试,其命题双向细目表的设计,题目可分成五个目标层次(即五种题型),K=5和难、中、易三种难度水平,得到如下双向分类数据,如表1,记为:

进一步地,若综合组卷策略及专家系统的智能评判,计算出一个尚可接受的最低能力被试者,答对上述各组命题的概率如表2。

则该次被试者抽取试卷考试的分数合格线可定为:

E=5×0.45+1×0.30+2×0.10+6×0.10+…+15×0.80+2×0.90=60.30(分)

如果被试者超过其选择试题的分数合格线,其能力水平基本符合测试要求,这将成为其最终测试是否达到标准水平的重要依据。

六、结论

将基于题目“目标-难度”层次分析评估法应用于考试系统,配合组卷策略及相关专家系统,按照“目标-难度”两个特征对题目进行双向分类,应用二维评判,确定被试者抽取到的各自试卷的合格分数线,判断被试者是否对此套试题达到合格水平,并且保证考试的公平性。

参考文献:

[1]张洪祥,李秀菊.对考试难度和及格分数线的初步探讨 [J].教育科学,1987,(3):50-56.

[2]韩宁.如何确定及格分数线 [J].上海教育科研,1989,(5):40-42.

[3]王伏华,蒋源.基于层次分析法的动态评估研究 [J].软件导刊,2012,11(2):8-9.

[4]潘良明.灰色层次评估法 [J].系统工程,1992,10(5):45-51.

[5]肖洋,王骁,刘凤新.在线考试组卷算法研究 [J].北京化工大学学报,2006,33(4):44-47.

[6]陈磊,姜薇.通用考试系统的设计与实现 [J].计算机工程与设计,2007,28(17):4285-4289.

[7]黄光扬.教育测量与评价 [M].上海:华东师范大学出版社,2002.

[8]张建同,吕碧玉.基于假设检验方法的考试及格线确定 [J].统计与决策,2009,(3):165-166.

[9]赵守盈,何妃霞,刘妍.Rasch模型在学绩测验质量分析中的应用 [J].教育研究与实验,2013,(1):87-91.

基金项目:辽宁省科学技术计划项目(编号:2013405003)。endprint

基于题目“目标-难度”层次分析评估来确定一个测验的分数合格线时,其主要思想是根据对题目考查目标层次的认识以及对题目难易程度做出的经验判断,把整个测试卷中所有题目按照两个特征进行双向分类。然后,由组卷系统根据组卷策略为每一类题目指派一个临界概率,这个临界概率就是设想一个尚可接受的最低能力的被试者,能够正确回答该类题目的可能性大小,或者认为这一临界概率是对每一位被称为合格的被试者提出至少应答对该类题目的比例大小(同概率值大小相等)。这种方法涉及二维评判,组卷策略要考虑设计一些所谓最低能力且又是可接受的被试者,答对特定题目或答对这类题目的可能性。这种方法简述如下:

第一步:组卷系统把一份测试卷中的所有题目按K个考查目标能力层次进行分类(比如按布卢姆关于认知目标的六个层次来分),设这K类所占分数分别为M1,M2…Mk(若在组织试卷过程中有过测试蓝图设计,可直接利用命题双向细目表中的考查目标层次界定及其相应题目的权数)。

第二步:把上述每一类题目按照难、中、易分成三组,因此可得到更细的分类。计算各组题目的分数,就可得到测验题目双向分类下的数据块,以矩阵的形式记为:

第三步:设想一个可接受的最低能力的被试者,答对上述“第i个难度层次第j个能力目标层次”所有题目的可能性大小为Pij(这里i=1,2,3;j=1,2,…,K),得到一个概率矩阵,记为:

第四步:计算该试验的最低合格分数,记为:

五、实例分析

设计某次课程结业考试,其命题双向细目表的设计,题目可分成五个目标层次(即五种题型),K=5和难、中、易三种难度水平,得到如下双向分类数据,如表1,记为:

进一步地,若综合组卷策略及专家系统的智能评判,计算出一个尚可接受的最低能力被试者,答对上述各组命题的概率如表2。

则该次被试者抽取试卷考试的分数合格线可定为:

E=5×0.45+1×0.30+2×0.10+6×0.10+…+15×0.80+2×0.90=60.30(分)

如果被试者超过其选择试题的分数合格线,其能力水平基本符合测试要求,这将成为其最终测试是否达到标准水平的重要依据。

六、结论

将基于题目“目标-难度”层次分析评估法应用于考试系统,配合组卷策略及相关专家系统,按照“目标-难度”两个特征对题目进行双向分类,应用二维评判,确定被试者抽取到的各自试卷的合格分数线,判断被试者是否对此套试题达到合格水平,并且保证考试的公平性。

参考文献:

[1]张洪祥,李秀菊.对考试难度和及格分数线的初步探讨 [J].教育科学,1987,(3):50-56.

[2]韩宁.如何确定及格分数线 [J].上海教育科研,1989,(5):40-42.

[3]王伏华,蒋源.基于层次分析法的动态评估研究 [J].软件导刊,2012,11(2):8-9.

[4]潘良明.灰色层次评估法 [J].系统工程,1992,10(5):45-51.

[5]肖洋,王骁,刘凤新.在线考试组卷算法研究 [J].北京化工大学学报,2006,33(4):44-47.

[6]陈磊,姜薇.通用考试系统的设计与实现 [J].计算机工程与设计,2007,28(17):4285-4289.

[7]黄光扬.教育测量与评价 [M].上海:华东师范大学出版社,2002.

[8]张建同,吕碧玉.基于假设检验方法的考试及格线确定 [J].统计与决策,2009,(3):165-166.

[9]赵守盈,何妃霞,刘妍.Rasch模型在学绩测验质量分析中的应用 [J].教育研究与实验,2013,(1):87-91.

基金项目:辽宁省科学技术计划项目(编号:2013405003)。endprint