刘霖 戴经国 袁辉勇
摘要:当前,在线测评系统得到广泛应用,选题策略成为发挥系统效能的关键,传统的选题策略存在检验精度不够、试题曝光不均衡,题库安全性差等不足,论文提出一种新的自适应选题策略,先对题库进行基于难度的分区,区内再按区分度二次分层,建立相应选择量模型,通过反馈机制,选出信息量最大的试题。实验表明新策略在保证检测效能的前提下有效地降低了试卷重复率,保证了题库的安全性。
关键词:自适应策略;信息量;随机抽样法
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)32-0007-04
目前,计算机教学中广泛采用在线训练平台与个性化随机测试相结合。测试过程中,如何有效地进行试题选择成为考评检验学生学习效果的关键,然而传统的自适应试题生成策略存在着试题曝光率过高、试卷重复、检验效果不佳等不如人意的地方,影响到系统的有效利用及学生学习效果检验。因此,提出一种改进的选择策略成为在线训练平台的关键。
1经典的试题选择策略
选题策略是计算机自适应测验中最关键的部分。自适应测验过程中,系统会根据使用者的表现从测验题库中选择最合适的项目进行。广泛应用的在线选题策略主要有:最大信息量法和a分层法。
其中a代表了试题的区分度,c用于对不确定因素的估值,称为猜测因子,b用于表示试题的难度。从以上模型提示项目正比于区分度,反比于猜测因子,试题难度越高越能检验使用者的真实能力。最大信息量策略的核心是通过收集使用者的能力信息,然后再在未选择的试题中选择最大信息量试题。此策略过程为收集使用者的相关测试结果,如果初次使用則可以预设定一个能力初值,依能力值对未选择的试题计算信息量,选出最大信息量的试题供测试者使用,再依据使用试题的结果进行反馈,重新估计能力值,按新的能力值再对选定的试题进行排序,选择直到满足结束条件为止。
此策略应用十分广泛,在此基础上,研究者也对策略进行了进一步的改善,主要有极大加权信息量法、最大全局信息量法,贝叶斯法等。此类策略试题区分度与试题信息量成正比,在难度与猜测因子确定的条件下,此策略会优先选择高区分度的试题。实际使用过程中试题的利用率不均衡,过多使用的试题容易过早暴露于后继使用者面前,造成检验结构失真。
1.2 a分层法
a分层策略先对试题按区分度等级进行划分区间。策略对试题的选择过程是:由先验数据估计使用者的能力值(即使用者的能力特征),无先验数据者可以预估一个值;由使用者的检测步数值从对应的分层中选择试题。依据选择的试题难度与使用者能力值的匹配度,并把此匹配度反馈给使用者。由反馈结果再调整选择合适的分层再选出试题。反复循环,直到满足停止条件。a分层可以避免高区分度试题过度选中,有利于较好的检测出使用者的能力。另外,使用过程中,每次要对题库中没使用的试题计算信息量,增加了资源消耗。
a分层策略在进行层次划分时没考虑试题参数之间的相关性,它对试题理想化为每个分层中均会有不同难度的试题供选择,但实际应用中高区分度分层中通常高难度试题较多,高区分度区间中难找到低难度试题,无法保证检测试题的平衡控制,检验精度比最大信息量法差,同时实际使用过程中,由于计算量大,a分层策略效率更低。
2一种新的自适应选题策略
2.1设计思想
选题策略中,信息量能较好地反映出使用者的能力,最大信息量法具有较好的能力检验度,但高区分度的试题过度使用,不利于题库的安全。a分层策略降低了测试精度。随后研究者提出了信息量分层法与渐近信息量法(GMIR)作为改进策略.渐进信息量法和信息量分层法是自适应选题策略的变种。
M表示模型中测试总步数,已经完成的步数用m表示,θm-1对应测试步数为m-1时反映出来的能力得分,a、b、c分别代表试题的区分度、难度和猜测因子。每次使用时总是计算模型左侧值最大的试题作为被选试题提供给使用者。
为了进一步优化使用效果,研究者在a分层基础上提出试题信息量分层,每次试题难度和使用者能力值最吻合的试题被选中。以上的思想均是在测评准确度与选题曝光率上进行改进。
受此启发,新方法基于难度与区分度进行多级分层,信息量(精度)正比于试题区分度,试题难度与使用者能力如果吻合越好,信息量(精度)会越大;对于题库,统计上有如下规律:试题呈现正态分布,在(-3,3)区间内使用者的能力与难度相吻合,信息量最大,测试最准确,但通常试题题库较大,每次匹配会耗费大量时间。因此,使用分层的方式,依据难度进行题库分层,即先按难度进行一级分层以优化选题效率,并有利于使用者的能力值与难度进行匹配,然后再依据区分度进行二次分层,通过二次分层保证试题处于合理的曝光次数下,有效的提升选题测验的精度。
2.2策略设计
新方法在使用过程中先基于难度分层,可记为难度b分层,能使难度均匀分布,二次分层考虑曝光率,解决了题库的安全暴露问题,提高了题库的安全性,同时也保证了低区分度试题的有效利用性。再通过策略模型选择合适的试题。
依托反应理论中定义的选题策略信息量,精度可由信息量体现,自适应选题策略信息量可以用每个试题的信息量与其概率积的累加和表示,如公式(5)。
此模型中项目i的信息量用Ii(2)表示,试题(项目)的£越大,越有可能被抽中,因子的引入用以调节高区分度试题的曝光率,使其在合理范围内,也让低区分度的试题能合理利用,同时保证了试题形成的检验有效性。
2.3算法实现
使用时先对试题题库进行两级分层,先按难度分层,检验步数设为N,则难度分层数k满足N<=k<=2N,难度分层可以使用如下两种方法:1)等量难度划分;2)等距难度划分。等量难度划分保证了项目数相等,但需要关注可能存在难度跨度不均衡性问题,等距划分保证难度值均衡,但需要关注项目数分布均衡性问题,防止出现部分项目曝光过高问题,具体情况视应用题库不同而选择。二级分层依据项目区分度a进行,采用等量划分方式,其层内项目数可计算为每层的项目总数除以分层数k:
m=M1/K(21)
新策略算法可做如下简要描述:
(1)无反馈时,设置使用者初始能力值,初始区分度层c为1,如有反馈结果,则难度分层G与区分度层c所对应的层数按反馈结果得出,难度层G取得与能力值相对应的层数。
(2)在G与C层中选出试题,记错误次数W=0,按模型计算分层项目的曝光率与信息量。
(3)按模型计算出对应分层中所有项目(试题)的选择量,把选择量最大的项目推荐给使用者。
(4)用户使用推荐项目进行测评,并依据所选项目情况计算使用者能力值。
(5)若使用者测试结果正确,则G层数与c层数分别加1,若使用者测试结果错误,则错误标ii2W=W+1,若w=2,降低难度G=G-1,若G=0,则设置G=1,若R=1,则改变二级分层数C=C+1。
(6)判断难度层G与区分层c,苦c,>K(层数)则中止,算法结束,否则反馈检验结果转步1。
其流程图如图1。
3实验测试
3.1实验方法
新策略的真实环境检验需要组织大量人員进行不同策略的选题试验,开销极大,并且耗时较长。因此,本策略采用蒙特卡洛模拟法进行验证。各策略的理论基础是项目反应理论,而依据此理论,难度、区分度、猜测因子均满足概率分布,使用者的能力也满足(-3,3)的正态分布。项目反应理论的使用者能力值是在某个项目中的概率预测,所以其选题及答题也可以用随机抽样方法进行模拟,也即蒙特卡洛方法模拟验证嘲。
蒙特卡洛模拟属于统计方法或者随机抽样方法对策略的应用进行模拟,实验中依据试题的概率分布情况,生成满足实际概率分布情况的随机数,以策略选题模型得出各随机数的选取情况从而推导出各策略的近似解。其精度取决于样本点的大小,生成的随机数不能具有关联性,样本越大越精确,通常考虑计算代价与精度,会生成适量的随机样本点。
本案实验过程描述为:(1)在(-3,3)区间生成500个正态分布的随机能力值;(2)正态分布区间(-3,3)中生成不同项目难度数1000个,项目随机区分度在0-1中随机生成;(3)选中一个还没使用的模拟能力值;(4)以此能力值为依据进行选题测试;(5)以能力值模拟进行多种策略选题;(6)记录各测验数据,如果所有能力值被使用完成,则结束,否则转(3)。实验效果从策略中的关键参数进行比较得到验证。
3.2实验结果
实验表明最大信息量法平均误差与均方误差均最小,但其需要在选题时有全部信息,通常作为理想状态,可以作为其他策略的参照。a分层策略有较好误差值,从方差看其广泛使用时误差更大,效果不好,具有随机性。渐进最大信息量法比a分层法更好;新策略虽然误差平均值相比最大信息量法略差优于其他策略,但方差比较小,说明平均而言,其精度是最高的。
(2)曝光率
测试时对试题按区分度进行排序,区分度越高,编号越靠后,对每种策略测试其试题曝光率,实验结果见图3。
实验结果表明,最大信息量法曝光率过于集中,a分层法在试题的曝光率较好,新策略曝光率较均衡,同一难度区间内存在二次分层中有小部分曝光率偏高,但不突出,能保证试卷的有效利用与安全性。
(3)试题测验效率
用以体现测验过程中提供的信息量指标,以测评试题反映学生(测试者)真实能力的水平参数。此参数用试题测验过程中,提供信息量的平均值,用如下公式计算:
3.3实验结论
综上,新策略在曝光率、曝光均衡性方面均优于最大信息量法,同时具有较好的检验效果。新策略在测验精度和准确度上与最大信息量法相比差距并不大,优于其他策略,但是却大幅改进了最大信息量法部分项目高曝光率和高区分度项目重复率高问题,保证了题库的安全性。全面考虑后,新策略具有较好的综合优越性,具有较好的应用价值。
4结论
选题策略是影响在线测评系统有效性的基础。文章针对传统选题策略存在的不足,提出了基于难度分层后结合区分度分层的方式对题库进行多级分层,依据相关理论建立模型,基于模型选择最大信息量的试题给使用者。本方案能结合a分层法与最大信息量法的优点,在确保测量的准确性与精度的基础上降低了最大信息量法的曝光率与均衡性,有效地降低试题的重复次数,综合性能最优。为在线测评系统发挥更大效果奠定了基础。