黄跃师 张雯 杨瑒 黄青梅 成磊 袁长蓉
(复旦大学护理学院,上海 200032)
测验,是检测被试者能力和知识掌握程度的手段。目前国内大部分考试还停留在笔试阶段。即便是在线考试系统,也只是利用计算机对考试过程进行管理和实现自动阅卷,无法突破经典测试理论(Classic test theory,CTT)的瓶颈。现代测量理论——项目反应理论(Item response theory,IRT)出现后,基于项目反应理论的计算机自适应测验系统(Computerized adaptive testing,CAT)应运而生,并且开始向医学测量领域拓展。本文基于文献回顾,对计算机自适应测验的概念、特点、理论基础、结构流程和应用现状进行总结回顾,并结合医疗领域中计算机自适应测验的应用展开论述,现报告如下。
1.1计算机自适应测验的概念 计算机自适应测验又叫计算机自适应测试、计算机自适应考试[1],是一种适应被试者能力的测试[2]。它是以IRT为核心和指导,通过精心设计的计算机系统,依据被试者上一道题目的答题情况,主动适应被试者的能力水平,有针对性地、适应性地给出下一道题,做到因人施测、“量体裁衣”,直至能够精确地估算出被试者的能力水平(或潜在特质)的一种方法。对CAT的评价主要包括属性判断的信效度、题库安全性、测试效率等[3]。这主要是针对能力水平测试领域,在医学症状评估领域应该要有更合适的考量标准。
1.2CAT的实施过程 (1)根据对个体体验的特质水平、或者预测试人群等以往被试者的特质水平平均值,从题库中选择第一个项目对被试者施测,第一个项目的难度一般是中等。(2)根据受试者对前一个题目的反应,估计他的能力范围。(3)根据估计到的反应评估值,按最大测验信息自动选择下一个项目。(4)当符合终止策略规则时,终止测试,给出最终的评估值[4]。(5)做好测试结果的综合审查、专业反馈和储存管理[5]。
1.3计算机自适应测验的特点 计算机自适应测验相对于传统的笔试或非自适应测试有以下优点:(1)出题更有针对性,强调和尊重受试者的个体性和独立性。(2)依托计算机和互联网,施测不受时空的过多限制。(3)系统建立以后每次出题、施测和评分都比较省时省力。(4)出题的随机性和适应性可规避很多传统的作弊手段。(5)测试过程中受试者不会因题目超过自己的能力水平而感到沮丧、也不会因为题目过于简单而高估自己的能力水平,有利于把控受试者的答题节奏[5],给予受试者较好的答题体验。(6)不易漏答。(7)测量精度相对更有保障。(8)后期可以借助虚拟化技术,使测验情境更加真实立体[2]。(9)测验结果反馈较及时,方便受试者和干预者及时作出调整。(10)提高随机组卷的合理性。(11)方便保存、查询和分析测试相关的信息。
但CAT的建立和完善较为复杂,如题库质量要求高、试题参数计算复杂,研究成本高、开发耗时长。被试端主要以计算机、iPad或智能手机等设备为依托;目前的计算机自适应测验系统多以封闭式的客观题为主,不过也慢慢开始出现更多样化的测验形式[6];当题库更新过慢时,可能会有试题流出;当前社会对于计算机自适应测试用能力值估算代替传统分数作为测试结果的认同度还有待提高。
2.1计算机自适应测验在非医学领域的应用 计算机自适应测验常被应用于教育领域,如学生能力测验或人员资格测试,目前相关的计算机自适应测验项目有美国研究生入学考试(GRE)、美国全国教育进展评估(NAEP)、美国(工商)管理类研究生入学考试(GMAT)、美国士兵职业倾向成套测试(ASVAB)、美国教师资格考试(Praxis)、美国建筑师考试、美国的俄勒冈州还率先将计算机自适应测验系统应用于视障学生的考试。很多世界500强公司也都在大量采用计算机自适应测验来测试职工或应聘者行为能力和逻辑思维水平[7]。可见目前在教育领域的计算机自适应测验在美国已经相对成熟。相比之下,国内的应用还在起步阶段,目前我国已将计算机自适应测验应用于汉语水平测试(HSK)[8]及筛查心理缺陷的军队入伍考试[2]。全国大学英语四六级考试也在抓紧准备应用中。江西师范大学是国内计算机自适应测验在教育领域应用研究的首要阵营[9]。
2.2计算机自适应测验在医学领域的应用
2.2.1计算机自适应测验在医学教育中的应用 目前美国已成功将计算机自适应测试应用于美国护士执照或资格系列考试(National council licensure examination,NCLEX)。国内也开始有学者提出在医学教育中引进计算机自适应测验的具体思路,比如有学者[7]构想了计算机自适应测验在心理咨询师诊断技能考试中的应用,对题库建设的统计理论、题库内容的构建、计算机自适应测验的心理咨询师诊断技能考试的功能与应用提出了设想。王佳等[10]从心理测评方法的视角对医学生医学人文素养的各种测评方法进行系统的评价后,认为将计算机自适应测验应用于医学人文素养评价具有信度高、效度高、针对性强、灵活性强、形式多样、反馈及时等优点,主要可用于知识、能力、心理素质等一般领域的测试。庞慧等[11]则探讨了将计算机自适应测试于大型开放式网络课程(MOOC)在高等医学教育中联合应用的优势和实施模式。
2.2.2计算机自适应测验在中医学中的应用 广州中医药大学有团队[12-13]正致力于将中医的证候量化与计算机自适应测验相结合,并获得含国家自然科学基金等的有力资助。他们首先对中医证候量化分析与多维计算机自适应测验结合的可行性进行了探讨,提出基于多维计算机自适应试验的中医证候量化的研究思路,认为这样可以很好地利用量表工具及多维潜变量研究方法在定量化、多维度测量方面的优势,提高中医证候测量的精准度。且自适应的测量灵活性更高、测量效率更好,其系统的扩展性也使得后续在临床应用过程中的持续优化成为可能;其中,侯政昆等[14]基于项目反应理论、计算机自适应测验及数据模拟,研制出15条目的胃痞患者报告结局量表(简短版),并进行了测评。结果显示量表的单维度性、局部独立性和单调性均较好,有较好的IIC和ICC,难易跨度合理,与受试者交互良好,大多数条目的阈值顺序满足测评要求,认为该量表可用于成人胃痞患者症状和疾病影响的临床和科研评价。
2.2.3计算机自适应测验在心理学中的应用 目前主要将计算机自适应测验应用于危险心理症状如抑郁、焦虑、自杀倾向、人格障碍等的筛查,以期提前发现异常心理、防止悲剧发生。Loe等[15]开发了一个计算机自适应测验版本的抑郁量表,并用美国样本验证了该系统的效度和准确性,证明该系统比固定长度的测量工具更加准确和有效。国内同样有学者[16]为中国人群的抑郁症测量开发了计算机自适应测验系统,经测试,该系统具有合理的、可接受的边际信度、效标效度、灵敏度和特异度效度。邓远平等[17]对特质焦虑量表模拟使用计算机自适应测验,结果表明计算机自适应测验系统有效地提高了测试效率,对被试的分辨能力更强,测试结果的展示也更直观、更有利于使用者解读。Gibbons等[18]基于在匹兹堡大学精神科门诊病人和社区卫生诊所收集到的数据,开发了用于测量潜在自杀维度的计算机自适应患者自测系统,该系统能够在大约2 min内平均用10个条目准确测量潜在自杀维度。Sunderland等[19]开发一个用于测量社区样本患精神疾病风险的广泛和特定内化因素的计算机自适应测验系统,证实其测量具有有效性,且更为高效,答题负担更小。Kavish等[20]采用计算机自适应人格障碍测验模型,对美国社区居民和澳大利亚大学生进行测试,成功验证了该模型的可用性。
2.2.4计算机自适应测验在生理症状或功能测量中的应用 有研究者将重点发在某特殊疾病人群生理症状或功能的测量,也有研究者专注于总体人群的健康反应或生命质量的测量。国内学者[21]基于计算机自适应测验技术构建了成人斜视患者报告结局测评系统,并在临床上与纸质版的测评工具进行随机对照试验,结果发现系统测评组所用的测评时间更短,患者对测评的满意度和依从性更高,差异具有统计学意义。国外研究者[22]对某减肥和塑性手术术后患者症状测量的常用量表“Body-Q”进行了改进,结果发现计算机自适应测验形式的Body-Q平均比原始量表少实施了36.9%的测验题量,测量结果与原始量表的相关性平均为0.99,说明计算机自适应测试形式的Body-Q同时兼顾了测量的准确性和高效性,可以大大减少患者的答题负担。生理功能的测量方面,已有用于假肢使用者行动能力测量的CAT[23],还有分别用于评估婴幼儿精细运动功能[24]和粗大运动功能[25]的CAT;用于评估脑卒中患者上下肢活动功能、姿势控制能力及日常生活活动能力的CAT[26]。其适用于6个月到12岁有发育障碍患儿家属报告患儿自我照顾能力的CAT[27],适用于儿科康复医院患儿康复期伤残评估的CAT[28],还有用于评估烧伤患者日常生活受影响情况的CAT[29]。这些计算机自适应测试系统都经过验证,测量性能理想,对特定的人群具有可用性,且大多具有反应性和灵敏性高、无上下限效应、答题负担小等优点。
2.2.5计算机自适应测验在生命质量测量中的应用 欧洲的癌症研究和治疗组织(EORTC)开发了用于癌症患者报告生活质量的QLQ-C30量表的计算机自适应测验系统[30],并已经进行到国际性独立大样本的验证阶段。Michel等[31]开发了一个用于测量精神分裂症患者生命质量的CAT,经测验,该系统具有可用性,其测量的信效度良好,与传统纸质测量的结果相关度高,且答题负担更小。Lai等[32]比较了CAT形式和简表形式对脑肿瘤患者生活质量和症状的测量效果,结果发现两种方法测量出来的相关度较高,但简表具有上限效应,研究者更推荐用CAT形式进行个性化的纵向监测。另外,还有专门给神经系统疾病或功能障碍的患者报告生活质量的Neuro-QoL CATs,以及专门给镰状细胞贫血成年患者报告生活质量ASCQ-Me CATs。
2.2.6计算机自适应测验在患者报告医疗结局中的应用 美国国立卫生研究院资助研发了较为一套成熟、严谨的患者报告结局测量信息系统(Patient-reported outcomes measurement information system,PROMIS)的计算机自适应测验工具(PROMIS CATs)[33],适用于普通人群和不同病种的患者自我报告医疗结局,目前已被多个国家的医疗机构引进和应用。PROMIS CATs具有很高的测量效率,其可行性也在广泛的实践[34-37]中被证实,只需要很少的施测时间及更少的施测条目,就可以实现更精准、更敏感的测量,有利于对患者的治疗结局实现标准化、常规化和个性化的监测。患者可以在医院或家中利用电子界面完成作答并得到及时的反馈,患者报告结局的数据也会被流线化地储存和管理[38]。
3.1我国医学领域首先应该大胆尝试计算机自适应测验的实现 计算机自适应测验除了在教育领域得到较为成熟的应用,该技术现在也开始向医学领域迁移。国内医学领域对计算机自适应测验的应用尚处于探索阶段,主要多是理论和思路的探讨,多集中在中医和心理学测量领域。有个别学者尝试用计算机自适应测验对医学量表的测量进行模拟改造,如江西师范大学学者们对焦虑特质量表的模拟CAT设计[17],但这次尝试并未真正实现计算机自适应测验的适应性。卞薇等[21]以患者报告结局国际开发标准作为指南,形成了118条目的成人斜视自我报告条目,以Microsoft Visual Studio 2013软件集成开发工具作为开发平台,使用C语言,设计并开发出“成人斜视患者报告结局测评系统”。该系统分模块测评并根据患者做答情况选择适应性最强的题目作为下一道题,从而减少患者的做大负担,答题量可减少一半左右,且该系统能对患者的作答情况进行统计和分析,最终以报表形式输出结果。该系统应该是国内第一个应用于医疗测量的、开发过程相对完整、并真正实现计算机自适应测验适应性的初尝试。虽然该条目库规模还较小,部分参数的设置、临界值和适用范围等还需要不断修订和验证,但不可否认这是一次积极的尝试。
3.2构建计算机自适应测验系统的过程应该遵循严谨的开发流程 国内不少学者已经意识到计算机自适应测验在医学领域的应用价值和前景。需要注意的是,构建一个为医患所用的计算机自适应测验系统,是需要严谨的开发流程的。具体包括准备阶段、题库建设、CAT算法确定、信度和效度验证、正式使用与题库维护更新五个基本阶段[39-40]进行。其中,在对计算机自适应测验的模拟研究时应该使用真实的数据,以免对项目库的效率和精度的估计过于乐观[41],从本次文献回顾来看,现在国外医学测量领域大部分系统的开发都有使用真实世界数据进行校准。计算机自适应测验系统可以考虑分成五个模块:患者在线登录/管理、患者在线报告、题库/项目管理及算法模块、后台管理员系统、报告结果分析反馈。具体在每一个模块,都有很多细节值得在实践中进一步尝试和研究,以期让医学领域的测量更加高效的同时获得最大测量信度,并不断优化用户的使用体验。未来也期待有系统的评价指标来指导医学测量领域计算机自适应测验系统的研发、应用和完善过程。
3.3对计算机自适应测验相关理论的研究还需进一步深入 由于多维项目反应理论和计算机自适应测验可以确保测量的准确性、有效性和针对性[42],允许更快速、更完整地收集数据[43],推广性和通用性也较强,目前已渐渐被引用于医学教育与测量领域[41-44]。研究[45]也证实,将计算机自适应测验应用于医学领域的测量,不仅能提高测评的准确度,还能减少答题负担,也更易于整合到电子健康记录中。目前,国内医学领域对计算机自适应测验的应用多停留在理论研究、开发设想或项目库开发等早期试验阶段,尤其多维计算机自适应测验方面的研究有待进一步提高。构建、完善和管理计算机自适应测验平台及其项目库需要一定的计算机技术成本,故必须跨学科团队合作。
将计算机自适应测验应用于医学测量与应用于教育考核其实还是存在一些区别的。比如医学测试领域对项目曝光率也即测验安全性的要求不高,对于题库的试题量也没有很高的要求[40]。最初的计算机自适应测验系统是不允许被试者返回上一题修改答题的,目前已有学者[40,46]致力于研发可修改答案的计算机化自适应测验(Revisable CAT,RCAT),这种技术在应用过程中的效果如何以及是否适用于医学测量也有待进一步验证和探讨。
随着5G时代的到来,基于项目反应理论的计算机自适应测验系统在医学领域的应用必将得到更好的发展。中国在这一领域的研发更应该加快步伐,大胆尝试从传统医学测量到计算机自适应测验系统的转变,借助多学科交叉团队的力量,在做中学、在学中做,注意开发流程的改进和理论研究的深入。我们期待计算机自适应测验与医学领域的结合,能够碰撞出不一样的火花,最终改变对治疗结局的评估标准、促进疾病与健康的监测、提高国内患者的照护质量、改善患者的就医体验。