基于项目反应理论的计算机自适应测验系统在癌症患者中的研究进展

2023-08-20 05:05蔡婷婷丁元旗黄青梅吴傅蕾孙琪袁长蓉
护士进修杂志 2023年14期
关键词:受试者癌症筛查

蔡婷婷 丁元旗 黄青梅 吴傅蕾 孙琪 袁长蓉

(复旦大学护理学院,上海 200032)

计算机自适应测验(computer adaptive tests,CATs)是一种以项目反应理论为指导,可根据被试者能力的测试结果开展个性化和精准的测量方式,近年来在医疗领域得到了较多实践,在慢性病患者的症状与功能等的测评及干预方面显示了良好的应用潜力[1]。癌症本身及其相关治疗会导致患者身体出现一系列的症状及功能改变,如疲乏、疼痛、恶心、呕吐及身体功能下降等,且上述问题呈现异质性和多变性的特点,亟需得到及时准确的评估及干预。目前,已有研究将CATs用于癌症患者中,并取得了良好效果,但尚未有相关综述对上述研究进行系统梳理[2-3]。本文介绍了CATs系统在癌症患者中的构建研究,并分析其在症状、功能的筛查及评估、生活质量评估与临床决策中的应用,以期为促进CATs在癌症照护领域中的应用实践提供参考。

1 基于项目反应理论的CATs系统在癌症患者中的构建

CATs的测试过程首先让受试者对所给的测试项目进行应答,继而根据受试者对前一个测试项目的应答结果来判断其能力水平,给出下一个合适的项目,重复上述过程直至满足终止规则要求[4-5]。受试者的应答与其自身能力水平和测试项目的特征有关。总体上,CATs测试逻辑的建立主要包括项目反应理论模型的选择、项目库构建及项目质量分析、选题策略制定及测试终止规则制定等流程。

1.1项目反应理论模型选择 项目反应理论通过建立相应的数学模型呈现受试者应答、受试者能力水平(θ)及项目特性(难度参数a、区分度参数b和偶然因素参数c)三者之间的关系。根据项目计分方式及测试维度等特征,研究者开发了不同类型的项目反应模型,如Rasch模型、logistic模型、Samejima等级反应模型、Lord正态卵形曲线模型及部分记分模型等[2]。在选择模型时可根据项目特性及模型与数据的拟合程度确定最佳模型。根据项目特性的参数估计,项目反应理论可分为二参数模型和三参数模型,前者仅估计项目特性的难度参数a和区分度参数b,后者在前者基础上纳入了项目的偶然因素参数c。当项目可以根据推测、猜测和经验等因素而准确回答项目时,选择三参数模型相比于二参数模型能更精确地估计项目特性参数和被试能力参数[6]。目前,三参数模型较常用的是等级反应模型(grade response model,GRM)。如在一项情绪智力CATs的研究[6]中提出,在GRM和拓广分部评分模型(generalized partial credit model,GPCM)2种多级评分模型中,GRM模型的拟合效果更佳,而后者更适合有序步骤的题目。一项社交焦虑CATs的研究[7]中,研究者采用Likert型量表的多级评分模式,比较项目反应理论模型与数据拟合程度,同样指出GRM模型的拟合效果更适用于Likert型量表。Djaja等[2]将Rasch模型中的分部记分模型应用于队列研究基线调查表中,设计了用于监测皮肤癌风险的CATs。该调查表包含8个维度和1个仅针对女性受试者的维度,共含46个项目,所有的项目都经过分部记分模型检验,而该模型允许项目有不同数量的阈值和阶梯难度,符合不同维度的项目数目存在差异的特点。因此,在选择项目反应理论模型时,需要综合考虑模型与项目参数估计和被试能力参数估计的拟合效果。

1.2CATs项目库构建及项目质量分析 基于项目反应理论模型可指导CATs所需项目库的构建。在CATs项目库构建后,根据所采用的项目反应理论模型,需通过项目难度参数、项目区分参数及项目猜测参数等评估项目质量,通过项目参数估计和被试能力参数估计进行模型拟合,删除与模型拟合不佳的项目,剩余项目继续进行项目和被试能力的参数估计,进而推断出模型中未知参数的估计值,重复以上过程直至形成最终项目库[7-9]。如Lai等[8]建立了一个评估癌症患者疼痛的CATs题库,该研究纳入癌症患者完成61个与疼痛有关的项目,研究者通过因子分析和Rasch模型估计模型参数,最终确定了由43个项目组成的 CATs题库,用于测量癌症患者的疼痛水平。Dirven等[9]构建了基于CATs的认知功能项目库(EORTC CAT-CF),该研究通过文献研究纳入了439个项目,通过概念操作化和预测试,实地测试收集数据,并使用验证性因子分析和GPCM模型对项目进行心理测量分析,最终确定了34个项目组成的项目库,用于不同类型癌症患者的认知功能评估。Gamper等和Petersen等[10-11]开发的EORTC CAT-EF项目库则在文献检索、概念化操作与预测试后,纳入奥地利、丹麦、意大利和英国的癌症患者进行实地测试产生了满足因子分析和GPCM模型测量要求,由24个项目组成的CATs项目库。

在完成CATs项目库的构建后需要对项目进行筛选,通过对项目与模型的拟合度、项目的特性参数估计与被试的能力参数估计进行筛选。如在一项开发情绪智力CATs的研究[6]中,研究者采用GRM模型,通过探索性因子分析对原始77个项目进行单维性检验后删除了5个项目,在局部独立性检验中删除1个项目,并进一步删除区分度不佳的项目,最终形成包含67个项目的项目库。Dirven等[9]开发的认知功能CATs项目库中纳入丹麦、波兰、法国和英国的1 030例癌症患者,使用因子分析方法和GPCM模型分析数据。结果显示,34个项目通过项目反应理论模型假设,符合单维性、局部独立性和单调性,但有18个项目在年龄、国家和工作方面具有项目功能差异,要注意可能存在的测量偏倚。

1.3选题策略 CATs的选题方法包括Fisher信息量选题、Kullback-leibler选题法和a分层选题法等,也有研究引入受试者项目作答时间用于选题策略的制定[10,12-14]。其中,Fisher信息量选题法是CATs较为常用的选题方法。如张龙飞等[6]在开发情绪智力CATs时,在GRM模型指导下,能力估计方法采用期望后验方法,将最大Fisher信息量法作为选题策略,从尚未作答的项目库中选择能够反映被试者目前能力估计值信息量最大化的题目。结果显示,受试者平均只需回答9.88个项目便可完成测试,所有项目均具有良好的心理测量特性。谢海群等[15]在构建基于认知障碍筛查量表的CATs时,在Rasch模型指导下,对项目进行项目反应理论模型参数分析,以极大信息量法为选题策略。结果显示,CAT-Cog的信效度达85%以上,敏感度为89.7%,特异度为88.0%。

1.4测试终止规则制定 CATs的测试终止规则包括定长原则和不定长原则[13]。其中,定长原则可固定试题数量或测试时间,不定长原则为当被试者的能力估计的误差达到事先制定的标准或测验的总信息量达到设置的数值时测试停止[13]。相比之下,不定长原则在保证测量精确性下,能以更少的题目达到测试目的,但有时也可能因受试者的能力水平而产生测量差异[13-15],研究者在CATs的设计中可同时使用2种规则[16],如Djaja等[2]的CATs中设定了2条终止规则,第1条是停止CATs所需的最小测量标准误差为0.47,第2条是根据对数据库的模拟研究,每个受试者至少需要完成10个项目。张龙飞等[6]在其所开发的CATs中设置进行模拟时达到最小测量标准误差<0.40时测试停止。在该研究中,受试者仅需回答总题量的13.43%即可完成测试,并且能力估计水平与完成全题库的能力估计水平相关系数为0.92,显示系统通过较少的题量即可达到与全题库相似的测量精度,显著减轻受试者测量负担的同时实现了测量的个性化。因此,2种测试终止规则均可用于CATs的测试中,也可单独使用其中一种,以实现高效测量。

2 基于项目反应理论的CATs系统在癌症患者中的应用

2.1症状筛查及评估 目前较多研究以患者报告结局测量信息系统作为测量工具,将CATs与医疗系统的电子健康记录系统等形式相结合,开展癌症患者的症状筛查与评估。该形式可快速准确地筛查癌症患者的症状,提高诊疗照护效率,实现医疗资源的有效分配。如Wagner等[17]将患者报告结局结果评估整合到电子健康记录中,开发了ePRO评估系统,系统内包含PROMIS CATs、社会心理及营养评估共约40个项目,用于门诊癌症患者的症状筛查。在该研究中,共有636例妇科肿瘤门诊的妇女完成了1 493项评估,证实了基于PROMIS CATs的ePRO系统在常见的癌症相关症状的精确测量方面的可行性。Clover等[18]在比较癌症患者抑郁症的传统测量方法和PROMIS测量方法的研究中,纳入132例血液肿瘤门诊患者分别完成了PROMIS抑郁症计算机自适应测试(PROMIS-D-CAT)和PROMIS抑郁症简表(PROMIS depression short form,PROMIS-D-SF)及7项传统测量工具的测量,以结构化临床访谈为金标准,计算了相关性、曲线下面积和诊断准确性统计。结果表明,被试者在 PROMIS-D-CAT 上平均作答5.71个项目,相较于PROMIS-D-SF和传统测量方法可大大减少项目的数量。在轻度抑郁症筛查上,PROMIS-D-CAT的敏感性优于大多数的传统测量工具,在中度抑郁症筛查上PROMIS措施的特异性>90%,提示 PROMIS-D-CAT作为抑郁症的早期筛选工具可进一步补充结构化临床访谈等的结果。

将CATs用于医院癌症症状筛查系统不仅可及时有效地对远程患者进行症状筛查和评估,也有利于通过预警设置远程处理紧急事件,节省患者门诊就医的时间和医疗支出,同时提高患者对自我健康管理的意识,加强患者与医护人员的交流。Garcia等[19]在美国西北大学的罗伯特·H·卢里综合癌症中心肿瘤内科开发了Epic筛查系统,实施ePRO筛查评估。将PROMIS焦虑、抑郁、疼痛困扰、疲乏和身体功能CATs及用于评估社会心理和营养问题及需求的支持性护理问题集成至电子健康记录中,对妇科肿瘤患者进行筛查评估。PROMIS CATs 和支持性护理关注清单总计约40个项目,其中由CATs提供的项目为4~12个,完成评估平均所需时间<10 min。患者在门诊预约前72 h需接收通过Epic发出的评估测量链接。在完成测量后,系统将提醒其医疗团队在72h内对测量结果进行评估,如遇紧急情况,系统将提醒患者前往最近的急诊科,并提示相关医务人员[19]。Epic筛查系统在进行筛查评估后的30d内,患者平均有13.11次与医疗服务交流,最常见的形式是门诊,其次是通过移动医疗信息与医疗团队交流。通过PROMIS CATs评分后触发警报的患者参与门诊、住院及线上咨询等医疗服务的频次明显多于没有触发警报的患者。

PROMIS CATs与传统笔—纸问卷相比有利于实现因人施测,每位受试者需要回答的题量根据受试者的能力水平差异而不同,总体上,PROMIS CATs更能节省时间和减少受试者回答负担,且具有较高的特异性和敏感性。如Kurisu等[20]开发了CATs用于评估癌症患者抑郁症状,并招募393例癌症患者完成28个项目的CATs与患者健康问卷(Patient health questionnaire-9,PHQ-9)。结果显示,CATs量表评估得分与PHQ-9总分有显著相关性,但CATs能使用较少项目达到了较高的测量精度。Baum等[21]采用PROMIS CATs和简明症状量表(Brief symptom inventory,BSI)评估癌症患者的抑郁、焦虑和愤怒症状,该研究纳入前列腺癌患者完成问卷调查。结果显示,PROMIS CATs的项目数量根据患者的回答而存在差异,但测量抑郁、焦虑与愤怒的平均项目数均<10,且与BSI对应分量表的相关性均>0.60,具有高特异性和敏感性。

2.2功能筛查及评估 CATs在癌症患者功能筛查及评估的应用多集中于认知功能及身体功能等方面的筛查评估,在敏感度和特异度方面表现较好。相较于传统的笔—纸试验,CATs在一定程度上降低了测试者的反应负担。如Lai等[22-23]开发了由患儿家长报告的儿科认知功能项目库(Pediatric perceived cognitive function,pedsPCF)及其CATs。对脑瘤患者及其父母的调查结果显示,由患儿家长报告的pedsPCF与脑瘤患儿脑结构变化所显示的脑损害有显著关联,pedsPCF分数对不同等级的白质脑病患儿具有良好的鉴别能力。因此,CATs可作为脑瘤患儿认知功能障碍的筛查工具,有助于及时有效开展后续的综合神经认知测试。在成人认知功能筛查方面,谢海群等[15]构建了基于认知障碍筛查量表的CATs。该研究招募1 200例>60岁的老年人完成了认知障碍筛查量表等成套神经心理量表测试,根据认知障碍筛查量表构建项目库,基于项目反应理论开展项目的Rasch分析,对项目进行难度分析筛选和整合,将形成的项目库用于构建认知功能障碍筛查的CATs。研究结果显示,该筛查系统的信效度理想,与传统纸笔原测试的相关系数较高,为0.792~0.876。相比之下,CAT-Cog的平均使用题目数为6.58,测试项目数量减少35.6%,且鉴别认知正常者与阿尔茨海默病患者的敏感度>80%,特异度>70%。Cheville等[24]基于CATs的急性期后护理活动测量表(Activity measure for postacute care,AM-PAC-CAT)在晚期肺癌患者中通过电话形式进行为期2年和每月1次的评估,分析了CATs在评估癌症人群中随时间推移的反应性、最小重要差异和反应负担。结果显示,AM-PAC-CAT可作为识别晚期肺癌患者功能衰退的筛查工具,受试者可在2min内完成评估。因此,CATs在功能评估中具有优势,尤其在开展随访时较其他途径更易于长期维持。此外,在采用CATs进行功能筛查后也可考虑以其他客观生理指标以更全面地分析功能的变化。

2.3生活质量评估 CATs可用于癌症患者的生活质量评估,实现与健康生活质量有关维度得分的直接比较,与传统评估方式相比,用时更少且覆盖范围更广,在纵向研究的生活质量评估中更易实现健康数据的持续评估和管理。如Stachler等[25]对目前可用的头颈部癌症问卷进行评估,提出虽然这些测量工具可有效地测量头颈癌患者与健康有关的生活质量,但每种工具只能测量特定领域,且难以实现不同工具分值的直接比较。该团队将PROMIS CATs(抑郁、疲劳、身体功能、睡眠障碍、睡眠相关损害和消极认知功能)与EORTC一般问卷及EORTC头颈癌问卷(EORTC head and neck,H&N)等问卷的结果进行比较,结果显示,PROMIS CATs与上述工具具有理想的相关性,患者完成PROMIS CATs仅用时6.2min。Ottenhof等[26]将基于FACE-Q皮肤癌量表的CATs用于评估皮肤癌患者的生活质量,并且评估CATs与原FACE-Q皮肤癌量表的相关性,结果显示,两者分值高度相关(r=0.98~0.99),且患者完成CATs所需项目数由原始量表的41项减少至平均23项,可减少50%以上的评估用时。

CATs与智能手机应用程序等移动平台的结合可提高癌症患者的依从性及测量的高效性。如在一项纵向队列研究中,研究者使用了可评估甲状腺癌患者生活质量的CATs(computerized adaptive tests for Thyroid cancer,ThyCAT)[27]。患者可在手机应用程序上使用ThyCAT 进行生活质量评估,只需用<2 min的时间即可完成评估,且ThyCAT与常用的测量工具得分具有较高的相关性。Lai等[28]采用PROMIS CATs和PROMIS简表分别对7~22岁的脑瘤患者的疲劳、身体功能、抑郁、焦虑和同伴关系进行评估,采用Pearson相关系数、配对t检验和Cohen′s d分别用于评估两者分值之间的相关性。结果显示,CATs和简表获得的分数高度相关,且评估所用时间更少,在持续追踪纵向生活质量测评方面更具优势。此外,当前欧洲癌症研究与治疗组织生活质量小组已为EORTC QLQ-C30生活质量问卷的14个功能和症状领域开发了CATs系统,并通过了首次国际验证,将有助于优化评估癌症患者生活质量的测量精度[29-30]。

2.4临床决策 CATs有助于监测癌症患者的健康状况和风险预测,实现连续的健康指导及干预。如一项研究以PROMIS CATs为研究工具,评估接受激素治疗的前列腺癌患者在基于网上干预前后的社会心理功能的变化[31]。该研究将192例男性前列腺癌症患者随机分配到认知行为压力管理干预组和健康促进组,每周的小组会议都通过视频会议进行,利用PROMIS抑郁、焦虑、疲劳、疼痛困扰及身体功能CATs对患者的社会心理功能进行为期10周的评估。其中,PROMIS CATs完成率>50%,显示出PROMIS CATs可有效地识别受试者健康结局随时间的变化,为及时临床决策提供辅助支持。CATs除可用于电子患者报告结局中对癌症患者实时监测健康状态外,也可用于癌症相关风险的预测,辅助临床决策。如Djaja等[2]开发了基于应用程序的CATs,可用于皮肤癌风险预测。该研究使用Rasch模型校准后的皮肤癌风险量表,比较非自适应测试与CATs的测量精度和效率差异。结果显示,与多媒体图像相结合的CATs可提高患者参与皮肤癌风险评估的意识,并有助于识别高危人群。Yang等[32]通过机器学习建立了基于皮肤癌风险量表CATs的模型,并开发用于皮肤癌风险分类的应用程序,帮助患者在早期阶段评估风险。该研究使用Rasch模型将30个项目进行校准,计算了敏感性、特异性、受试者操作特征曲线和准确性及精确性。结果显示,将含有30个项目的皮肤癌预测模型与CATs模型相结合可用于皮肤癌分类,有助于在早期阶段进行皮肤癌风险自我评估,为临床决策提供参考。

3 小结

基于项目反应理论的CATs在构建时,可根据项目库的特征确定最佳理论模型及相应测试逻辑。目前,国外关于CATs在癌症患者应用领域的研究持续增加,部分研究比较了CATs系统与传统测量工具的差异,显示出CATs系统在健康结局测评中的高效性、准确性及便捷性,一些研究者将CATs系统与医院电子健康系统等形式相结合,用于癌症患者的症状及功能筛查和评估,或嵌入手机应用程序,用于癌症患者的随访或干预,并将相关数据用于临床辅助决策。相比之下,我国CATs的研究多集中于心理学和教育方面,在医学领域尤其是癌症患者方面的应用研究尚少,有待深入探索。鉴于CATs能显著减轻被试者的测量负担,实现个性化精准测评,后续研究可深入挖掘其在癌症患者领域的应用场景,以改善患者的生存质量及健康结局。

猜你喜欢
受试者癌症筛查
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
点赞将“抑郁症筛查”纳入学生体检
体检发现的结节,离癌症有多远?
预防宫颈癌,筛查怎么做
涉及人的生物医学研究应遵循的伦理原则
NRS2002和MNA-SF在COPD合并营养不良筛查中的应用价值比较
智力筛查,靠不靠谱?
涉及人的生物医学研究应遵循的伦理原则
癌症“偏爱”那些人?