陈 姝 万崇华△ 杨 铮 周佳丽 梁启廉 陈焕伟
【提 要】 目的 应用经典测量理论(CTT)和项目反应理论(IRT)分析癌症患者生命质量测定量表体系中乳腺癌量表QLICP-BR(V2.0)的条目特性。方法 采用量表QLICP-BR(V2.0)对246例符合纳入标准的女性乳腺癌患者进行自评式调查,采用描述性统计、变异度法、相关系数法、Cronbach′s α系数法及IRT中的Samejima等级反应模型对量表条目进行分析。结果 条目GSS1和GSS3在选项5的频率较高,分别为80.49%、90.24%;各条目的标准差为0.517~1.397;各条目与其所在领域的相关系数普遍大于与其他领域的相关系数,且普遍大于0.4(均为P<0.05);各条目与总量表得分之间的相关系数为-0.209~0.647(P<0.05);各领域的Cronbach′ s α系数为0.626~0.768。项目反应理论分析表明各条目的区分度为1.13~1.47;除条目GSO7出现逆反阈值,其他各条目难度系数随难度等级增加而递增,存在部分条目的难度系数b1、b2小于-3;各条目的平均信息量为0.194~0.604。结论 QLICP-BR(V2.0)的条目经CTT和IRT检验具有较好的特性,可作为评价中国乳腺癌患者生命质量的工具,但个别条目有待进一步改进。
据国际癌症研究机构(international agency for research on cancer,IARC)公布的2018年全球肿瘤流行病统计数据(GLOBOCAN2018)显示[1],乳腺癌是女性最常见的癌症,同时也是女性癌症患者死亡的首要原因。在中国,女性癌症发病率最高的为乳腺癌,已经严重危害我国女性的身心健康。乳腺癌患者生命质量测评在临床疗效评价、治疗方案的筛选以及卫生资源投入的效益分析等方面起着重要的作用。目前国内外常用的乳腺癌患者生命质量测定量表是QLICP-BR(quality of life instruments for cancer patients-breast cancer)[2],FACT-B和QLQ-BR53[3]。
量表的基础是条目,而条目分析多基于经典测量理论(classic theory test,CTT)。项目反应理论(item response theory,IRT)是针对CTT的局限性提出来的一种现代心理测量理论,提出后已经在心理、教育测量中得到了广泛的应用,并且已应用于乳腺癌患者生命质量测定量表的研发与应用评价[4-6]。但国内尚未见相关报道。本文拟通过乳腺癌患者实测的生命质量资料,采用经典测量理论以及项目反应理论结合,对乳腺癌生命质量测定量表QLICP-BR(V2.0)的条目进行分析评价,为量表的评价或进一步修订提供综合依据。
1.研究对象
本研究选择广东省农垦中心医院、广东医科大学附属医院和云南省肿瘤医院作为调查点,采用乳腺癌患者生命质量测定量表QLICP-BR(V2.0),于2019年4月至2020年7月,对符合调查纳入标准的246名确诊女性乳腺癌患者进行自评式量表调查。纳入标准:已确诊的乳腺癌患者;具备一定的阅读理解能力;自愿参加测评;知情同意。排除标准:文盲;存在意识障碍的患者;病情危重。
2.量表计分方法
QLICP-BR(V2.0)由共性模块QLICP-GM(V2.0)及一个乳腺癌特异模块构成,其中QLICP-GM(V2.0)包括躯体功能(8个条目)、心理功能(9个条目)、社会功能(8个条目)、共性症状及副作用(7个条目)4个领域10个侧面32个条目,而乳腺癌特异模块包括了3个侧面10个条目。整个量表共5个领域(维度)13个侧面42个条目,每个条目均采用Likert 5点评分法设置选项。
在评分时,正向条目直接计分,而逆向条目则需反向计分(用6减去原始得分),领域/侧面的原始分等于该领域/侧面的各个条目得分之和,总量表的原始分等于5个领域得分之和。为了便于进行比较,采取极差化的方法将原始分换算成标准分,得分越高即生命质量越好。
3.经典测量理论(CTT)条目分析法
(1)条目选项分布:计算条目各个选项的被选频数,以反映条目各选项的集中趋势与离散情况,考量条目的区分能力。
(2)变异度法:计算各条目的标准差(各条目的量纲相同,变异度直接用标准差来反映)。从指标的敏感性角度来评价条目。
(3)相关系数法:计算各个条目与其领域得分、总量表得分的相关系数。从指标的代表性与独立性角度分析条目。
(4)克朗巴赫系数法:计算每个条目所属领域的Cronbach′s α系数,删除该条目后再重新计算该领域的Cronbach′s α系数。从量表的构思层次着手,通过内部一致性变化情况分析条目。
4.项目反应理论(IRT)分析
项目反应理论的核心是通过项目特征函数ICF和项目反应曲线ICC来精确刻画被试在测验项目上的反应行为与被试潜在特质之间的关系,通过信息函数来反映测量误差(信度)。
本研究应用IRT中等级多分类资料的Samejima模型对量表各领域的条目进行分析评价。经过检验,本量表中的躯体功能领域、心理功能领域、社会功能领域、共性症状及副作用领域和特异模块领域都基本符合单维性假设。因此,分别对各领域进行分析。
令θ作为被试的潜在特质或能力水平,令Ui作为项目i的分级项目反应的标志,它属于一个随机变量,而令ui为实际的反应。当一个具有能力θ的被试者在项目i上得到ui的概率为Pui(θ),将其称作类型反应函数。
对于一组要研究的项目来说,其在此组项目上的反应结果V称为其反应的形式。记为v:
v=(u1,u2,…,un)
(1)
在式(1)中,ui表示在第i个项目上被试的反应记录。假如所研究的测验是单维的,那么对于v为其反应形式,被试的潜在特质或能力水平为θ的条件概率Pv(θ)有以下的表达式:
(2)
(3)
(4)
计算所得出的值Pv(θ)是v的似然函数,也可记为L(v|θ)。
αi表示第i题的项目区分度,bμi表示第i题第μi等级的等级难度。
在Samejima的等级反应模型中,一个项目在各个等级上的难度都呈现为单调递增,因此有:-∞=b0 采用最大似然估计法,测算出项目参数:区分度a、反应阈值/难度b(b1、b2、b3、b4)以及平均信息量等指标。以信息函数的大小并结合各条目的特征(区分度、难度等)来分析评价条目。其中信息函数计算能力参数在-2、-1、0、1、2五个点上的平均值。 5.分析工具 采用Epidata 3.0软件建立数据库,全部数据经双重录入并进行校验,应用软件SPSS 21.0和MULTILOG 7.03进行统计分析。检验水准为α=0.05。 1.被调查者基本情况 本研究共计调查女性乳腺癌患者246例。其中广东省农垦中心医院123例(50.00%)、广东医科大学附属医院31例(12.60%)、云南省肿瘤医院92例(37.40%);年龄范围为17~77岁,平均年龄为50.07岁;文化程度小学65例(26.42%),初中82例(33.33%),高中或中专66例(26.83%),大专27例(10.98%),本科及以上6例(2.44%);职业工人20例(8.13%),农民112例(45.53%),教师10例(4.07%),公务员4例(1.63%),个体9例(3.66%),其他91例(36.99%)。 2.经典测量理论分析结果 (1)条目分布和变异度:通过对QLICP-BR(V2.0)的42个条目进行描述性统计分析,计算各条目的均数、标准差以及各选项的被选频数,进一步对条目选项分布与得分分布等特征进行评价,详见表1。在条目选项分布的集中趋势方面,条目GSS1和GSS3在选项5(非常)的选择率较高,分别为80.49%、90.24%。在条目的离散程度方面,本研究中量表各条目的标准差为0.517~1.397。 (2)相关系数法:相关性分析结果表明,各条目与其所在领域的相关系数普遍大于与其他领域的相关系数,且条目-领域系数普遍大于0.4(均为P<0.05),但条目GPH3(生病或治疗影响您的性功能了吗?)、GSO4(遇到困难时,您会寻找他人的帮助吗?)和GSS3(您有口腔溃疡吗?)的条目-领域相关系数均较小,分别为0.254、-0.095、0.293;各条目与总量表得分之间的相关系数为-0.209~0.647,见表1。 (3)克朗巴赫系数法:躯体功能、心理功能、社会功能、共性症状及副作用和特异模块领域的克朗巴赫系数α分别为0.626、0.768、0.626、0.655、0.732,删除某一条目后该条目所属领域Cronbach′s α系数增大的条目为:GPH3、GPH7、GSO4、GSS2、GSS3、SBR6和SBR7,见表1。表明这些条目对量表的内部一致性有一定影响[7],其会降低所属领域的内部一致性。 表1 QLICP-BR(V2.0)各条目特性分析(n=246) 3.项目反应理论分析结果 研究结果显示,各条目的区分度为1.13~1.47;除条目GSO7出现逆反阈值,其他各条目难度系数随难度等级增加而递增,存在部分条目的难度系数b1、b2小于-3;各条目的平均信息量为0.194~0.604,具体见表2、表3。 表2 QLICP-BR(V2.0)条目参数估计结果(n=246) 表3 QLICP-BR(V2.0)条目信息量估计结果 本研究应用CTT和IRT对QLICP-BR(V2.0)的条目进行分析与评价。CTT主要从宏观的角度评价分析量表,而IRT则从微观的角度分析每个条目,两种理论相辅相成,互相补充,将两种方法结合能更全面地对量表的条目进行评价[8-10]。当两种方法的条目分析结果一致时,增强了对条目设置是否合理的验证;当结果不一致时,提示应从多角度分析条目设置的问题所在,以便进一步修订和完善。 根据CTT的条目分析结果,在条目选项分布的集中趋势和离散趋势方面,条目GSS1(您有恶心、呕吐吗?)和GSS3(您有口腔溃疡吗?)的结果主要集中在选项5(非常),表明这些条目的区分能力较弱,这可能与本研究中59.10%的乳腺癌患者进行了化疗有关,由于口腔溃疡是肿瘤患者化疗时最常见的并发症,恶心、呕吐是化疗最多见的消化道反应[11],这些患者出现了此类不良反应,故有可能选择该选项5(非常)。在相关性分析中,通常认为Spearman相关系数大于0.7为强相关,0.3~0.7为中度相关,小于0.3为弱相关[12]。根据相关性分析的结果,可认为,总体上QLICP-BR(V2.0)的条目代表性较好,但是存在个别条目的条目-领域的相关系数小于0.3,表明其代表性差。值得注意的是:条目GPH3(生病和治疗影响您的性功能了吗)具有一定的独立性,并且在调查过程中出现了较多病人不愿回答此方面的问题,这与相关研究一致[13],毕竟中国人对待性方面问题的态度是相对保守的,因此有关性方面的条目还亟待探索。条目GSO4(遇到困难时,您会寻找他人的帮助吗?)的代表性和同质性较差,需进一步修改。此外,虽然条目GSS3(您有口腔溃疡吗?)经统计学分析其测量学特征不理想,但根据专家意见,由于化疗是乳腺癌重要的治疗手段[14],并且口腔溃疡是乳腺癌患者化疗时较为常见的并发症,故认为此条目对乳腺癌患者有较大的意义。 IRT分析中,a为条目的区分度,一般取值为0~2,当其<0.3时,表明该条目区分度较低[15],当其>2时,即便研究的样本容量非常大,估计精度也不理想[16]。本研究结果显示:各条目的区分度参数a处于1.13~1.47的合理范围内,表明QLICP-BR(V2.0)条目区分度较高,能有效鉴别不同生命质量的乳腺癌患者。在反应阈值/难度方面,难度系数b一般在-3至3这个范围内较为合理(b1~b4均需符合以上标准,且为单调递增的趋势)[17]。本研究5个领域中部分条目的难度系数b1、b2小于-3,提示这些条目所描述的状况或者症状在所调查乳腺癌患者中较为常见。此外,除条目GSO7(您与家人或亲戚朋友的关系好吗?)出现了逆反阈值,其他各条目的难度都呈单向递增,表明条目分级的设置比较合理。条目GSO7的5个选项分别为“非常差”、“比较差”、“一般”、“比较好”、“非常好”,4个难度参数分别为-1.39、-21.44、-2.13、1.35,逆反的阈值参数为-21.44,其反映的是“比较差”到“一般”的阈值,说明乳腺癌患者在区分此条目“比较差”、“一般”的选项上存在一定的障碍。可能由于乳腺癌患者认为与家人或亲戚朋友的关系“比较好”,而忽略了关系“一般”的选项,这与徐震雷等[18]在乳腺癌患者个性特点研究中的研究结果相似,乳腺癌患者的个性易感性主要表现为其通过合理化效应来消除自己的负面情绪,其社会关系通常较为良好。 在平均信息量方面,通常认为,当测验的信息量达到25时表明测验质量良好,信息量为16~25时提示测验有待改进,低于16时代表测验很差[19]。但我们认为这个标准太过严苛,因此按照0.8的信度标准推测,将5定为信息量评价标准。据此,当条目的平均信息量大于0.12(5/42)的条目评价为“好”,小于0.12(5/42)的条目评价为“差”。本研究中各条目的平均信息量均>0.12,表明量表各条目对估计乳腺癌患者生命质量水平的贡献较大,能提供较为精准的评估。 综上所述,根据CTT和IRT的条目分析,可认为该量表的条目代表性较好,能较好地区分不同生命质量水平的乳腺癌患者,其分级设置较为合理,且各条目的质量良好,可应用于评价我国乳腺癌患者的生命质量。但由于研究对象较为特殊并且研究的问题相对敏感,本研究收集的样本数量和范围较为有限,个别条目的测量学特征不理想。为确保能更精确地评估我国乳腺癌患者的生命质量,仍需扩大样本和大范围进行进一步的验证性研究。结 果
讨 论