蔡婷婷 黄跃师 李丹钰 朱瑞 黄青梅 杨瑒,2 袁长蓉
(1.复旦大学护理学院,上海 200032;2.复旦大学附属肿瘤医院,上海 200032)
关注患者报告的健康相关结局,倾听患者的真实感受成为近年来国内外慢性病领域研究的热点。患者自我报告结局测量信息系统(Patient-reported outcomes measurement information system,PROMIS)使得不同疾病、不同人群间的研究结果具有可比性,适用于普通人群和多种慢性病患者群体自我报告的症状及功能的测评[1]。PROMIS包括简表(Short form,SF)、特征集(Profile)和计算机自适应系统(Computerized adaptive testings,CATs)三种形式[2-3]。鉴于核心健康领域的简短有效的患者自我报告结局测评工具在临床应用中具有重要价值,成人患者报告结局测量信息系统特征集(Adult PROMIS Profile)作为特定核心健康领域简表的集合成为了PROMIS的重要发展方向[4]。Adult PROMIS Profile由该领域具有高信息量的条目集合而成,可用尽量少的条目获取多方面的信息,在大幅度降低慢性病患者测量负担的同时,可获得较精确可靠的信息[4]。鉴于Adult PROMIS Profile已在临床实践中得到一定应用并展现出较多的优势,本文对Adult PROMIS Profile的概念、特征、研制过程进行介绍,并综述Adult PROMIS Profile的研究现状,提出对未来发展趋势及不足的思考,以期为完善Adult PROMIS Profile的应用提供借鉴。
1.1概念 患者报告结局测量信息系统特征集(PROMIS Profile)通过固定的PROMIS简表的集合以测评多个健康领域,是在各领域的条目排序和计算机自适应系统模拟的基础上,由该领域具有高信息量的条目集合而成的测量工具[4]。PROMIS Profile可分为成人及儿童两个版本[4]。其中,Adult PROMIS Profile是专为18岁及以上的成年人所开发的测评工具,包含生理健康、心理健康及社会健康3方面的核心症状及功能的测量,其使用范围广泛,可用于一般人群及不同疾病群体[4]。
1.2特征 Adult PROMIS Profile包含7个固定的PROMIS核心领域,即身体功能、焦虑、抑郁、疲劳、睡眠困扰、担任社会角色与参加社交活动的能力、疼痛(影响及强度)[5]。Adult PROMIS Profile中的简表大多数评估受试者过去7 d的症状或功能水平,但身体功能和担任社会角色与参加社交活动的能力领域除外,这两个领域的评估没有严格时间要求的限制。根据每个PROMIS领域的条目数目,Adult PROMIS Profile可分为3种形式:PROMIS-29、PROMIS-43及PROMIS-57[6]。其中,PROMIS-29包含29个条目,7个领域各为4个条目,各领域的分值为4~20,加上一个疼痛强度条目,以0~10分的数字评分法(Numeric rating scale,NRS)方式进行测评。以数字评分法评估的疼痛强度条目在临床研究和实践中得到广泛应用,并且可提供疼痛影响的背景。PROMIS-43每个领域包含6个条目,各领域的分值为6~30,另包含1个0~10分测评的疼痛强度条目。PROMIS-57每个领域为8个条目,各领域的分值为8~40,另包含一个以0~10分测评的疼痛强度条目[6]。Adult PROMIS Profile仅疼痛强度条目采用数字评分法形式测评,其余领域均采用Likert 5级评分法进行计分,但各条目的5个选项描述间存在差异[7]。上述3个测评工具中每个简表单独评分,从而产生共7个领域的分数。此外,分值均需转换为标准化T分数,其平均值均为50,标准差为10[8]。T分数越高,反映相应测量概念的程度越高,其中正向计分领域条目的分值越高,表明相应功能越好或者症状越少,而负向计分领域条目的分值越高,则表明其功能受损或症状越明显,如担任社会角色与参加社交活动的能力简表的T分数为70,表明受试者担任社会角色与参加社交活动的能力高于一般人群均值,患者相应的社会功能较好[9-10]。另一方面,抑郁简表的T分数为70,则代表受试者的抑郁高于一般人群均值,患者抑郁水平较高[9-10]。上述3个测评工具均具有良好的信效度,已被翻译为40多种语言,得到较为广泛的应用[5]。
在进行多领域健康状况的测评过程中,现有的研究多采用普适和特定疾病的测评工具对受试者不同领域的健康状态进行调查,但这些工具所获得的测量结果之间可能存在重复[5]。此外,传统测评工具的研制过程中较少利用项目反应理论(Item response theory,IRT)的优势对条目进行筛选,以确保测评工具可广泛地覆盖期望评估的概念。为满足上述需求,Adult PROMIS Profile由包含临床专家在内的多研究团队成员基于患者为中心的理念及IRT的现代心理测量方法所研发,旨在满足多种研究和临床实践应用的需求。
目前Adult PROMIS Profile已发展至2.0版本。其中,Adult PROMIS Profile 2.0版本在1.0版本的基础上进行了优化,将原有的社会角色和活动的满意度简表(PROMIS-satisfaction with social roles and activities short form)替换为参与社会角色和活动的能力简表(PROMIS-ability to participate in social roles and activities short form)[9]。Adult PROMIS Profile的研制过程主要包含两个关键步骤。在第一个步骤中,研究团队基于广泛的文献研究,并综合医务人员、社会学专家、心理测量学专家及利益相关者的意见,在22个PROMIS领域及子领域中确定被纳入Adult PROMIS Profile的领域,使其包含生理健康、心理健康及社会健康的核心领域,并适用于大多数的临床环境[5]。在第二个步骤中,研究团队对Adult PROMIS Profile各领域所包含的具体条目进行确定。基于经典测量学理论及项目反应理论所测得的结果,Adult PROMIS Profile各领域的条目需满足信息量区间及CATs模拟的要求。构成Adult PROMIS Profile的简表间应相互独立,且其条目应具有高信息量。其中,最大信息量区间要求Adult PROMIS Profile中每个条目的信息函数具有从平均值到较平均值少于2个标准差的信息区间[11]。研究者基于每个领域内的条目信息量进行条目排序,并选取具有最大信息量区间的条目[11]。另一方面,研究者将对相应简表条目池中所有条目的反应度等指标进行1 000次的CATs模拟测试,依据其测量性能进行排序,以筛选最优条目[11]。研究者选取了三个数据集中的受试者对各领域的条目池进行测试,所选取的数据集基于PROMIS团队在多年研究以来所创建的包含一般人群及疾病人群的多个数据集[12-15]。对于一般人群数据集[12-13]中的3 507名受试者,除对特定受试者分配身体功能领域测试以外,其余受试者均接受相关领域完整条目池的测试。由于身体功能领域条目池条目较多,接受身体功能领域条目池测评的受试者仅随机完成条目池中一半条目的测试。以此相似,第二个数据集用于测评睡眠困扰领域,主要包含存在睡眠困扰的人群[14]。第三个数据集用于测评社会健康领域,主要包含有自我报告社会健康受损的人群[15]。选取的每个领域的样本量从628例(疲劳领域)至1 255例(睡眠困扰领域)不等[5]。鉴于Adult PROMIS Profile在临床患者中将具有更多的用途,条目的信息量排序结果将与CATs模拟的排序结果相结合,以确定每个领域中信息量最大的15个候选条目的列表。随后,PROMIS研究团队中的3~5个相关领域专家组成专家小组,在每个领域提供的15个条目列表中选择8个最佳的条目[5]。专家将考虑条目与临床患者的相关性,8个选定条目所涉及的内容覆盖面、条目内容间的一致性及关联性等指标。在确定每个领域的8个条目以建立PROMIS-57后,研究者将分别删去8个条目中的2个条目及4个条目并保持内容的覆盖面,以进一步建立PROMIS-43及PROMIS-29,因此,PROMIS-57包含PROMIS-43及PROMIS-29的所有条目[5]。研究者对PROMIS-29、PROMIS-43和PROMIS-57的心理学测量学性能进行研究,结果显示三者的信息量依次呈现递增趋势,且均具有较广的测量范围及良好的反应度[5]。此外,上述测评工具在一般人群及患者群体中的大样本检验证实上述特征集在临床样本中可实现较好的测量精确度,具备检测临床样本的细微差异或变化的能力[5]。
3.1一般人群 研究者将Adult PROMIS Profile嵌套于移动设备,或使用电子或纸质问卷的形式对受试者进行测评[5]。在3类Adult PROMIS Profile中,PROMIS-29因其相对简短的条目而得到最为广泛的应用。Hays等[9]通过大样本的研究证实了PROMIS-29的良好信效度。验证性因子分析结果显示,PROMIS-29可归为躯体健康及心理健康两个因子,其中生理健康及心理健康的信度分别为0.98和0.97,且两者存在相关性。此外,PROMIS-29的生理健康及心理健康总分与生活质量相关指标的关联性较高,较其他量表可更有效地识别受试者身心健康水平的变化,且允许生理健康及心理健康的得分之间存在相互关联,而不是强迫它们之间的零相关性。Fischer等[16]同时在英国(n=1 509)、法国(n=1 501)和德国(n=1 502)3个国家采用相应语言版本的PROMIS-29进行了一项基于网络的调查。研究者通过多组验证性因子分析测试了PROMIS-29的心理测量学特性。研究结果显示,PROMIS-29在总体上具有良好的信效度,其T分数在英国、法国和德国的受试者之间具有良好的可比性,但身体功能和疼痛领域得分方面显示出地板效应,可能与一般人群中上述健康问题较少有关。
3.2慢性病人群 Tang等[17]以肾移植患者为研究对象,分析了PROMIS-57和PROMIS-29的信效度,并将其与患者健康问卷(Patient health questionnaire,PHQ9)、广泛性焦虑症(General anxiety disorder,GAD7)、埃德蒙顿症状评定量表(Edmonton symptom assessment scale revised,ESASr)和肾病生活质量(Kidney disease quality of life,KDQoL-36)进行比较。结果显示,PROMIS-57和PROMIS-29具有良好的信度、结构效度及效标效度,可用于测评慢性病患者疾病体验的核心领域。Lin等[18]在慢阻肺患者群体中检验了PROMIS-43与欧洲五维健康量表(The five-level EQ-5D,EQ-5D-5L)的心理测量特性。该研究结果显示,PROMIS-43及EQ-5D-5L的测评结果与临床客观数据所获得的症状及功能结果呈中度至强相关,证实了PROMIS-43及EQ-5D-5L在慢阻肺患者症状及功能评估中的有效性。一项研究[19]将PROMIS-29及慢性病治疗功能评价-呼吸困难简表(Functional assessment of chronic illness therapy-dyspnea short form,FACIT-Dyspnea)及传统问卷如医学研究委员会呼吸困难评分(Medical research council dyspnea score)、圣乔治呼吸问卷(St. george’s respiratory questionnaire,SGRQ)、健康评估问卷-残疾指数(Health assessment questionnaire-disability index,HAQ-DI)和医疗结局研究量表简表-36(Medical outcomes study short form-36,SF-36)用于系统性硬化疾病患者症状的纵向研究,以比较两类问卷的特点。该研究显示,PROMIS-29和FACIT-Dyspnea是测量系统性硬化疾病患者健康状况和呼吸困难的有效工具,但在生理功能评估中未显示出较传统工具更好的反应性,因此研究者建议,应考虑较长的PROMIS简表或采用CATs,以提高系统性硬化疾病患者的皮肤病改变对其生理功能的反应性[19]。Katz等[20]将PROMIS-29用于风湿系统疾病患者中以检验其心理测量性能,结果显示,PROMIS-29可为风湿系统疾病患者症状的评估提供有效的工具。然而,PROMIS-29在风湿系统疾病患者中有较明显的天花板效应,因此可能更适合测量病情较差的患者,其反应度有待提高。
4.1特征 研究者基于PROMIS-29研发了PROMIS偏好评分系统(PROMIS-Preference scoring system,PROPr)。PROPr作为PROMIS-29及2个PROMIS-认知功能-能力条目的组合,亦可命名为PROMIS-29+2 Profile v2.1。基于PROPr,研究者可同时收集受试者的健康状况及基于社会偏好的评分,基于特定PROMIS领域的T分数获得基于偏好的汇总分数,避免在测量过程中出现显著的天花板效应及地板效应[21]。PROPr基于多属性效用理论(Multi-Attribute Utility Theory)中的偏好理论,以PROMIS所描述的健康状态为基础,将PROMIS为代表的心理测量系统与基于效用的评分系统构建的最佳实践相连接,是第一个将美国具有代表性样本的社会偏好与IRT测量的健康领域进行联系,以提高健康测量的针对性、可靠性及有效性的评分系统[22-23]。
PROPr共涵盖7个核心领域,包括抑郁、身体功能、疼痛影响、认知功能-能力、疲劳、担任社会角色与参加社交活动的能力及睡眠困扰。上述领域跨越健康的多个方面,对于一般人群、患者均具有重要的价值[23]。当PROMIS-29及PROMIS-认知功能-能力的T分数被输入至PROPr单属性函数后,系统将计算每个领域得分并进一步应用一个多属性函数对单领域得分进行特定的组合以生成一个总得分[24]。PROPr涵盖了PROMIS-29的6个领域,另有认知功能-能力领域,但不包括PROMIS-29中的焦虑和疼痛强度两方面[23]。
4.2研制过程及应用 在PROPr的研制过程中,Hanmer等[25]从患者报告结果测量信息系统中选取可用于基于偏好评估的潜在领域,所选领域的标准包括表面效度、综合性和结构独立性。在选定PROMIS领域后,经过对9位健康结局测量专家三轮的Delphi咨询以及50名具有代表性的社区人员的访谈,研究者筛选出10个PROMIS领域。其中,社区成员认为所选出的10个PROMIS领域结构上独立的比例在50%~95%,平均值为78%,且身体功能、疼痛影响和抑郁领域应予以保留,因其具有一定普遍性。此外,社区成员认为认知功能-能力、疲劳、担任社会角色与参加社交活动的能力以及睡眠困扰的评估对社区成员具有重要价值,且67%的受访者认为这4个领域是相互独立的。综合健康结局测量专家及社区成员的意见,研究团队对相应领域的结构独立性及重要性进行评价直至多方意见达成一致,最终选择了现有PROPr的7个PROMIS领域。进一步地,Dewitt等[26]基于Profile-29、PROMIS-认知功能-能力简表,采用具有代表性的983名美国一般人群样本开展在线调查,获取了PROMIS健康状态的偏好,并基于7个PROMIS域中每个领域的单维和多维效用函数进行评分,构建了采用PROMIS-29、PROMIS-认知功能-能力简表中的7个PROMIS健康领域的通用且基于社会偏好的健康相关生活质量评分系统。Hanmer等[25]基于上述PROPr调查了美国约3 000名受试者,结果表明,PROPr得分与其他相关量表得分的相关系数为0.67~0.70,且PROPr能有效区分有无慢性病的人群,显示出良好的结构效度。Hays等[27]指出,仅通过Adult PROMIS Profile得分较难直接计算获得PROPr总分,除非研究者可基于相关结果预测缺失的认知功能得分。基于该背景,研究者采用不同模型对PROMIS Profile的数据进行运算以预测认知功能评分,从而生成一个总结性的PROPr总分,所纳入的模型包括零模型(Zero model)、天花板模型(Ceiling model)、地板模型(Floor model)、线性回归模型(Linear regression model)、贝叶斯神经网络模型(Bayesian neural network)。研究者基于Adult PROMIS Profile获得的大样本数据获得了PROPr得分的模型。研究显示,尽管贝叶斯神经网络模型与线性回归模型的性能相近,但线性回归模型更易于使用,因此研究者建议使用基于线性回归模型的PROMIS-29等测评工具以获得其PROPr得分[27]。
目前,Adult PROMIS Profile得到了一定应用,其信效度得到了较多认可,但在应用过程中也存在一些困难。首先,Adult PROMIS Profile在慢性病群体中的应用研究有待扩展,后续研究应扩展其在癌症患者等慢性病群体中的信效度及应用价值,以更好了解该测评工具可能存在的不足并进行优化。如在临床实践中,一些研究显示Adult PROMIS Profile在一些群体中可能存在天花板效应或地板效应,但其结果可能与研究对象的特点相关,有待后续研究的推进以明确其是否反映了相应人群的真实健康状态。此外,当前国内与Adult PROMIS Profile相关的翻译及应用研究较少,而英文版的原始量表是基于美国成年人所开发,这一人群与我国患者所处的临床环境和疾病特点存在差异,因此在不同语言版本测评工具的翻译过程中,认知性访谈具有重要意义,后续研究需进一步探讨其在国内一般人群及慢性病患者群体中的应用价值。另一方面,PROPr是基于PROMIS-29等测评工具发展而来的评分系统,有望减少现有PROMIS-29在一些群体中应用时可能存在的天花板效应及地板效应。然而,目前PROPr尚不能纳入Adult PROMIS Profile的焦虑和疼痛强度领域,今后PROPr是否可覆盖PROMIS-29的上述领域或可根据预测模型预测受试者的焦虑和疼痛强度有待研究者的积极探索。另一方面,PROPr尚未得到推广使用,且其使用较为复杂。如何将PROPr整合至临床实践中,使得PROMIS-29及其他Adult PROMIS Profile工具得到更为便捷有效的使用有待探索。