史钊 ,李顺平 *,吴小燕 ,刘嘉琪 ,杜慧敏
不孕症是指1对配偶未采取避孕措施,有规律性生活至少12个月未能获得临床妊娠[1-2]。由于环境污染问题严峻,以及受睡眠不足、生活节奏加快等因素的影响,我国育龄夫妇的不孕不育率从20年前的2.5%~3%攀升至近年的15%左右[3-5]。不孕不育严重影响着个人健康和家庭幸福,已经成为重要的公共卫生问题,同时随着我国人口老龄化趋势加剧,不孕不育也已成为日益突出的社会性问题。健康相关生命质量(HRQoL)是患者基于自身健康状况和治疗对其日常生活影响做出的自我评价,是从生理、心理和社会适应方面综合评价健康的一种模式,能比较全面地反映患者的主观与客观健康状况[6]。同时,HRQoL是患者报告结局(PRO)测量的核心内容之一。目前在不孕不育患者临床效果评估中多将受精率、胚胎着床率、妊娠率等临床客观指标作为健康结局指标[7-9],但不孕不育的治疗过程复杂、周期较长,可导致患者出现疼痛、失眠、焦虑等症状,尤其是在“不孝有三,无后为大”的观念和“传宗接代”的思想影响下,不孕不育患者更是承受着较大的社会、心理压力[10]。因此,临床客观指标并不能全面反映患者的健康状况。
目前,已有研究者对国内外不孕不育患者HRQoL量表进行了详细介绍[11-12]和系统综述[13-17],并且不孕不育患者HRQoL量表已在临床上得到了广泛的应用,但尚不确定这些量表应用于临床时是否具有良好的测量性能,缺乏对量表的质量评价。健康测量工具遴选标准(COSMIN)是用于评价患者报告结局测量量表(PROMs)的测量性能及研究方法学质量的工具,适用于PROMs的系统评价,可用于形成PROMs开发与利用相关推荐意见[18]。本研究通过全面梳理国内外不孕不育患者HRQoL量表相关研究,采用COSMIN对不孕不育患者HRQoL特异性量表进行系统评价,旨在为健康结局测量工具的合理选择提供参考,也为中国不孕不育患者健康结局测量工具的研制提供借鉴。
1.1 文献的纳入与排除标准
1.1.1 纳入标准 (1)研究对象:临床诊断患有不孕不育者。(2)研究工具:采用经过信效度检验的普适性量表〔如健康调查简表(SF-36)等〕或疾病特异性量表〔如生育生活质量量表(FertiQoL)等〕对不孕不育患者的HRQoL进行评估。(3)研究类型:研究类型不限,如横断面研究、随访研究等。(4)研究内容:使用HRQoL量表测量不孕不育患者生命质量、健康效用值等,包括量表开发、测量性能验证研究,以及运用量表评估不孕不育患者HRQoL的实证研究等。
1.1.2 排除标准 (1)评价内容聚焦不孕不育患者婚姻质量、心理健康;(2)未明确说明量表使用情况的研究;(3)综述、系统综述及其他二次研究;(4)重复发表文献;(5)非中、英文文献;(6)无法获取全文的文献;(7)会议论文。
1.2 文献检索策略 于2020年10月,计算机检索PubMed、Web of Science、the Cochrane Library、EmBase、中国知网、万方数据知识服务平台、维普中文科技期刊全文数据库和中国生物医学文献数据库,获取国内外公开发表的有关不孕不育患者HRQoL的研究,检索时限均为建库至2020-10-05。检索策略采用主题词与自由词相结合的方式。中文检索词包括不孕不育、生命质量、生活质量、生存质量、健康效用值、健康偏好、健康结果测量、量表等;英文检索词包括 infertility、quality of life、health related quality of life、health state preference、PRO等。以PubMed为例,具体检索策略请扫描本文二维码获取。
1.3 文献筛选与资料提取 由两名研究者独立筛选文献和提取资料,并交叉核对,如遇分歧则通过小组讨论解决。筛选文献时首先阅读文章题目、摘要,在排除明显不相关文献后,进一步阅读可能符合纳入标准文献的全文,以确定最终是否纳入。提取纳入研究所采用的HRQoL量表的基本特征,内容包括:研制者(第一作者)、量表(全)简称、研制时间、适用对象、研制国家/地区(组织)、量表维度与条目数、是否有中文版等。
1.4 评价方法 由两名研究者分别采用COSMIN偏倚风险评价清单[18]、更新版良好测量学属性标准[19]对不孕不育患者HRQoL特异性量表开发研究、量表的测量性能进行独立评价,并交叉核对结果。如遇分歧,则通过小组讨论解决。COSMIN偏倚风险评价清单由10个模块组成,采用4点评分法(“非常好”“合格”“有问题的”“不合格”)对每项量表开发研究的偏倚风险进行评价。某一模块的整体偏倚风险评分由模块内所有条目的最低评分决定,即最低计分原则。更新版良好测量学属性标准主要用于评价量表的8种测量性能,并将评价等级设置为3个级别,即“足够”“不足”“不确定”。
1.5 统计学方法 采用描述分析法对不孕不育患者HRQoL量表的应用现状,以及不孕不育患者HRQoL特异性量表的测量性能及量表开发研究的方法学质量进行分析。
2.1 文献筛选流程及结果 初检共获得文献2 608篇,剔重后获得文献1 805篇,经阅读题目和摘要排除1 439篇,阅读全文后,排除不符合纳入标准的文献137篇,最终共纳入229篇文献,文献筛选流程见图1。
图1 文献筛选流程Figure 1 Literature screening flowchart
2.2 纳入不孕不育患者HRQoL量表的基本信息 纳入的229篇文献共涉及19个[20-39]不孕不育患者HRQoL量表,其中4个[20-24]为不孕不育患者HRQoL特异性量表〔TLMK(Tübinger Lebensqualitätsfragebogen für Männer mit Kinderwunsch)、FertiQoL、QOLICQ(Quality of Life in Infertile Couple Questionnaire)及中医肝郁型不孕症生命质量量表〕,4个[25-28]为用于测评癌症及其他疾病患者HRQoL的特异性量表,11个[29-39]为普适性HRQoL量表。2005年,德国学者研制了第一个用于测量男性不育患者HRQoL的量表——TLMK[20]。FertiQoL是由欧洲人类生殖和胚胎学协会与美国生殖医学会专家于2011年采取国际合作方式、跨学科方法研制而成的且经过国际多中心临床验证的第一个不孕不育患者HRQoL特异性量表[21-22],现已被翻译和修订成中文版且通过了心理测量学性能检验[40-42]。2017年王英[24]研制了中国首个针对女性肝郁型不孕症患者的HRQoL特异性量表。在11个普适性HRQoL量表中,2个量表的研制基于中国人群数据,分别为生活质量评定问卷(GQOLI-74)[38]和中华生存质量量表(ChQOL)[39]。19个不孕不育患者HRQoL量表的基本信息见表1。
2.3 不孕不育患者HRQoL测量的相关量表应用现状 纳入的229篇文献中,19个量表共计被使用233次,其中FertiQoL量表在现有研究中被使用的频率最高〔39.1%(91/233)〕,其次为SF-36〔33.9%(79/233)〕、世界卫生组织生存质量测定量表简表(WHOQOL-BREF)〔9.9%(23/233)〕、生活质量综合评定问卷(GQOLI-74)〔6.9%(16/233)〕、健康调查12条简表(SF-12)〔2.1%(5/233)〕、世界卫生组织生存质量测定量表(WHOQOL-100)〔1.3%(3/233)〕等普适性HRQoL量表,见图2。在不孕不育患者HRQoL特异性量表中,王英[24]编制的中医肝郁型不孕症生命质量量表在开发后尚未得到应用。
图2 不孕不育患者HRQoL量表的应用频次(截至2020-10-05)Figure 2 The application frequency of HRQoL instruments in infertility patients as of October 5,2020
2.4 不孕不育患者HRQoL特异性量表开发质量评价 基于COSMIN偏倚风险评价清单中的PROMs开发模块对TLMK[20]、FertiQoL[21-22]、QOLICQ[23]及中医肝郁型不孕症生命质量量表[24]的开发质量进行评价(表2),并且对各个量表条目的形成与筛选过程进行梳理(表3)。4个不孕不育患者HRQoL特异性量表开发研究均描述了量表针对的目标人群和使用背景,且研究人群的选择具有代表性,其在上述三方面的方法学质量为“非常好”。除中医肝郁型不孕症生命质量量表的开发者外,TLMK、FertiQoL、QOLICQ量表的开发者在构建量表条目的过程中均对患者进行了定性访谈。应用认知性访谈法评估目标人群对不孕不育患者HRQoL特异性量表条目的理解及对量表内容全面性的看法时:FertiQoL量表的开发者并未提及认知性访谈是否由经验丰富的访谈员组织实施、访谈过程是否全程录音、转录的细节及是否由两名研究者参与资料分析等内容,故FertiQoL量表开发研究认知性访谈部分的方法学质量为“有问题的”;而TLMK、QOLICQ量表的开发者则未阐述是否评估了目标人群对量表条目的理解程度,故TLMK、QOLICQ量表开发研究认知性访谈部分的方法学质量为“不合格”。此外,上述3个量表开发研究对访谈提纲、转录/编码过程、资料饱和判定标准及资料分析方法等方面的信息披露不足。FertiQoL量表开发的总体质量为“有问题的”,TLMK、QOLICQ、中医肝郁型不孕症生命质量量表开发的总体质量均为“不合格”。
表2 不孕不育患者HRQoL特异性量表开发质量评价Table 2 Evaluation of the development quality of infertility-specific HRQoL instruments
表3 不孕不育患者HRQoL特异性量表条目的形成与筛选Table 3 Item generation and screening toward developing infertilityspecific HRQoL instruments
2.5 不孕不育患者HRQoL特异性量表开发研究方法学质量评价及量表测量性能评价 4项量表开发研究均未对量表的跨文化效度/测量等同性、测量误差进行评价。(1)内容效度方面:FertiQoL、QOLICQ量表开发研究的方法学质量分别为“非常好”“有问题的”;TLMK量表开发研究未采用专家评定法评价量表的内容效度,中医肝郁型不孕症生命质量量表开发者则未对患者进行调查,并且对定性和定量分析的方法描述不够清晰,故TLMK、中医肝郁型不孕症生命质量量表开发研究的方法学质量均为“合格”。(2)结构效度方面:TLMK、FertiQoL及中医肝郁型不孕症生命质量量表开发研究均采用探索性因子分析法评价量表的结构效度,方法学质量均为“合格”;QOLICQ量表开发研究虽然进行了探索性因子分析,但是未明确阐明因子分析的样本量及因子旋转方法等,方法学质量为“有问题的”;4个量表开发研究均未进行验证性因子分析,故4个量表的结构效度均为“不确定”。(3)内部一致性方面:4个量表开发研究均报告了量表的Cronbach'sα系数,方法学质量均为“非常好”;4个量表的Cronbach'sα系数均>0.7,内部一致性均为“足够”。(4)重测信度方面,仅QOLICQ量表开发研究对量表的重测信度进行了评价,并报告了量表的重测信度相关系数,但由于其未明确报告测量方法、统计分析方法等方面的信息,其方法学质量为“有问题的”,量表的重测信度为“不确定”。(5)效标效度方面:中医肝郁型不孕症生命质量量表开发研究采用Pearson相关检验量表与FertiQoL量表间的效标效度,方法学质量为“非常好”;Pearson相关性系数为-0.792,量表的效标效度为“足够”。(6)建构效度方面:仅TLMK量表开发研究进行了建构效度分析,方法学质量为“非常好”,量表的建构效度为“足够”。(7)反应度/灵敏度方面:FertiQoL量表开发研究发现,不同性别不孕不育患者FertiQoL量表得分存在明显差异;FertiQoL量表的方法学质量为“非常好”,量表的反应度/灵敏度为“足够”,见表4、5。
表4 不孕不育患者HRQoL特异性量表开发研究的方法学质量评价Table 4 Methodological quality of research on the development of infertility-specific HRQoL instruments
表5 不孕不育患者HRQoL特异性量表测量性能评价Table 5 Quality of measurement properties of infertility-specific HRQoL instruments
本研究全面梳理了国内外不孕不育患者HRQoL量表相关研究,同时采用国际上应用广泛的PROMs质量评价标准COSMIN对量表开发研究的方法学质量和量表的测量性能进行了评估。目前,国内外研究者主要运用FertiQoL等特异性量表,以及SF-36、WHOQOL-BREF等普适性量表测量不孕不育患者HRQoL,尽管普适性量表对不孕不育患者HRQoL评估的灵敏度不如特异性量表[44-45],但由于普适性量表能够为不同疾病人群的健康测量提供统一工具[45],其应用仍较为广泛。FertiQoL量表是目前国际上应用最为广泛的不孕不育患者HRQoL量表[16],其为评估不孕不育患者HRQoL及HRQoL的跨文化比较提供了有效的工具支持。本研究基于COSMIN对不孕不育患者HRQoL特异性量表进行系统评价发现,FertiQoL量表与其他3个不孕不育患者HRQoL特异性量表相比,量表开发研究具有相对较好的方法学质量且量表的测量性能更佳,但中文版FertiQoL量表中的“伴侣承诺”“是否可以获取想要的不孕不育症医疗服务”等条目在我国文化背景及医疗卫生服务体系下的适用性略显不足[40]。
目前,我国学者已研制出“中医肝郁型女性不孕症患者的生命质量量表”[24],但该量表仅适用于中医肝郁型女性不孕症患者,应用范围较为局限。同时,该量表的开发者在研制量表的过程中未对患者进行访谈。“患者参与”是量表研制的关键环节,形成和筛选量表条目时,需要通过访谈法或焦点小组讨论法等定性研究方法广泛听取患者及医务人员的意见和建议[46-47],并且由于中西方之间对“健康”的理解存在较大差异,尤其是在生育文化方面存在着根本性差异[10],缺少“对患者进行访谈”这一关键步骤可能会导致关键测量条目的缺失,从而影响量表的灵敏度。
在测量内容上,幸福感等主观感受越来越成为健康测量研究关注的焦点[48-50],尤其是在生殖健康领域,不孕不育不仅会影响患者的健康,还可能会影响婚姻质量和家庭幸福感[15,17]。现存的不孕不育患者HRQoL特异性量表中,仅TLMK量表包含幸福感维度[20],其余3个量表的研发者均对不孕不育患者幸福感的关注度相对不足。在测量方法上,4个不孕不育患者HRQoL特异性量表均是基于经典测量理论研制的,其研制过程缺乏现代测量理论的指导。项目反应理论等现代测量理论能为量表条目筛选、测量学性能评价提供更多的方法学支持[51-52]。此外,现存不孕不育患者HRQoL特异性量表均未对回忆期做出限定,而回忆期限不明确可能会导致测量结果产生偏倚,也可能会影响纵向研究中研究者对重复测量时间点的选择,从而不利于量表反应性的评价[16]。目前尚未有研究探讨不孕不育患者HRQoL量表的最小临床重要性差值(MCID)[16],这也给量表结果的解释带来一定的不利影响。
未来,在研制不孕不育患者HRQoL量表时,应着力提升量表研制的规范性,可按照标准化研制流程或COSMIN进行量表开发与测量性能验证,构建量表条目时应将专家咨询法与个人深度访谈法、焦点小组讨论法等其他定性研究方法有机结合,基于多角度充分挖掘患者的感受和健康信息。在量表研制与测量性能评价方法方面,建议以项目反应理论、经典测量理论等多种理论为指导进行量表条目筛选与测量性能评价,量表研制时需要尽可能设置回忆期,以为量表反应性评估提供相关参照,保证测评的一致性与准确性。同时,也须注重对MCID的探讨,旨在为量表结果的解释提供相应参考。
本研究存在一定的局限性:首先,本研究采用了COSMIN作为不孕不育患者HRQoL特异性量表评价工具,COSMIN中部分评价标准主观性较强,可能会导致评价结果的偏倚;其次本研究仅对不孕不育患者HRQoL特异性量表开发研究的方法学质量及原版量表的测量性能进行了评价,未来在进行量表的测量性能评价时可将不同语言版本的量表均纳入研究,从而使评价结果更加全面、完善。也可运用COSMIN改良GRADE[53]综合评定不孕不育患者HRQoL特异性量表各测量性能的证据等级,并形成对于量表的最终推荐意见。
作者贡献:史钊、李顺平进行文章的构思与设计,史钊、吴小燕、刘嘉琪、杜慧敏负责文献筛选及质量控制与审校;史钊、吴小燕、刘嘉琪进行数据收集及整理;史钊、李顺平负责结果的分析与解释,撰写论文;史钊、李顺平、吴小燕、刘嘉琪、杜慧敏进行论文的修订;李顺平负责文章的可行性分析,对文章整体负责,监督管理。
本文无利益冲突。