离散选择实验和优劣尺度法在医药卫生领域联合使用及比较研究评述

2022-05-14 01:26杨惠芝王立敏李顺平

医学与社会 2022年5期

杨惠芝，王立敏，李顺平

1山东大学齐鲁医学院公共卫生学院卫生管理与政策研究中心，山东济南，250012；2国家卫生健康委员会卫生经济与政策研究重点实验室(山东大学)，山东济南，250012；3山东大学健康偏好研究中心，山东济南，250012

离散选择实验(discrete choice experiment，DCE)和优劣尺度法(best-worst scaling，BWS)是测量个体偏好的陈述性偏好研究方法。假设研究对象可以由若干个属性进行描述，每个属性又包括若干水平。DCE固定属性仅变换水平组合形成不同方案，每个选项集中包括至少2个方案，要求受访者从每个选项集中选择一个自己认为最好的方案[1]。BWS要求受访者在每个选项集中至少各选择1项他们认为最好的和最差的，主要分为3种类型：BWS-1是属性之间的比较；BWS-2是固定属性不变，仅调整每个属性的水平；BWS-3与DCE格式一致，是比较属性水平组合[2]。DCE和BWS每套问卷均由若干个选项集组成，假设受访者每次均选择自己认为效用最大的方案，通过反复权衡比较，能测量受访者对商品或者服务的偏好程度[3]。

2014年以来，DCE在医药卫生领域的应用迅速增加[4]，BWS的产生和发展晚于DCE，但近些年来在医药卫生领域的应用备受关注[5]。尽管DCE和BWS均基于随机效用理论，但两者在模型的应用与假设上存在差异，目前仍无“黄金标准”来评价孰优孰劣，且无如何联合使用上述2种方法的相关指南，因此了解DCE和BWS联合使用现状，比较2种方法的可接受性、有效性以及结果一致性，对推动2种方法的应用具有重要意义。2017年Whitty等人从可接受性、有效性和一致性3方面综述了医药卫生领域DCE和BWS比较的实证研究[6]。近年来，医药卫生领域中同时使用DCE和BWS的研究快速增长，因此，本文以Whitty等人的综述框架为基础，检索2017年1月至2021年12月发表的文献，并与该综述结果进行比较，以期为国内读者更深入理解和应用DCE和BWS偏好测量方法提供相关参考。

1 资料来源与方法

1.1 文献检索策略

在PubMed、Web of Science、Embase、Scoups、CNKI和Wanfang Data这6个数据库进行检索，检索时限为2017年1月至2021年12月。中文检索词包括离散选择实验、离散选择模型、优劣尺度法、最佳最差测量、优劣极值测量法、联合分析、陈述性偏好研究；英文DCE检索词包括discrete choice experiment、discrete-choice experiment、discrete choice model、conjoint analysis、conjoint choice experiment、stated preference、DCE；英文BWS检索词包括BWS、best worst scaling、best-worst scaling、maxdiff、maxdiff scaling、maximum difference、maximum difference scaling、best-worst discrete choice experiment、best-worst choice experiment。

1.2 纳排标准

纳入医药卫生领域同时使用DCE和BWS(BWS-1、BWS-2和BWS-3中的任意1种)的中英文实证研究。鉴于BWS-3格式上与DCE相似，本文也纳入同时使用BWS-3和BWS-1或同时使用BWS-3和BWS-2的文献。排除非医药卫生相关，研究方法不符合要求，会议记录、评述、综述等非实证研究以及无法获取全文的文献。

1.3 文献质量评价

根据PREFS质量评分标准，对纳入研究的调查目的(purpose)、应答者(respondents)、方法解释(explanation)、结果(findings)和意义(significance)5个方面进行计分(符合1项要求加1分，满分5分)[7]。具体表述如下：①阐明研究问题或目标与偏好有关，如效用、支付意愿、重要性或者优先级等；②研究应该评价应答者和无应答者之间是否有差异，不能只评价应答者与目标人群之间的差异；③清晰解释评估偏好的方法，例如文献或附录中有偏好测量的问题、呈现方式等；④阐明偏好分析是否包括所有受访者，如果一些受访者未纳入分析(未通过一致性检验、主导偏好、未完成问卷等)，需检验未纳入与纳入的结果有无显著差异；⑤偏好结果要使用显著性检验来评估，包括P、置信区间以及与偏好结果相关的标准差或标准误的平均值。

2 结果

2.1 纳入文献基本情况

初筛共获得文献426篇，筛除重复文献98篇，阅读标题和摘要，排除明显不相关的文献，最后进一步检索阅读全文，最终纳入13篇文献(具体流程见图1)。纳入文献均为英文，2017年、2019年和2021年各3篇，2020年4篇。研究类型包括6篇DCE和BWS-1，6篇DCE和BWS-2，1篇BWS-2和BWS-3。研究领域涉及医患对疾病治疗的偏好[8-12]，生命终末期人群/痴呆患者/儿童生命质量评估[13-16]，医务人员工作偏好和卫生技术评估[17-20]。除1篇来自塞内加尔外[18]，其余均来自美国、英国和澳大利亚等国家。见表1。

表1 纳入研究的主要特征

图1 文献筛选流程

属性和水平的确定主要通过文献综述和定性研究[8-13,17-19]，或基于已有量表和调查问卷[14-16,20]。10篇文献开展预实验评估受访者对问卷选择的理解程度，并调整完善属性和水平[8-13,17-20]。

实验设计以D-高效设计(D-efficiency)和D-最优设计(D-optimal)为主[8，10,12-13，15，17-19]，1篇使用正交主效应设计(orthogonal main effects design，OMED)[20]，其他未做说明。BWS-2和DCE各1篇分别设置退出和维持现状选项[17-18]，实验设计类型及选项集数量见表2。DCE和BWS数据分析大多使用相同模型，以条件logit(conditional logit，CL)和随机参数logit(random parameters logit，RPL)为主。

表2 纳入研究的实验设计和数据分析

2.2 DCE和BWS可接受性比较

DCE和BWS的可接受性可通过应答率、完成时间以及完成问卷的困难程度进行比较。在应答率方面，11项研究受访者同时完成DCE和BWS问卷，应答率默认为无差异。其余2项研究调查不同受访者，Honda等人的研究未表述DCE和BWS的各自应答率[18]，仅Himmler等人的研究比较不同受访者对DCE和BWS-2问卷的应答率差异[20]，结果显示受访者均完成DCE问卷，1.9%(3/159)未完成BWS-2问卷[20]。

在完成时间方面，1项研究显示[13]，受访者完成DCE和BWS的平均时长相似(17分钟)，另1项研究表明[20]，尽管DCE和BWS的选项集数量相同，但DCE问卷平均用时(6分钟)显著低于BWS问卷(7.2分钟)。

在完成问卷的困难程度方面，3项研究分别调查普通成年人、痴呆患者和照顾者、65岁以上老人[13-14，20]，受访者均表示DCE比BWS更容易完成，但在Rogers等人的研究中[16]，儿童和青少年认为BWS-2比DCE更容易理解和选择。

2.3 DCE和BWS有效性比较

由于DCE和BWS均为陈述性偏好研究，因此评估数据的有效性非常重要[21]。内部有效性检验参照Krucien等人的研究[22]，由微观经济学消费者理论推导出稳定性(stability)、单调性(monotonicity)、连续性(continuity)和完整性(completeness)4种检验方法。13篇纳入文献中，未有文献对单调性和完整性进行检验。稳定性检验，也称为一致性检验，是在一套问卷的不同位置设置相同题目，并检查两次回答是否一致[23]。仅一项研究检验了稳定性[20]，结果显示DCE的稳定性高于BWS。

连续性(continuity)假设人们的偏好是补偿性的，即权衡之后愿意接受一个属性变差以换取另一个属性补偿性变好。若受访者只关注某个或某几个属性，只选择属性水平最好或最差的方案，则受访者的偏好就为非连续性。连续性通过计算每个应答者的字典分数(lexicographic score)进行检验，字典分数范围从0%到100%，数值越大连续性越低，受访者做选择时对属性水平的权衡越少[22]。Himmler等人的研究中[20]，DCE和BWS的字典分数分别为28.9%和79.1%，BWS中存在更多的受访者对单一属性有显性偏好，表明受访者在DCE时做了更多的权衡和思考。

2.4 DCE和BWS结果一致性比较

DCE和BWS的选项集内部结构、偏好分析模型方面均有差异，因此在比较两者的偏好结果前需进行规模差异调整(rescaled)。3项研究进行了结果一致性比较，分别基于比例标度(ratio-scaled)、概率的缩放程序(probability-based rescaling procedure)和皮尔逊相关系数来调整属性相对重要性，结果显示DCE和BWS结果一致性较高[11-12，15]。Huynh等的研究将DCE和BWS数据分别进行潜在类别分析[13]，结果显示4个分组的原则和比例基本一致，分组结果一致性较高。

3 文献质量评价

纳入文献的质量评价平均得分为2.9分，纳入文献对“调查目的”“方法解释”和“意义”的表述相对详细，对“应答者”和“结果”的展示相对不足，仅1项研究比较了“应答者”与“非应答者”的差异[13]，仅2项研究进行敏感性分析，评估排除的数据对结果的潜在影响[12,15]。见表3。

表3 PREFS质量评价

4 讨论

4.1 两种方法测量的偏好结果基本一致

结果显示，DCE在可接受性和有效性方面略优于BWS，两者测量的偏好结果一致性较高。可接受性方面，DCE的应答率和完成时间均比BWS更高效，成年受访者更易于接受DCE，仅有一项研究结果显示，理解能力与年龄无显著关系，但是儿童青少年更偏好BWS[16]。有效性方面，DCE稳定性高于BWS-2，在进行稳定性检验时，DCE只需比较2个重复设置的问题是否选择相同方案，BWS需要“最好”和“最差”两个回答都一致才算通过稳定性检验，因此BWS比DCE通过检验的概率低，但也不排除问卷负担或方法本身的问题，可以通过外部有效性检验比较两种方法有效性。结果一致性方面，虽然在受访者潜在心理决策模型以及选择行为假设等方面存在差异[25]，但有限的研究证明DCE和BWS的偏好结果基本一致，表明2种方法可能具有同等的偏好测量能力。

4.2 两篇综述结果具有差异性

Whitty的综述结果也显示，DCE在有效性和可接受性方面比 BWS略有优势[6]，这与本综述结果一致，但Whitty的综述显示DCE和BWS结果一致性较低。使用的BWS类型以及研究背景差异可能是影响两者结果一致性的因素：Whitty的综述中未有研究比较DCE和BWS-1结果一致性，本综述中有2篇是DCE和BWS-1进行结果一致性比较；另外2篇是DCE与BWS-2比较的文献，这2项研究样本量分别为2996和6020，超出Whitty的综述纳入文献的样本量。将Whitty的综述和本综述分别纳入的12篇和13篇文献综合分析，可接受性方面仅有1篇文献报告了2种方法受访者应答率的差异；有效性检验方面更侧重稳定性检验，其次为连续性和单调性检验；DCE与BWS-1结果一致性较高，与BWS-2结果一致性较低。

4.3 两种测量方法可联合使用

DCE发展至今已有较为成熟的框架，BWS发展较DCE晚，但与DCE相比更易于选择，仅需较小样本可获取更丰富信息，并且能弥补DCE统计效率不足的缺点[26]，尽管如此，但现有研究并不能完全证明两种研究方法的优劣。研究者可根据研究目的和现实情境选择1种类型的BWS与DCE联合使用，比如使用BWS-1辅助DCE进行前期属性确定。若开展DCE和BWS的比较研究，需重点考虑BWS适用类型、受访人群、问卷设计、有效性检验方法等，分别记录每个受访者回答两套问卷的时间，条件允许应增加受访者关于DCE和BWS作答的认知负担问题，另外，偏好结果一致性需进行再规模化处理后比较。

DCE和BWS是目前医药卫生领域重要的偏好测量工具，在临床诊疗、疾病筛查、卫生人力等领域广泛应用[27-29]。近五年来国外学者联合使用DCE和BWS测量健康偏好的研究日益增多，但DCE和BWS在我国起步较晚，尤其是BWS在国内仅有少量介绍性和实证研究[30-32]，目前国内还未有将DCE和BWS联合使用的实证研究，仅有1项通过BWS-1为DCE确定属性的研究[33]。因此了解DCE和BWS联合使用的现状及比较研究结果，对于国内进一步开展健康偏好测量研究具有重要意义。