殷 悦,池卓源,赵明烨,唐文熙
中国药科大学国际医药商学院,江苏南京,211198
偏好测量在卫生领域已愈发受重视,其可以量化供需双方对医疗资源各属性的重视程度,为决策者提供证据支持,使评价体系更为完善。优劣尺度法(best-worst scaling, BWS)和离散选择实验(discrete choice experiment,DCE)均为基于陈述性偏好(stated preference)的测量方法,BWS要求受访者在选择集中分别选出认为最好(或影响最大)和最差(或影响最小)的一项,DCE则为选择更偏好的属性水平集合,两者均可对结果进行数据分析得到群体的偏好。BWS在卫生领域的应用尚不成熟,学者用其测量受访者对不同生存质量状态的偏好[1],Norman用其测量澳大利亚人群对肺癌筛查的偏好[2],在国内目前仅有黄娇娇在对上海市居民就医选择行为影响因素分析时采用了BWS[3]。此外,少有学者将BWS运用到药品领域,并同时测量供需双方的偏好,国内也尚无学者基于实证调研来探究BWS和DCE的区别。 本研究同时从供需双方展开,将BWS和DCE应用到治疗眩晕的中成药临床综合评价各维度偏好测量中,通过问卷调研,对中成药安全性、有效性、经济性、创新性、可及性、适宜性6个属性的不同水平进行偏好测量和WTP(willingness to pay)测算,并与DCE方法学做对比,同时对BWS的应用前景进行探究。
于2021年4-5月通过分层随机抽样,分别选取120名医生和患者作为调研对象,有关数据来源于2020年《中国卫生健康统计年鉴》,根据内蒙古和河北的脑血管发病率对医生和患者的部分人口统计学特征加以限制[4-5]。部分特征组合由于数量过少且实证调研中难度过高而设定为不限。医生的选取中,东、中、西部医院占比分别为42.5%、27.5%、30.0%,一、二、三级医院占比分别为75.0%、15.0%、10.0%。患者的选取中,地域分布与医生相同,男性占比60.0%;15-44岁占比15%,45-59岁占比22.5%;收入限定3000元以下共48人,3000-7500元39人,7500元以上15人,其余不限;教育程度限定初中及以下共27人,高中及以上12人,其余不限。最终共发放医生版本问卷120份,患者版本120份,有效回收率100%。
本次调研同时采用DCE和组合型BWS(profile case,BWS-2),以治疗眩晕的中成药临床综合评价为例展开偏好调查,本研究主要介绍基于BWS-2的问卷调研。
1.2.1 DCE与BWS简介。1963年Davis提出了DCE[6],1987年Louviere等开发了BWS[7],两者均基于随机效用理论,即效用值是由可观测和不可观测2部分组成,每个属性水平所对应的效用值决定了他们的选择[8]。
根据选项集设计的不同,BWS可分为3种:对象型(object case,BWS-1)、组合型和多重组合型(multi-profile case,BWS-3)。BWS-1只涵盖要测量的属性,而不对其水平进行设定,主要关注公共政策目标、品牌等对象[9];BWS-2的选项集为商品或服务的属性水平组合,通常采用正交主效应设计(orthogonal main effects plan,OMEP)来制作问卷,未来可能会被大量用于医疗领域[9];BWS-3与DCE最相似,其问题设计是在DCE基础上附加至少一个属性水平组合集,受访者从中选择最重要和最不重要的集合,现常见于健康生命治疗调查的研究[9]。
1.2.2 问卷设计。根据《药品临床综合评价管理指南(2021年版试行)》,选取测量属性,结合文献回顾、小组讨论和现实依据,进行属性的细化描述和水平划分。安全性根据不良反应发生率分为5%(轻微)、10%(一般)和15%(严重)三水平;有效性根据眩晕改善情况分为80%以上(显著改善)、50%-80%(改善)和50%以下(未改善);经济性依据经过治疗后眩晕影响日常生活,现新治疗方案可改善到无眩晕每月所需额外花费划分为10-100元、101-200元和201-300元;适宜性划分为适宜(用药方便)、较适宜(用药有一定困难但可以克服)、不适宜(用药不方便);创新性划分为有无创新(创新药和传统药)两水平;可获得性根据配备率和获取药物是否便利划分为三水平;可负担性依据月治疗费用分为50-150元、151-250元和251-350元。
设计选项集时,人为添加block属性,赋值三水平,对应ABC三个版本,以减少受访者的回答负担[10]。正交组合后,得到3版问卷,每版有9道BWS组合题(BWS组合示例见表1)和1道逻辑纠错题。逻辑题有明显的最好和最差导向,倘若受访者选择错误,则将被视为废卷。
表1 问卷示例
运用Stata 16.0, 采用成对模型(paired model)对数据进行条件logit回归分析,即假设受访者答题时在所有 “最好-最差”组合中选择其认为两者差距最大的一个[11]。编码时,将各选择集分解成K(K-1)个最好最差组合(K为选项集中项目个数),示例如表2所示,代表该受访者在第一题将属性一选为最好,属性二选为最差。
表2 编码示例
使用条件logit回归需指定一个水平作为参照项来避免共线性,将回归系数(参考项为0)进行排序即可得出受访者的偏好,但条件logit回归假设受访者偏好同质且随机项相同且独立分布,可能会导致一定的误差[12]。
就人为控制的人口学因素,各个版本分布大致相同,与最初要求一致。医生男性占比56%,60岁以下占比91%,有83%的人从业10年以上。所处医院级别分布与最初假设相同,即一级医院占比73%,二级医院占比15%。患者版本的问卷由于调研时设置了诸多不限,导致特征分布与假设有些许差距。具体而言,男性占比59%,60岁以上占比60%,收入3000元以下为42%,3000-7500元为44%。
初步分析后,将影响最小的属性(或最差的水平)定为参考变量。见表3、表4。
表3 医生版本条件logit回归结果
表4 患者版本条件logit回归结果
由于问题设计的缘故,借鉴DCE的数据分析方法,对系数取绝对值进行分析[13]。医生以经济性为参考,偏好安全性>可获得性>有效性>适宜性>可负担性>创新性(均P<0.05)。患者以创新性为参考,偏好安全性>有效性>可获得性>适宜性>可负担性>经济性(经济性P=0.139,其余P<0.05)。关于各水平,除患者的“创新药”水平影响不显著外(P=0.230),其余均有显著影响(P<0.05)。
将可负担性看做成本属性,对所有水平再次进行条件logit回归。将可负担性各水平的平均数作为自变量,系数作为因变量,进行线性回归得到关于成本的系数对医生为-0.0063,对患者为-0.0097。根据Norman的研究,将各水平的系数除以成本系数的负数,即为其对应的WTP[2],说明医患对从安全性设定的最差水平改善到最高水平分别愿意付出464.8元和343.3元,以此类推。见表5、表6。
表5 医生版本各水平条件logit回归结果(可负担性)
表6 患者版本各水平条件logit回归结果(可负担性)
综合比较可得,医生的WTP普遍高于患者。在其余水平不变的条件下,医患均对改善药品有效率、安全性和可获得性WTP较高,对提升创新性WTP最低。
3.1.1 双方较重视安全性和有效性,较不重视创新性和经济性。对于治疗眩晕的中成药,医患较看重有效性和安全性,对创新性和经济性较不重视,可能因为创新与否并不能和药物的有效率和不良反应发生率直接挂钩。关于经济性,可能由于水平设置区分度不高,或目前关于药品经济性的知识普及不够,理解难度较大,从而一定程度上造成了对经济性的偏好较低。关于安全性和有效性,就水平而言,有效性的系数普遍高于安全性,但比较属性时却表明安全性更重要,可能因为这2个属性的参考水平影响大不相同。回归过程中水平的系数是基于最差水平得出的,而属性的系数是基于创新性(经济性)得出的,综合考虑了其余属性的各水平。可能双方均认为治疗眩晕的中成药“不良反应发生率15%(严重不良反应)”的影响大于“症状改善50%以下(治疗无明显改善)”,从而整体而言医患更看中安全性。
3.1.2 医生的支付意愿普遍高于患者。对比医患的WTP可得,从设定的最差水平改善到最优水平,医生愿意付出的价格均高于患者,这是成本系数绝对值相对更低造成的。可能因为样本中医生收入普遍高于患者(患者有41.67%收入3000元以下;医生有19.17%收入5000元以下);也可能因为患者日常接触的药品相较医生更为局限,接受的药价区间较窄;另外医药市场信息不对称,患者对药品的了解过少,从而更重视其可以获得的药价信息,这三者共同导致了就治疗眩晕的中成药而言患者比医生更看重药品的可负担性。
调研的受访者同时完成BWS和DCE版本问卷,结果表明,两者回答难度因人而异,但所得偏好信息基本一致。关于数据分析,DCE所得系数仅能在同一属性的不同水平间进行比较,而BWS可以通过固定一个参考水平,基于其得到所有水平的系数,进行相互比较[14]。就属性而言,DCE采用各属性最高水平的系数代表整体进行相对权重判断,而BWS关于属性的系数是基于参考属性得出的,是整体间的相互比较,比DCE更全面,且结果可能不同。
然而,若没有采用如R等软件进行问卷设计,将有极大的编码工作量,且对于选择成对模型还是边际模型进行数据处理,仍是一个问题。关于BWS和DCE孰优孰劣,目前的研究还没有定论[15-16]。
目前,国际上BWS已被用于卫生领域,包括对全科医生服务偏好的调查、癌症筛查方案的偏好调查、效用积分体系的开发等[2,17-18]。尽管我国BWS的应用尚不成熟,但它在医疗领域的应用将逐渐增多。诸如测量评价体系中各指标的权重,帮助完善体系建设;测量患者对各医疗服务的偏好,优化资源配置;进一步开发基于中国人群的EQ-5D等量表的效用积分体系,间接帮助药物经济学评价中对人群生存质量的评估等。
本研究还存在一定的缺陷。数据分析时,忽略了版本差异和个人特征对结果造成的影响。此外,最终人口特征分布和最初假设最多有20%的差异,一定程度上没有代表整个患者群体。计算WTP时,用各区间的平均数代表整个区间进行线性回归,可能与受访者答题时的心理假设有所差异。