冉琳,黄灏飞,李澍
1. 重庆大学 生物医学工程系,重庆 400044;2. 中国食品药品检定研究院 医疗器械检定所,北京 102629
随着移动互联网及人工智能的飞速发展,人类开启了数字化新时代,与此同时,医学模式也从经验医学、实验医学逐步进入了现代医学时代[1]。为了解决物理治疗、药物治疗等传统治疗方式本身存在的局限,移动网络技术与循证医学原理进行结合形成了数字疗法(Digital Therapeutics,DTx)。数字疗法不仅拥有成本低、医生耗时少的优势,还可使用户自行管理个人护理和个人健康信息。数字疗法遵循的循证医学原理包括认知行为疗法、生物反馈疗法、运动疗法等,其中,认知行为疗法是数字疗法用到的最频繁的循证医学方法之一。目前,DTx 产品已广泛应用于各种疾病,如糖尿病、肿瘤治疗管理、精神类疾病等[2]。但是,DTx 作为一款新型医疗技术产品,与常规医疗器械产品的最大区别在于用户不同。常规医疗器械的用户更多是医生、护士等专业人员,而DTx 的用户是患者本身。可用性作为DTx 评估的一个关键指标,可保证患者安全有效地使用DTx。医疗器械的可用性评估方法有很多种,如访谈法、直接观察法、量表调查法等,其中量表调查法不仅能够对用户真实的使用感受进行挖掘,还能以量化的方式输出数据结果,是常用的可用性测试方法之一。
基于以上背景,本文对可用于DTx 的可用性量表展开研究,经过资料调研及筛选分类,最终选取了14 个可用性量表,并对量表进行讨论分析。本文对量表的基本信息、关键特征以及评价维度进行研究,从不同角度对量表进行分析,厘清每个量表的评估侧重点,分析量表的评价维度,同时建立一个适用于DTx 的可用性评价指标体系,并选出针对性最强的可用性量表。
业内最受认可的DTx 定义来自国际数字疗法联盟:数字疗法依靠高质量软件为患者提供基于循证医学的干预措施,实现预防、管理或治疗疾病及其症状[3]。DTx是一种干预手段、措施或服务,与药物疗法、物理疗法等其他疗法存在取代、辅助、补充的关系。与普通数字医疗软件不同的是,DTx 可直接针对患者或疾病进行干预,所有的DTx 产品均需经过临床确认及监管机构评估认证。
DTx 作为一个还未发展成熟的医疗器械产品,不论从产业上还是监管上,依然存在着许多问题。从产业上来说,DTx 的临床疗效科学依据不足,因此尚未被临床专家认可;另一方面,公众对于DTx 产品的认知度不够,导致对DTx 产品的接受度及依从性低。从监管角度来看,目前国内外还未颁布专门针对DTx 评价的法规政策,DTx 产品审批依然遵循着现有政策。但是DTx 作为一种特殊的医疗产品,其本身的创新特性与现有的医疗软件评价方法及思路不符,导致监管部门无法合理高效地对DTx 产品进行质控和溯源。具体来说,DTx 的创新特性之一就是与用户之间的大规模交互,且这些人机交互具有实时性,需要用户有很高的依从性。因此,为保证用户能够正确使用DTx 产品,降低使用错误带来的风险,DTx 产品的可用性评估研究必不可少。
可用性并没有一个完全一致的定义,不同学者及标准对可用性都有着不同的理解。Shackel[4]认为可用性是“被人类轻松有效地使用的能力”,并提出了5 个可用性评价维度:有效性、易学性、保留性、错误和态度。Nielsen[5]提出的可用性定义应用最为广泛,他认为可用性评价主要在于效率、易学性、记忆性、错误/安全性和满意度5 个维度。行业标准[6]中指出,可用性是指具有有效性、效率、用户易学和用户满意的用户接口特性。
目前,医疗器械的可用性评价主要分为主观评价和客观评价。主观评价主要包括量表调查法、观察法等;客观评价主要有客观绩效法、眼动指标评价法等。在对产品进行可用性测试时,可通过用户在产品使用过程中对产品整体的易用性、易学性等指标的主观感受以及用户个人的满意度来对产品的可用性进行评价。量表调查法就是通过让用户填写特定可用性评价量表的方式对用户在产品使用过程中的主观感受以及满意度进行量化评价,不同的可用性量表评价的方面可能存在差异。量表调查法相较于观察法和用户口述感受的方法,具有更高的准确性和可靠性,可帮助和引导用户对产品可用性进行全方位的打分评价,是可用性评价中应用非常广泛的方式。
随着对可用性评估的深入研究,可用于医疗器械评估的可用性量表数量逐渐增多,但不一定适用于DTx,如针对网页可用性评估的网页评估问卷(WEQ)[7]。本文选取了14 个可用于DTx 可用性评估的量表并进行简要总结,分别为:用户界面满意度调查问卷(Questionnaire for User Interface Satisfaction,QUIS)[8]、技术接受模型(Technology Acceptance Model,TAM)[9]、场景后问卷(After Scenario Questionnaire,ASQ)[10]、研究后系统可用性问卷(Post-Study System Usability Questionnaire,PSSUQ)[11]、软件可用性测试问卷(Software Usability Measurement Inventory,SUMI)[12]、计算机系统可用性问卷(Computer System Usability Questionnaire,CSUQ)[13]、系统可用性量表(System Usability Scale,SUS)[14]、ISO 指标(IsoMetrics)[15]、手机可用性问卷(Mobile Phone Usability Questionnaire,MPUQ)[16]、用户体验可用性指标(Usability Metric for User Experience,UMUX)[17]、备用可用性(Alternate Usability,AltUsability)[18]、手机应用评定量表(Mobile APP Rating Scale,MARS)[19]、用户移动应用评定量表(User Mobile APP Rating Scale,uMARS)[20]、移动健康应用可用性问卷(mHealth APP Usability Questionnaire,MAUQ)[21]。需要注意的是,CSUQ 是PSSUQ 的修改版,uMARS 是MARS 的修改版。
表1 列举了可用于DTx 的可用性量表的关键特征,分别是条目数量、分类、信度[克朗巴哈系数(Cronbach’sα)]、条目类型,并根据各量表Cronbach’sα系数进行了排序。其中,IsoMetrics 的条目数量最多,达到了75 个,条目数量最少的为ASQ 量表,仅包含3 个条目。在14 个量表中,条目数量≥50 个的量表有3 个(IsoMetrics、MPUQ 和SUMI,占比约21%),条目数量≤10 个的量表有4 个(SUS、AltUsability、UMUX、ASQ,占比约29%),条目数量为10~50个的量表数量最多,共7 个(QUIS、MARS、MAUQ、uMARS、PSSUQ、CSUQ 及TAM,占比约50%)。条目数量不同意味着用户填写量表所需的时间不同,评估的深浅程度也不同,条目数量多的量表可以从多个方面更加详细地进行可用性评估,但所花费的时间也相应增加;条目数量少的量表可以更加快速、轻便地进行可用性评估,用户的配合程度更高,但评价的维度也会相应减少。因此,在选取量表对DTx 进行可用性评估时,应该根据项目自身情况及需求合理选择。
表1 可用性评估量表关键特征
量表的信度分析即可靠性分析,用来评价测量量表能否稳定地对所测的对象进行评估测量。用于量表信度分析的方法有多种,如重测信度、内部一致性信度、复本信度等[22]。其中,内部一致性信度是最常用的量表信度分析方法,此方法中提出的Cronbach’sα是目前最常用的信度系数。Cronbach’sα是一个用于评价量表信度的统计量,系数值通常为0~1,越接近0 表示量表可靠性越低,越接近1 表示量表可靠性越高。一般认为Cronbach’sα值不超过0.6 时,量表的内部一致信度不足;达到0.7~0.8 时,表示量表具有相当的信度;超过0.8表示量表的信度非常好。因此,量表的最低Cronbach’sα接受度为0.7[23]。
Cronbach’sα的计算方式如公式(1)所示。
式中,K为量表的题目数;为第i个题目得分(测量值)的方差,为量表总得分的方差。
在量表可靠性方面,14 份量表中,Cronbach’sα系数为0.80~0.89 的有MAUQ、IsoMetrics 共2 个量表(占比约14%),说明MAUQ、IsoMetrics 量表信度非常好;其余12个量表的Cronbach’sα系数均为0.90~0.99(占比约86%),说明这12 个可用性量表拥有极为可靠的信度。
按照量表不同类型进行整理分类是量表研究中的关键任务。Yang 等[24]根据评估系统的类型,将调查问卷分为3 种类型:通用可用性问卷、网站可用性问卷、移动应用程序可用性问卷。由于DTx 大多以移动应用程序的形式存在,不涉及网页,因此本文涉及的可用性量表研究不涉及针对网站评估的问卷。从表1 可以看出,在14 份可用性量表中,10 个量表为通用类型,可以用于评估所有类型的界面(如手机APP 界面、PC 端界面等),4 个量表只支持针对移动应用程序的可用性评估。
可用性量表的条目类型有很多种,如语义差别量表[25]、李克特量表[26]、二分量表等,其中李克特量表应用最为广泛。李克特量表由多个与量表主题内容相关的问题或判断句组成,其评分范围从认可的极端态度到否定的极端态度,如“非常同意”到“非常不同意”。李克特量表的尺度形式有多种,常见的是5 级量表和7 级量表,即一个问题有5 个或7 个答项,评分为1~5 或1~7。在本研究中的14 个可用性量表中,11 个量表(占比约79%)为李克特量表,2 个(占比约14%)为语义差别量表,1 个(占比约7%)为二分量表。在11 个李克特量表中,4 个量表为5 级李克特量表,7 个量表为7 级李克特量表;2 个语义差别量表分别为7 级和10 级;1 个二分量表为3 级二分量表。
对14 个量表的评价维度进行整理,将评价维度分为与用户相关的维度和与产品相关的维度2 个方面,见表2。
表2 可用性量表评价维度
由表2 可得,在与用户相关的维度中,“易于学习/易学性”(QUIS、SUMI、SUS、MPUQ)、“易于使用/易用性”(TAM、SUS、MPUQ、MAUQ)、“满意度”(UMUX、MARS、uMARS、MAUQ)出现在了4 个量表中。在与产品相关的维度中,“信息质量”(QUIS、PSSUQ、CSUQ、MARS、uMARS)出现在了5 个量表中,“系统有用性”(TAM、PSSUQ、CSUQ、MAUQ)、“可控性”(SUMI、IsoMetrics、MPUQ、AltUsability)、“效率”(SUMI、MPUQ、UMUX、AltUsability)出现在了4 个量表中。
为了能够在14 个量表中筛选出更加适合DTx 可用性评估的量表,结合前文所述的量表关键特征以及评价维度,能够更好地应用于DTx 的量表需具备以下条件:量表的条目数量适中、Cronbach’sα系数尽可能高、最好针对移动应用程序设计、评价维度尽可能全面。将4 个评价条件表征为0~1 的数值,数值越接近1 表示越好,对14 个量表作雷达图如图1 所示。其中,Cronbach’sα系数取原数值,通用型量表取0.8,针对移动应用程序的量表取1。量表条目数量表征计算方式如公式(2)所示。
图1 量表评价雷达图
式中,为平均值;max 为最大值。
评价维度表征的计算方式如公式(3)所示。
式中,x1为评价用户方面维度的个数;x2为评价产品方面维度的个数。
为了更加量化地评价各量表,取信度和评价维度权重为0.3,条目数量和分类权重为0.2,计算各量表评价总得分,得分越高的量表表示更适用于DTx 的可用性评价,评价得分数据如表3 所示。量表评分得分前3 位的是MAUQ、MARS 及uMARS,由此得出这3 个量表更适用于DTx 的可用性评价。
通过对14 个DTx 可用性量表的总结研究可知,除去4 个YY/T 1474-2016[6]定义的传统医疗器械的可用性评价维度“易于学习/易学性”“满意度”“有效性”“效率”之外,用户方面的“易于使用/易用性”、产品方面的“系统有用性”“信息质量”“可控性”4 个维度出现的频率也很高。其中,“易于使用/易用性”是可用性评价中的一个重要指标,指用户在使用产品时认为该产品是否易于使用,ANSI AAMI HE74[27]中就指出可用性包括“易于使用”。“系统有用性”指整个系统是否具有实际的功能和价值,是侧面反应“有效性”的指标。DTx 作为一类数字化软件产品,其“信息质量”的评估也非常重要,信息需准确、可信、全面。“可控性”是指用户可通过控制输入来将系统的输出调整到想要的结果,对于用户来说,整个系统是可靠的。因此,在对DTx 进行可用性评价时,须重点考虑这4 个维度。
有不少学者和机构提出过与可用性相关的模型,如FBS、UPCARE、GOMS 等。FBS 模型是关于产品可用性设计的“功能-行为-结构”方法论,“功能”是产品设计中满足用户需求的核心,“行为”是用户为实现产品功能与产品间进行的交互,“结构”是产品设计的成果[28]。UPCARE 模型是一种用于可用性和风险分析的模型,主要包括6 个维度:需求、感知、认知、操作行为、结果、评价[29]。基于人机交互领域,将人机互动过程描述为目标、操作、方法和选择规则4 个部分[30]。GOMS模型是一种用于人机交互领域的建模工具,主要用来分析用户在执行任务时的认知过程。其中,“目标”指用户在使用系统时试图达到的目标;“操作符”指用户可以执行的最基本动作,如点击、拖拽或输入文本;“方法”指完成目标的具体步骤,是一系列操作符的组合;“选择规则”指当有多种方法可以达到同一目标时,用来决定使用哪一种方法的规则。FBS 更注重产品创新设计过程中的可用性,偏向于工业产品;UPCARE 评价对象为常规医疗器械;GOMS 聚焦于人机交互,未涉及产品本身的评价。为更好地对DTx 产品进行可用性评价,本文结合FBS、UPCARE、GOMS 3 个可用性模型及可用性量表指标建立DTx 可用性评价指标体系。
整个指标体系将DTx 可用性评价划分为了3 个横向及2 个纵向共计6 个部分,横向包括需求、操作、结果3 个方向,纵向包括用户和产品2 个方向,形成了感知/认知、功能、行为、性能、态度、评价6 个部分,6 个部分又分别包含对应的具体评价指标。3 个横向指标中,需求包括用户的感知/认知(生理/心理)需求和对产品的功能需求;操作是指用户为完成需求所执行的行为动作以及产品在用户行为过程中表现出的性能;结果代表用户对行为结果的态度及对产品功能结果的评价。此评价指标体系涵盖了用户使用DTx 产品从第一步感知/认知到使用结束阶段评价的整个全生命周期。进行DTx产品的可用性评价时,可根据此指标体系对产品的可用性进行全面评估。
通过对各量表表征得分进行分析,最终选定MAUQ、MARS 和uMARS 3 个量表作为应用于DTx 软件产品的可用性评估的最优解。MAUQ 量表是一款专门针对移动健康应用可用性评估的量表。MARS 量表主要针对医生、护士、研究人员等医药卫生行业从业者,问题中的专业术语较多。由于MARS 量表专业性较强,普通人使用难度较高,为了解决这一痛点,MARS 量表的用户版本——uMARS 量表被设计了出来。uMARS 中使用的句式及名词等相较于MARS 更简单直观,非专业人员也能读懂。陈洁红等[31]将uMARS 量表应用于运动健身APP 的功能、质量以及可用性的评价上,认为uMARS 量表能够较好地反映运动健身APP 的整体质量水平和个体差异。
3 款量表虽都能作为DTx 软件可用性评估的有力工具,但三者也存在区别。在评估内容上,MAUQ 更侧重人机交互过程中用户对于产品的使用感受,而MARS 和uMARS 不仅包括用户的主观使用感受,也包含了用户对产品系统性、功能性的评价。在面对对象上,MARS主要面向有一定知识储备的医生、护士等专业人员,而uMARS 和MAUQ 较为简单直观,专业人员和非专业人员都可使用。在量表可靠性上,MARS 和uMARS量表的Cronbach’sα系数一致,为0.92,MAUQ 的Cronbach’sα系数较前两者较低,为0.80。在实际进行DTx 可用性评估量表选取时,可根据评估内容、面向人群、可靠性要求进行选择。
DTx 作为顺应移动设备及互联网技术而产生的新型医疗产品产物,在预防、治疗、干预慢性病、精神类疾病等方面拥有广阔的应用前景及市场潜力。可用性作为DTx 评估时需要考虑的一大要素,对可用性测试量表的研究必不可少。本文首先介绍了DTx 的定义与发展现状,并提出了与监管评估相关的问题,对能够针对DTx 评估的可用性量表进行了总结研究。本研究一共列举了出14 个可用性量表,分别对各个量表的关键特征及评价维度进行了分析,研究讨论了在DTx 可用性评价中应重点关注的评价维度,并根据各量表的关键特征对量表进行了打分。最后,结合现有的可用性模型以及量表应用研究,建立了DTx 可用性评价指标体系,选择MAUQ、MARS 和uMARS 3 个量表作为更适合DTx 软件产品的可用性量表,并且对3 个量表的不同之处进行了讨论。