王桢絮,顾 莺,傅唯佳,沈伟杰
健康信息技术(health information technology,HIT)在医疗健康领域已经广泛应用[1]。从以电子病历为里程碑式代表的信息通信技术在临床的普及,到具备人工智能算法的决策支持系统的嵌入,医院信息系统(hospital information system,HIS)被赋予更加丰富的功能,包括提高医务人员工作效率、为医务人员提供临床决策支持、减少医疗卫生支出及保证病人安全等[2-4];移动健康(mHealth)应用程序具有为病人或普通人群提供健康咨询、改变健康行为、健康数据的收集及用药提醒等功能[5];二者均为近年来健康信息学领域的研究热点。HIS和mHealth应用程序大量开发和应用的同时,需要科学有效的工具及方法对其进行评估。HIT的卫生技术评估已发展为一门成熟的科学,评估工具和方法种类丰富,相互补充,覆盖了健康技术产品从开发到临床应用的各个阶段。尽管如此,许多研究对医疗信息产品的评估内容较为简单,评估维度较为单一,或使用自制的未经验证的评估工具使评估结果不能真实全面地反映医疗信息产品的质量,进而影响了实际应用效果。本研究旨在对健康信息技术相关产品,包括mHealth应用程序、HIS以及嵌入HIS的电子病历(EHR)和临床决策支持系统(clinical decision support system,CDSS)等产品开发后的可用性(usability)、可接受性(acceptability)及整合性3个维度的评估工具及方法进行综述,以期为相关临床医疗信息系统、信息化平台、移动应用程序等产品开发后的评估及应用研究提供参考。
国际标准化组织(international standard organization,ISO)将可用性定义为特定用户可以使用某种系统、产品或服务,在指定的使用环境中有效地、高效地、满意地达到指定目标的程度[6]。可用性是用户与健康技术交互时体验质量的重要指标,可用性评估可使医疗信息系统开发者及时发现在用户与系统交互时出现的如界面设计缺陷等问题,及时加以改进,以满足用户的需求。可用性评估方法被广泛归类为基于专家的可用性测试方法,例如启发式评估和认知走查等,以及基于终端用户的可用性测试方法,例如现场观察、访谈、焦点小组和问卷调查等。现根据研究类型不同列举如下。
1.1 定量评估 在进行临床信息系统可用性评估时,常常会面临物质成本、人力资源及研究时间等限制[7],量表及问卷调查法可在短时间内收集大量可用性评价数据,且经济成本低、收集方法简单[8],是可用性评估研究中最常使用的评估方法,目前应用较多的可用性评估量表如下。
1.1.1 系统可用性量表(System Usability Scale,SUS) SUS是信息技术评估领域应用最经典的可用性评估工具,SUS的使用可以建立广泛的可用性度量标准,以此比较不同健康技术产品或信息系统之间的可用性[9]。SUS共有10个条目,分数为0~100分,得分越高表示系统可用性越好,85分以上视为具有十分出色的可用性。SUS是一种基于自我报告的测量工具,兼具简便性和全面性,在信息产品评估领域应用极为广泛,随着健康技术的发展,在医疗领域也不断有应用报道。Mathews等[10]向美国327所医院实验室信息系统(laboratory information system,LIS)的使用者以电子邮件的形式发送SUS进行了可用性调查,结果表明LIS的总体SUS平均得分显著低于基准评分,LIS系统的整体可用性很差,SUS的各项得分有效指导了后续系统可用性的改进。目前SUS已被译为多种语言,在可用性评估领域具有重要价值。
1.1.2 研究后系统可用性量表(Post-Study System Usability Questionnaire,PSSUQ) PSSUQ是由美国IBM公司开发的一种包含19个条目的可用性评估量表,旨在评估系统的可用性、性能和用户满意度[11]。PSSUQ最早用于评估商业信息系统,近年来不断有研究将其应用于健康信息技术的可用性评估。PSSUQ的维度包含了与可用性相关的信息系统的5个特征,即快速完成工作、易于学习、高质量的文档和信息、功能丰富和提供快速支持,评估维度包括了系统整体运行情况和特定使用场景的运行表现等。PSSUQ与SUS开发时间相近,但PSSUQ条目数量较多,评估维度更广,且为Likert 7级量表,也是一种被研究者广泛使用的经典可用性评估工具[12],在许多mHealth应用程序[13]、疾病诊断互联网平台[14]、网络干预平台[15]等的可用性评估中作为主要的研究工具使用。
1.1.3 健康信息技术可用性评估量表(Health Information Technology Usability Evaluation Scale,Health-ITUES) 可用性评估量表种类繁多,各有优缺点。Yen等[16]综合了几种经典的可用性评估量表,基于美国某大型医院应用的护士排班系统Bidshift开发了一种针对健康信息技术产品的可用性评估量表(Health-ITUES),该量表对SUS、PSSUQ等量表的评估维度进行了综合,同时弥补了其他量表中缺乏基于任务评估条目的缺陷。经过心理计量学测量,Health-ITUES最终版为20个条目的Likert 5级量表,包括工作质量、感知有用性、易用性、用户控制4个维度,评估内容更加全面。在该课题组后续一项艾滋病病人症状自我管理应用程序的可用性测试研究中[17],Health-ITUES作为研究工具表现出了较好的性能。
1.1.4 mHealth应用程序可用性问卷(mHealth Application Usability Questionnaire,MAUQ) SUS、PSSUQ等经典的可用性量表为普适性量表,适用于所有信息技术产品的可用性评估,但鉴于应用程序的设备尺寸、电池容量、计算能力以及安全性和隐私问题等均有特殊性,Zhou等[18]开发了一种仅针对mHealth应用程序的可用性问卷(MAUQ)。MAUQ包含易用性满意度、界面满意度以及有效性3个维度,根据用户为病人或医务人员、是独立式应用程序或交互式应用程序,MAUQ又提供了4种不同的版本,供开发者选用。不同版本的MAUQ条目数为18~21个。计量学分析表明,MAUQ的总体Cronbach′s α系数为0.914,其包含的3个子量表内部一致性很高,与另两种经典可用性量表(SUS和PSSUQ)也有较强的相关性。Zhou等[18]也比较了MAUQ与Health-ITUES在mHealth应用程序可用性评估中的优势,认为与Health-ITUES需要修改某些词语才能用于mHealth应用程序的可用性评估相比,MAUQ对mHealth应用程序可用性评估的准确率更高。
1.2 定性评估 定性研究使用非结构化数据来揭示问题,可以更好地挖掘用户的真实体验。可用性评估中常用的定性研究方法如下。
1.2.1 启发式评估(heuristic evaluation) 启发式评估是一种基于专家的可用性评估方法,通过有可用性评估及产品设计背景的专家评估,找出使可用性降低的潜在原因、不必要的和过于复杂的步骤、信息不一致性和界面导航等问题,每位评审员可发现35%左右的可用性问题[19]。启发性评估常以Nielsen[20]在1995年提出的10条可用性原则为标准。①系统可见性原则,即让用户看到系统的状态;②系统与现实匹配,即信息要遵循逻辑并减少术语的使用;③用户的控制度和自由度;④一致性和标准化;⑤预防错误;⑥让用户识别而不是记忆;⑦使用的灵活高效性;⑧审美和简约的设计;⑨帮助用户识别并修正错误;⑩具备帮助文档。
启发式评估的局限性之一是专家的主观性,增加评估者的数量、对评估原则加以解释和说明、独立评分后的专家讨论等措施可以尽可能地减少启发式评估的偏倚。但启发式评估也具备其独特优势,如不需要昂贵的实验室设备、不需要招募测试人员、甚至可以在未使用过产品的情况下进行评估等。
1.2.2 认知走查法(cognitive walkthrough) 认知走查是可用性评估中的一个重要环节,通过布置一系列模拟任务对真实应用情景的呈现,记录屏幕点击次数、完成时间及任务完成过程中存在的问题等重要数据,对可用性的改良有重要意义。使用认知走查法进行设计评估的目的是评估用户很少或不需要正式指导或非正式指导即可执行任务的难易程度[21]。认知走查法常与其他可用性评估方法相结合[10],Khajouei等[22]将认知走查法和启发式评估进行对比,为受试者设置了3个模拟临床情景,每个临床情景包含3项任务。情境一是为1名12岁的流感病人设置医疗计划,任务:①选择该病人;②进入医疗计划界面;③提交治疗计划。情景二为查询2周前入院的住院号为9264的病人的医嘱,任务:①搜索病人姓名或住院号;②选择病人;③搜索病历。情景三为将1名妇女整形手术前后的图像存档,任务:①选择病人;②将图片添加进病人病历;③上传图片。结果显示,认知走查法与启发式评估的评估结果和准确度整体上没有很大差异,但认知走查法在识别“可学习性”方面表现出色,启发式评估则更侧重于用户的满意度。
1.2.3 访谈法 访谈法是最常用可用性评估方法之一,可直接收集用户的真实使用体验。Hultman等[23]对一种非结构化电子病历文档查询系统(NLP-PIER)进行了定性的可用性评估,研究者在测试者完成给定的文档查询任务后进行半结构式访谈,访谈的具体条目包括“您觉得NLP-PIER系统的有用程度如何?”“您有什么建议使其更有用吗?”“您认为使用NLP-PIER的难易度如何?”“您有什么建议使其操作更容易吗?”“您是否有任何当前或将来的项目可以使用NLP-PIER进行设想?”“关于您使用NLP-PIER的经验,您还有哪些建议?”Chew等[24]根据Nielsen[20]的可用性原则设计了一种半结构化访谈提纲,对一种提高马来西亚门诊病人用药依从性的手机应用程序(Med-Assist)进行了定性的可用性评估。Chew等[24]认为将该两种模型结合的访谈可确保得到用户界面和用户体验2个维度的用户使用体验。
1.2.4 民族志 民族志方法在可用性评估研究中可通过专业观察员的视角准确而真实地还原产品的使用场景,可收集到使用者与产品交互时的活动和言语、交互的顺序以及用户间的交流合作等细节,由于民族志研究往往是前瞻性的,因此其结果具有十分重要的意义。Rizvi等[25]为比较两个医疗单位的EHR可用性,采用民族志研究法对12名住院医生与两种EHR的每日使用过程进行现场观察,观察者在每日自然真实的临床情境中收集医生使用EHR的情况,并将观察到的人机交互行为概括为文本输入与文本检索两大类,又细分为模板生成、错误提醒、屏幕导航等子类别,并将这些观察到的交互行为评价为“好、差、一般”3个等级,现场观察结束后再结合研究者自行设计的调查问卷对观察结果进行补充。Leslie等[26]对美国3所ICU的HIT使用情况进行了一项大型民族志研究,2名非参与式观察者在1年的时间内对3所ICU进行了446 h的观察,保留了详细的现场记录。在民族志研究开始后的4个月和6个月,半结构式访谈以及系统使用频率和使用时间等描述性研究也分别进行。结果显示,现有的HIT可能会带来医疗团队间的信息孤岛,不利于医护技间的信息共享,其可用性亟待提升。
访谈法及民族志等定性研究方法可以深度挖掘用户在使用信息系统时的真实体验,符合信息技术开发中“以用户为中心的设计(user centered design,UCD)”理念,是信息技术可用性评估中广泛应用的研究方法。二者常常在可用性评估研究设计中共同使用,作为定量数据的重要补充,可以更好地了解临床医务人员的可用性需求。
1.2.5 出声思维法(think-aloud) 出声思维法是可用性评估研究中一种有效的定性研究方法,出声思维法可分为即时性和回顾性,前者是在测试者完成指定系统任务的同时口头说出自己的想法和体验,后者是测试者在完成给定任务后对自己的想法进行口头总结回顾[27]。Richardson等[28]运用出声思维法对一种计算咽炎和肺炎风险预测模型评分以进行诊断、医嘱项目自动推荐、病历填充的CDSS进行了可用性评估。受试医生根据标准化病人扮演的不同严重程度和临床表现的咽炎或肺炎病情使用该CDSS进行病情评估、诊断、下医嘱等操作,在与系统交互的同时大声说出自己的想法,由研究者对这些语言进行逐字记录,运用内容分析法进行提炼、归类和编码。Richardson等[28]认为出声思维法在提高信息系统的视觉效果、内容、理解难易度和界面导航等方面有积极效果,而这些内容正是提高用户接受度的关键因素。出声思维法可以直接反映用户的真实使用感受,节约研究成本,较少受时间空间限制,是一种可行性较高的方法,适用于小样本可行性评估。
1.3 客观生理指标 眼动追踪技术(eye-tracking)是测量注视点和/或眼睛相对于头部的运动的过程,通过提供有价值的眼动数据来改善可用性,其在医疗培训领域应用较多,通过眼动仪对视线运动及视线分配的测量,可以得知测试者的注意力分配情况[29-30]。眼动追踪是一种新颖的可用性评估方法,与“大声思考”法有所不同,眼动追踪法可以提供客观量性的数据,二者相结合可以弥补非结构化的定性数据的某些缺陷,例如测试者在口头表达想法的间隙时的短暂沉默,该部分数据可以利用眼动追踪法获取。Jayachander等[31]将医生以性别分为两组,利用眼动追踪仪对EHR的可用性进行了测试,结果显示不同性别医生EHR的可用性评价比较差异无统计学意义,但屏幕元素的设计和布局对2个用户组的搜索效率有重要影响。Mosaly等[32]将眼动追踪等客观的可用性评估措施与出声思维法、启发式评估等相比较,发现眼动追踪具有更高的准确性和测试稳定性。眼动追踪技术通常在实验室进行,具有一定的硬件设备要求,因此在可用性评估研究中应用较少,但相关研究数量也呈增加趋势。
2.1 信息技术接受模型(TAM)及其衍生工具 用户可接受性即用户对信息技术的接受程度,是健康信息系统研究领域中的一项成熟内容,较高的用户接受度可极大提升健康技术的使用效率[33]。信息技术接受模型(technology acceptance model,TAM)由学者Davis[34]于1989年提出,是健康保健技术领域被广泛采用的理论模型。TAM中用户对信息系统的接受程度取决于用户的行为意图(behavior intention,BI),BI受用户使用态度影响,而用户使用态度则由用户感知易用性(perceived ease of use,PEoU)和用户感知有效性(perceived usefulness,PU)共同决定[35]。Davis[34]在综合了自我效能、偶然决策和创新采用曲线理论的基础上提出TAM,根据其内容开发了分别测量感知实用性和感知易用性的Likert 5点量表,每个量表6个条目,两个量表共同构成了技术可接受性量表。其中感知实用性量表Cronbach′s α系数0.97,感知易用性量表Cronbach′s α系数为0.91,同时采用多特质-多方法矩阵测量了量表的聚合效度和区分效度,结果显示良好,该量表已在健康技术评估领域广泛应用。
2.2 可接受性评估方法 可接受性评估以量表或问卷调查法为主。Grout等[36]用6年时间对一种计算机自动化儿童健康促进(child health improvement through computer automation,CHICA)的CDSS进行了反复的用户可接受性测试。CHICA的主要功能为在患儿等待室等待就医时自动生成预筛查表,待病人信息收集完毕后与病人之前的个人健康记录整合,将分析结果呈现给医生。研究者根据TAM中的功能和用法两个维度设计了一个包含12项核心条目以及一般资料的调查表,功能维度条目:①CHICA有时使我想起否则会忘记的事情;②CHICA简化了文档编制;③CHICA经常犯错误;④CHICA已发现我可能无法找到的病人问题。用法维度条目:①我经常不同意CHICA的建议;②CHICA产生的讲义很有用;③CHICA会犯很多错误;④我很少(如果有的话)使用CHICA;⑤CHICA会减慢诊所的速度;⑥我宁愿不使用CHICA;⑦CHICA有太多技术问题;⑧CHICA的技术支持非常好。6年的反复评估显示,CHICA功能和用法的可接受性随着使用时间和熟悉程度的提高而上升。
3.1 DeLone和McLean信息系统成功模型 DeLone和McLean信息系统成功模型(简称D&M模型)由美国学者DeLone和McLean[37]于1992年提出并于2003年进行修订,是用于评估信息系统的理论模型,该模型提供了信息系统成功的6个相互关联的维度:系统质量、信息质量、服务质量、使用意图、用户满意度和净收益。很多研究也证实了D&M模型在发达国家及不发达国家的健康信息系统成功性评估方面均具有有效性[38]。D&M模型在信息技术领域应用已久,但近年来才开始在护理信息学领域应用[39]。Bossen等[40]以D&M模型为框架构建了调查问卷对我国台湾地区21所大中型医院的护理在线学习系统进行了评估,结构方程模型分析结果表明,护理人员的使用意愿仅受信息质量的影响,护理人员对护理电子学习系统的满意度和使用意愿会影响培训效果并产生净效益,护理人员的满意度也会影响使用意图。
3.2 DeLone和McLean信息系统成功模型衍生工具 除了临床应用,也有研究者聚焦于D&M模型衍生工具的开发。赵永信等[41]基于D&M模型开发了一种评价临床护理信息系统有效性的Likert 5点量表,包括D&M模型中的全部6个维度,共29个条目。Yu等[42]为评估澳大利亚养老院中老年人的健康记录系统的质量,开发了一种基于D&M模型的包含24个条目的测量工具。D&M模型及其衍生工具对临床信息系统的评估内容涉及了可用性、可接受性、成本效益等元素,可以看作是一种简便临床医疗信息系统评估的框架,可在短时间内较全面评估临床医疗信息系统的质量,适用于小样本、小规模的信息系统评估研究。
目前对健康技术产品的评估维度主要包括可用性、可接受性和整合性评估,其中可用性评估具有最为成熟多样的评估框架和评估工具。许多医疗信息系统或mHealth应用程序的评估研究采用研究者自制的评估工具,而非选用经过计量学验证的成熟工具,后者的开发过程更加严谨,具有更好的可靠性和推广性。一些研究在进行评估时将可用性、可接受性等概念混淆,或评估维度较单一,或评估内容不充实,只重视临床应用效果却忽略了用户即医务人员或病人的使用体验,也忽略了对系统本身性能的评估,使评估结果不能真实全面地反映健康信息技术产品的质量,既不符合以用户为中心的设计理念,对远期的应用效果也有不利影响。未来相关产品的开发者在进行评估时应尽量选取多种评估维度、高等级的研究设计及高质量的评估工具,以此更全面地反映医疗信息系统的质量,使其更高效地为用户所使用。