杨鑫禹 牟冬梅 丁丽芳 王萍 叶书含 李桦 张紫卉
关键词:信息链;电子病历;数据驱动决策;需求;模板分析;临床决策
推进以电子病历为核心的智慧医疗是助力健康中国的重要举措。《“十四五”全民健康信息化规划》指出,要紧密结合卫生健康行业应用需求,以数据资源为关键要素、以优质服务为导向,构建基于数据驱动的生态系统,完善电子病历数据库,强化数据深度挖掘与分析应用,促进临床决策支持应用,充分释放健康医疗大数据价值。近年来,循证医学和精准医疗广泛实施,电子病历中可用的数据资源海量累积,全科医疗人工智能的新范式有望形成,医疗决策正在向数据驱动决策的模式转变过渡。专病数据库、临床数据集成平台、智能诊断分诊系统等以电子病历为核心的智慧医疗工具已经投入实践,试图为医生提供诊疗决策支持服务。但研究设计中医生参与不足,导致新理念、新技术与实际临床工作流程不匹配,给电子病历数据价值释放和医生的临床工作都带来了负担。世界卫生组织(World Health Organization,WHO)指出,以人为中心是智慧医疗建设的关键,这是信任的基础,也是以人为本的医疗服务重要的组成部分。尊重用户是临床决策支持的必备条件。理解医生用户的需求是临床决策支持服务与研究的前提,亟待深入探索。因此,本研究在信息链的视域下,通过分析临床医生的访谈资料,确定电子病历数据驱动决策的需求主题,梳理需求层次,构建需求层级模型。在理论层面上,从需求视角出发为电子病历数据价值提供释放靶点,丰富面向临床的数据驱动决策的理论体系;在实践层面上,以医生用户为中心,助力临床决策支持系统和工具建设,进而为面向临床的情报服务提供指导。
1文献综述
1.1信息链相关研究
信息链是由“事实(Fact) -数据(Data)-信息(Information)-知识(Knowledge) -情报/智台旨(In—telligence)”5个要素构成的连续体。与传统的DIKW模型“数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)”的中間相同,两端有所差别。但两者在厘清情报学概念上提供了相似的理论视角。信息链与DIKW模型揭示了从事实到智能的由低层次到高层次的转化,是当今信息学科中经典的基础理论。基于信息链或DIKW模型,医疗健康领域已有研究按照数据、信息、知识和智慧层次对肝细胞癌等疾病人工智能诊断的研究结果进行了横向对比与分类,构建了药物不良反应知识发现与利用和虚拟健康社区知识发现等理论模型,从数据的转变、应用和行动转化等方面探索了精准医疗时代下“智慧患者”的内涵和参与新时代医疗模式的框架。信息链或DIKW模型也与数据驱动决策研究密切相关。Huang L等基于“DIKW”模型提出了基于安全大数据的事故调查范式概念模型,并据此构建了大数据驱动的安全决策概念框架。邱国栋等将“DIKW”模型进行了转型升级,提出“数据一智慧”决策模型。基于新技术环境下的信息链理论,牟冬梅等构建了面向医院管理的数据驱动决策过程模型,杨鑫禹等构建了基于数据特征的电子病历数据驱动临床决策模型。
1.2数据驱动决策相关需求研究
面向科研、教学、卫生健康等多个场景数据服务、数据融合、数据利用等的需求作为数据增值的根本问题和先决条件受到关注。研究者通过问卷调查、访谈法、扎根理论等方法,进行数据相关需求的分类识别、特征描述和模型构建。但综合来看,相比于理论体系已经颇具规模的信息需求,数据相关需求的研究在需求研究主题的广泛性、分析的深人性、研究方法的丰富性以及与理论的结合上都显不足。在面向决策支持的方面,李品分析了决策制定过程中情报需求的层次和特征,构建了情报需求链和情报需求模型。在数据驱动决策方面,对需求的探索主要集中在对重症监护病房仪表板等单一系统和工具的功能需求的罗列。
1.3模板分析相关研究
质性的模板分析(Template Analysis)是一种强调等级编码的主题分析形式。与扎根理论和解释现象学分析等传统的主题分析方法相比,模板分析能够在一系列不同的认识论和方法论立场下使用,而不特定包含在一种哲学假设中:通常在数据子集中开发初步模板,而非完全在后期定义主题;允许使用先验主题,即在编码之前可以暂时拟定与研究相关的主题:使用的编码级别更多,更能丰富而详细地展示数据。灵活高效、透明度高、能在开放式与结构式之间达到一定的平衡是它的关键优势。在国外,模板分析已经广泛应用于医疗健康和图书情报等多个领域。采用模板分析的方法,Salim S Y等基于9人的访谈资料建立了外科手术信任的概念模型,Matthews H等确定了影响女性乳房重建术后的生活质量和满意度的关键因素,Cushing A L等探讨了人工智能对档案专业知识的影响。先验主题可以从经典理论和前期文献中确定。Behnke K等以食品追溯系统的概念框架为先验主题,确定了基于区块链的食品溯源信息共享的边界条件。Gonzalez-Zapata F等从文献综述中确定了先验主题,对政府开放数据的报告和访谈进行了模板分析,并基于信息价值链识别了智利开放政府数据的问题。模板分析适用于对需求现象的解释性分析。Cheng V W S等基于自我决定理论,详细分析了文化多样性人群对精神健康信息技术的设计需求。Varley A L等在美国医学研究所报告中确立了概念框架,以此为先验主题,揭示了无家可归者对初级医疗保健的需求,包括尊重与信任、知识共享与信息流动等。国内模板分析的应用很少,傅涵采用模板分析研究了脑瘫患儿照顾者的获益感情况。
综上,信息链是信息科学重要的理论之一,与新时代下医疗服务新范式的创新发展紧密相关,也为数据驱动决策的分析解构提供了关键的理论视角。数据相关的需求研究方面已经积累了一定的研究成果,但在与基础理论的结合上稍显薄弱。信息链与需求分析的结合暂未实现。数据驱动决策的需求研究刚刚起步,缺乏细粒度、深层次、综合性的分析,系统的需求理论体系尚未形成。模板分析方法在需求探索和理论构建方面是灵活且细致的。但是它的使用在国内还处于初步阶段,对其特点、使用方式、研究步骤等均缺乏规范化的描述。因此,本研究在信息链的视域下,采用模板分析的方法,细粒度地提炼电子病历数据驱动临床决策的需求主题,构建层级模型,丰富数据驱动决策的需求研究。
2研究设计
2.1研究方法与研究过程
模板分析可以用来处理很多类型的文本数据,访谈是模板分析中最常见的数据源。研究利用半结构化访谈的方法进行资料搜集,采用模板分析进行需求主题提炼,从信息链中提炼先验主题,并以信息鏈为核心骨架,重新组织需求主题,构建需求层级模型。研究过程如图1所示。
2.2资料收集与整理
采用理论抽样和滚雪球抽样方式,招募当前或者以往在临床科室和面向实际患者的综合性科室进行临床工作,年限满一年,负责或者参与临床诊疗决策的临床医生进行访谈。访谈对象选择的基本原则为:①同质异质性:选择有临床决策工作经历和任务的医生。同时,为了获得主题相关的更丰富的信息,招募尽可能涵盖不同年龄段、学历、执医阶段、来自不同等级医院的样本;②信息密集性:尽可能选取有充分的临床决策经验,可以充分表达需求信息的医生:③全面完整性:研究设计时不拟定访谈人数,以理论饱和性为目的。结合研究目的、相关文献和以往研究经验,预计需要12次访谈,资料可以达到饱和。在2022年8月-12月进行正式访谈。访谈时间为31~63分钟,全程录音。当访谈进行到第14位受访者时,理论趋于饱和,为了保证理论饱种性,又继续采访受访者3名,没有新的理论范畴产生。按照访谈顺序,标记为P1~P17,受访者详细信息如表1所示。最终收集到访谈音频累积时长约727分钟。对录音进行人工转录,共形成17(P1~P17)份、合计超过21万字的规范化转录文档以供后续研究使用。
3模板分析与模型构建
模板分析通常基于一个数据子集,开发初始模板,然后将模板应用于后续数据,并不断修改和完善。本研究采用有限现实主义的哲学立场进行模板分析,认为人类不能在质性研究中完全除掉主观性,希望能得到接近“现实的世界”的结论,强调研究者的自反性。个人与其研究经验的结合在自反性方面对理论形成至关重要。研究团队具备一系列主题相关的学科专业知识,包括医学信息学、信息资源管理、临床医学、计算机科学与技术等;在质性分析和数据驱动决策方向中有较丰富的研究经验;团队有临床医师,曾经参与临床决策工作。因此,能够保证从内部和外部的双重视角来理解研究资料。
3.1初步编码
在熟悉数据后,按照信息链模型的基本要素,归纳4个先验主题,分别是:①电子病历数据形成需求;②临床关键信息形成需求;③临床知识形成需求;④临床决策智能支持需求。根据后续分析的实际情况对先验主题进行重新定义或者删除。采用质性分析软件Atlas.ti 8对前5位受访者的访谈记录进行初步编码,从访谈记录中识别需求相关数据,并进行标注和标签化,示例如表2所示。
3.2聚类分析与初始模板生成
将新出现的编码和主题与先验主题聚集在一起,挖掘它们的组内和组间关系,进行组织和聚类。按照层级进行主题排列、初始编码模板的定义与构建。两位编码人员同时编码,遇到不一致的地方,由团队集体讨论,达成共识。初始模板拓展了先验主题,重新归纳为7个一级主题.21个二级主题,36个三级主题,13个四级主题和3个五级主题。
3.3模板应用与改进
完成初始模板构建之后,回到访谈数据本身,将模板应用于后12位受访者的访谈数据中。如果模板中的现有主题无法包含新的数据,则对其进行修改,包括插入新主题、重新定义现有主题、合并主题、改变主题范围或者删除多余主题等。对模板进行迭代的应用和修改后,形成“最终版本”,概览如表3所示。“最终模板”定义了7个一级需求主题,24个二级主题,53个三级主题,43个四级主题,2个五级主题。
3.4需求层级模型构建
依据模板分析的实验结果,以信息链为主线,构建电子病历数据驱动临床决策的需求层级模型,如图2所示。从信息链的视域看,医生用户的需求可分为4大层面。
4模型阐释与研究发现
4.1数据层面的需求
疾病诊疗事实经过描述形成了电子病历数据。不同于一般数据,电子病历需要由医疗服务提供者进行记录。部分年长的医生使用计算机录入的速度较慢,且部分门诊病人数量大、看病时间短,再加上病历录入与归档有时间限制,医生的病历记录工作繁重。“(如果说)机器可以替代人工,那只能在录入阶段”(P12)。智能化书写与记录成为医生在这一层面的关键需求。对于常规疾病,患者的主诉、症状、既往史、疾病发生部位等部分是高度相似的,病历记录的重复度极高,具备智能化的条件和必要性。部分医院的电子病历系统已经设置了模板复制功能,更智慧的模板自动生成和推荐备受期待。在文字的快速转录方面,被提及最多的是语音转文字。目前,部分系统已经具备录音功能,但是由于口音、环境吵闹、记录效果不佳等原因并未被充分使用。监测医患沟通场景、智能化备份、转录生成病历初稿记录能够很大程度减轻医生的记录工作量,还有助于诊疗规范与追责。除此之外,检查检验结果的关联互引也能帮助医生快速完成病历记录。通过数据驱动的方式起草病历,由医生进行针对性修改和确定是医生想要的数据记录模式。如果能够随着医生的逐步输入,渐进性自动地匹配可能要记录的内容则更具友好性。总的来说,智能化书写与记录能促使病历更加详细全面,能够在一定程度上提升病历数据的质量。同时,也能减少医生的职业倦怠,促使医生把更多的工作日寸间用于服务患者。
4.2信息层面的需求
在具体的疾病诊疗环境中,数据被赋予了现实的功能性意义成为信息。原始的电子病历数据从整体上看是十分庞杂的。医生需要手动查找和使用,工作量大,容易疲惫。临床关键信息的组织、提取与识别是这一层面的需求,涉及电子病历数据本身的抽取及与其他信息的协同。其中,病历的组织查询是基本的需要。目前,部分高级别的医院已经能通过身份证号或就诊时间等实现院内病历的查找。但是,同一患者多识别号(例如多次使用不同的门诊号挂号)等影响查全和查准的问题较为突出,按照身份证号码等唯一识别号进行数据关联十分重要:索引方式比较死板和单一,有必要按照疾病类别、病人类型、治疗方式及科室关键指标(例如疼痛评分、手术方式)甚至是自定义指标进行多维度索引:查询范围仅局限于院内甚至是科室内,病人的就诊经历可能分布在不同医院和科室,省级和国家级等区域性电子病历数据共享查询迫在眉睫。关键信息抽取和推荐方面,现病史、既往史、家族史等病史信息和危急值、典型的阳性体征、异常情况信息很重要。如果通过数据驱动的方式模拟临床上的危急值报告制度,将对疾病的跨科室诊疗、争取最佳抢救时机以及避免突发恶性情况非常有意义。病情转归信息展示与病历摘要形成是更高级的需求。通过对病情转归关键指标的提取与记录,追踪病人的生物学指标数值的变化,以可视化的形式呈现给医生,有助于医生快速掌握病情变化。P10说,“更多应该是提供给我们一个更简易的指标变化,这样一个过程才能够有助于我们的决策。而我们决策更多是基于患者每一次检查结果的改变”。受访者们用“论文的摘要”和“关键词”来具象化对病历摘要生成的需求,希望摘要简洁明了地刻画患者的症状、治疗以及预后的诊疗经过,帮助医生迅速捕捉新患者在临床上的关键情况,快速回忆起老患者前期的就诊场景。
4.3知识层面的需求
知识体现在对疾病和如何进行临床干预的理解,包括对潜在风险的把握。这一层面的需求分为诊疗经验与知识的提炼补充、电子病历数据驱动的患者疾病风险预测。前者包括疾病规律挖掘、治疗知识总结与挖掘、匹配其他来源的前沿知识并推荐。很多疾病的发病、转归都有潜在的规律,包括地域性和时间性等,例如脑血管疾病在秋冬季节高发。分析疾病在电子病历数据中区域性和时间性的分布规律,挖掘症状、检查检验数据的相似性,能够帮助医生更快速、全面、本地化地理解疾病,做好诊疗决策的准备工作,也有助于优化资源调配等医院管理任务。诊疗知识挖掘方面,通过电子病历数据驱动,可以实现治疗方案之间或者与诊疗指南的对比分析,支持医生自定义化的病历标注和共享讨论,实现前沿诊疗方案的提炼归纳,对新的诊疗手段进行效果评价。P12表示,“收集或者是(将)相似的(信息)进行归类,那么确实可以去总结一些道理,甚至形成一些研究结果……总是会有一些规律在的,方便后人遇到此类情况的时候有一种紧急的判断”。除了从电子病历数据本身进行挖掘提取,还可以匹配最新的学术会议与临床指南或由人类医生自行添加的自主总结的知识。
风险预测利用比医生主观判断更加精细的结果帮助医生获得量化的诊疗知识,“防患于未然”,预防医疗事故。这个需求贯穿患者发病、人院、诊断、治疗、出院、预后全流程全环节。需要重点关注不良或者突发状况,尤其是对骨髓衰竭等恶性并发症风险、自杀等死亡风险、肠系膜血栓等突发危重疾病风险、穿刺损伤等检查检验风险和不良反应风险的预测。治疗方面,用药风险和围手术期风险是关键。根据药品说明书死板地频繁提示药品副作用及不良反应是医生比较反感的,结合患者真实的病历数据提供个体化的风险提示,更有利于帮助医生决策思考。围手术期风险方面,目前会根据一些评分量表完成对血栓等风险的简单评估。通过数据驱动,自动地进行更全面的风险预测受到极高的期待。再人院、住院时长、出院诊断等出入院相關风险和预后情况的预测对医生采取进一步的复诊和增强性治疗护理决策有很强的指导意义,帮助医生对病人进行更具针对性的回访和嘱咐,对临床和医院管理都很有价值。P10认为风险预测是非常好的,“比方说再入院这种情况,如果能够预测出来,有一些患者……我们可能就不让他走了……因为他没有必要占用这些医疗资源……另外,比方说风险比较高,我会在相应的时间段进行一个回访,询问患者的病情变化,然后进行一个远程的诊疗指导”。最后,关于风险预测的可解释性展示也是非常有必要的。
4.4智能层面的需求
情报/智能是为了解决现实的临床问题而被激活的,具备鲜明的目的性和现实价值。将这一层面的需求归纳为3个一级主题,分别是电子病历数据驱动的诊断辅助、治疗方案的辅助制定与推荐,以及病情异常原因分析。患者病情复杂,医生的记忆储备有限,专科医生擅长的诊疗方向有差别。疾病诊断辅助指的是希望通过电子病历数据驱动,自动形成初步诊断,并提供鉴别诊断疾病参考范围,推荐进一步的检查检验,放大医生已知的疾病范畴,避免遗漏,同时缩小医生需要考虑的诊断范围,避免过度检查,减少有创检查,促进精准诊断。初步诊断方面,可以通过对电子病历中的主诉、病史等数据的分析,自动生成最可能的疾病诊断。这对常规性疾病的意义有限,但对罕见病、疑难病和地方病是非常有价值的,能够打破医生思维和认知的惯性与局限性。提供鉴别诊断疾病参考范围是受访医生多次强调的需要。面向系统生成的或者医生人工写入的初步诊断,提示与其临床表现相似、区分度低的疾病范围,尤其是恶性疾病,对强化医生的诊疗知识、避免病情贻误有很重要的作用。更进一步,可以提示鉴别的关键点,尤其是典型的阳性体征。由数据驱动的方式将接下来的检查检验项目列出,重点标记必要的项目,提示其中需要重点关注的指标与影像学部位。智能诊断的可解释性分析有助于增强医生的信任,使医生的思路与以数据为中心的决策路径形成碰撞和互相补充。
治疗方案的制定与推荐包括治疗方案匹配与制定、治疗方案定制化调整、可解释性分析3个二级主题。通过与指南、权威文献中的治疗方案匹配,从多家医院的病历中总结,以及从精专科室和医生的过往诊疗记录中挖掘,针对患者个体,推算是否具备手术指征、应该采用何种术式、手术治疗是否更符合患者利益,推荐合适的药物类别、剂量、疗程,确定是否要进行放疗和化疗,以及放化疗的用药与疗程,提供详细的会诊与转诊计划。由医生在这个基础上做一些高级的修改,使之个体化。这个主题下还有一个很重要的三级主题是特殊状态下治疗方式的制定,包括副反应、多合并症情况、疑难病例、特殊人群(例如脏器位置与常人不同)的方案建议,以及在突发昏迷等无法自述病史和症状时的紧急措施推荐。不同医院、科室能进行的治疗方式是不同的,方案制定时需要因时、因地甚至因人而定制化调整。治疗决策只有能实施才有实际价值。P1表示,“我们希望系统能够提供一个符合我们医院现有医保政策,我们能开展的一些技术。有一些虽然系统提示了,但是超出我们医院的承载力了,对我们来说也就没有任何意义了”。通过数据驱动进行治疗方案推荐时应当提供方案的原始来源与有效性的证明。
最后,当患者的病情发展出现异常情况,医生希望能通过电子病历数据分析,形成针对异常状态的情报,推送与异常指标关联的指标情况,提示与异常症状相关的并发症等,分析患者个体的特殊情况,调整前期治疗中的不妥之处。帮助医生打破主观思维局限,不遗漏隐藏的关键指标,快速全面地进行异常溯源,以调整式地对症护理。
4.5对电子病历数据驱动临床决策应用的风险感知
在访谈的最后,医生阐述了对在临床实践中采纳电子病历数据驱动临床决策的态度。总体来看,受访医生均对此呈现出不同程度的积极性,认为电子病历数据驱动临床决策有很大价值。同日寸,也一致认为它能起到的作用是决策支持而不是替代人类医生。医生对在临床上应用的感知风险主要可以分为7大方面:①数据方面,由于数据技术与服务开发应用过程中存在一定的不公平性,甚至是偏见与歧视,用于训练模型的电子病历数据在患者种族、性别、年龄等多个方面会存在纳入偏倚,这会导致预测结果或决策方案失误。此外,电子病历数据确权不清,数据传输和共享困难,患者隐私、数据安全存在一定风险;②技术方面,技术成熟度不高,数据驱动决策的输出结果会对资历尚浅的医生产生误导,其准确性和可信性令人担忧。此外,会出现技术系统流程固化不灵活、与医生临床工作需求不匹配,也就是所谓“外行指导内行”的现象,引起医生反感;③医生方面,部分医生可能会过度地依赖数据与技术,在临床决策中忽略人类医生的责任意识,引发不良事件。抗拒创新的医生无法信任机器产生的结果,抵制由此引发的决策方式和工作流程的变化。而且数据驱动决策过程中会涉及很多技术和方法变化,医生会在学习的过程中花费很长的日寸间:④患者方面,患者对这种临床诊疗方式不一定能够理解和信任。这会增加医患沟通的难度,导致患者依从性变差:⑤决策方面,疾病、患者对疾病的感知、围绕患者疾病的临床决策都是复杂的,涉及很多因素,以数据为中心的方案难以重现医生的经验和同理心,可能脱离实际,不具备可执行性;⑥组织环境方面,医院等组织机构难以负担由此带来的经济成本、人力成本和物力成本,无法完成配套的技术架构搭建,数据与系统的更新维护困难;⑦法规方面,围绕数据驱动决策的伦理、法律、共识,在临床上有待持续明确、发展与实施。
5结语
通过模板分析的方法分析访谈资料,细粒度地挖掘了电子病历数据驱动临床决策的需求主题,提炼出病历的智能化记录、临床关键信息的组织与提取识别、电子病历数据驱动的疾病风险预测、疾病诊疗经验与知识的提炼补充、疾病诊断辅助、病情发展原因分析、治疗方案的辅助制定与推荐7个一级主题。探讨了需求主题的内涵、层级、形成原因和意义。模板分析方法中的先验主题设置为结合理论视角提供了嵌入点。把需求主题按照信息链的层次进行系统组织,构建了需求层级模型,为数据驱动决策研究提供了新的理论视角。受访医生均对电子病历数据驱动临床决策应用在实践持有不同程度的积极态度,认为它能起到很好的决策支持作用。同时,也表达了在数据、技术、医生、患者、决策、法规和组织环境方面的担忧。研究纳入了来自不同地区、级别医院,以及科室的初、中、高级医生,为电子病历数据驱动临床决策提供了宏观上的需求洞见,未来还可以进一步增加招募对象数量,分类比较医生用户的需求差异以及从前瞻性和时间纵向的角度分析需求的演变。