何毅 王曙光 刘文浩
中国医学科学院,北京市东城区东单三条5号 100730
正像国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》中指出:健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于激发深化医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量,扩大资源供给,不断满足人民群众多层次、多样化的健康需求,有利于培育新的业态和经济增长点;通过“互联网+健康医疗”探索服务新模式、培育发展新业态,努力建设人民满意的医疗卫生事业,为打造健康中国、全面建成小康社会和实现中华民族伟大复兴的中国梦提供有力支撑。
因此,探索与总结健康医疗大数据的构成与互联互通等相关问题是十分有益的、十分必要的。
首先,健康医疗大数据是在国家层面上的人口、法人、空间地理等基础数据资源跨部门、跨区域共享,同时在医疗、医学、医药、医保和健康各相关领域数据充分融合。其次,健康医疗大数据是一个国家、一个民族、一个家庭、一个人生息繁衍、工作生活等内容的全部的、客观的、准确的、完整的记录。因此,国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》中指出:要坚持以人为本、创新驱动,规范有序、安全可控,开放融合、共建共享的原则,以保障全体人民健康为出发点,大力推动政府健康医疗信息系统和公众健康医疗数据互联融合、开放共享,积极营造促进健康医疗大数据安全规范、创新应用的发展环境;特别指出,加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库。建立卫生计生、中医药与教育、科技、工业和信息化、公安、民政、人力资源社会保障、环保、农业、商务、安全监管、检验检疫、食品药品监管、体育、统计、旅游、气象、保险监管、残联等跨部门密切配合、统一归口的健康医疗数据共享机制。探索推进可穿戴设备、智能健康电子产品、健康医疗移动应用等产生的数据资源规范接入人口健康信息平台。建立全国健康医疗数据资源目录体系,制定分类、分级、分域健康医疗大数据开放应用政策规范,稳步推动健康医疗大数据开放。
以上都为我们阐释了健康医疗大数据基本构成。
要真正成为健康医疗大数据就必须解决健康医疗大数据的互联互通。
健康医疗大数据的互联互通包括数据资源跨部门、跨区域共享;也包括医疗、医学、医药、医保和健康各相关领域数据充分融合。实现数据资源共享、实现数据融合不是面对一个特定的应用系统,而是面对无数个已经建立使用的或者将要建立使用的应用系统,各种数据由应用系统与应用系统互联后按照一定标准和规约加工而形成,加工形成的数据是标准的,不是孤立的,而且这种对应用系统和数据的处理能力要有充分的扩展性和延伸性。
如何做好它?是当前的难题。我们不能指望建立一个统一的集中的涵盖所有应用的信息系统,我们只能面对实现,面对无数个已经建立使用的或者将要建立使用的应用系统它们之间的互联互通。
根据我们的探索与实践,结合国际国内的发展趋势,我们认为:遵HL7 V3医疗数据交换标准,参RIM信息关系模型,按照互操作性标准体系框架实施,是解决健康医疗大数据的互联互通的最佳路径。
国家人口与健康科学数据共享平台(以下简称“人口健康平台”或“NCMI”)承担着国家科技重大专项、科技计划、重大公益专项等人口健康领域科学数据汇交、数据加工、数据存储、数据挖掘和共享服务的任务,是国家科技基础条件平台之一。主要承担单位有:中国医学科学院、中国疾病预防控制中心、中国中医科学院、国家人口计生委员会科学技术研究所、中国人民解放军总医院、国家食品药品监督管理局信息中心等国家医疗科研机构。人口健康平台目前涵盖了基础医学、临床医学、公共卫生、中医药学、药学、人口生殖六个方面及多个医学专题数据库,形成了一个包含丰富科学数据和知识资源的专业科学数据平台。
自2009年人口健康平台正式运行以来,目前已拥有约760余个数据中心及专题数据库,人口健康平台的数据种类、数量、及知识资源与运行初期相比出现了几何级的增长。同时,国家卫生行政部门、医疗卫生院所和科研机构、医疗卫生科研工作者等对人口健康平台的数据服务要求也快速增长,为用户能够提供全面,准确,便捷,灵活的数据检索和获取服务成为平台的重要任务。
人口健康平台目前采用的是以关键词精确匹配为主的检索方式,不支持同义词检索,而且各数据中心的医学数据元素大多各自定义,缺乏统一的数据及术语标准,因此用户难以获得全面,准确的数据检索结果。
为了实现在人口健康平台的各类资源中准确、有效、便捷的帮助用户发现、获取所需的知识和数据,我们采用基于HL7 Infobutton标准(以下简称“Infobutton”),根据用户的使用语境进行智能数据检索和获取的技术,并描述了该技术在人口健康平台上的初步实现。
HL7 Infobutton标准(全称:Context-aware knowledge retrieval standard)由HL7临床决策支持工作组(clinical decision support working group)主导开发,是基于使用者语境(Context)的智能医学知识检索请求和内容获取的标准,其目的是帮助医疗信息使用者在电子病历或其他临床信息系统的使用环境中快速、准确的查找和获得所需信息。
Infobutton通过用户与临床信息系统的交互所产生的语境信息来判断用户的知识需要并从互联网知识资源(knowledge resource)获取相应的知识。语境信息可以包含以下参数:患者相关参数,如性别、年龄;用户相关参数,如专业、科室等;临床相关参数,如医嘱、诊断、实验室检查等。
HL7 Version 3 Reference Information Model(RIM-参照性信息模型),是HL7制定的用来表达医疗卫生领域临床及管理信息的抽象性信息模型,是HL7 V3的核心组成部分和V3的各个医学专业领域中的信息模型的根源。RIM规范和定义了医疗健康的信息关系模型、数据类型模型、术语关联模型等。HL7 Infobutton标准建立于RIM之上,第一版于2010年发布,到今天已有多个正式版本发布,最新版是于2014年6月发布的第四版。HL7 Infobutton标准定义了基于RIM的语境信息模型(Context Information Model)、知识检索请求和知识应答信息模型,对语境参数的定义,表现形式,及术语关联方式,知识请求和回应的数据格式、内容安排均作出了清晰的规定。HL7 Infobutton的语境信息模型,知识请求和回应信息模型在应用层面以XML作为数据交换的格式,在HTTP/HTTPS协议下,使用Restful Web Service,通过GET或POST的方法实现对知识库发起的知识请求和回应。
Infobutton技术大约从2002年在美国的Intermountain Healthcare首先开始应用并逐渐普遍,目前是美国政府电子病历有效使用法案(EHR Meaningful Use Act)中指定的临床决策支持标准之一,在美国的知名医疗机构(如Mayo Clinic,Intermountain Healthcare,Partners Healthcare等)和主要的医疗和知识库厂商(如Epic,UpToDate等)中有广泛的支持,在我国尚未见应用报道。
HL7 Infobutton标准的实施架构包括Infobutton客户端、Infobutton Manager(Infobutton管理器)、和Knowledge Resource(知识库)三个主要构成部分。
如图1所示,用户通过Infobutton客户端将检索词及相关语境参数生成知识请求(Knowledege Request)XML,传递给Infobutton管理器,Infobutton管理器对知识请求进行逻辑分析和处理,并对存在的知识源进行信息搜索和检索词比对,最后将检索到的结果以URL链接及摘要的形式生成知识应答(Knowledge Response)XML,并反馈给使用者。基于Infobutton标准的知识检索有以下特点:知识请求和知识应答的XML完全基于HL7 Infobutton标准所定义的结构和语义规范,具有通用性;支持基于使用者语境参数的知识请求,使得检索结果更准确;通过Restful Web Service提供知识请求和知识应答的服务,使得利用嵌入式Infobutton获取知识成为可能。
4.2.1 Infobutton Web客户端的构建:Infobutton客户端需要支持以下两项功能:①将用户在人口健康平台Web界面的检索请求转化为符合HL7 Infobutton标准的XML知识请求实例,并发送到Infobutton管理器启动知识检索过程;②接受Infobutton管理器返回的知识应答XML(即检索结果)并向用户展示。
图1 NCMI基于Infobutton的用户检索场景
人口健康平台资源的检索参数不仅限于检索词,为方便用户的查询,原理模型同时支持以平台分中心数据库相关元数据作为检索条件的查询。元数据包括资源分类、资源标题、资源描述、资源负责单位、和最新提交日期(注:资源指分中心数据库或知识库)。因Infobuton RMIM没有直接可以适用于传递这些平台特有参数的关系与属性,原理模型在定义人口健康平台的KnowledgeRequestNotification知识请求表达形式时,做了以下本地化的规范:
在知识请求中用MainSearchCriteria/value/qualifier表达平台资源元数据相关参数,qualifier的基数(cardinality)为零到多(0…M)。
资源元数据相关参数通过qualifier,以名值对(name-value pair)的形式表达。其中每一个资源元数据相关参数都在人口健康平台术语系统中定义。
MainSearchCriteria/value/qualifier/name/code(参数名)。MainSearchCriteria/value/qualifier/value/originalText(参数值)。同时,因为Infobutton现有标准不支持“或者(OR)”的逻辑关系,其默认逻辑关系为“并且(AND)”。原理模型在定义平台的知识请求表达形式时也通过qualifier支持了此功能。Qualifier是HL7 V3 Concept Descriptor(CD)数据类型的(data type)的属性之一,利用qualifier不仅完全符合HL7 RIM及Infobutton标准RMIM的定义,同时也为支持平台今后检索需求的扩展提供了非常灵活的机制。
4.2.2 Infobutton管理器的构建:Infobutton管理器的主要功能包括:①解析知识请求;②通过对医学术语的语义关联分析确定人口健康平台上的目标资源库;③与目标资源库(各数据中心)的进行知识请求和回应的交互。
当Infobutton管理器接收到知识请求时,首先对知识请求的XML进行解析,提取检索关键词及其它语境参数(如年龄,性别,医学专业,医疗机构等),通过术语分析功能模块对检索关键词进行语义比对分析(包括关键词、同义词、术语关联关系等的比对),搜索和确定可以满足知识请求的目标平台数据库和知识资源库名录,并将知识请求转发到目标数据库或知识库。图2显示了Infobutton管理器对知识请求进行处理的详细交互过程。
向人口健康平台目标资源库(含数据库和知识库)发送符合HL7 Infobutton标准的知识请求后,Infobutton管理器随后接收各资源库返回的基于HL7 Infobutton Knowledge Response标准的知识应答结果,并将知识应答结果整合为一个基于Atom Feed格式的综合结果(Atomfeed),将其返回到Infobutton客户端进行展示。图3展示了Infobutton管理器检索结果处理详细交互过程。
Atom是IETF组织颁布的标准,InfoButton采用了Atom作为标准的知识应答格式。HL7InfoButton标准知识应答是由一个或多个Atom feed组成。Atom由两个主要元素组成,Atom feed和Atom entry。Atom feed是Atom实例(instance)的根元素。Atom feed包括每一个返回知识源相关知识的元数据,其中包括标题、作者、最近更新时间。每一个Atom feed包括一到多个Atom entry。每一个Atom entry又包括关于某一条具体返回知识内容的元数据,如对具体一条知识的简介描述及其链接等。更详细的关于InfoButton知识应答Atom feed的要求可以参见标准HL7 Implementation Guide:Service-Oriented Architecture Implementa-tions of the Context-aware Knowledge Retrieval(Infobutton)Domain,Release 1,August 9,2013。InfoButton管理器将从多个知识源返回的Atom feed处理汇总成一条Aggregated Response返回人口健康平台客户端进行展示。
图2 Infobutton管理器检索请求处理的详细交互过程图
4.2.3 知识源的构建:在Infobutton标准的实施中,知识源负责接收和处理Infobutton管理器发送的知识请求,根据检索关键词及语境参数,结合知识源内部数据及内容索引模型,锁定知识请求所对应的数据和医学知识,并将其转化为符合HL7 Infobutton知识应答(Knowledge Response)标准的 Atom FeedXML,返回到Infobutton管理器。
图3 Infobutton管理器检索结果处理详细交互
4.2.4 基于Infobutton的知识检索实现:典型的InfoButton应用场景为用户在电子病历的使用过程中通过点击信息按钮,启动InfoButton请求功能,无需输入任何知识检索信息,电子病历自动将使用场景的语境参数(如患者性别年龄,电子病历的具体使用环境、环节、及相关医疗健康关键词等)整合到Infobutton知识请求中,经Infobutton管理器处理,向用户展示的知识应答内容。InfoButton标准在人口健康平台上除支持上述典型应用场景外,还创新性的实现了在人口健康平台上的在线检索应用,使得人口健康平台上的知识检索请求和知识应答的数据交换完全遵循HL7Infobutton标准,明显提高了平台的数据共享和数据利用能力。
图4展示了NCMI Infobutton相关的核心功能模块及知识检索流程:①Infobutton Web端将用户在NCMI网站输入的检索参数转化为符合HL7 Infobutton标准的知识请求,发送到平台Infobutton管理器。②人口健康平台Infobutton管理器接受并通过其逻辑处理引擎对知识请求进行解析和处理,通过人口健康平台术语服务确定全部关联术语。③人口健康平台Infobutton管理器依据关联术语对平台知识源的元数据进行比对,找出与检索关键词匹配的全部目标数据库。④人口健康平台Infobutton管理器将用户发送的知识请求发送到平台的目标数据库。⑤目标数据库解析处理知识请求后,将知识应答结果以符合HL7 Infobutton知识应答标准的格式发送回平台的Infobutton管理器。⑥人口健康平台Infobutton管理器将各数据库返回的知识应答结果汇总为符合HL7 InfobuttonAggregatedResponse标准的Atom XML返回客户端。
图4 NCMI Infobutton相关的核心功能模块及知识检索流程
4.2.5 医学标准术语的应用:标准术语的使用及管理是Infobutton标准在人口健康平台上的在线检索成功实施的前提和基础。标准术语服务功能模块是人口健康平台采用Infobutton在线检索项目原理模型整体架构的重要组成部分(图5)。
图5 NCMI标准术语库架构
人口健康平台术语服务结合我国国情,优先采用国内相关适用医学标准术语,如国家卫生和计划生育委员会(卫计委)颁布的标准,包括:《卫生信息数据元目录WS 363.1-2011》标准,《卫生信息数据元值域代码WS364-2011》标准等。人口健康平台对各数据和知识资源的分类采用《人口与健康科学数据共享平台数据资源分类及编码方案》及《人口与健康科学数据共享数据集元数据标准》。
对于国内广泛推广使用的国际术语标准,也采取优先采用的原则。如国家标准局于2001年即指定“疾病分类与代码”GB/T 14396-2001等效采用《疾病和有关健康问题的国际统计分类》第十次修订版。《疾病与有关健康问题的统计分类》标准(International Classification of Diseases,ICD),是World Health Organization(WHO)制定的国际统一的疾病分类方法,它根据疾病的病因、病理、不适、异常、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。
《医学术语系统命名法-临床术语》(Systematized Nomenclature of Medicine--Clinical Terms),是一个广泛使用的国际标准术语系统,是当前世界上最全面的临床医学术语系统,涵盖了如疾病、手术、微生物、药物等医学术语。虽然中国目前还不是International Health Terminology Standards Development Organization(ITSDO)的成员,但是随着今后国内对术语的发展需求的增强,平台的设计应能满足对SNOMED-CT的支持。
人口健康平台术语服务同时能够灵活支持其他国际术语标准的使用。如,用于标识检验医学及临床观测指标,在国际上广泛使用的《标准观测指标标识符逻辑命名与编码系统》(Logical Observation Identifiers Names and Codes:LOINC)。不仅仅是LOINC,随着平台数据库的迅速增长、数据内容逐步扩展丰富,其它标准术语也将逐步引入平台以支持某一特定领域的术语需要。
人口健康平台术语服务支持术语管理者对术语的添加,编辑,删除。支持对术语之间的相关性的指定,如术语之间的包含关系,术语的同义词关系等。在维护人口健康平台的数据及知识资源时,平台管理者可以通过术语服务将标准术语或同义词与各个资源相关联,以提高知识检索的准确性和成功率。平台用户在NCMI上进行知识检索时,Infobutton管理器将通过术语服务模块找到与用户检索用词相对应的医学术语、术语的同义词、及全部关联术语,并以此发现和确定目标数据资源,实施查询和结果返回,因此标准术语服务在基于Infobutton的知识检索过程中起者至关重要的作用。
4.2.6 作用及意义:基于HL7 Infobutton标准,融入各学科,按照统一的医学术语标准,数据交换标准等一系列标准规范,均为国家、国际标准。涉及不同领域、不同学科,在方法学上打通了跨平台、跨领域的信息共享与检索机制,真正实现了互通共享。并在其基础上建立起平台基于HL7的医学信息交换格式,构建出平台标准化的医学术语系统及术语集。
该应用是遵HL7 V3医疗数据交换标准,参RIM信息关系模型,按照互操作性标准体系框架实施,解决健康医疗大数据的互联互通典型案例。