谢冰洁,张旭峰,曾蔷,姚志洪,3
(1.同济大学 生命科学与技术学院,上海200092 ; 2.上海生物信息技术研究中心,上海 200235;3.中科院上海健康科学研究所,上海 200025)
健康档案记录了每个人疾病的发生、发展、治疗和转归的过程以及个人体征数据的波动情况,是档案归属者及时了解自己健康状况及辅助医生进行诊断的重要医学资料。电子健康档案是近年来医院数字化进程中的一个重要研究方向,其在信息存储、传递、检索、加工利用等方面的优势显而易见。但由于医疗保健信息在数据类型上的多样性和其内容的复杂性,使电子健康档案在内部表示、存储管理、数据交换、安全控制等环节上存在很多待改善之处[1]。
随着医疗信息化建设的不断深入,各医疗机构间数字化信息的互操作性变得益发重要,即电子健康档案的共享性。提高共享性的一个途径是对传递的信息进行规范化,让数据能够在不同领域的机构间传输,提高电子健康档案的利用率。本文基于健康档案中使用最为广泛的门诊数据集,尝试了门诊方面的电子健康档案规范化工作。主要包括找出现有格式各异的门诊数据与《HRC00.01门诊诊疗基本数据集标准》元数据间的差异并加以规范化;以及为了防止数据传递过程中由于缺乏结构产生理解歧义,使用XML Schema定义的用于数据交换的结构,即数据规范化和结构规范化两方面。在一定程度上对提高国内医药卫生行业管理水平、信息安全传输和交换共享利用[2]起到积极的作用。
门诊信息多而繁杂,涉及面广泛。门诊有初诊和复诊病历,包括主诉、现病史、体格检查、辅助检查、处理措施、医生签名等[3],是复诊和转诊的重要资料,但门诊病历多由患者保存,往往因为各种原因而利用率低下。门诊健康档案记录患者的基本健康信息、个人信息和完整的就诊信息,为患者疾病的观察诊疗,医疗机构的门诊病种研究和疾病统计提供数据支持。但是正因为门诊信息的繁杂,各医疗机构对相关数据的格式定义不一,为门诊健康档案的传输和共享制造了很大障碍,因此健康档案的规范化势在必行。
数据规范化方面,基于卫生部颁布的《健康档案基本架构和数据标准(试行)》(简称《标准》)门诊诊疗数据元的定义来设计验证程序,将标准应用于实践,检测现有门诊健康档案的数据元与《标准》间的差异;结构规范化方面,根据《标准》中隐含的基础结构和日常生活中的经验与习惯,参考临床医疗信息交换方面的标准,运用XML技术建立基本的数据元层次结构。
为贯彻落实《中共中央、国务院关于深化医药卫生体制改革的意见》和《国务院关于印发医药卫生体制改革近期重点实施方案(2009-2011)的通知》精神,推进居民健康标准化和规范化建设工作,卫生部组织制定了《健康档案基本架构与数据标准(试行)》[4]。其中的《HRC00.01门诊诊疗基本数据集标准》包含38个数据元,从就医时间、就医地点、患者基本信息到疾病诊断、检查、治疗、药物乃至费用各方面,通过“数据元名称”、“定义”、“数值类型”、“表示格式”、“允许值”等角度进行统一定义,旨在为健康档案所需门诊诊疗基本信息提供属于规范、定义明确、语义语境无歧义的基本数据集标准。门诊健康档案的数据规范化即对档案内容进行规范化,包括数据的定义、格式等方面。
进行规范化首先要了解现有数据与标准的差异。目前我们的工作流程是首先通过阅读门诊数据字典了解医疗机构中现有门诊数据元的含义和定义,手工将数据字典中的数据元与门诊基本数据集标准中的数据元进行映射,形成映射文件;然后将此映射文件输入到验证工具中,工具根据映射信息比较相应的数据元定义并输出检测结果。结果中包括:与标准完全匹配、数据元名称相同、内容不匹配、类型不匹配、长度不匹配、采用标准不匹配、定义不匹配、结构不匹配各项,从不同角度对现有的数据字典与《HRC 00.01门诊诊疗基本数据集标准》对门诊数据元的定义进行差异分析(表1)。随后根据验证结果对数据进行转换,转换形式包括两种:一种是由验证数据的提供方根据检测结果直接修改数据库中的数据字典,另一种是根据验证结果定义转换规则,然后由工具来完成数据的转换,使交换数据符合卫生部的《HRC00.01门诊诊疗基本数据集标准》的定义。
表1 检测结果举例
在进行数据传递时,除了传递的数据本身之外,数据结构也是很重要的。比如同样的一个药物名称,放在禁忌药物数据部份还是处方药物数据部分,其意义是完全不同的。
卫生部《HRC00.01门诊诊疗基本数据集标准》对元数据进行了定义,但没有定义数据传输的层次结构及格式,然而从“数据元标识符”的运用上可以粗略显现其对数据元的分组,例如“HR51.99.001.01门诊症状-名称”和“HR51.99.0 01.02门诊症状-诊断代码”从语义上来说应该同时出现。我们基于标准提供的这类隐含的内在联系,辅以日常应用中数据元之间的实际关系,应用XML技术建立了基础的层次结构。
XML(可扩展标记语言)是一种元语言,可以定义描述对象的结构;并将数据内容和定义相关联,提高文档的可读性[5]。Schema是XML中的模板,是构建XML文档的基础。XML允许用户自主构建数据类型,因此门诊诊疗基本数据集标准中各种“表示格式”的限制可以通过XML中的正则表达式(regular expression)进行具体定义和实现,确保在XML Schema中最大化地实现《HRC00.01门诊诊疗基本数据集标准》对数据元格式的限制。XML已经成为各组织在网上进行数据交换的标准格式,相对易于实行并且为高效地共享和交换数据提供了一个标准格式[6]。除此之外,Schema还可限定数据项的允许值(例如遵循GB/T 2261.2-2003 个人基本信息与分类代码,婚姻状况代码)以及此数据项可出现的最小和最大次数(是否可选、出现一次或多次出现等),全面体现门诊诊疗基本数据集标准的要求。XML文档自带验证功能,将内容与相应数据项的限制关联,可验证数据内容的合法性。例如xs:pattern value= d{1,6},表示此数据项的内容是1位到6位的整数,若此位置出现超出六位的整数或非整数,XML解析工具将报错并给出此数据项合法数据表示的提示。
我们根据《HRC00.01门诊诊疗基本数据集标准》的内容结构及日常应用经验,将门诊健康档案分为患者基本信息、门诊信息、检查检验、药物信息、手术五大类(图1);各类中包含相应的数据项,对应标准中的数据元(图2)。
图1 门诊健康档案分类
模板中“HRC00.01”是门诊诊疗基本数据集的标识符,attributes中存放数据集的中文名称,即门诊诊疗;“1..∞”表示此元素中的数据项信息可多次出现;“+”表示此元素包含下层数据项。
图2 “检查-检验”中包含的数据项
模板中各叶子节点完全按照《HRC00.01门诊诊疗基本数据集标准》中的数据元标识符进行描述,并使用注释语句标识出数据元在标准中的定义,例如:
注释出“HR51.99.002.01”,即检查检验-类别的定义;而数据项的类型例如“string0”是自定义数据类型,通过语句:
体现出《HRC00.01门诊诊疗基本数据集标准》对此数据元的格式限制,即内容为字符型,且最大长度为30。
我们初步将《健康档案书基本架构和数据标准(试行)》应用于实践,使用其中的门诊数据集来进行健康档案标准规范化的尝试。从实践中发现,要实现基于健康档案标准的数据交换,必须完成两件事,即数据规范化和结构规范化。数据的规范化首先需要进行数据字典和数据标准的映射,在此基础上可以通过工具来进行数据的验证,在验证结果的基础上完成数据规范化的转换。从验证工具数据的结果来看,验证结果的准确率还是很高的,但是验证结果依赖于数据元映射,映射的准确性和便捷程度需要进一步提高。而为了实现结构的规范化,我们使用XML Schema来定义交换数据结构。利用XML Schema建立的层次结构保证了交换数据的完整性和可读性,同时可以直接使用XML 解析工具来完成数据的有效性验证。目前我们定义的结构仍有待改进,以符合各方对门诊健康档案的不同需求。
我们的工作只是初步尝试,目前电子健康档案的共享面临的难题仍然很多,安全控制、隐私保密、档案的法律效力等问题亟待解决,这样才能在不同领域提高档案的利用率。
[1]孙震,秀娟.浅论基于HL7 CDA标准和XML技术在电子病历系统中的应用[J].当代医学,2007(6):133-135.
[2]梁志伟,吕玉波,袁野,等.电子病历与健康档案数据交换规范化的研究与应用[J].中国数字医学,2009,4(3):50-53.
[3]易应萍.门诊电子病历的应用[J].临床工程,2008,14(10):58-61.
[4]中华人民共和国卫生部.关于印发《健康档案基本架构与数据标准(试行)》的通知[EB/OL].(2009-05-19)[2010-01-22].http://www.gov.cn/gzdt/2009-05/19/content_1319085.htm.
[5]刘芳兰.健康档案公网数据库的建立及其应用价值[J].中国数字医学,2009,4(3):48-49.
[6]Ean-Wen Huang, Da-Wei Wang, Der-Ming Liou.Development of a determinestic XML schema by resolving structure ambiguity of HL7 messages[J].Computer Methods and Programs in Biomedicine,2005(80):1-15.