姬鹏超,夏 翃
(首都医科大学生物医学工程学院,北京 100069)
随着现代医学技术的迅猛发展,医学信息化已成为提高医疗服务质量、加强医疗资源管理的重要手段。据相关统计数据显示,全球范围内医学信息化市场规模正以每年15%的速度增长,预计在未来几年将继续保持高速增长。在“十三五”期间,随着国家医药卫生体制改革的需要,各省、市也纷纷参与到医疗信息标准化工作的建设之中[1]。2022 年1 月,国家卫健委在《关于印发“十四五”卫生健康标准化工作规划的通知》中指出,要推动标准化战略与卫生健康事业深度融合,带动医疗卫生服务高质量发展。全民健康信息标准化体系的建设和推广,对于实现国家健康信息化的战略目标、促进医疗卫生信息化建设、提高健康服务质量和效率、推动健康产业发展等都具有重要的意义[2]。
医学信息化标准是指在医学信息技术领域中使用规范的术语、编码系统、数据格式和通信协议等,以支持医疗保健信息的记录、共享、交换和利用,旨在促进医学信息的互操作性和数据共享,提高医疗保健质量、安全性和效率[3]。随着医学大数据的发展,医学信息化标准的重要性日益凸显。然而,近年来,医学信息化标准面临数量和种类繁多、来源不同等挑战,给医学大数据的应用和共享带来了一些困难。首先,医学信息化标准的数量和种类日益增多。随着不同医疗机构、科研机构和行业组织的出现,各自制订的标准涉及的领域和内容也不尽相同。这导致医学信息化标准碎片化和分散化,使数据共享和整合变得困难。医学从业者需要同时应对多个标准,增加了工作的复杂性和负担。其次,医学信息化标准的来源多样化。医学信息化标准来自国际标准组织、行业协会、专业团体以及个别医疗机构的制订。不同标准的制订者有不同的目的和侧重点,这导致标准之间存在差异和冲突。医疗健康相关从业者在应用和遵守标准时可能面临困惑和抉择,降低了标准的实际应用效果。因此,为解决医学大数据应用中存在的问题,急需研究和探索一种更加高效和统一的医学信息化标准体系。本研究旨在使用知识图谱技术来构建一个统一的医学信息化标准模型,从已有的数据中发现规律并提出建议,为医学信息化标准的研究提供一种可参考的方法和工具,促进医学大数据的共享与应用,提升医疗服务质量和效率。
本研究将收集的来自国际标准组织和专业团体以及国内不同医疗机构的医学信息化标准数据,构建一个包含多个领域和多层级结构的知识图谱。使用结构化数据和语义标注等技术,将这些标准数据转化为知识图谱的形式,并建立相应的知识关联和语义连接。
收集全国标准信息公共服务平台内公开的、现行的医学信息化标准和行业标准备案信息公示平台内现行的医学信息化标准,对目标资料采取基于关键字的搜索与整理方法。经过多次整理检查后,所得1997-2022 年医学信息化标准的数据特征见表1。
表1 医学信息化标准数据特征统计Table 1 Statistical characteristics of medical informatization standard data
在整理得到的290 条医学信息化标准中,对医学信息按年份增长规律作折线图(见图1)。2000 年前的医学信息化标准仅有两条,是中医临床诊疗术语相关标准。2010 年前的医学信息化标准共13 条,虽然数量不多,但是可见随着计算机和网络技术的发展,我国智能医学相关研究日渐兴起。
图1 医学信息化标准数量增长情况Figure 1 Growth of the number of medical informatization standards
近年来,随着信息化技术不断发展,电子病历、电子健康档案等智能医疗系统的应用,以及政府对医学信息化标准的重视,医学信息化标准数量大幅度增长。2010-2019 年共发布并实施了229 条医学信息化标准,其中2010-2014 年共发布并实施了81 条医学信息化标准,2015-2019 年共发布并实施了148 条医学信息化标准。由此可见,越来越多的行政部门、行业部门加入智能医学和医学信息化标准建设工作中。2020-2023年共发布并实施了47 条医学信息化标准。未来,随着信息科技和智能医学的持续发展,医学信息化标准也将持续产出。此外,中医承载着中国古代人民同疾病作斗争的经验和理论知识。2018 年10 月1 日,世界卫生组织首次将中医纳入其具有全球影响力的医学纲要。但是,中医的智能医学发展仅是初出茅庐,搜集到的中医方面的医学信息化标准只有4 条,相信未来随着智能医学的发展和中医逐渐受到重视,中医智能医学一定前景广阔。
知识图谱是以结构化形式描述的知识及其联系的集合,是一种将实体、属性和关系组织成图形结构的知识表示方式,旨在更好地描述和理解世界的知识和概念,可以用于存储、查询、推理和分析知识[4]。知识图谱的设计不仅仅是将知识以图形结构的形式表示,还需要考虑如何定义其属性和关系,如何建立它们之间的联系以及如何进行查询、推理和分析等操作。这样的设计使知识图谱成为一个强大的工具,用于存储和操作大量复杂的知识。本研究采用人工标注的方法,对所收集抽取相应本体所需的实体、属性及关系等信息,并导出为逗号分隔值(Comma-Separated Values,CSV)文件。本研究所抽取的实体类型包括标准中文名称、标准号、起草日期、颁布日期、标准分类、基于大数据参考架构的分类、中国标准分类号、国际标准分类号、起草单位和颁布部门共10 个字段。以下是对每个字段的简要描述:标准中文名称:标准的中文名称,用于标识标准的名称和主题;标准号:标准的编号,用于唯一标识和识别标准;起草日期:标准的起草日期,记录标准制订的时间信息;颁布日期:标准的颁布日期,记录标准正式发布的时间信息;标准分类:分为国标或行业标准。其中,国标又分为强制性国标、指导性国标和推荐性国标;基于大数据参考架构的分类:健康医疗大数据标准体系框架由基础类、数据类、技术类、应用与服务类、安全与隐私类和管理类组成[5](见图2);中国标准分类号:标准在中国标准分类体系中的分类号,用于更精确地描述标准的主题和领域;国际标准分类号:标准在国际标准分类体系中的分类号,用于标识标准在国际范围内的分类和归类;起草单位:标准的起草单位,指参与标准起草和制订的组织或机构;颁布部门:标准的颁布部门,指正式发布和颁布标准的组织或机构。
图2 健康医疗大数据标准体系框架Figure 2 Framework of health and medical big data standard system
这些字段的抽取和记录可以提供对标准的详细描述和分类信息,为后续知识图谱的构建和应用提供基础数据。在导出为CSV 文件时,确保将每个字段的数据正确映射到对应的列中,并按照CSV 文件的格式进行导出和处理,以便后续的数据分析和应用。
本研究采用Python 语言编写程序,用于定义实体、属性和关系之间的关系,并通过Neo4j 图数据库完成知识图谱的可视化操作。通过这种方式,能够有效构建和管理知识图谱,并利用图数据库的强大功能进行复杂的查询和可视化展示。本研究成功创建了一个包含9 种关系类型、799 个节点和2 605 条连线的知识图谱(部分可视化知识图谱见图3)。通过定义不同的关系类型,能够准确描述实体之间的联系和属性之间的关联,从而更好地理解和分析医学信息化标准的知识和概念。通过Neo4j 图数据库的功能,能够对知识图谱进行灵活的查询和分析。本研究使用Cypher 查询语言编写复杂的查询语句,从图谱中提取特定实体、属性和关系的信息,以满足研究需求。此外,通过Neo4j 的可视化工具或Python 的可视化库,能够将知识图谱以直观的方式呈现出来,展示实体、属性和关系之间的复杂连接和关联。
图3 医学信息化标准部分可视化知识图谱Figure 3 Partial visualized knowledge graph of medical informatization standards
我国标准按照发布部门分类可分为国家标准(GB)与行业标准(医药行业为YY,卫生行业为WS)。其中国家标准又分为强制性国家标准(GB)、推荐性国家标准(GB/T)与指导性国家标准(GB/Z)。本研究首先按照国家标准或行业标准分类构建知识图谱(见图4)。本研究所收集的大部分医学信息化标准数据属于行业标准,共235 条,其中包括卫生行业标准和医药行业标准。指导性国家标准有49 条,推荐性国家标准有6 条。此外,即使已经全面搜集并整理了相关资料,属于强制性国家标准的医学信息化标准并未搜集到。
图4 医学信息化标准其标准类别的知识图谱Figure 4 Knowledge graph of medical informatization standards and their standard categories
本研究按照大数据参考架构进行分类构建的知识图谱见图5。医学信息化标准中大部分是数据类标准,但值得一提的是,在187 条数据类标准中,有139 条是近10 年发布并实施的,这印证了我国计算机技术的发展和医学数据量的增长以及智能医学的应用正处于高速发展阶段。基于大数据参考架构分类的各种医学信息标准的数量见表2。
图5 基于大数据参考架构的分类的知识图谱Figure 5 Knowledge graph of classification based on big data reference architecture
表2 基于大数据参考架构分类的医学信息化标准数量Table 2 Number of medical informatization standards classified based on big data reference architecture
对医学信息化标准第一起草单位构建知识图谱(见图6),观察到有6 个节点集中的区域,表示有6 个单位起草过相当多的医学信息化标准,分别是:(1)中国标准化研究院,起草医学信息化标准24 条,均为国家标准;(2)卫生部统计信息中心,起草医学信息化标准22 条,均为行业标准;(3)中国人民解放军总医院,起草医学信息化标准20 条,均为行业标准;(4)上海市疾病预防控制中心,起草医学信息化标准20 条,均为行业标准;(5)国家卫生计生委员会统计信息中心,起草医学信息化标准21 条,均为行业标准;(6)国家卫生健康委员会统计信息中心起草医学信息化标准22 条,均为行业标准。这说明医学信息化标准得到广泛关注和认可,不同机构和部门都参与了标准的起草和制订。医学信息化标准的数量也不断增加,标准的制订有助于规范和统一医疗信息化建设和管理,促进医疗信息化发展和应用,提高医疗服务质量和效率,进一步推动我国医疗卫生事业发展。
图6 医学信息化标准第一起草单位的知识图谱Figure 6 Knowledge graph of the first drafting unit of medical informatization standards
其余起草医学信息化标准的热门单位见表3,其中司法部戒毒管理局制订的13 条医学信息化标准反映了戒毒领域在信息化建设方面的需求和现状,这些标准的制订将有助于规范和统一戒毒机构的信息化建设和管理,提高戒毒工作效率和质量,减少医疗事故以及误诊和漏诊风险,从而有利于保障戒毒人员的身体健康和安全。本研究对起草医学信息化标准数量小于3 条的单位不做统计。
表3 其余起草医学信息化标准的热门单位及其起草数量Table 3 Other popular units drafting medical informatization standards and their drafting quantity
医学信息化标准颁布部门的知识图谱见图7,观察到有两个节点非常集中的区域,分别是:(1)国家卫生与计划生育委员会(现为国家卫生健康委员会),在2018 年前共发布94 条医学信息化标准,均为行业标准;(2)卫生部共发布76 条医学信息化标准,均为行业标准。国家卫计委和卫生部发布的所有标准都属于行业标准,这表明医学信息化标准的制订和推广是行业内的自发行为,也反映了医学信息化建设和发展的重要性和紧迫性,标准的制订覆盖了医学信息化的不同领域和方面,数量庞大。
图7 医学信息化标准颁布部门的知识图谱Figure 7 Knowledge graph of medical informatization standards issuing departments
另有两个节点相对较集中的区域,分别是:(1)国家卫生健康委员会从2018 年至2023 年共发布医学信息化标准40 条,均为行业标准;(2)国家质量监督管理总局、国家标准化管理委员会联合发布医学信息化标准30 条,均属于推荐性国家标准。国家卫生健康委员会在近几年积极推动医学信息化标准的制订和发布,发布了较多的标准,医学信息化建设和发展是国家关注的重点领域。其余发布医学信息化标准的热门部门及其发布数量见表4。发布医学信息化标准数量少于2 条的单位不展示。部分标准的发布部门不公开。
表4 其余发布医学信息化标准的热门部门及其发布数量Table 4 Other popular departments that publish medical informatization standards and their number of releases
基于对本研究所搜集数据的医学信息化标准的标准类别分析,得出以下结论:(1)大部分医学信息化标准属于行业标准。从知识图谱中可以看出,共有235 条医学信息化标准属于行业标准。这表明在医学信息化领域,行业标准在标准化工作中起着重要作用。这些行业标准可能涵盖卫生行业和医药行业的各个方面,为医学信息化的发展提供了指导和规范。因此,行业标准对于确保医学信息化系统的操作性和规范性非常重要。(2)存在指导性国家标准和推荐性国家标准。本研究收集到49条指导性国家标准和6 条推荐性国家标准。这说明国家在医学信息化领域制订了一定数量的标准,并为医疗机构和相关从业人员提供了指导性和推荐性的规范。
基于对本研究所搜集数据的医学信息化标准的基于大数据参考架构的分类分析,得出以下结论:(1)数据类标准数量最多。从所得知识图谱可以看出,数据类标准数量最多,共计186条。这表明在健康医疗大数据标准体系中,数据的收集、管理和处理等方面的标准起着重要作用。这些标准可能涉及数据的格式、结构、共享、隐私保护等方面,为健康医疗大数据的规范化和应用提供了指导和规范。(2)技术类标准占比适中。数据显示,技术类标准共有59 条。技术类标准涉及健康医疗大数据的采集、存储、处理、分析和可视化等方面的技术要求和规范。技术类标准有助于确保健康医疗大数据的准确性、完整性和可靠性,促进数据的有效应用和价值挖掘。(3)基础类标准和管理类标准数量有待增加。本研究数据显示,基础类标准共有38 条,管理类标准共有2 条。基础类标准涉及健康医疗大数据的基本原则、概念、分类等方面,而管理类标准则涉及健康医疗大数据的组织、管理、监督和评估等方面。虽然基础类和管理类标准数量相对较少,但是它们在确保健康医疗大数据质量、一致性和可持续性方面起着重要作用。(4)安全与隐私类标准有待加强。本研究数据显示,安全与隐私类标准共有4 条。在健康医疗大数据应用中,安全与隐私是关键的考虑因素,旨在确保数据的机密性、完整性和可用性。安全与隐私类标准有助于保护健康医疗大数据的安全和隐私,提高数据的可信度和接受度。
基于对本研究所搜集的医学信息化标准起草单位知识图谱的观察发现:(1)有6 个单位起草了相当数量的医学信息化标准。其中,中国标准化研究院起草了24 条医学信息化国家标准,卫生部统计信息中心、中国人民解放军总医院、上海市疾病预防控制中心、国家卫生计生委统计信息中心和国家卫生健康委统计信息中心均起草了20 条及以上的行业标准。这些单位在医学信息化标准的制订中扮演着重要角色,为规范和推动医学信息化发展做出了贡献。(2)除上述6 个单位之外,还有一些部门也参与了医学信息化标准的起草。这些部门包括司法部戒毒管理局、中国人民解放军第四军医大学、华中科技大学同济医学院、浙江数字医疗卫生技术研究院等。虽然它们起草的标准数量相对较少,但是它们的参与表明多个机构和学术界在医学信息化标准制订中发挥着积极作用[6]。(3)临床医院在医学信息化标准的制订上参与度相对较低。临床医院是医学信息化标准最直接的使用场所,应促进临床医院与相关的标准制订机构、学术组织、行业协会等之间的合作与沟通,加强医院内部对标准制订的重视和参与。(4)医学高校对医学信息化标准的制订参与度也较低。医学高校应与行业标准制订机构、医疗机构和技术供应商等建立合作关系,开展共同研究和项目合作。此外,还应积极参与医学信息化标准的制订工作,派出教师和专家参与标准制订的相关会议。通过高校的专业知识和研究成果,为标准制订提供专业意见和技术支持,确保标准的科学性和实用性。
基于对本研究医学信息化标准颁布部门的知识图谱分析发现:(1)卫生部和国家卫生与计划生育委员会(现为国家卫生健康委员会)是医学信息化标准颁布的两个核心机构。在2018年之前,卫生部发布了76 条医学信息化标准,而国家卫生与计划生育委员会发布了94 条医学信息化标准。这两个部门在医学信息化标准的制订和实施中扮演着重要的角色。(2)近年来,国家卫生健康委员会、国家质量监督检验检疫总局和国家标准化管理委员会联合发布了一系列医学信息化标准,显示出这些部门在医学信息化标准的制订中扮演着重要的角色。具体而言,国家卫生健康委员会在2018 年至2023 年发布了40 条医学信息化标准,而国家质量监督管理总局和国家标准化管理委员会合作发布了30 条医学信息化标准。这表明这些部门对于推动医学信息化标准的颁布具有关键性的贡献。(3)除上述主要部门之外,还有一些其他部门也参与了医学信息化标准的颁布。这些部门包括司法部、国家药品监督管理局等。虽然它们颁布的标准数量相对较少,但是它们的参与表明多个部门在医学信息化标准的制订和实施中发挥着一定的作用。
卫生部和国家卫生与计划生育委员会(现国家卫生健康委员会)是主要负责发布医学信息化标准的部门。在医学信息化标准的制订中,国家卫生健康委员会与国家质量监督检验检疫总局、国家标准化管理委员会合作,共同发布了一系列医学信息化标准。其他部门也参与了医学信息化标准的颁布,反映了不同部门在医学信息化标准颁布和实施中的重要性和贡献,为进一步研究和合作提供了参考。
基于本研究的发现,提出以下建议供相关领域的研究者和从业者参考。(1)需要加强对基础类和管理类标准的制订与推广工作,以增强医学信息化标准的全面性和实用性。(2)应注重加强医学信息化标准中安全与隐私类标准的研究和制订,以应对日益增长的数据安全挑战。(3)应提高临床医院与医学高校等相关机构在医学信息化标准制订和实施中的参与度,实现标准的全面推广和应用。(4)政府部门应继续发挥领导和协调作用,有效落实医学信息化标准的颁布和执行。
通过研究发现,行业标准在医学信息标准化工作中起着重要作用,但数据类标准最多,而基础类和管理类标准的数量有待增加,安全与隐私类标准需要加强。另外,临床医院与医学高校在医学信息化标准的制订工作中参与度较低,这也需要引起重视。同时,本研究还存在一些不足之处。首先,数据的收集和整理过程中可能存在一定误差,这可能会对研究结果产生一定影响。其次,本次研究主要依赖于现有的医学信息化标准数据,未能对最新的数据进行全面覆盖。因此,在未来的研究中,将进一步完善数据的采集和整理方法,并结合实地调研和案例分析,以获取更准确、客观的研究结果。