元数据在真实世界医疗环境下数据标准构建中的应用

2018-03-21 08:08,,,
中华医学图书情报杂志 2018年8期
关键词:热点公共卫生图谱

,,,

健康大数据是指在一定的时间范围内通过利用某些软件工具进行收集、管理并处理的与民生健康相关数据的总集,需要新的处理模式才能使用,是具有更强大的决策力、敏锐的洞察发现力和完整流程优化能力的多样化高通量的信息[1]。国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》将健康医疗大数据应用发展纳入国家大数据战略布局中,并提出利用大数据拓展服务渠道,延伸和丰富服务内容,更好地满足人民健康医疗需求。与传统数据相比,大数据更多地呈现出非结构化形态,数据标准不统一导致数据共享和开放不足[2]。数据标准是健康信息标准体系的重要组成部分。对来源广泛的数据项进行标准化,通过建立概念数据模型和数据规范,明确数据的应用语境,保证信息的准确性和一致性,是实现语义互操作的基础[3]。世界发达国家健康数据标准化工作起步较早,普遍以建立信息模型和元数据规范为主要技术路线和方法,以指导信息系统建设、规范数据收集、增进共享为最终目标[3]。

元数据(metadata)是关于数据的数据,是一种数据结构标准[4]。建立元数据标准是有效描述信息资源、实现信息资源高效交流的基础。孟群等提出健康医疗大数据标准的构建可依据元数据标准,利用元数据资源目录库提供元数据管理,从应用的角度分别建立资源目录和服务目录,为健康医疗大数据资源的共享与应用提供标准化的数据基础[5]。

本文以绘制科学知识图谱的方式,对比分析临床领域和公共卫生领域的健康大数据标准文献题录中的研究热点和前沿,总结国内外研究异同,为国内学者关于健康大数据标准领域研究提供借鉴,为有关部门制定健康大数据标准提供参考。

1 国内外健康大数据标准研究热点的演进分析

1.1 研究数据筛选

1.1.1 国内健康医疗大数据

临床领域:以《中国学术期刊网络出版总库》(CNKI)作为数据来源,采用主题检索,检索表达式为[(医疗数据OR电子病历OR检验数据OR影像数据OR临床数据)AND标准)],时间跨度为2000-2018年,检索时间为2018年8月1日,纳入期刊、学位论文及会议论文共计1 559 篇。

公共卫生领域:以《中国学术期刊网络出版总库》(CNKI)作为数据来源,采用主题检索,检索表达式为:[(公共卫生数据OR健康档案OR健康管理数据OR健康监测数据OR个性化医疗服务数据)AND标准)],时间跨度为2000-2018年,检索时间为2018年8月1日;纳入期刊、学位论文及会议论文共计323篇。

1.1.2 国外健康医疗大数据

临床领域:以Web of Science 核心合集数据库为数据来源,采用主题检索,检索表达式为:[(medical data OR clinical data OR EMR data OR MRI data)AND standards)];精炼依据为文献类型(ARTICLE)AND语种(ENGLISH),时间跨度为2000-2018年,检索时间为2018年8月1日,纳入7 417条记录。

公共卫生领域:以Web of Science核心合集数据库为数据来源,采用主题检索,检索表达式为[(public health data OR health records OR health management data OR health monitoring data)]AND standards);精炼依据为文献类型(ARTICLE)AND语种(ENGLISH),检索时间为2018年8月1日,时间跨度为2000-2018年,纳入7 733条记录。

1.2 国内外健康医疗大数据的研究现状

关键词是文献内容中出现词频较高的核心词汇代表,是反映文献内容的重要标签之一[6]。

关键词词频共现可以揭示研究主题的热点分布、内在联系和演进规律[7]。突变词是某一主题领域或学科研究热点突然增长的标志,是该主题或学科未来发展趋势或方向的重要量度[8]。突变的大小用突变值表示,突变值越大,表明与该突变词相关的主题学科发展趋势越明显。本文采用CiteSpace 5.1.R6 SE作为科学知识图谱分析工具,通过分析健康大数据标准领域文献的高频关键词及突变词的变化,厘清健康大数据主题领域知识结构的演进过程,洞悉研究热点及其演进过程,分析未来的发展趋势[9]。

1.2.1 国内健康医疗大数据研究现状

1.2.1.1 临床领域

以“Keyword”作为节点,设置CiteSpace 5.1.R6 SE 相关参数。Timespan:2000-2018(Slice Length=3),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到关键词共现图谱(图1)及关键词表(表1)和突变词表(表2)。关键词共现图谱共形成网络合并节点195个,连线611条,聚类27条。

图1 CNKI 近20年健康大数据标准(临床领域)关键词共现图

表2 CNKI近20年健康大数据标准(临床领域)突变词

国内在临床领域健康大数据标准的研究热点依次为电子病历、HL7、XML、医院信息系统、PACS、数据挖掘等。未来国内健康大数据标准在临床领域的研究热点可能为电子健康档案、检验数据、质量、电子病历、XML、临床试验等。

1.2.1.2 公共卫生领域

以“Keyword”作为节点,设置CiteSpace 相关参数。Timespan:2000-2018(Slice Length=3),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到关键词共现图谱(图2)及关键词表(表3)和突变词表(表4)。关键词共现图谱共形成网络合并节点132个,连线360条,聚类18条。

图2 CNKI 近20年健康大数据标准(公共卫生领域)关键词共现图谱

序号频次中心度关键词年份序号频次中心度关键词年份1690.13电子健康档案20061170.11居民电子健康档案20102570.26健康档案20001270.07卫生信息平台20103330.43电子病历20091360.05信息系统20064280.17区域卫生信息平台20091450.09信息化建设20125190.28卫生信息标准20091550.08人口健康20146190.18社区卫生服务20061630.06评分标准20097130.06信息化20121730.05互联互通20168120.05健康管理20121820.2医改20109110.14居民健康卡20121920.15信息化水平201010100.08信息共享20102020.05公共卫生服务2009

表4 CNKI近20年健康大数据标准(公共卫生领域)突变词

由图2和表3看出,国内在公共卫生领域健康大数据标准的研究热点依次为健康档案、电子病历、区域卫生信息平台、卫生信息标准、社区卫生务、信息化等。由图2和表4看出,未来国内健康大数据标准在公共卫生领域的研究热点可能为健康管理、社区卫生服务、健康档案。

1.2.2 国外健康医疗大数据研究现状

1.2.2.1 临床领域

以“Keyword”作为节点,设置CiteSpace 相关参数。Timespan:2000-2018(Slice Length=1),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到关键词共现图谱(图3)及关键词表(表5)和突变词表(表6)。

关键词共现图谱共形成网络合并节点275个,连线1 612条,聚类17条。

图3 Web of Science 近20年健康大数据标准(临床领域)关键词共现图谱

序号频次中心度关键词年份序号频次中心度关键词年份114730.19mri2000112090.09cancer200023860.05magnetic resonance imaging2000131850.04in vivo200133420.15brain2001121850.02metadata200042660.09model2001141810.07system200352580.07image2000151810.05computed tomography200062490.05fmri2000161810.02segmentation200172310.07human brain2000171770.1quantification200082260.03diagnosis2001181680.03positron emission tomography200092180.1magnetic resonance2000191600.08registration2002102120.04functional mri2000201570.05standard2000

表6 Web of Science近20年健康大数据标准(临床领域)突变词

由图3和表5看出,国外在临床领域健康大数据标准的研究热点依次为医学影像数据标准(包括影像大数据管理、医学影像的人工智能分析、基于医学影像大数据的疾病辅助诊断、精准诊断、影像数据挖掘算法等)、脑科学(包括脑机接口、智能影像、神经元与物联网的结合等)。由图3和表6看出,未来国外健康大数据标准在临床领域的研究热点可能为对功能性核磁共振(fMRI)、弥散张量成像(DTI)、电压敏感染料成像(VSDI)等实验数据的解读及应用,对使用多通道技术获得的的长时间的电生理数据的解读及应用,如多道EEG、胞外多通微电极记录、微电极阵列(MEA)记录等实验数据及互联网虚拟大脑等。

1.2.2.2 公共卫生领域

以“Keyword”作为节点,设置CiteSpace 相关参数。Timespan:2000-2018(Slice Length=1),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到关键词共现图谱(图4)及关键词表(表7)和突变词表(表8)。关键词共现图谱共形成网络合并节点154个,连线1 165条,聚类9条。

序号频次中心度关键词年份序号频次中心度关键词年份16770.07health2000113280.07health care200025580.05care2000123260.06quality200034680.05management2000132900.09population200044090.11mortality2000142820.04disease200053800.09prevalence2000152790.06outcm200063720.06system2000162730.09impact200073700.1standard2000172590.02electronic health record201083500.03risk2000182560.04risk factor200093480.05children2000192360.03obesity2000103480.03united states2000202290.07intervention2001

表8 Web of Science近20年健康大数据标准(公共卫生领域)突变词

由图4和表7看出,国外健康大数据标准在公共卫生领域的研究热点依次为health(健康)、care(关怀)、 management(管理)、mortality(死亡率)、prevalence(患病率)、system(系统)等,具体表现为大数据与疾病的关联性研究,基于海量信息对传染病疫情的追踪和响应,对疾病早期预警信号的发现,基于大数据对健康行为的理解,包括对健康行为、遗传、自然和社会经济环境因素的探索等。由图4和表8看出,未来国外健康大数据标准在公共卫生领域的研究热点可能为metaanalysis(Meta分析)、electronic health record(电子健康档案)、database(数据库)、cost effectiveness(成本效益)、metadata(元数据)、community(社区)等,具体表现为大数据的互用性研究,大数据的扩展性转化研究,对关联性研究结果在现实世界中的验证、评价、执行和政策制定,健康大数据使用中的安全、保密、共享、开放等医学伦理学问题,对健康大数据使用中的“误差”问题识别等。

1.3 国内外健康医疗大数据研究的对比分析

研究热点和研究前沿代表一个主题领域的发展方向和研究动态[10]。通过关键词词频分析得出国内外健康大数据标准研究的热点,通过突变词推测国内外健康大数据标准研究的趋势。

1.3.1 研究热点分析

1.3.1.1 临床领域

国内研究热点1,集中于电子病历标准化的研究,主要以H17和XML9两种标准为主;研究热点2为探讨医院信息化建设,包括医院信息系统和医院信息化两方面;研究热点3为对数据标准的研究,包括标准、质量和方法(数据挖掘、云计算、数据交换)等。国外研究热点主要是对影像数据标准的研究。此外,元数据(metadata)作为高频关键词和高频突变词成为近年来国内外健康大数据标准的研究热点。

1.3.1.2 公共卫生领域

国内的研究热点集中于对健康档案数据标准的研究,并呈现区域化和信息化的特点;国外对健康大数据标准的研究范畴比较广泛,基本覆盖了对公共卫生领域各具体数据标准的研究,包括健康数据、关怀数据、管理数据、死亡率数据、患病率数据、疾病数据、肥胖数据等。

通过横向对比可以得出,国外健康数据标准研究范畴较国内更加广泛,元数据成为近年来国内外健康数据标准研究的热点。

1.3.2 研究趋势分析

1.3.2.1 临床领域

国内未来研究仍以电子病历标准为主,但研究范畴有所扩展,可能会涉及检验数据、区域医疗数据等的研究;国外未来研究依然以影像数据标准为主,数据分类标准可能会成为新的研究热点。元数据可能会成为未来国内外健康数据标准的共同研究热点。

1.3.2.2 公共卫生领域

国内未来研究会集中于健康管理、社区卫生服务、健康档案3个领域的数据标准化研究;国外未来健康数据标准的研究趋势可能主要集中于对元数据的研究,此外还会涉及到健康档案数据、成本效益数据、基础护理数据、随访数据等标准的研究。通过纵向预测可以得出以下两点:一是未来的研究趋势将在现有研究范畴的基础上有所扩展,二是元数据依然可能成为未来健康数据标准研究的热点。综上所述,元数据是临床领域和公共卫生领域健康数据标准研究的热点。因此,对元数据的深度剖析和挖掘有助于深层次理解和把握健康大数据标准的发展趋势和前沿动态。

2 元数据在大健康领域下数据标准构建中的应用

元数据是一种结构化的数据,是对信息资源的结构化描述,用来描述信息资源或数据本身特征和属性,是一种用来规范数字化信息组织的数据结构标准[11]。元数据具有5类基本属性,分别为标识与定义(identifying and definition)、数据采集及使用指南(collection and usage guide)、 来源及参考文本(source and reference)、关系(relation)和管理(administration)[12]。

元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述基准和方法,又为由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带,在数字化网络化信息资源组织与利用中发挥着日益重要的作用[13]。

2.1 国内研究现状

以CNKI为数据来源,采用主题检索;检索表达式为:(元数据 OR 数据元),时间跨度为2008-2018年,检索时间为2018年8月1日,纳入期刊、学位论文及会议论文共计347篇文献。

以关键词作为节点,设置CiteSpace 5.1.R6 SE 相关参数。Timespan:2008-2018(Slice Length=1);Selection Criteria:Top 50 per slice; LRF=2;LYB=8。得到关键词共现图谱(图5)及关键词表(表9)和突变词表(表10)。

图5 CNKI近10年元数据(metadata)关键词共现图谱

序号频次中心度关键词年份序号频次中心度关键词年份1650.5数据元20091170.02数据标准20092500.66元数据20081260信息化20123360.21标准化20091360.01信息20124210.12电子病历20101460数据库20125180.14数据集20091560电子健康档案20096130.23本体20081660中医护理20147100.10卫生信息20081750精准医学2017890.10xml20091850.03医院信息系统2010980.03标准20091950hl720121080.04健康档案20102050.01卫生信息标准2010

表10 CNKI近10年元数据(metadata)突变词统计分析

关键词共现图谱共形成网络合并节点87个,连线219条,聚类15条。排除数据元与元数据等研究领域的基础词汇后,得出以下热点词汇:标准化、电子病历、数据集、本体、卫生信息、XML、标准等。揭示出目前国内对元数据的研究主要集中于电子病历、卫生信息、健康档案、数据库、中医护理、精准医学等领域;其中以XML、HL7两种标准尤为显著。未来国内对元数据的研究主要集中于对健康档案、XML、卫生信息标准以及数据库4个领域的研究。

2.2 国外研究现状

以Web of Science 核心合集数据库为数据来源,采用标题检索;检索表达式为:(metadata);精炼依据:文献类(ARTICLE)AND语种(ENGLISH);时间跨度:2008-2018年;检索时间均为2018年8月1日;纳入805条记录。

以关键词作为节点,设置CiteSpace 5.1.R6 SE 相关参数,Timespan:2008-2018(Slice Length=1),Selection Criteria:Top 50 per slice,LRF=2,LYB=8,得到关键词共现图谱(图6)及关键词表(表11)。关键词共现图谱共形成网络合并节点197个,连线673条,聚类23条。排除metadata为元数据研究领域的基础词汇后,从中可以得出system、information、database、web、model、digital library、standard等热点词汇(表12)。结合大数据的研究热点及趋势,目前国外对元数据的研究热点主要表现为元数据质量评估与控制、元数据质量评估指标构建、元数据质量控制体系构建、与数据交换网络有关的元数据问题、元数据交换和互操作规范、元数据标准间的协调问题、利用元数据管理非结构化数据的复杂性问题等。

图6 Web of Science 近10年元数据(metadata)关键词共现图谱

序号频次中心度关键词年份序号频次中心度关键词年份11970.30metadata200811140.06information retrieval20092440.17system200812140.12network20083330.09information200813130.01xml20094280.11database200814130.09interoperability20085280.11web200915120.01quality20126260.17model200916120.05framework20107250.11management201017120.04design20098220.06digital library200818110.06annotation20129220.08standard201119110.02metadata standard200810180.08semantic web200920100.02algorithm2010

表12 Web of Science近10年元数据(metadata)突变词

2.3 国内外元数据研究现状

通过分析部分关键节点文献可以看出元数据在大健康领域的应用已经初见成效。阎小妍等人[14]提出将Web 3.0元数据标准作为大数据时代循证医学元数据标准的基础,可实现数据库中定量数据、定性数据和交换数据抽取、转换和数据合并的目标;刘丽华等[15]从规范描述医药卫生信息数据集的需求出发,研究建立我国医药卫生信息数据集的元数据规范,以促进对卫生领域数据集描述的规范化和标准化,保证数据资源的整合、发布、管理和检索等行为的统一;孟群等[5]认为我国健康医疗大数据资源目录体系以元数据标准为核心,可为健康医疗大数据资源的共享与应用提供标准化的数据基础;Caffery[8]认为元数据对于确保皮肤图像得到适当的管理和解释至关重要;Kim[16]设计出基于图像的临床试验数据网格元数据储存算法。

通过对元数据发展热点进行可视化分析得出,国内元数据在大健康领域的应用主要集中于标准化的探讨,国外对元数据的研究范畴比较广泛,涉及系统(或数据库)、数字图书馆、模型、管理、标准等方面。从表10和表12可以得出,国内未来对元数据的研究趋势主要应用于健康档案、电子病历标准研究,国外未来对元数据的研究可能集中于数字字典(digital repository)等的研究。

3 结语

本文从临床领域和公共卫生领域两个视角对近20年健康大数据标准的研究进行可视化分析,发现国内外在健康大数据标准研究方面存在差异。在临床领域,国内侧重对电子病历标准的研究,国外则以影像数据标准研究为主;在公共卫生领域,国内主要以健康档案数据标准为主,国外对于健康大数据标准的研究范畴比较广泛,基本覆盖了对公共卫生领域各具体数据标准的研究。此外,元数据成为近年来健康大数据标准研究的热点并延续到未来健康大数据标准的研究中。健康医疗大数据应用是推进“健康中国”建设、提高群众获得感的必然要求,是深化医改完善卫生与健康治理模式的重要支撑,而健康医疗大数据标准体系构建是推进健康医疗大数据应用的基础性工程。元数据具有描述信息资源或数据本身的特征和属性,具有定位、发现、评估、选择等功能[17]。作为数据结构标准,在海量的半结构化和非结构化健康医疗数据标准的构建中,元数据不仅具备传统的“著录”功能,使健康医疗数据维护者能有效管理和利用资源,让使用者能迅速了解辨别资源[18],提高健康医疗数据共享率与利用率[19]。因此,对元数据进行深度剖析与研讨对健康大数据标准研究具有重要的现实意义。

猜你喜欢
热点公共卫生图谱
热点
绘一张成长图谱
热点
结合热点做演讲
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
枣庄探索公共卫生医联体
公共卫生服务怎加强
公共卫生监督不是“陪衬”
过度剖宫产背后的公共卫生之殇