利用可溯源技术提升健康医疗大数据质量的方法探讨

2021-04-03 16:08龙思哲李朵林琳
中国卫生标准管理 2021年24期
关键词:医疗信息

龙思哲 李朵 林琳

目前,为响应国家政策及医院自身业务发展需求,医院已开展了多年的信息化建设工作,各信息系统在日常业务中产生的数据不断积累形成的健康医疗大数据。健康医疗大数据优点明显高于传统统计数据,其除了具有获取效率高、数量量大以及外推性好的优点外,还具有覆盖范围广等优势。但是其也存在很多问题,比如除了数据分散、数据来源多样等问题外,还存在信息系统数据共享性低等问题,又或者是存在大量非结构化信息融合难度高等问题[1-2]。医学大数据不仅具有传统大数据的5V特征,也自身典型特征,对于非显性价值信息的运用,需要建立合适的分析模型,运用相应的技术进行提取有效的信息分析,否则不能直接运用。同时,数据质量也要严格把关,数据出错,极大可能引起一系列连锁反应,造成结果的不真实性[3]。

健康医疗大数据平台是大数据收集及分析、实现全面医疗管控的重要工具之一,其构建期间因具有各种缺点导致临床医学研究发展受到阻碍,其中包括健康医疗大数据价值较低,质量差,且没有统一标准进行制约而导致,因此也限制了医疗服务。医疗机构监管、等二次利用数据的开展实施[1]。大数据医疗服务具有多项功能,具体包括能够影响分析以及血缘分析功能,此外还能通过治理数据来赋予该平台数据流视图,从而使医疗数据具有一定审计跟踪功能等[4]。本文通过借鉴真实世界数据(real world data)实现临床数据交换标准协会(Clinical Data Interchange Standards Consortium, CDISC)的成功应用案例,探讨真实世界健康医疗大数据的可追溯能力,以提升健康医疗大数据质量,为后续研究工作提供便利。

1 健康医疗大数据概述

1.1 健康医疗大数据的定义

健康医疗大数据具有多项业务功能,其中包括公共卫生、计划生育、传统医疗服务以及综合管理等,此外其向外可延伸至人工智能、互联网、药品管理等领域,应用信息网络技术产生的与健康医疗相关的海量数据,是健康医疗行业治理、真实世界研究、卫生医疗服务提升等应用的重要资源[5]。就目前来看我国对健康医疗大数据的理解存在一定误区,其中最主要的为两点内容:(1)忽略了非临床数据;(2)将健康医疗大数据与临床数据放到同等位置。

1.2 健康医疗大数据来源分析

健康医疗大数据来源在我国进行收集统计工作已经数年,其具有收集统计量工作大、来源广泛等特征,就目前来看我国健康医疗大数据来源包括多项方面:(1)生物数据库:其作用在于记载各类生物信息;(2)医疗结构临床资料:一般情况下患者入院时医生都需要对其进行居民健康档案、电子处方、电子病历、居民健康卡以及药物服用等特点,这些均属于健康医疗大数据;(3)非健康数据:包括睡眠枕、睡眠床垫以及动手环等,其作用在于能够及时利用家用健康设备进行数据采集;(4)健康管理app、微信公众号以及小程序均属于网络移动数据,该网络平台的作用在于记录患者各方面数据,包括医疗、体征以及检测等;(5)公共卫生资料,其中包括患者日常就诊记录,一般资料以及过往疾病历史等;(6)基因库以及基因信息;(7)包括会议论文、文献以及医疗指南等医学知识库。

1.3 健康医疗大数据的特征

健康医疗大数据不仅具有传统大数据的5V特征,即数据体量大(volume)、处理速度快(velocity)、数据类型多(variety)、低价值密度(value)、真实性强(veracity),还具有以下几种特性。

1.3.1 复杂性 医学术语涉及国内和国外医学术语及中文与外文表达表述方式,其中存在多种问题,例如常见的有属于标准存在分歧,中外文表达方式存在不同,此外还存在因更新速度过快导致医学术语表达意思与实际语义存在不同。通常情况下患者在医院诊治过程中常常患者作为中心,医生根据患者病情从多个维度来分析医疗数据。因数据产生的格式和要求不同,使得数据中存在大量非结构化、半结构化数据,显著提高了健康医疗大数据的复杂性,对后期数据处理和分析有更严格的要求[6]。

1.3.2 时效性 每个人的健康疾病状态均会随时间不断变化,并非固定、静止的。健康医疗大数据结合相关技术在恰当时间进行数据采集和处理,可有效获取数据的动态变化,增强数据的时效性,为后期应用提供更准确的数据信息[7]。

1.3.3 不完整性 无论是手工记录或借助于电子化方式记录健康医疗大数据,均会因各种原因导致数据不全或在记录过程中出现纰漏缺失造成数据不完整。

1.3.4 隐私性 健康医疗大数据中包含着患者检查、诊断、治疗、费用等大量隐私、敏感信息,甚至涵盖着人类遗传资源信息,通过数据分析和挖掘使得健康医疗大数据的隐私性呈现暴露化状态,可增加数据泄露、误用、滥用等不良事件的风险,使得健康医疗大数据在使用时的安全和伦理问题更为凸显[8]。

1.3.5 封闭性 医院在信息化建设过程中缺乏全面系统的数据共享机制,且各信息系统间有相对独立的信息标准,导致各系统间数据互联互通程度较低,存在“孤岛效应”,使得健康医疗大数据具有封闭性[9]。

1.3.6 海量性 理论上,健康医疗大数据可以具有TB甚至PB级的数据量,可涉及一个国家、地区的几家或所有医院的部分健康人群或所有人群,甚至仅仅是一家医院的全部临床医疗数据。实际上,一家中型医院一年即可产生高达几十TB的包括影像数据在内的医疗数据,就算去除关键的影响学数据,也有数百G的数据量,现如今我国大多医院都不仅单个部门的数据,而是多个医院数据进行联系。

1.3.7 追踪性 个体医疗健康大数据包括一系列内容,患者的临床数据资料也是根据时间进行排列,其中健康大数据一系列生命过程所产生的多点数据,包括人类出生、幼儿保健、注射疫苗、入学体检、毕业工作体检、看病、饮食情况、睡眠情况以及住院等多种情况,其中医院就诊中心电图数据需持续性进行观察,通过数据观察后来分析病人自身情况,也就是具有一定的追踪特性。

2 健康医疗大数据可溯源性的方法探讨

数据标准化以及结构标准化能确保数据质量得到保证。伴随互联网科技发展,不同来源的医疗数据在后期应用中很难实现,为此为了解决这一问题就需要高校追溯数据来源,确保数据来源达到可视化。其目的在于方便在后期过程中能够直接查找到相应的数据,从而达到减轻行业专家负担的作用。因人工标注工作效率较低无法满足医疗数据治理过程中对海量数据进行标注的需求,而半自动或自动的标注方法对海量数据进行标注可显著提高数据治理效率,且可以为后续相关研究提供高质量数据[10]。通常临床数据提交具有一定规则和要求,通过分析和完善相关规则能真实的反应数据情况,然后通过给予药物治疗疾病的临床特征、有效疗效评价指标等也逐渐得到重视[11-12]。真实世界数据作为CDISC项目之一,其目的是在电子健康记录或其他卫生信息系统中收集相关数据,应用到关键的可拓展用途中,如疾病登记、安全报告、临床研究及生物监测。

本研究以某省会城市某片区15家医疗机构现有医院信息系统(hospital information system,HIS)系统数据为基础,将所涉及的相关数据依据国家颁布的数据标准进行标准化及半自动化融合处理。通过对原始数据及数据模型的管理,赋予该数据治理平台以下功能:(1)提取原始数据的字段、表、表间关系;(2)构成能够对每个表和字段标注业务名称及备注的原始数据库数据模型;(3)提供根据业务名称或字段和表名称进行搜索的功能;(4)通过对字段和表的增加、删除及修改管理数据模型的功能。

在数据采集过程中,该数据平台对数据库中的用户开放账号权限表进行数据采样,将已存在的业务术语关联至对应的基础数据中,通过数据源映射至业务术语生成新的目录。为了将不同医疗机构的信息系统产生的数据融合成统一的格式,达到数据交换的目的,该数据平台通过自然语言处理(natural language processing,NLP)算法对数据进行去重、梳理、消歧、归一等,将整理后的业务数据模型添加到知识库中,在将数据依据对应的业务数据模型抽取、清晰至目标数据库中,并对数据采集过程的目标数据库(extract-transform-load,ETL)采取了透明化操作管理,使数据采集过程可视化,检索效率随之提升[13-14]。将融合整理后的数据信息按照公共卫生、药品使用情况、慢病管理等主题进行分类,后期数据分析以业务需求为导向,不同业务部门根据其业务需要进行数据筛选,进而规划医疗数据全景图进一步提炼有价值数据,最终梳理出健康医疗数据集市,在数据集市中抽取某分类下所需要的数据进行可视化计算。通过对该健康医疗大数据平台进行治理,可显著提高数据的准确性、完整性、一致性、合理性及时效性,达到提升健康医疗大数据质量的目的。并且健康医疗大数据平台可通过追溯数据来源达到数据质量控制的要求,通过患者、病种及科室能查看到该区域的医疗信息[15]。例如,通过搜索功能查看某一时间段该区域各医疗机构糖尿病患者就诊人数,为后期医疗资源分配等提供相关信息。

3 小结

现阶段属于健康医疗与互联网相互联系的阶段,构建大数据数据库作为全球性范围内各个医疗机构的方向,其作用在于构建信息网、采集人物相关信息等作用,使现有的健康医疗大数据呈指数级增长。因大数据本身除了具有分散、冗杂等特征外,导致很难顺应时代发展,导致其准确度较低。此外因大数据因数据质量不高,其准确度较低,一致性较差,严重情况时可能导致不能及时分析各种业务,一定程度也阻碍健康医疗发展。构建大数据数据库的缺点也会影响健康医疗大数据平台正常运营。与此同时使采集到的信息具有不确定性,导致的结果是影响数据质量,数据质量与信息的准确度、精准度及输出的正确性密切相关。健康医疗大数据的分析、信息导出的结果对人们的身体健康产生直接影响,因此对于数据质量有极高的要求。提高数据质量的方法之一是制定标准化管理,如在各个信息系统中的主数据、元数据等规范化填写。此外,对数据的使用进行审批流程化管理,制定各种情况下的审批流程的方案,具体详细限定数据使用人数,并落实负责执行数据标准、数据更新和数据质量跟踪的责任部门和人员。数据治理由信息流程秩序管理进一步发展至信息价值开发。

本文通过建立数据可追溯性全链的可视化平台,使该健康医疗大数据平台达到数据质量控制的要求,并提供数据采集、统计等功能,为数据应用提供结构映射、生命周期管理等。该健康医疗大数据平台通过建立跨系统或机构的识别规则,在跨系统或机构数据融合过程中实现较高质量的数据整合,从而达到数据采集的时效性和一致性,以满足后期不同数据分析和应用的需求。

猜你喜欢
医疗信息
医疗合同中医方违约责任的判定
订阅信息
京张医疗联合的成功之路
我们怎样理解医疗创新
医疗扶贫至关重要
特需医疗何去何从?
展会信息
什么是医疗告知
信息
健康信息