基于数据治理的专病数据库建设实践

2022-09-07 15:00龙思哲吴震天黎鹏安张敦明

医学信息学杂志 2022年7期

关键词：专病结构化数据库

龙思哲吴震天黎鹏安张敦明王毅周毅

(中山大学附属第一医院信息数据中心广州 510080) (中山大学中山医学院广州 510080)

张武军

(中山大学附属第一医院信息数据中心广州 510080)

1 引言

2016年6月国务院办公厅发布的《关于促进和规范健康医疗大数据应用发展的指导意见》提出，健康医疗大数据是国家重要的基础性战略资源，要大力推动政府健康医疗信息系统和公众健康医疗数据互联融合、开放共享，消除信息孤岛，积极营造促进健康医疗大数据安全规范、创新应用的发展环境[1]。2021年6月发布的《关于推动公立医院高质量发展的意见》指出，医院应加强临床专科建设，以专科发展带动诊疗能力和水平提升；推进医学技术创新，加强基础和临床研究；强化信息化支撑作用，推动大数据等新一代信息技术与医疗服务深度融合[2]。随着健康医疗大数据价值凸显，基于真实世界数据的临床研究成为医学高质量发展新动力[3]。医院信息系统是专科、专病数据的重要来源。以往系统建设以业务流程为导向，信息标准化程度、互联互通成熟度不足，产出数据质量难以保证，给专病数据库的建设和临床研究带来巨大挑战[4-5]。中山大学附属第一医院(以下简称中山一院)是国家卫生健康委员会部属大型三甲综合医院，2017年建设的基于卫生信息交换平台(Healhcare Information Exchange, HIE)[6]的临床数据中心(Clinical Data Repository，CDR)，已汇入2003年至今约155万份住院病历，包括住院病案首页、电子病历文书、检查、检验、病理、医嘱、护理记录、用血记录等。2020年起启动专病数据库建设，通过全周期治理，逐步解决数据标准不统一、采集低效、精准度不足、质量无法核查和溯源等问题，形成长期持续、动态实时、初具规模、日趋完善的数据资产积累，构建统一化、标准化、结构化、可视化的专病数据库，加速临床病例资源到医学研究资产转化[7-8]。

2 专病数据治理

2.1 医学术语标准化

目前国内尚无统一的医学术语标准，且部分标准存在缺乏整体概念体系、结构化定义不清、覆盖面不全等问题，为建立与需求相适应的标准化归集体系，专病数据库集成医学系统命名法-临床术语(Systematized Nomenclature of Medicine Clinical Terms，SNOMED CT)，观测指标标识符逻辑命名与编码系统(Logical Observation Identifiers Names and Codes，LOINC(R))，中文人类表型标准用语(The Chinese Human Phenotype Ontology，CHPO)，RxNorm，国际疾病分类第9次、第10次修订本(International Classification of Disease V9，ICD-9/10)等数据标准[9]，定义临床术语本体中的重要概念类、类之间关系、类属性及属性分面。建立术语间关系，在相同条件下具有同义关系的术语赋予唯一代码，实现多源数据互联互通。

2.2 数据采集与交互

2.2.1 抽取-转换-加载(Extract Transform Load，ETL) 应用ETL技术快速接收业务系统大量数据，减少数据采集对生产业务系统的影响，实现多个数据源的同时统一采集，避免数据转换系统对数据源的直接操作，同时进行清洗和标准化操作，包括数据字段映射、字典转换、跨域主索引患者主索引(Enterprise Master Patient Index，EMPI)、数据校验等步骤。

2.2.2 交互管理表视图查询方式便于接口开通和维护，数据入库效率快，平台主要通过其实现与院内生产系统的数据对接；Web Service对接方式较固化，传输安全性能较高，更多应用于隐秘性较强的数据对接通道构建；部分数据可通过备份库在业务数据仓库(Operational Data Store，ODS)直接还原，适用于获取历史数据，但增量数据同步效率受限。综合考虑时效性、安全性、统一管理等因素，目前主要采用Web Service、消息推送进行不同类型数据的交互。

2.2.3 同步机制数据同步时间一般根据需求分T+0、T+1、T+N等，不同模块、类型的增量数据对接方式、对接频率可差异化处理，如患者基线数据、基础诊疗信息实时推送；检查、检验、病理数据由于存在滞后或延时，考虑在实时推送基础上增加定期遍历搜索前一时段内该部分数据的功能，保证患者信息完整性。

2.3 数据集成

专病原始数据来自多个信息系统，包括医院信息系统(Hospital Information System，HIS)、检验信息系统(Laboratory Information System，LIS)、医学影像存储与传输系统(Picture Archiving and Communication System，PACS)、病案、电子病历、手术麻醉等业务数据。通过梳理患者全诊疗过程产生的业务数据，形成15个标准的业务域分类和221个标准的检索项，见图1。标准业务域主要包括人口学信息、就诊信息、诊断信息、一般检验、微生物检验、检查报告、医嘱记录、中医药方、门急诊病历、住院所有病历、入院记录、出院记录、手术记录、病案手术、生命体征，还可根据需求进行扩展，新增重症监护、肿瘤放化疗、生物样本库、生物信息多组学、随访队列等[10]。

图1 专病通用数据集

2.4 数据融合

2.4.1 患者主索引以往医院患者的门急诊号、住院号单独设置，给同一患者专病数据的整合带来困难[11]，需完善院内患者主索引。完成标识字段治理，如身份证号、联系电话等规范化处理或清洗，地址的归一或截取，数据去冗归一，以便EMPI判断更精准；通过设定主索引权重和阈值，判定多条患者数据是否归属同一个EMPI，见图2。针对判定失败的患者可暂缓轮循，直至一段时间后再度执行轮循匹配，反复完善。

图2 患者主索引设置

2.4.2 诊疗流程融合梳理专病数据集-诊疗活动、时序逻辑-数据采集来源的对应关系，以关键事件的发生时间为标志，形成患者诊疗时间轴，实现数据逻辑有序排列。以特定展示、查询方式回嵌业务系统，用于复诊、随访等业务场景，见图3。由于不同数据源的时间跨度不同，不同事件之间有复杂的时序逻辑，需分层次整合不同时间颗粒度的数据，利于在后续分析中，通过特点指标回顾或预测患者转归或预后，为优化专病诊疗路径提供依据[12-14]。

图3 专病诊疗流程融合(以肿瘤为例)

2.5 数据归一

参照诊断、手术、药品、检查检验项目等数据标准和项目编码目录，通过自然语言的同义词表、医学术语的同义关联词表，在数据挖掘算法指导下，对文字表达不同但含义相对一致的字段信息进行归一，为后续和上层应用提供正确且统一的信息表达。以标准表为基准，将数据实际出现的医疗词向标准表做映射，包括机器学习加人工标注的过程。当出现标准表难以覆盖实际数据时，由专业医师决定是否扩充标准表。

2.6 数据结构化

2.6.1 后结构化针对历史文本类数据，运用自然语言处理(Natural Language Processing，NLP)技术分析文本隐含语义和上下文结构关系[15]，发现和挖掘结构化所需的知识模块，主要包括分词、同义词、主题和属性词关系图谱、上下文匹配逻辑、规则库、正则模板等[16-17]。首先，进行专病文本自主学习、自动标注，计算准确率、召回率；其次，自动标注不理想的数据元，筛选由近及远的标准病例，由临床医师人工标注；再次，进行机器学习并建模，增加样本量迭代完善标注模型；最后，标注结果人工审核，不断迭代完善，满足专病不同语料数据要求[18]。

2.6.2 前结构化一般规律、有效信息的密度越高数据前结构化的价值越高、应用效果越好。主要针对病历文书、医技检查报告、功能评分量表等文本的增量数据，进行前瞻性结构化采集、存储和预处理，见表1。前结构化改造由专病科室发起，涉及检查报告的还需联合医技科室共同设计模板、数据采集、运算逻辑、触发场景等，满足临床科研数据精准、精细的应用要求。

表1 前结构化改造范畴

2.7 数据质量核查

通过优化业务流程、完善接口性能，保障数据完整性；设置数据录入规则、逻辑校验机制等保障准确性；以患者号(住院号、门诊卡号)为第1维度，就诊流水号为第2维度，强化业务数据关联性；核查字典值域范畴，完善字典版本管理，约定业务数据流向，保障数据一致性；判断时间逻辑关系、同步机制，保障及时性。此外还有规范性、唯一性等控制指标，缺失值、无效值、重复值等异常发现与处理。

2.8 数据安全管理

设置权限管理模块，根据合法合规、最小需求原则为用户分配不同的角色、用户组，防止用户越级操作造成数据泄露；对信息更改等重要操作进行日志自动记录，提供用户名、访问记录、IP、登录时间、操作内容等用于回溯；针对敏感级别较高的数据采用加密或安全传输协议进行处理，对敏感字段的操作应有日志或报表供审核，严格控制对敏感数据的复制、导出等功能[19]。

3专病数据库核心功能

3.1 科研中心

根据研究目的创建科研项目，自定义研究队列纳入和排除条件；根据条件进行检索，利用原文检索、高级检索及条件树检索进行模糊检索或精确查询；根据检索到的病例对接院内患者全息展示，基于结构化内容进行视图展示，核查圈定研究对象；从病种数据映射，自定义衍生变量，形成所需的临床实验观察表(Case Report Form，CRF)数据项变量；进一步核查所筛选的数据是否符合要求，经必要的审核流程后，以多种形式导出，供后续统计分析[20]。

3.2 病例中心

支持按照患者的门诊、住院就诊时序逐个展示单个就诊次序下的患者全量诊疗信息，内容包括基本概览、病历、医嘱、检验、检查、量表、护理等信息。展示患者核心指标信息及对应的疾病信息，实现患者个人画像视图构建，方便临床科研人员更直接查看患者总体诊疗情况，辅助临床科研入组判断。

3.3 随访中心

根据随访目的创建随访项目，自定义队列纳入和排除条件；根据患者身份证或就诊卡号进行检索，识别目标随访用户；通过签署知情同意书、授权书等将患者纳入随访队列进行后续随访计划安排；根据随访队列的研究需求制定随访表单，并对随访进行预警分析和干预；制定失访等特殊事件的管理策略和处理流程，随访完成的问卷数据按权限申请导出下载，见表2。

表2 专病数据库通用功能

4 结语

截至2021年末中山一院已开展20个专病数据库建设，入库病例数超过50万份，60多位专病医师、研究助理通过专病数据库进行真实世界数据探索，已支撑多项回顾性、前瞻性临床研究，将推动科学研究和临床工作的规范化、标准化、规模化，进一步提升专病临床研究能力，反哺和促进学科发展。通过专病数据库建设实践，发现业务系统、集成平台在数据标准、交互机制等方面存在的不足，需加强临床科室、管理部门、信息部门、承建商的高效沟通协作。下一步将继续以专病需求为导向、问题为切入点，推进数据治理的标准化、规范化、合理化落地，逐步构建基于专病数据资产的综合治理体系。对数据库功能进行迭代和扩展，形成院前-院中-院后的专病全程闭环管理；建立院级科研数据中心，依托多中心共享平台完善专病区域联盟的数据资源合规共享和多元应用，共同构建我国疾病诊疗规范。