基于数据治理的先心病专病数据库建设研究*

2022-03-25 11:19袁骏毅潘常青戴锦杰
中国卫生质量管理 2022年2期
关键词:专病先心病结构化

——袁骏毅 潘常青 戴锦杰 李 榕 沈 兰

先天性心脏病(以下简称“先心病”)是指胚胎发育异常导致的先天心脏缺陷性疾病,发病率约占新生儿的7‰~10‰[1-2]。国内外已有医院展开先心病治疗影响因素的研究,建立风险评估及治疗策略模型,以减少术后并发症[3]。

近年来,医院信息化逐渐侧重临床,但业务软件繁多且彼此独立,科研数据仍高度依赖人工收集,费时费力且效率不高[4]。Mayer JE等[5]指出,通过对疾病数据智能采集和挖掘,有利于分析不同心电结果和临床症状对先心病术后干预的效果。本研究以上海市胸科医院的先心病专病数据库(以下简称“专病库”)为研究对象,解析专病库架构设计和运行方式,以期更好地支撑先心病的临床研究。同时,为其他医疗机构医疗数据的深度应用提供参考。

1 专病库数据集设计

专病库的目标是满足多层面科研需求,数据集的饱和度决定了数据分析的支撑力度。项目启动阶段,临床专家、科研人员以及信息工程师组成团队,讨论专项数据采集范围。数据集的设计借鉴了美国胸外科医师学会(Society of Thoracic Surgeons, STS)成人心脏外科数据库、儿童心脏网络(Pediatric Heart Network, PHN)数据库等,参考了国际疾病分类第10版、HL7ChinaCDA等10余项规范[6]。数据集共分为8个纬度,下分65个域,内含781个数据单元,构成了专病库“纬度-域-数据单元”的物理存储以及统计分析层次结构。从数据提取可及性角度出发,梳理数据单元采集点,如图1所示。每个数据单元均支持复合数值存储结构,拥有编码、名称、纬度标签、域标签、数值、参考值、提取源等12项属性,确保可追溯性和标识度[7]。

2 系统架构

专病库在医院临床数据中心(Clinical Data Repository,CDR)基础上,通过后结构化、脱敏安全和质控管理等数据治理过程,整合成病种数据集。采用面向服务体系结构的分布式网络架构,1台数据库服务器存储数据,两台GPU治理服务器用于后结构化等高通量处理,4台应用服务器提供单病种分析等扩展应用支持。系统架构如图2所示。

图1 数据集采集源分析

图2 系统架构

3 数据治理环节

3.1 数据汇集

病种数据集的源数据来源于多个异构业务软件,CDR的数据供给能力尤为重要。该院在2018年开展CDR建设,以患者主索引(Enterprise Master Patient Index,EMPI)集成服务为主线,汇集诊疗流程相关数据。如图3所示,CDR采用订阅发布技术,建立对应EMR、EDSS等生产库的操作型数据存储库(Operational Data Store,ODS),通过变化数据捕捉(Change Data Capture,CDC)技术,实时获取ODS的日志变更,使用数据库集成服务(SQL Server Integration Services,SSIS)工具, CDC将日志解析成增量待处理数据。由于业务软件的代码定义未必相同,依托于CDR的主数据管理(Master Data Management,MDM),以MDM的疾病代码、药品字典等医学术语映射集,进行标准化转换,标签数据的来源。EMPI提供了患者身份标识的主键服务,关联相同患者数据,根据交叉关系实施验证,判断汇集过程是否发生遗漏。遵循《电子病历基本架构与数据标准》的规范,如ADT.A01代表入出转信息,以标准截面建立cube[8]。支持孤岛系统及试验数据的导入,确保医疗数据的全量收纳。截止2020年底,CDR共对接32个业务应用软件,数据仓库容量16T,以年9.8%的速率增长。在针对新建应用的服务能力方面,建立了82万个索引,78个标准字典,502套字典映射,近1.2亿条内外交互日志,为医院建设专病库、学科评估等新系统提供了有效的数据供给。

3.2 后结构化

与药品医嘱等已经结构化的数据不同,病史文书通常包含大量非结构化的自由文本,后结构化属于数据治理的深度步骤,精度影响到海量病历的利用程度。对于EMR的心电报告、既往史等文本,需要通过自然语言处理(Natural Language Processing,NLP)和知识图谱的后结构化治理,转化成符合标准结构化数据项的字段和键值。系统建立了主动学习、迁移学习等机器学习的NLP处理流程,进行上下文嵌入的文本智能解析,实现命名实体、医学分词的提取,同步处理词义消歧和时序解析。

深度学习算法采用了条件随机场(Conditional Random Field,CRF)和双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)的叠加算法,以CRF的输出层作为BiLSTM的输入层,有效解决常规NLP效果不佳的情况[9],信息抽取的识别精度超过85%,识别覆盖率占文本可转换内容的92%。病史文本转化后,增加了时序逻辑及数据耦合的判读范围,如术中抗生素、术后病程录等交叉逻辑,基于知识图谱的医学分支逻辑,利用决策树、逻辑回归等AI算法,构建出分类合并最优模型,以信息增益的特征值对逻辑节点进行时间耦合度分析,使诊疗过程数据处于连续的时序排序。

图3 CDR数据汇集过程

图4 脱敏安全体系

图5 质控管理

3.3 脱敏安全

为保证隐私数据的存储和传输安全,处理过程采用脱敏技术手段。随着移动物联网的推广,患者个人隐私信息面临较大泄露风险。根据上海市卫生健康委员会有关规定,存储患者身份及生物信息的系统必须符合公安部《安全等级保护制度2.0标准》要求[10]。

如图4所示,敏感信息定义方面,除了姓名等明显的隐私项,还存在着表面无关联的、内含风险的数据,若未纳入敏感等级,一旦泄露也会带来损失。采用关联规则分析技术对敏感项进行界定,基于关联信息挖掘算法判定关联因子的可靠性程度,穷举算出敏感规则的置信度区间,确保在不损失数据价值的条件下更好地确定范围。脱敏处理方面,去隐私化过程采用加密算法,利用对称算法DES加密隐私项,EMPI等关系型外键采用不可逆算法MD5加密,并留有隐藏转换的目录对照。后台管理方面,结合审计监察需求,使用办公审批流程监督数据申请,保证审计日志的可靠性,定期更换加密算法的动态密钥,所有加密和传输均记录密钥版本号,以便出现问题时回溯。

3.4 质控管理

数据经过前序加工后,依然存在如检查医嘱无报告等空值情况,或者如出院小结和病案首页诊断不一致等逻辑互斥现象[11],因此需进行质控处理(图5)。针对预入库数据,一是采用AI自动全面质检方法,以EMPI和标准目录梳理患者数据,基于质控规则库的参考标准,检测关键指标的单变量约束,实施孤立数据分析和上下文联动检验,捕捉关系完整性、临床变量依赖性等情况。二是采用人工校验进行复核。质控人员按比例随机抽取患者信息,打开业务软件中的病历,判断治理过程是否存在偏差。根据自动和人工的检测结果,生成质量测评报告,实现质控统计指标的血缘追踪,监测诊疗业务和临床路径的变异情况,形成动态提示的深度质控面板。测评报告中详细列举发现的具体问题,原生数据问题反馈信息部门,追溯业务软件,提高采集准确性;违规性数据问题反馈医务部门,制定新的逻辑规则,规避再次发生。待问题纠正且达到测度评价分值要求时,终态数据才能被判定为合格,数据正式入库。

4 建设成效

4.1 专病库运行情况

医院的专病库已导入既往数据,进入了常态化运营阶段。专病库目前收纳了自2015年1月—5月的2 384例患者资料,男性1 026例,女性1 358例。平均年龄(35.2±25.0)岁,其中,18岁以上成人1 687例,占比70.76%,符合医院诊治成人心脏病为主的年龄分布特征;外省籍患者1 722例,占比72.23%,表明医院具有鲜明的专科特色和辐射影响力。

4.2 数据入库与提取

一是建立了日常的新增归档数据入库机制。每月15日专病库自动从CDR提取并治理上月的出院先心病患者资料,临床研究中心在质量测评报告上签字后入库。二是制定了完整的科研数据提取流程。研究者在院内办公平台发起课题数据申请,经临床研究中心、科教部、分管院长逐级审批后予以授权,研究者按批准的筛选范围,导出符合需求的脱敏数据。截至2021年8月,临床研究中心已配合完成6项先心病随访研究,通过快速提供所需临床数据,使研究者精准界定随访阶段与内容。

4.3 数据应用

利用AI技术实现了临床病史的后结构化,拓展了数据收集范围,体现出医疗数据的利用价值。赋予研究者全新的科研手段,全文检索功能支持预研队列特征项的模糊匹配,提高了查找和预处理数据的效率;构建了时序性的先心病数据集,避免了多源数据相互矛盾的现象,满足预测模型的训练需求,研究结论更可靠。

5 讨论

医院通过多源数据的智能化治理,建设高质量的专病库,解决了临床研究数据采集受限的问题,避免了人工收集数据造成的错误,提升了科研效率。

需要说明的是,专病库建设全程需要临床专家、信息技术人员及科研人员共同参与。临床专家前瞻性地厘清面临的问题,提出常规资料收集要求;信息技术人员具体分析从业务软件提取数据的可及性,设计并架构数据库,通过算法汇聚并清洗数据;研究者则利用数据库展开研究,提炼实际的研究证据,从而引申出新的问题。通过多方介入的运转流程,数据才能起到关键作用,形成以数据库为核心的研究闭环模式。

专病库的核心组件和模块具有较强的复用能力。但数据库建设费用高昂,而横向的复制成本相对较低。因此,在推广应用时,面对不同的病种,首先,如患者资料、就诊信息等相同数据,与病种独有数据应加以标记分隔;其次,多模态数据的处理中,抽取及治理逻辑常常也是类似的,区别在于病种代码和特定规则不同。因此,数据库的组件应采用“通用-病种”的方式整体定义,既减少软硬件资源的投入,也有利于缩短推广到其他病种的实施周期。

当然,专病库的建设是一个逐渐完善的过程,随着研究者使用次数增多,也会不定期地暴露出一些缺陷:如某类业务软件存在信息盲点,使源数据无法提取,缺失项需要研究者手动补充,数据无法共享等。另外,针对同一种特征的描述,医生的书写各异,导致提取不准确。对此,NLP算法的精准度,以及数据项的全面性和准确性有待进一步提高。随着诊前及预后模型的复杂度提升,医院信息化要不断改进,实现业务软件的前结构化改造,推动专病库持续优化,真正发挥出医疗数据的潜力。

猜你喜欢
专病先心病结构化
11 366例新生儿先天性心脏病筛查和检出情况分析▲
“互联网+医疗”背景下中医专病人工智能诊疗系统的现状及探讨
专科与专病护士合作模式在重症急性胰腺炎患者护理中应用的可行性分析
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
专科(专病)联盟建设成效评价调研报告
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
出生的不公
专病一体化管理理念在血液透析合并低血压患者中的效果研究