心衰专病数据库的建设与应用

2022-02-25 14:45宓林晖潘常青袁骏毅李榕沈兰汤钦华
微型电脑应用 2022年2期
关键词:数据模型心衰分布式

宓林晖, 潘常青, 袁骏毅, 李榕, 沈兰, 汤钦华

(上海市胸科医院(上海交通大学附属胸科医院), 上海 200030)

0 引言

随着我国人口老龄化程度的不断加深,心衰患病率也逐渐增长。据最新流行病学调查结果显示,在2005年至2020年的15年间我国心衰患病率增加了44%,心衰患者增加了约900多万人[1]。为提升心衰患者的预后和生存质量,我国开展了大量关于心力衰竭的临床科研工作,但在科研数据采集方面仍存在一定困难。许多数据由科研人员人工填报而并非客观获取,不仅增加医疗机构的劳动负荷,而且数据质量也有待提升[2],因此,如何通过信息技术手段为临床科研提供数据支撑显得至关重要。本研究以上海市胸科医院为背景,通过构建标准化、高质量的心衰专病数据库,为科研人员提供丰富的临床及科研数据资产,并能满足临床多样化的科研数据采集需求。

1 系统架构

心衰专病数据库以行业的标准规范为指导,利用多源异构数据采集、分布式存储、数据抽取、转换、治理等信息技术手段,统一集成心衰患者的临床数据样本,建立结构化、标准化的专病数据库,实现专科数据的互联互通,系统总体架构见图1。

图1 系统架构设计

为了实现不同系统间异构数据源的采集、存储、加工,且保证临床业务系统自身的稳定和独立,本系统采用分布式SOA(Service Oriented Architecture,SOA)架构,从上到下分共为5个部分,分别是业务数据层、采集汇聚层、数据资源与治理层、应用支撑层和应用服务层。业务数据层中包括医院信息系统(Hospital Information System,HIS)、电子病历系统(Electronic Medical Record,EMR)等临床业务系统,以及生物样本库、基因组学库。采集汇聚层采用企业服务中心(Enterprise Service Bus,ESB)方式与各业务系统对接,既兼容了多源异构数据的采集,又保障了各系统自身的稳定性、安全性[4]。数据资源与治理层则对采集到的数据进行二次加工,利用患者主索引、自然语言处理(Natural Language Processing,NLP)结构化、数据质控等措施,生成高质量、标准化的心衰专病数据中心。应用支撑层提供统一认证、数据展现、数据分析、数据检索等服务,以API的方式供前端调用,支持JSON、XML等多种格式。应用服务层则根据不同的业务需要,为临床应用、科研分析、质量管控等业务场景提供了多样化的技术与数据支撑。

2 关键技术

2.1 分布式并行处理数据库

心衰专病数据库目前已存储数据总量约为1.46TB,后续每年增长量约在0.27TB,为满足大量临床数据实时查询处理的需求,采用大规模并行处理的MPP(Massive Parallel Processing,MPP)分布式并行数据库,其支持行存储与列存储,提供PB级别数据量的处理能力[3],数据库架构如图2所示。

它有别于传统数据库中二维表的存储结构,将数据按照用户需求划分为多个片段,存储于不同的数据节点中,节点之间通过网络通道实现通讯交互。当业务应用发起请求后,首先到达协调节点,该节点根据查询类型、数据分布方式、数据规模等进行自动评估,生成分布式执行计划,并下发到各个数据节点执行。在生成计划时,分布式并行执行引擎会依据数据分布情况,合理利用集群资源,产生最佳的查询路径,从而避免无意义的数据处理[4]。单个数据节点收到计算任务后,利用现代计算机的多核计算理论,采用流水线方式对数据库常用算子进行并行处理,如扫描、关联、排序、聚合等,从而实现了高度并行的计算能力[5]。同时,通过全局事务管理器生成全局事务ID,实现全局时间戳分配,从物理上保证了事务ID的有序性。

图2 分布式并行数据库架构

2.2 心衰专病数据模型

传统科研数据的采集主要以研究目的为主导,因此大多采用自定义形式构建模型抽取数据,导致数据标准的不统一,在后续开展多中心研究时容易产生共享障碍。为解决这一问题,本研究参考了国内外行业标准和规范,通过建立标准化、动态化的心衰数据模型,使临床数据在存储、发布、交换过程中遵循统一标准,保证数据的可比性和一致性[6]。心衰数据模型由通用数据集和疾病特征数据集组成,通用数据集是指普遍适用于各类心血管疾病的数据项,疾病特征数据集则用于描述心衰专病所独有的数据项。这种构建方式不仅便于对其他心血管病种的横向拓展,同时也支持对心衰专病数据维度的纵向延伸。心衰数据模型构建技术路线如图3所示。

图3 数据模型建设技术路线

在制定通用数据集时,选取了观察性健康医疗数据科学与信息学组织(Observational Health Data Sciences and Informatics,OHDSI)发布的通用数据模型(Common Data Model,CDM),并在此基础上参考国内相关行业规范,如中国卫生信息数据元值域代码WS364.X-2011、电子病历基本数据集WS445.X-2014,对数据元、值域等,并进行本地化定义。构建疾病特征数据集时,以相关疾病诊疗指南为指导,对医院现有疾病队列数据进行分析归纳,梳理出心衰专病的特征指标,如特征性心电图结果、心脏生物学标记物等。最终,将通用数据集与疾病特征数据集两者相结合,汇总构建成心衰专病数据模型。

2.3 基于NLP的数据处理技术

在临床数据中,高质量的结构化数据较为有限,大多用于记录患者的基本情况、诊断、医嘱等重要信息,其余则多是以文本为主的非结构化数据,如主诉、现病史、检查报告等[7]。针对这一数据特点,建立了一套以自然语言分析为基础的数据处理系统,用于将大段自然语言转化为标准字段和阈值。以心脏超声报告为例,处理流程如图4所示。

图4 心超报告NLP处理流程

首先,基于NLP(Nature Language Processing)技术对心超报告中的非结构化数据进行处理,通过分词、句法分析、词性标注、命名实体识别等环节,对大段文本进行预处理,得到较为干净的文本内容[8]。如超声描述中“左房内径仍增大,约46 mm”,经预处理后,转化为“左房内径增大,左房内径约46 mm”。其次,基于NLP技术耦合集成机器学习算法,将预处理后的文本拆解为项目名称、值、单位、修饰等字段,解决传统NLP技术在医疗领域使用效果不佳、拓展性不足的问题[9]。在此基础上,利用术语映射引擎对已结构化的数据进行标准化转换,如诊断编码与ICD-10映射,临床所见、医疗操作、微生物等与SNOMED-CT映射等,为后续数据的利用和共享打下基础。最后,将标准化、归一化的心超报告数据导入专病数据模型的疾病特征数据集中,实现心衰患者的数据展示,满足科研数据分析需求。

3 应用效果

目前,本研究已完成心衰专病数据库建设,共纳入2015年至2020年间4388名患者的数据,包含5192人次的就诊记录、799 423条用药信息、93 180份检验检查报告、74 971份病历文书等。并且形成了标准化的心衰专病数据模型,该模型分为通用数据集和疾病特征数据集2个部分,其中通用数据集包括基本信息、就诊资料、危险因素、诊疗费用等共14个模块498个数据项,疾病特征数据集则纳入了心脏超声、CRT治疗2个模块共95个数据项,如表1所示。

表1 心衰专病数据模型

在专病数据库中,医生可选择不同的研究变量,自由组合进行检索,检索范围包括各类病历文书、医嘱、检验检查报告、随访记录等内容。此外,为进一步提高可及性,该数据库还支持直接利用自然语言作为筛选条件,通过NLP技术自动解析临床研究者的筛选条件,融合不同来源的知识进行概念的语义扩展,并使用关联规则、贝叶斯推理等技术对临床数据进行挖掘,尽可能筛选出跟医生所述条件相符或接近的患者。

4 结论

在传统的临床科研过程中,患者病例数据的采集通常要花费医生大量的时间和精力,而且人工手动的方式效率低下,容易造成记录错误[10]。本研究结合大数据及自然语言处理技术,以患者为中心对多源异构临床数据进行整合,形成完整的、标准化的、高结构化的心衰专病数据库,为临床科研提供丰富的基础数据支持。该数据库的建立不仅提高了临床科研人员的工作效率,而且有效避免了人工采集所带来的失误,进一步保障了科研数据质量。未来,随着科研要求的不断提升,将对心衰专病数据模型进行持续优化和扩展。在数据利用方面,后续将以数据库中的海量数据为基础,结合深度学习、知识图谱等人工智能技术,开展心衰治疗和预后风险预测模型的研究,以实现心衰预防、诊断和治疗的智能化,从而全面提升临床的救治能力和技术水平。

猜你喜欢
数据模型心衰分布式
老人气短、浮肿、乏力,警惕慢性心衰
国外心衰患者二元关系的研究进展
睡眠质量与心衰风险密切相关
讨论每天短时连续透析治疗慢性肾脏病合并心衰
基于区块链的微网绿电交易数据模型研究
基于Pro/E 的发射装置设计数据快速转化方法
浅析分布式发电对电力系统的影响
基于预处理MUSIC算法的分布式阵列DOA估计
分布式并联逆变器解耦电流下垂控制技术
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型