连续动态生理数据的采集-存储-交换利用模式探索研究

2020-05-20 01:54
中国医疗设备 2020年5期
关键词:生理动态数据库

1.解放军医学院,北京 100853;2.北京海思瑞格科技有限公司,北京 100853;3.解放军总医院 a.医学工程保障中心;b.医疗器械研发与评价中心,北京 100853

引言

连续动态生理信号是指连续记录的生理波形和生命体征数据,如心电、呼吸和血压波形以及心率、血压、呼吸率、血氧饱和度等生命体征参数,其特点是连续、动态、高采样率,其中蕴含着丰富的人体生理/病理信息。研究表明,异常生理信号可以在严重不良事件发生前数分钟到数小时帮助确定患者病情恶化[1],84%的患者在心脏骤停等不良事件发生前8 h就已经表现出恶化的迹象[2]。区别于传统离散的一天2~4次生命体征测量的信息,连续动态生理信号具有更高的价值[3-7]。

连续动态生理信号由于其连续和高采样率的特性,短时间内就可累积海量的数据,这对医院传统的数据存储和传输方式提出了新的挑战[7]。近年来,多项研究使用时序数据库和非结构化数据库如InfluxDB、MongoDB等探索了多种连续时序信号的写入、存储、查询等流程,连续时序的生理信号的存储问题在一定程度上得到解决[8-13]。但是连续动态生理信号存储-传输-交换利用过程中仍存在以下困难和挑战:第一,数据种类多样,储存需求复杂。连续动态生理信号的分析和利用需要结合更多的信息,包括患者的人口统计学特征、疾病史、用药和治疗记录等,这些信息存储于医院信息系统(Hospital Information System,HIS)、手工表格等,多为离散数据且本身存储方式各异,将这些不同种类的信息有序的整合起来,方便传输和交流利用,是目前相关领域最大的困难和挑战之一。第二,研究者间习惯差异,导致数据交换利用困难。由于数据科学家和临床研究人员对数据分析软件使用的差异,连续动态生理数据需要被保存成不同格式的文件,而最常见的储存格式TXT虽然能满足不同分析软件的数据交流[14-15],但不够便捷,面对极其复杂的临床数据上更是显得力不从心,急需一种通用的数据存储方式解决当前面临的问题。第三,数据保存容易遗漏关键信息。受限于数据采集时的技术条件和认知水平,在进行连续动态生理数据的二次分析时,往往会遇到想要的信息没有保存的情况,这种情况加大了数据的不确定度和为后续的分析带来很大的困难。

针对于以上连续动态生理数据存储和利用流程上存在的问题,本研究在使用医疗级可穿戴设备(SensEcho)低负荷、实时采集生理数据的基础上[16-17],提出一套对临床连续动态生理信号进行采集、存储和交换利用的流程。该标准化数据采集-存储-交换利用流程已在解放军总医院临床科室实施应用,结合患者临床电子健康档案(Electronic Health Record,EHR)数据建立起了基于连续动态生理数据的多元异构数据库,为后续的数据二次分析和利用奠定了工作基础。

1 材料和方法

1.1 SensEcho随行生理参数监护系统简介

本研究使用的SensEcho是一款医疗级可穿戴生理参数监护系统,此系统已经获得中国食品药品监督管理局认证。该设备可以提供200 Hz采样率的单导联心电信号,25 Hz采样率的胸腹呼吸信号,25 Hz采样率的三轴加速度信号,同时可通过蓝牙与血压、血氧、体温传感器连接,采集血压、血氧和体温等信息。该系统已成功在临床应用和收集数据,并在疾病、睡眠、运动等多个领域展开研究[18-19],系统整体框图和实物图如图1所示。根据解放军总医院具体临床科室的需求,入院患者会佩戴SensEcho设备,采集患者的单导联心电信号、胸呼吸信号、三轴加速度信号以及夜晚睡眠的血氧信号。所有采集的信号都会实时通过Wi-Fi网络传输到中央台进行显示,帮助医生和护士实时了解各个病人的情况。同时,数据也会在SensEcho的随行生理参数监测终端设备主机中储存,设备最长支持724 h数据存储[17]。

图1 SensEcho随行生理参数监护系统简介图

1.2 连续动态生理数据采集-存储-交换利用难点分析

使用可穿戴设备,连续动态生理数据的采集和传输问题在一定程度上得到了解决,实际的连续动态生理数据的采集过程中最关键在于数据质量控制,高质量的数据才能更好的推动后续的研究[20-21]。为了保证数据的质量,我们对临床护士进行一定的培训,指导病人穿戴设备,及时检查电极脱落报警等异常事件,以保证数据真实、有效、高质量。其次存储问题一直是连续动态生理数据分析使用的瓶颈。以本研究为例,心电的采集频率为200 Hz,呼吸、体位体动的采集频率为25 Hz,每一个病人产生的数据量一般超过40 MB/天,其数据量远超过电子病历系统一天生成的数据量(不包含影像数据)。为了解决海量连续动态生理数据的存储问题,我们使用了时序数据库InfluxDB尝试进行解决。

在数据的二次分析利用方面,连续动态生理数据分析利用的另一个难点是必须结合临床数据同步采集相关信息,目前虽然已经有很多可穿戴设备可以采集连续动态生理数据,但往往缺乏临床数据,数据缺乏标注和标签,对后续的数据分析工作造成了很大的困难。我们认为临床信息作为人类长期摸索和积累的经验知识,可以很大程度上作为标签辅助数据挖掘工作。因此,为解决临床数据的同步采集和存储这一问题,需要处理结构化数据和非结构化数据,我们使用了关系型数据库和非结构化数据库MangoDB。

1.3 连续动态生理数据的实时采集和存储

患者整个住院期间一般要求佩戴设备至少2次,分别为入院当天和出院前一天,每次采集24 h数据,真实采集情况会根据实际情况进行调整。数据采集期间患者可以自由活动,在病区Wi-Fi覆盖范围内,数据会实时采集并上传到服务器,当患者离开Wi-Fi范围后,数据会先在本地缓存,在Wi-Fi连接恢复后设备会寻找空闲时间上传数据。在数据采集流程中,首先与受试者沟通,获得受试者知情同意,之后受试者按照要求穿戴背心(本项目的伦理编号为 S2018-095-01)。

对于实时连续动态生理数据的采集和存储,我们采用的是基于时序数据库InfluxDB的方式。InfluxDB是一个开源分布式时序、事件和指标数据库,采用了时间结构合并树,针对时序数据的读写分别进行了优化设计。在写入时,将数据追加写入到日志文件中,并在内存中进行缓存,当缓存达到一定大小时创建新的日志文件,并启动压缩线程,将数据按照读取优化的方式压缩成TSM数据文件。InfluxDB数据库有效地解决了时序数据存储和利用的问题。

在建设InfluxDB数据库中,根据不同的采样频率,我们分别创建了200、50、25 Hz波形数据表以及1 Hz数值型数据表。其中每个表中都包含有患者ID、设备ID以及时间戳。波形数据表分别对应存储采集的心电、胸腹呼吸波、血氧脉搏波、三轴加速度信号,1 Hz数值型数据表中存储计算得到的心率、呼吸率和血氧数值。

临床数据主要分为两大类:结构化的EHR数据(由日常诊疗操作形成),如患者个人信息、入院记录、检查结果等;非结构化的临床记录,如影像学报告、医嘱、出院记录等。对临床数据的采集存储,即要处理结构化数据和非结构化数据,我们使用了关系型数据库存储EHR数据,用MangoDB存储非结构化的临床记录,以满足临床数据实时采集存储的需求。

1.4 连续生理数据的二次交换利用

1.4.1 连续生理数据的离线保存

分层性数据格式(Hierarchical Data Format,HDF)是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心创建的,以满足不同群体的科学家在不同工程项目领域的需要。HDF5是分层性数据格式的第五版,是目前HDF最新的数据格式(图2)。HDF5具有自述性、通用性、灵活性、扩展性以及跨平台性五种优点。HDF5文件主要有两种基本数据对象,一种是组(Group)另一种是数据集(Dataset),除了保存数据之外,还可以给数据注明各种对象类型,如数据类型(Datatype)、数据空间(Dataspace)、数据属性(Attribute)等[22-24]。

图2 HDF5组结构以及数据集结构

实际临床上SensEcho可穿戴设备采集的连续动态生理数据离线存储的流程包括:第一步,每个患者每次佩戴设备的数据保存在同一个HDF5文件中,文件以“病房简称-患者ID-佩戴时间”命名;第二步,根据采集终端的情况,保存采集的相关数据,我们需保存的数据包括心电波形、胸腹呼吸波形、三轴加速度、血氧波形和数值以及时间戳,把解压后的数据保存在HDF5文件根目录下,每个数据以HDF5数据集保存,各数据集以信号的名字命名,以信号的采样频率为数据集的数据属性,如心电波形数据保存成ECGList,其数据属性为200;第三步,除了原始数据之外还需要把一些常用的中间结果保存下来:心电波形需要保存R波位置、信号质量,呼吸波形需要保存呼吸的波峰波谷位置、信号质量。这些常用的中间结果以与第二步采集的数据相同的方式保存在每个HDF5文件的根目录下。

1.4.2 多源异构数据融合与共享利用

在连续动态生理数据的共享利用过程中,我们需要结合医院临床现有的数据,其中包括患者的基本信息、异常事件、专科特色数据以及医院HIS中的数据。针对解放军总医院具体临床科室的现状,专科特色数据包括吸氧情况以及心脏量子谱(Cardiac Quantum Spectrum,CQS)和血管内皮功能(Vascular endothelial Peripheral Arterial Tonometry,endoPAT)。除此之外,同时还结合了生理数据计算得来的心率变异性(Heart Rate Variability,HRV)指标。

(1)基本信息表和异常事件表。医务人员在给患者佩戴设备的同时,会发放24 h信息记录表,统计患者的基本信息,如身高、体重、年龄、血压等方便采集的信息。24 h记录表中记录患者在佩戴可穿戴设备过程中的日常行动和异常事件(例如,是否发生心脏不适、睡前是否服用安眠药等),异常事件均由患者主诉或者医务人员发现,再由医务人员进行记录。目前,我们数据库内专科数据包括吸氧数据、CQS、PAT数据。根据医务人员的采集表格进行双盲录入,最终形成特色的吸氧情况表和CQS-endoPAT表。

(2)HIS数据。从医院HIS中提取患者的个人基本信息与基本信息表进行比对,以防出现错误,提取患者生化检查结果,与其他数据进行联合使用。

(3)HRV指标。利用分析得到的患者24 h RR间期,进一步根据时间戳和实际需求选取相应区间的RR间期,计算HRV各项指标,包括时域的SDNN、pNN50等,频域的VLF、HF、LF等,以及非线性指标DFA、样本熵等。

本研究按照上述介绍的方式,利用在解放军总医院临床科室采集的相关数据,构建了一个如图3所示的生理生化数据集,方便数据存储和利用。

图3 临床科室综合数据集结构

原始采集的离线连续动态生理信号按照“病房简称-患者ID-佩戴时间”的方式命名,存储在服务器中作为最原始的备份。原始数据、HDF5以及数据库和整理的CSV表格之间,通过患者ID和设备佩戴日期进行匹配,确保每个患者的生理生化数据可以匹配起来。

2 数据采集结果

该系统自2018年1月开始在解放军总医院的临床科室部署使用,截至2019年3月,使用SensEcho随行生理参数监护系统共采集解放军总医院临床科室入院患者487人,948人次的数据。患者数据的实际采集情况统计如图4所示,从图4中可见,大部分患者数据采集次数在1~3次,而多次的数据采集方便了后续的研究对照,为了解疾病的发展和治疗进程变化提供了一定的参考。目前该系统仍在运行中,采集的数据按照上述模式进行收集。

图4 患者数据采集情况统计

数据集方面,每名患者每次采集数据均保存为一个HDF5文件,临床科室综合数据集一共存储了948个HDF5文件。其中HDF5文件大小平均值为411.7 M,采集时长平均为26.6 h,文件最大为1180.7 M,最长采集时长为71.8 h。数据库和CSV表格中基本信息表一共948条记录,记录了每名患者基本信息;HRV指标表中记录了所有HDF5文件计算得到的HRV指标,共948条;异常事件表记录了从2018年10月到2019年3月共117条记录;CQS-endoPAT表中记录了从2018年1月到2019年3月共471条记录;吸氧情况表记录了从2018年10月到2019年3月的共141条记录。由图5可见,73条(约52%)吸氧记录配套有吸氧前中后的连续生理信号采集记录,63人记录了一次,这些患者吸氧治疗时压力共分为常压、1.3绝对大气压(Atmosphere Absolute,ATA)、1.6 ATA和1.8 ATA,图5中展示了采集一次数据的患者每种吸氧治疗压力的人数。整个收集流程是在不断摸索中确定的,在临床合作过程中不断优化和改进工作流程,因此异常事件表和吸氧情况表的记录开始时间和基本信息表不一致。

结合采集的生理数据和临床信息,可以全面了解患者的真实情况,以便更好地治疗和研究。下面以一个患者为例,根据基本信息表和HIS数据可以知道患者是72岁的男性,身高165 cm,体重72 kg,诊断为冠状动态粥样硬化性心脏病、冠状动脉支架植入术后、高血压Ⅲ级,异常记录表中记录了患者在睡觉之前会服用安眠药,在治疗过程中经过1.3 ATA吸氧治疗,吸氧前后的各项连续动态生理信号变化如图6所示,该患者从竖红线(08:55:00)位置开始吸氧,前半段为患者在氧舱加压段的各项波形,一开始患者有所走动,随后开始静坐吸纯氧进行治疗。根据吸氧情况表记录的时间,选取吸氧前、吸氧中以及吸氧后的十分钟心电数据段,计算吸氧前中后的心率,绘制图7,从图7中可以定性看出,吸氧前中后的心率变化特征具有明显的差异,这种差异可能跟疾病的进程和治疗的效果具有联系。

图5 吸氧情况以及吸氧类型

图6 患者吸氧前后连续动态生理信号展示

图7 吸氧前中后心率变化

3 讨论和结论

本文介绍了一套我们目前科研工作中正在使用的连续生理数据采集-存储-交换利用的方法流程。在可穿戴设备、物联网、时序数据库技术飞速发展的今天,对各种连续生理信号采集和存储已经趋于完善,本研究中我们采用可穿戴设备和基于时序数据库InfluxDB的方式解决数据采集和存储问题,但单一的连续生理信号用于研究价值有限,因此需要加入其它医疗的信息以扩增信息维度。虽然现在连续生理信号的价值越来越得到临床的认可,连续生理信号中包含着大量患者个体化的疾病和健康信息[25],但长程的连续动态生理信号数据利用和信息挖掘依然是业界的困难之一,我们认为其中最大的困难在于数据缺乏对照和标注,工程领域过分的执著于使用计算机的方法对数据进行解读而很大程度上抛弃了医学领域的先验知识。我们充分利用临床资源,整合多源异构数据形成数据集,丰富了连续动态生理数据的对比和利用手段,在探索连续动态生理数据的分析利用上提出了一套新的方法,为后续数据的二次分析利用奠定了基础。

本研究仍存在一些不足:第一,目前该流程只在解放军总医院少部分临床科室进行了测试,缺乏其他科室的验证,在应用到其他科室的时候还需根据实际情况进行调整,尤其是专科数据表可以根据实际情况进行扩增;第二,区别于传统的数据库,连续动态生理数据集更为庞大和复杂,中间关联信息多样,容易引入人为的误差,造成数据的错误。

在未来的工作中,我们将致力于寻找一种自动化闭环的数据纠错机制,确保数据集中的数据信息没有因为人为因素导致的错误,数据更加准确;同时,我们将继续推进数据的二次分析与利用,探索和研究连续生理信号和疾病之间的联系,把临床收集到的珍贵的数据利用起来;再者,我们将延续此研究工作,继续推动医工联合发展,探索新的医工结合模式,加强医工之间的互相理解,为后续更高质量的合作奠定基础。

猜你喜欢
生理动态数据库
国内动态
国内动态
国内动态
大脑如何知觉音乐的形式美?——来自电生理的证据
肉鸡铬需要量及其营养生理作用
动态
铜绿微囊藻对锌、镉胁迫的生理响应
妈妈们产后的生理烦恼
数据库
数据库