人体健康态信息评价规范研究

2022-11-15 12:38胡迪坤高伟东于伟泓徐海燕韦张婉钰李东辉敏许岭翎何书励王现强田美策王煜非
中国医药科学 2022年20期
关键词:数据类型时序标签

胡迪坤 高伟东▲ 于伟泓 徐海燕 韦张婉钰 李东辉 黄 蓉 彭 敏许岭翎 卢 强 何书励 王现强 田美策 王煜非

1.北京邮电大学信息与通信工程学院 泛网无线通信教育部重点实验室,北京 100876;2.北京协和医院眼科,北京 100730;3.北京协和医院呼吸科,北京 100730;4.北京协和医院内分泌科,北京 100730;5.北京协和医院神经科,北京 100730;6.北京协和医院营养科,北京 100730;7.中国医学科学院阜外医院 国家心血管病中心,北京 100037;8.上海市第六人民医院糖尿病研究所,上海 200233

健康是社会公众关注的焦点和热点,也是幸福指数的关键指标之一。为了让人们以更好的状态面对未来快节奏的学习、工作、生活以及竞争挑战,健康管理作为一门学科和行业正在兴起并日趋完善。健康管理通过采集人们的生理信息、社会环境信息与健康数据来预测受测者的健康状态。在建立人体健康态信息数据库的过程中,数据采集的不规范与设备良莠不齐导致了目前的健康信息采集混乱、评估结果准确性无法得到保障。为了保障用于准确评估人体健康态的高质量数据,推动健康态评价的科学化和规范化,本研究针对不同类型健康数据进行分析,设计了健康数据的质量控制规范,为后期医疗和健康应用提供依据。

1 资料与方法

1.1 数据采集

本研究依托于国家重点研发计划“主动健康和老龄化科技应对”专项课题(2018YFC2000803),隶属于“主动健康产品和人体健康态评估的安全有效体系及标准体系研究”项目。该项目在全国不同地域,针对不同人群,构建体温、体重、体脂率、血压、心电、心率、血氧、血管弹性、心肺音、血糖、脑电、呼吸、睡眠、眼底、屈光状态等数据采集的协同网络,实现健康态数据的动态实时上传及统一管理。数据采集地除了北京协和医院、中国医学科学院阜外医院等课题参与单位,还包括医院体检中心、基地医院、社区卫生服务机构、健康数据中心、居民家庭等其他数据源,实现多中心的数据采集,避免数据来源单一、设备型号单一导致的数据偏差。

数据种类与采集量:①心血管健康采集静息血压、动态血压、心率及心率变异性300例,Holter动态心电图500例以及长程的心电监护数据300例;②糖代谢健康采集无创穿戴式血糖监测、SMBG血糖监测与CGM持续血糖监测300例;③睡眠健康采集睡眠脑电图、睡眠质量睡眠结构、睡眠体位、鼻息气、肢体运动等睡眠多导图PSG数据100例,可穿戴式睡眠监测设备(智能手环、体动仪2~3种)500例与睡眠监测床垫200例;④视健康采集眼底成像照片5000例;⑤呼吸道健康采集呼吸气体分析数据、肺功能指标与指压式血氧检测数据200例;⑥日常健康数据采集测试者体温、身高、体重、体重指数(BMI)与体脂含量1000例。在测试过程中,根据实验条件与实验设计需要,受测者分别进行以上一类或者多类的健康项目数据采集。

1.2 实验数据分组与标签获取

建立人体健康信息数据的过程中,测试者会接受视健康、呼吸健康、糖代谢健康等8大类22项健康信息的采集[1]。获得的健康数据类型不局限于离散型数值数据,还包括时间序列数据、影像数据、文本数据等多模态数据,这些多模态的数据之间在数据结构、数据类型和信息内容上都具有显著差异。随着中检院牵头起草的IEEE P2801医学人工智能数据集质量管理国际标准的正式发布[2],揭示了未来对健康数据质量管理方面的需求提出了更高的要求。为此,本研究针对健康信息数据研究了数据质量控制的方法,建立多个节点的健康数据质量控制体系,根据数据采集设备、采集流程和方法、采集场景、数据的可重复性和可信度,制订相应的数据采集和质量控制的标准和规范。

对于数据采集人群的纳入以及排除标准由各科室专业人员决定。理论上获取的8类数据分别对应8类人群,如睡眠科数据获取人群以患有睡眠障碍的中老年人群为主,血压数据是从参与社区体检人群中获取。数据的采集标准以及数据标记流程由多位该领域的从业人员,根据其业内的专业知识给出数据质量评价结果。数据质量的标签分为3类,0表示存在严重数据质量问题被认为不可用的数据;1表示数据中带有一些异常但仍被认为是可用的普通信号质量;2表示信号质量好。每个样本需至少3个人进行标记。当同一组样本2个人标记结果与第3个人不同时,按少数服从多数原则。当同一组样本3个人标记结果均不相同时,视为信号质量普通。由于不同数据对信息的灵敏度要求不同,所以不同数据的质量标签样本的对应的时间长度不同。为了后续建立测试者一体化的数据质量报告,与专家进行沟通将不同数据的质量标签对应的时间长度控制在1 min的整数倍。不同数据类型的质量标准与标签获取的难度也不同,时序连续型数据和影像类数据如眼底照片、脑电等具有丰富的信息且数据的质量标准成熟,所以可以得到完整的数据质量标签。相比之下,血压、血糖、呼吸气体成分等静态离散型数据的信息量少且业内没有完善的规范标准以获取质量标签,所以可以用于研究不同设备与不同操作规范对该类健康信息的影响。

1.3 实验方法

信号质量标签获取的完整度以及后续训练采用的人工智能模型都与数据类型密切相关,本研究建立的健康数据的质量控制方法根据健康数据的类型分为3类:①针对血压、血糖、呼吸气体分析等离散值类型的数据质量控制方法;②针对心电监护、脑电、PSG等持续性输出数据类型的数据质量控制方法;③针对眼底照片、屈光检测图像、脑电图等影像输出数据的质量控制方法。

1.3.1 离散数据类型质量控制模型 离散健康数据类型是由多项个体生理指标:血压的3项指标、血糖的4项指标以及测试个体的身高、体重等基本信息构成。该类数据除明显的数据异常、数据缺失和数据格式异常外,常见的异常还包括数据范围异常,数据趋势性异常和突然波动性异常。但由于其信息量少且各项指标间关系的不明确性,所以难以得到离散数据的质量标签,通常需要通过无监督聚类学习方法进行估计[3]。

对于离散数据的波动性异常,可通过观测一类指标中的多个属性之间是否出现异常。如在呼吸的3项指标中的呼吸气体分析、肺功能指标、指压式血氧检测,这3个属性之间具有高度的耦合关系而非独立[4]。所以突然波动检查是根据测试组内3项指标的突然性波动或者对属性间数值是否合理进行的监测。由于属性之间的高度相关性,所以采用拐点法与基于密度的离群因子来联合判别异常[5]。离散型数据质量控制除了对明显的异常数据进行筛选,还可以用于研究不同设备与不同操作规范对该类健康信息的影响。对主动健康设备与医用设备采集的数据的统计学特征进行比较,以及对规范操作和不规范操作条件下获取的数据统计学特征进行比较,通过控制环境变量和设备变量,将标准设备以及规范操作视为标准值,记录其他条件下的健康态参数见图1。根据图1可以得到不同测试条件下健康参数的偏差与分布情况。

1.3.2 时序连续数据质量控制模型 时序连续的健康数据是记录个体一段时间内生理参数变化的数据,如睡眠心电、睡眠眼电以及睡眠心冲击信号等。针对时序连续类型的数据,人类专家视力检测的规则是依据数据的波形特性,即根据信号的幅度特性与周期特性将数据划分为正常数据段落与异常数据段落[6]。专家通过异常信号占整体信号长度的比例来判别该段信号整体的数据质量。由于获取连续数据质量标签的工作量远大于影像数据,且数据质量标签反映异常数据的严重程度具有模糊性,所以本研究采用半监督学习方法进行训练。将整段数据划分为多段的信号单元,通过无监督学习聚类得出这些信号单元中的异常项,最后根据整段数据中异常单元的分布与占比情况有监督学习得出信号整体的数据质量标准。

为了增强训练模型的泛化能力,将时序信号的波形特性抽象为特征向量。提取出特征包含熵值类特征(样本熵、能量熵、多尺度熵等)[7]和数学统计类特征(均值、均方差、方差)[8]。基于PCA技术的半监督学习方法训练标签不完整的模型。该方法大致分为无监督学习过程与监督学习过程。在无监督学习过程中,利用PCA故障检测的原理将信号一个特征窗内的多维特征作为t时刻的在线数据进行故障检测。根据数据异常占比越大信号质量越差,且多导联的数据之间具有相似度高的性质。对故障检测模型中的特征和参数进行调整,获取最佳故障检测方法,即信号通过故障检测聚类后,信号质量越高的样本中检测出的异常数据段落越少,同时多导联数据之间的故障检测结果越相似。基于最佳的故障监测方法,将多导联的连续数据转化为0-1的最佳故障检测矩阵结果。采用有监督学习的方法建立故障检测结果与人工标签之间的映射关系。多组连续的故障检测结果作为训练集,对应的人工标签作为标签集,可以训练出特征映射矩阵。根据在线故障检测结果与特征矩阵得到在线数据的质量估计结果,整体流程见图2。如果全程只采用机器学习,一方面对训练样本的需求量大大增加,另一方面也增加了参与处理的数据量和运算的复杂度,会令算法难以运用在实时的线上输出模式。而只采用无监督学习进行故障检测则缺少了性能的反馈,往往难以获得较好的分类效果。相比本研究采用的半监督学习方法,综合两种不同学习方法更加适用于临床实践的需求。

图2 时序连续数据的质量控制流程

1.3.3 图像数据质量控制模型 对于影像类数据,其质量标签的获取难度较低,易于得到完整的数据质量标签,所以人工智能模型的选择上主要采用有监督的学习方法。相比其他两类数据类型,影像数据拥有丰富的信息量。在不同的场景下图像中的有效信息具有差异性,因此通过视觉检测相对于基线显著变化的时频区域,利用图像分割技术划出感兴趣的区域(ROI)缩小目标范围[9]。如在脑电图像中,根据脑电的δ波(1~3 Hz)、θ波(4~7 Hz)、α波(8~13 Hz)和β波(14~30 Hz)所处频段特性,用快速傅里叶变化公式分别计算出不同频段数据在图谱中的大致位置,并筛选出目标图像范围[10]。信号处理是进一步的定位目标数据并将其干扰项分离的过程。

为了增强模型的泛化能力使系统更广泛地适用于多种健康影像数据的场景,本研究从处理后的图像数据中提取通用特征ERS/EDR,手动提取特征和卷积网络自动抓取的图像细节特征[11]。其中通用特征中包含有图像平滑度、熵聚焦准则、欧拉数、前景与背景能量比,这些属性能直观反映图像特性的特征[12]。手动提取特征的获取则需要结合数据的信号知识和医学的背景,运用这些特征区分和识别常见的运动伪影、汗性伪迹、工频干扰等特殊图像质量异常现象[13]。自动抓取的图像细节特征则是利用深度学习网络从图像信息中筛选一些肉眼难以发现的隐形特性。将这些特征进行融合并输入到学习网络中用于训练特征到质量标签的映射。最后基于有监督学习的图像质量自动评价体系,利用诸如Weka机器学习工具箱[14],将至少3个单独的分类器的输出融合在一起。用于融合的集成分类器是一个投票系统,它使用“最小概率”组合规则组合不同分类器的后验概率得到最吻合训练标签的判别结果[15]。当影像数据是时序连续型场景,每个样本序列之间具有较强的时间相关性。则需要补充隐马尔科夫模型或动态贝叶斯模型来获取样本在时间序列上的连续性关系[16],整体流程见图3。

图3 图像类型数据的质量控制流程

2 结果与讨论

2.1 离散型健康数据的数据统计

通过对离散型数据在不同设备与不同情境时测量的健康态参数的统计与比较,本研究得到不同健康态参数在规范操作与非规范操作下的数据统计,见图4。图4中测量点距离坐标轴对角线越近则表示医用设备与主动健康设备在该环境下的差异越小。图4显示非规范操作对主动健康设备测量舒张压的影响远大于测量收缩压。在相同测试环境下,主动健康设备与医疗设备对收缩压的测量基本一致。而对于舒张压的测量医用设备与主动健康设备测量的结果则有明显的差异。通过对情景的进一步细分,将测试环境分为4类,分别比较4类环境下主动健康设备与医疗设备对舒张压的测量偏差如图5。图5显示,在情景1下,主动健康设备的测量结果普遍偏高,而在情景2下主动健康设备测量的结果则普遍偏低。由此得知在操作不规范时,主动健康设备测量的舒张压不准确,且误差的偏移与具体的操作习惯有关。

图4 不同操作规范下医用设备与主动健康设备的健康态数据

图5 不同操作规范下医用设备与主动健康设备的健康态数据

2.2 时序连续数据与图像数据的质量评价规范

对时序连续数据和图像数据质量控制模型的训练,按照通常训练集和测试集的划分方案,大约80%的数据被用来训练,剩余约20%的数据被用于测试。对健康数据尤其是具有完整质量标签的图像数据和部分质量标签的时序连续型数据进行训练后,在测试样本中混淆矩阵的情况见图6。图6显示该质量控制模型对信号质量具有显著的区分能力。针对图像数据类型与时序连续数据类型质量控制的性能见表1。

图6 图像数据与时序连续数据质量的混淆矩阵

表1 图像数据和时序连续数据预测性能(%)

对于同种数据类型但不同场景的数据,如心电数据和脑电数据,眼底图像和脑电图像之间的训练性能虽然存在一定差异但整体性能与均值性能偏差在±2%~8%。与时序连续数据相比,图像数据的伪影,伪迹等干扰比时序性信号更显著,所以在图像质量控制中质量控制的性能优于时序连续数据的质量控制。但在临床的运用中除低质量数据无法使用外,中质量与高质量数据均可以正常使用,两者识别模糊对实际影响不大。所以在时序连续数据中虽然质量控制的性能不如图像数据,但仍具有临床使用的价值。

本研究质量控制的方法借鉴了模型迁移的思路,在保留同类数据的一些共性特征外,通过专家建议与数据分析添加该数据的个性化特征。提高模型利用率的同时也考虑到了各类数据之间的场景差异,切合了健康数据管理的运用场景。综上可知,本研究建立的健康数据质量控制方法可以较好地运用于人体健康态数据。如前文所述,人体健康数据的质量控制可用于保障人体健康信息化的准确性,并降低异常数据的干扰。为了验证本研究的质量控制是否达到该效果,以睡眠心冲击信号为例,本研究分别计算了整体数据的幅度熵特性、周期熵值特性以及信号比,见表2。由表2可知,通过质量控制获取的高质量数据的幅度与周期的熵值均降低,即信号幅度和周期的稳定性变强。而信号的信噪比也得到提升,从而验证了质量控制方法可以保障健康信息化数据的准确性。

表2 质量控制对数据的影响

3 总结

本研究研究了图像健康数据、时序连续健康数据和离散健康数据这3种不同数据型的质量判别方法,实现了多模态人体健康数据的评价规范化。利用模型迁移的思想,通过数据的共性特征和该数据的个性特征联合训练,解决了相同数据类型但不同场景下模型泛化能力不足的问题。但本研究目前只关注了不同数据类型之间的差异,未来可以进一步考虑不同数据类型之间存在的数据耦合关系,对更多模态的数据进行融合。

猜你喜欢
数据类型时序标签
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
你不能把整个春天都搬到冬天来
如何理解数据结构中的抽象数据类型
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于SeisBase模型的地震勘探成果数据管理系统设计
线上众筹产品的特征分析与研究
相似度计算及其在数据挖掘中的应用