最大误差压缩下的脑电微状态模板差异研究

2024-01-05 06:07史玉盼马少辰冯春雨
河北省科学院学报 2023年6期
关键词:脑电小波均值

史玉盼, 马少辰, 冯春雨

(1. 河北省科学院应用数学研究所, 河北省信息安全认证技术创新中心,河北 石家庄 050081;2.河北医科大学第一医院神经内科,河北 石家庄 050031;3.河北省脑老化与认知神经科学重点实验室,河北 石家庄 050031)

0 引言

近年来,随着医疗设备的创新发展, 医疗数据呈现爆发式增长。为了解决大体量数据的传输、存储和快速分析处理问题, 数据压缩技术被越来越多的应用到健康医疗领域。基于压缩的数据处理流程通常是先将数据压缩, 之后进行传输/存储, 而在需要分析时再将压缩数据解压缩。如果能在压缩数据(压缩概要)上不进行解压缩操作, 而直接进行目标结果计算将很大程度上提升整体处理效率, 这种方式被称为基于压缩概要的查询[1]。

脑电图(electroencephalogram, EEG)可在毫秒级时间尺度上描述整个大脑神经网络的协调动态, 近年来被广泛应用于神经类和精神类疾病诊断。脑电分析方法众多, 常用的有时域分析、频域分析、时频分析、非线性分析(包括独立成分分析、复杂性分析、功能连接)等。脑电微状态使用多通道电极的地形图拓扑结构定义状态, 反映了EEG中占主导地位的大脑网络的同步活动产生的瞬态脑状态, 代表了自发的、时间同步和大空间尺度的皮层神经元活动。微状态特征的改变反映了疾病引起的神经活动, 可作为筛查神经精神类疾病的生理指标[2]。然而, 临床脑电数据具有多电极、高采样率及采集时间长的特性, 这导致脑电特征提取的效率低下。因此, 研究如何利用数据压缩技术提高微状态特征提取很有意义。

本文旨在探索使用层次化的最大误差保障的压缩算法FShift在微状态计算上的应用, 比较原始数据、FShift保质压缩/解压缩数据以及压缩概要上得到的微状态模版的差异, 以确定当存在微小误差时, 微状态计算是否满足实际计算精度需求。

1 相关研究概述

1.1 最大误差压缩

由传感器获取的脑电数据是典型的会受到噪声干扰的流数据, 它们普遍存在误差, 但对于应用来说, 数据精度保证在一定范围内即可用, 因此适合采用有损压缩来处理。

目前国际上流行的数据流压缩算法可分为定量压缩和定质压缩。定量压缩是把数据压缩到事先给定的量值(如:给定的压缩率),定质压缩要求压缩后的数据估计值与原始数据值的误差小于(在给定的度量空间上)给定的数值。根据度量空间的不同,定质压缩又可以分为均值误差压缩和最大误差压缩两类算法。对于定量压缩中的量值和均值误差压缩的平均误差是针对数据的整体特性,用户不能控制每个数据点的误差, 与数据流的持续、无限的特性不符, 因此从理论上来说是不适合对数据流进行压缩。这是因为最大误差压缩算法所要求的是重构的每一点的误差都小于给定的临界值, 而均值误差压缩所遵循的是所有点的误差平方和的均值要小于临界值。所有点平均误差一定不大于最大误差, 因此只要最大误差压缩结果成立, 则均值误差压缩结果也一定成立, 但反之不成立。

FShift压缩算法[3], 可以视作Haar小波阈值化, 归类于层次的、最大误差压缩。它在为每个数据点给出一个误差界限(以下简称界限)的情况下, 确定大纲中要保留的小波系数, 即压缩概要, 保留的系数越少压缩效率越高。当界限为0时, FShift变换就是Haar小波变换。

1.2 脑电图的微状态

脑电图微状态是多通道脑电图中地形拓扑结构的准稳定时期。对于多通道脑电数据,任意时刻都能得到相应的地形拓扑结构,但由于噪声的存在,使得某些时刻的脑电具有较低的信噪比。全局场功率(global field power, GFP)指某一时刻所有电极通道的电压的标准差,用f(t)表示,计算由公式(1)给出,其峰值处对应的脑电具有相对较高的信噪比,它的脑电拓扑结构也更加稳定,因此经常使用这些脑电拓扑结构进行聚类分析,以获得脑电微状态[4]。静息态脑电图由少数交替的微状态所主导, 每种微状态在60~120 ms内保持稳定。

(1)

脑电微状态已用于不同患病人群的诊断/分类[5-7]。对不同的人群, 可以使用这些人群的脑电所计算的GFP峰值时刻点所对应的脑电数据进行聚类, 形成微状态模板, 如对于AD(老年痴呆)人群, MCI(轻度认知障碍, 正常人和老年痴呆的中间状态)人群, 分别计算出AD组、MCI组的微状态聚类结果, 称微状态模板(图1)。静息态脑电图有四个典型微状态[6]: 右额-左后部(A)、左额-右后部(B)、中额-枕叶(C)和中额(D)地形图,分别对应于语音加工、视觉网络、凸显网络、注意网络相关的静息态网络。

图1 AD组和MCI组的组微状态模板

使用未知分类人群脑电每个时间点的数据基于最大Pearson相关性去匹配组微状态模板, 可确定每个时间点的具体的微状态, 进而获取数据的微状态序列及与微状态相关的参数, 如微状态A的平均持续时间, 微状态A到B的转换概率等特征。使用这些计算出的特征可进行其他的诸多计算。由此可见, 微状态模板是一个非常重要的基础, 影响后续的一系列计算。在使用压缩概要进行微状态相关计算时, 一方面期望节省数据的存储空间, 另一方面又期望能在误差的压缩概要上进行计算获得可接受的结果, 为此研究微小误差对模板的影响尤为重要。

2 原理与方法

本研究期望直接在压缩数据上计算微状态模版, 而不需要解压缩数据。但非层次压缩方法, 如PLA[8, 9],需要将压缩数据完全解压后才能计算微状态模版。因此本文选择层次的压缩方法FShift作为压缩工具。

由小波的计算原理可知, 在进行第一次Haar小波分解时, 需要对原始数据计算两两数据的均值和两两数据的差值。每个均值和差值都是单一固定的, 其中均值可以认为是2个点的出发的位置, 差值是2个点分别相悖而行移动的距离。进行第二次分解时, 再对上一次的均值进行分解。一直迭代计算, 直到只剩下1个均值和1个差值。

进行FShift运算时,需为每个数据点指定一个界限, 将每个数据点都扩展为一个区间, 因此两两数据得到均值也是一个数值区间。这样当进行 “小波分解”时, 我们可以寻找数值区间的交集, 当交集存在时表明不需要移动, 这样产生了0值; 如果没有交集, 就需要将两个区间向相对的方向移动, 直到两个区间中点重合。移动的距离就是需要存储的系数。因0值不需存储仅需标记, 从而节省存储小波系数也就实现了压缩。一般说来, 我们以新产生的0的个数来衡量压缩效率。经过FShift压缩后形成压缩概要, 对压缩概要解压缩则恢复数据, 而所恢复的数据与原始数据的差异一定被界限所限定。

小波分解提供了非常有效的数据简化工具, 用于数据挖掘, 选择性估计以及近似和聚合查询处理大量关系表和数据流。简单地说, 通过将小波分解应用于输入集合(被认为是一个序列), 然后通过只保留生成的小波系数的一个选定子集对其进行汇总, 从而提取出小波概要, 原始数据可以基于这个简洁的概要进行重建。以往的研究已经证实, 仅在这种简洁的小波概要上就可以进行可靠的、特别的近似查询处理。对于FShift来说, 同理。

由Haar小波/FShift计算可得, 对数据进行一次变换后, 数据均值长度部分为原来的数据总长的一半。如果这一数据为500 Hz采样率脑电数据, 则FShift进行一次变换后, 均值部分的数据可视为250 Hz采样的脑电数据, 即通过FShift实现了有损的降采样,且保持了数据的形态。该过程可视为在压缩过程中就已经实现了降采样; 另一方面, 如果从一个完全压缩的数据概要中, 不需要完全解压缩, 仅计算到“250 Hz”停止, 也可实现降采样,如图2所示。

图2 数据及FShift一级压缩概要

常用的脑电设备采样率常高于微状态计算所需采样率, 为此在这种情况下可通过FShift实现数据的压缩与模板的制作。

由传感器采集的脑电图信号因外界干扰、人的头部活动、交流电信号干扰、出汗导致的干扰会导致数据一定存在误差。为评估有损压缩带来的影响, 我们先视原始采集的脑电为“干净的”。比较原始脑电(O)制作的微状态模板, 经FShift压缩, 解压缩后的数据(F), 用FShift降采样后的数据(R)制作的微状态模板以及给原始脑电添加噪声后的数据(N)制作的微状态模板的差异。N数据计算见公式(2)。将因有损保质压缩而引入的噪声同人工加入的噪声数据相比, 若有显著优势, 那么有损保质压缩可以应用于脑电微状态的计算。

d′(i)=d(i)+Uunifrnd(-Bbound,Bbound)

(2)

其中,d(i)为原始数据,d′(i)为新生成的含噪声数据,Uunifrnd为随机数产生函数,Bbound为预先指定的界限值, 定了d(i)的范围。为对比F数据与N数据, 需要为FShift制定相同的界限。

对获取的AD, MCI各30份脑电数据(500 Hz采样率)采取如下处理过程:

1)对采集的脑电图数据/保质压缩后的数据进行2~20 Hz的带通滤波;

2)以250 Hz对滤波后的数据进行重采样, 并按2 s一段进行分割, 形成Trials序列;

3)去除电极电压幅度大于100 μv的片段, 以避免诸如眼睛和肌肉伪影之类的伪影;

4)使用AAHC(atomize and agglomerate hierarchical clustering)[4]分别对AD组数据和MCI组Trials序列数据的全体进行聚类, 设定聚类个数为4, 之后分别得到AD组和MCI组的组模板, 每组模板分别包含4个微状态: A、B、C和D。

5)用某份数据匹配AD组模板, MCI组模板, 记录匹配情况。

在步骤3)中,采取4种策略进行对比。①直接进行重采样;②对重采样后数据进行压缩/解压缩;③采用FShift进行降采样;④按照公式(2)在重采样后的数据中添加噪声。FShift压缩的界限和噪声数据界限均指定1个相同的值0.1。由此产生4种模板进行对比。

3 实验结果

60份脑电数据经FShift压缩产生的0平均为4.93%, 最小1.15%, 最大7.49%; 而经FShift降采样产生的0平均为7.58%, 最小1.59%, 最大11.55%。需要说明的是, FShift压缩的对象是250 Hz的数据, 而FShift降采样的对象是500 Hz的数据。图3给出了F, R, N数据与O数据的差异(导联1前100个点的数据)。

图3 F,R,N数据与O数据的差异

如图3所示, F数据与O数据的差异最小, 且每个点的值被限定在指定的参数0.1范围内; R数据与O数据的差异中的幅值差异最大, 超过了参数0.1范围, 这是由于降采样过程导致误差的叠加; N数据与O数据的差异点个数最多, 但每个点的值依然被限定在指定的参数0.1范围内。

将O数据制作的微状态模板视为标准模板, 则F数据、R数据、N数据制作的微状态模板, 与O数据制作的模板的相似度见表1, 其中相似度计算方法为Pearson相关系数。

表1 不同数据制作的模板相似度对比

表1中, RA(RB, RC, RD)为R数据与O数据制作的模板在状态A(B, C, D)下的相似度。NA(NB,NC,ND)为N数据与O数据制作的模板在状态A(B, C, D)的相似度, 最后1列FX为F数据与O数据在所有4个状态下的相似度均为1。AD的组模板中, RA, RB小于对应的NA, NB; MCI的组模板中, RA小于对应的RA, 而其他的5个则R数据优于N数据, 显示出F数据一定得到优势, 但是最好的结果是F数据, 它与O数据的模板无差异。

作为对比, 表2给出了O数据制作的组微状态模板四个状态之间的差异。 其中,AD-AB(AC, AD)为AD组中, 状态A和B(A和C, A和D)的差异, MCI-AB, MCI-AC, MCI-AD则为MCI组中的差异。从表2中可知, AD组状态B, C, D与状态A的差异分别为0.729 1,-0.191 7,-0.739 2; MCI组的值分别为0.687 0,-0.044 5,-0.721 0。对比不同数据制作的模板相似度差异, 同组状态间的显然是巨大的。

表2 同组模板不同状态相似度对比

4 结论

对于脑电这种由传感器获取的流数据, 使用FShift对数据进行压缩, 可以保证每个数据点在压缩/解压缩后的值均限定在设定的范围内。在给定小的界限下, 可以实现在微状态模板制作上的无差异性, 即在给定小的误差下, 存在压缩处理的数据对模板制作没有影响的情况。而在压缩概要上直接进行模板的制作, 不如F数据上制作, 但也显示出了比添加随机干扰数据的优势。

制作微状态模版后需要进行数据与微状态模版的匹配、特征提取等计算[10], 不同处理参数下的数据与模版匹配度是否存在可接受的差异是未来研究需要解决的问题。此外, 在本研究中, 因筛选掉干扰较大的数据后, 可用的AD病例、MCI数据数较少, 仅有各30例,今后还需更大范围数据的计算分析。

猜你喜欢
脑电小波均值
构造Daubechies小波的一些注记
基于MATLAB的小波降噪研究
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用
均值不等式失效时的解决方法
均值与方差在生活中的应用
现代实用脑电地形图学(续) 第五章 脑电地形图在临床中的应用
关于均值有界变差函数的重要不等式