基于独立分量分析和普鲁克分析的运动想象迁移学习策略①

2023-09-14 03:39毛传波杨庆华蔡世波王志恒

高技术通讯 2023年7期

毛传波杨庆华蔡世波王志恒

(浙江工业大学特种装备制造与先进加工技术教育部/浙江省重点实验室杭州 310023)

0 引言

脑机接口是一项通过解码人类大脑皮层产生的脑电信号去识别人的意图,从而产生控制信号驱动外部设备的技术。运动想象是其主要范式之一,它是基于人在进行不同肢体运动的想象时,脑电信号会在特定频段产生不同的事件相关去同步(eventrelated desynchronization,ERD) 和事件相关同步(event-related synchronization,ERS)现象[1-3]。通过对受试者进行一定时间的训练,采集其进行运动想象时的脑电数据,根据这些数据分析其ERD/ERS模式,得到该受试者特定的分类模型,接着就可以依靠该模型对后续的运动想象事件进行分类识别[4]。

目前运动想象均是基于机器学习技术。传统的机器学习模型一般是基于2 个假设:(1)测试集和训练集相互独立并且是同分布的;(2)有足量的已标注数据。然而由于脑电信号微弱且变化大,每次实验的环境、电极位置等因素也无法保证完全一致,导致同一个受试者在不同时间的实验数据差异巨大,这违反了假设(1),因此在传统机器学习框架下受试者过去采集的数据不可用。为了收集足量可用的标注数据,传统上在每次实验之前都需要先进行约30 min 的校准实验[5],即使是经验丰富的受试者也是如此。这个过程耗时又枯燥,无论对科研实验还是应用推广都是不小的阻碍。

为了减少校准实验的耗时,迁移学习技术被引入到运动想象当中,主要包括跨时间和跨受试者2种形式。目标受试者过去的数据以及其他受试者的数据所分布的领域称为源域,目标受试者的测试数据所分布的领域称为目标域。迁移学习的理念是尽量减小目标域和源域数据的分布差异,使得跨域分类识别成为可能,从而降低对校准数据的需求量,减短甚至取消校准实验的耗时。

目前已有不少学者相继提出他们的迁移学习方法,其中较为成功的包括Zanini 等人[6]提出的黎曼空间对齐(Riemannian-space alignment,RA)方法和He 等人[7]提出的欧氏空间对齐(Euclidean-space alignment,EA)方法。RA 算法首先求得一个参考矩阵,用此参考矩阵对每一个实验数据的协方差矩阵进行对齐变换,使得变换后的协方差矩阵的黎曼均值为单位矩阵,这意味着源域和目标域的数据中心得到重合,再配合使用最小黎曼距离(minimum distance to Riemannian mean,MDRM)分类器进行跨域迁移识别。EA 算法同样需要先获得一个参考矩阵,不同之处在于它被直接用于欧氏空间实验数据的对齐,经对齐变换后仍可以使用在欧氏空间中性能突出的共空间模式(common spatial pattern,CSP)[8-9]特征提取方法和线性判别分析(linear discriminant analysis,LDA)分类器。另外,Wang 等人[10]和Wu等人[11]还提出了基于独立分量分析(independent component analysis,ICA)的零训练分类方法,该方法不依赖任何源域的数据,直接依靠对ERD/ERS模式的先验知识对测试数据进行分类。值得一提的是,ICA 作为一种盲源分离技术,具有不需要数据标签就可以获得良好空间滤波器的优势。上述方法都属于无监督算法。为了更进一步匹配源域和目标域,Rodrigues 等人[12]提出了黎曼普鲁克分析(Riemannian Procrustes analysis,RPA)算法,该算法在RA 的基础上,利用目标域少量有标签数据,对目标域所有数据在黎曼空间进行旋转变换,使得目标域和源域各类中心更相近。

为了进一步提升迁移学习的分类正确率,本文提出一种基于独立分量分析和普鲁克分析的方法。首先,对每个受试者的脑电数据进行ICA 空间滤波,以提高信噪比。其次,依据普鲁克分析的思想,对比应用多种对齐变换方法,实现对样本数据的平移和缩放。并提出欧氏空间下的旋转变换方法,以进一步匹配源域和目标域的数据分布。最后,将所提算法与多种算法进行跨受试者和跨数据集的测试对比,验证方法的有效性。

1 材料与方法

1.1 数据集

为了有效对比验证各种算法的性能,采用具有丰富受试者和多种运动想象类型的PhysionetMI[13]数据集和BCI-IV-2a[14]数据集。其中PhysionetMI采用全部4 类想象动作的数据,而BCI-IV-2a 仅采用想象左手、右手和双脚3 类数据,以便于后续在该数据集上进行跨数据集的对比测试。两数据集的具体信息如表1 所示。

表1 数据集的详细信息

1.2 独立分量分析

独立分量分析是一种盲源信号分离技术[15],对于n导脑电信号x=[x1,x2,…,xn]T,可以看成由n个独立源信号s=[s1,s2,…,sn]T线性混叠而成,即:

其中A为混合矩阵,对应的解混模型为

式中,y=[y1,y2,…,yn]T为源信号s的估计,W为n×n的解混矩阵。W同时还可以看作空间滤波矩阵,每一个行向量是一个空间滤波器,其元素值是原始脑电信号x各通道信号的权重,y则为经空间滤波的信号,相比于原始脑电信号其各通道信号的信噪比得到了提高。

解混矩阵W的估计算法主要有Infomax、Jade、Sobi 和Fastica,研究表明[16-17]在脑电信号处理领域Infomax 算法效果最佳。但经Infomax 算法解混得到的源估计信号的顺序是不确定的,需要依赖人工去筛选运动相关成分,同时计算成本高昂。Wu 等人[11]提出的简化Infomax 算法很好地解决了这些问题。首先该算法的计算量小,推荐的迭代次数为300 次;更为重要的是,经测试由该算法得到的滤波矩阵W的对角线元素的绝对值总是所在行最大的。例如在第i行的所有元素中,第i个元素的绝对值是最大的,这意味着xi对yi的贡献是最大的,因此可以认为yi是对应i通道的滤波信号,也就是说经该算法得到的滤波信号的顺序与原信号是保持一致的。

在应用简化的Infomax 算法之前,首先对原始脑电数据进行8～30 Hz 的5 阶巴特沃斯带通滤波预处理,以去除肌电、基线漂移等干扰,仅保留感兴趣的mu 频段[18]和beta 频段[19]。然后将k个n×l的脑电数据首尾拼接成n×k·l的二维信号,其中k代表数据个数,n代表通道数,l代表每通道的信号点数。利用拼接后数据应用简化的Infomax 算法得到滤波矩阵后,参数采用推荐的0.02 步长和300 迭代次数,根据式(2)对原始脑电信号进行空间滤波。

1.3 普鲁克分析

普鲁克分析是一种用来分析形状分布的统计方法,常用于人脸对齐[20-21]。普鲁克分析的工作原理是首先从2 个不同的形状分布中各选取一些特征点,然后通过一些几何变换使得两边对应的特征点尽可能靠近,从而达到让2 个形状分布对齐的效果。

假设目标域和源域选取的特征点集分别为

并假设存在一个线性变换关系,使得c对的特征点集都具有以下等式关系:

其中,a∈Rn代表对源域数据点的平移变换;s∈R代表对源域数据点的缩放变换;Q∈Rn×n是一个正交矩阵,代表对源域数据点的旋转变换。经过以上变换后源域的特征点就和目标域的特征点重合,普鲁克分析的目标就是求解a、s和Q。

依照普鲁克分析的思想,可以对运动想象脑电数据做一定的平移、缩放和旋转变换,使得源域和目标域数据的分布尽量接近,进而实现迁移分类识别。根据需要标签与否将变换处理分为对齐变换和旋转变换2 个过程。对齐变换不需要样本的标签,本文测试对比了通道归一化(channel normalization,CN)、欧氏空间对齐和黎曼空间对齐3 种方法。旋转变换需要利用样本的标签,将源域每个受试者的数据向目标域旋转。

1.4 对齐变换

1.4.1 通道归一化

对于平移和缩放变换最直观的做法就是归一化处理,首先是对第i个数据的第j个通道提取方差的对数作为特征:

其中yij代表ICA 滤波后第i个数据的第j个通道的脑电信号,接着对每一维特征零均值化:

最后对每一维特征做归一化:

经过通道归一化处理后,每个受试者数据的每一维特征都分布在零点附近,且与零点的平均距离为1,这样源域和目标域就得到了对齐。

1.4.2 欧氏空间对齐

相对于通道归一化对每一维特征分别做平移和缩放,欧氏空间对齐[7]方法则是直接对整个数据n×l个数据点做对齐变换。

首先计算样本数据的协方差矩阵:

其中yi代表ICA 滤波后第i个数据点,T 代表矩阵转置。

然后求得平均协方差矩阵:

接着是对每个样本点做对齐变换:

经过欧式空间对齐变换后,所有数据点的平均协方差矩阵为

即所有受试者数据的平均协方差矩阵都是单位矩阵,源域和目标域得到了对齐。

同样地,提取对齐后数据方差的对数作为特征:

1.4.3 黎曼空间对齐

黎曼空间对齐[6]与欧氏空间对齐的区别在于平均协方差矩阵的求解,EA 计算的是算术平均值,而RA 计算的是几何平均值。首先是协方差矩阵之间黎曼距离的定义:

式(14)的含义是寻找一个参考矩阵,它到所有数据点的平均黎曼距离最小,这里采用Matlab 的covariance toolbox 进行计算求解。

得到参考矩阵后同样依照式(10)对数据点做对齐变换,变换后所有协方差矩阵样本的黎曼均值为单位矩阵,源域和目标域在黎曼空间得到了对齐。

最后提取特征:

1.4.4 分组对齐

需要注意的是,不仅不同受试者之间数据分布存在差异,同一个受试者不同组次之间的数据分布也可能存在一定差异。例如PhysionetMI 数据集的受试者S040,其样本数据经过通道归一化后,采用t-SNE 降至二维,结果如图1(a)所示,同一组次的数据具有明显的聚集性,不同组次间数据分布差异显著。而如果以组次为单位分别做通道归一化,结果如图1(b)所示,数据的分布将会均匀许多,本文将这种处理方式称为分组对齐。

图1 受试者S040 整体对齐和分组对齐下数据分布

1.5 旋转变换

经过上述对齐变换和特征提取,每个受试者数据集合可以表示为

分别表示目标域和源域的样本集合。并假设目标域部分样本的标签和源域所有样本的标签是已知的,用Tl表示目标域有标签的样本集合,Tu代表目标域没有标签的样本集合,那么T=Tl∪Tu。分别对S和Tl求得不同类别的类中心:

这是一个正交普鲁克问题[20],存在解析解,根据奇异值分解定理,可以得到:

那么所求旋转矩阵的解为

利用得到的旋转矩阵对集合S的数据点做旋转变换:

1.6 分类算法

根据对齐变换的算法选择不同,提出以下3 种迁移学习策略。

(1) 算法1 对ICA 空间滤波后数据采用CN 算法分组对齐,对源域每个受试者的数据做旋转变换,Tl和S作为训练集,Tu作为测试集,采用LDA 分类器做迁移学习分类。

(2) 算法2 对ICA 空间滤波后数据采用EA 算法分组对齐,对源域每个受试者的数据做旋转变换,Tl和S作为训练集,Tu作为测试集,采用LDA 分类器做迁移学习分类。

(3) 算法3 对ICA 空间滤波后数据采用RA 算法分组对齐,对源域每个受试者的数据做旋转变换,Tl和S作为训练集,Tu作为测试集,采用LDA 分类器做迁移学习分类。

为了对比验证所提算法的有效性,对以下4 种算法的分类性能进行测试。

(1) 基准算法1 对ICA 空间滤波后数据提取特征,Tl作为训练集,Tu作为测试集,采用最小距离分类器(训练集样本数量较少时采用LDA 分类将产生奇异值)做传统机器学习分类。

(2) 基准算法2 对带通滤波后数据提取协方差矩阵,Tl作为训练集,Tu作为测试集,采用MDRM分类器做传统机器学习分类。

(3) RA-MDRM 对带通滤波后数据提取协方差矩阵,采用RA 算法进行对齐,S作为训练集,Tu作为测试集,采用MDRM 分类器做无监督迁移学习分类。

(4) RPA-MDRM 对带通滤波后数据提取协方差矩阵,采用RPA 算法进行对齐变换,Tl和S作为训练集,Tu作为测试集,采用MDRM 分类器做半监督迁移学习分类。

1.7 性能指标

针对多分类问题,采用kappa 值作为性能指标:

其中,p0代表分类正确率,pe代表随机概率。

2 结果与讨论

2.1 跨受试者迁移学习

为了验证算法的有效性,采用留一法,对每个受试者重复10 次随机划分数据集,每类取N个样本作为训练集,剩余样本作为测试集,所有其他受试者的样本同样用作训练集。对于PhysionetMI 数据集,选取运动区FC5、FC3、FC1、FCz、FC2、FC4、FC6、C5、C3、C1、Cz、C2、C4、C6、CP5、CP3、CP1、CPz、CP2、CP4和CP6 这21 个通道对应的特征用于分类。需要注意的是,该数据集在ICA 空间滤波和普鲁克对齐变换阶段都是使用全部64 通道的数据。对于BCI-IV-2a 数据集,使用全部22 通道的特征用于分类。

在PhysionetMI 上各种算法的平均kappa 值结果如表2 所示,两两算法之间的t检验结果如图2所示。图中黑色方块代表所在行的算法显著优于所在列的算法,白色方块代表无显著差异,显著性水平为0.05。可以看到,在已知样本量较小(N＜15)的情况下,传统机器学习算法的分类性能较差,甚至劣于无监督算法。所提出的3 种算法在所有的N取值下均显著优于其他4 种算法,3 种算法之间的表现差异不大,仅在N=5 时算法3 相比算法2 具有显著性优势。从平均结果上看,算法3 是最优的,在N=5、10 和15 时,相比基准算法1 提升了0.09、0.11和0.11,相比RA-MDRM 提升了0.04、0.08 和0.09,相比RPA-MDRM 提升了0.08、0.09 和0.08。

图2 PhysionetMI 上各种算法之间的t 检验结果

表2 PhysionetMI 上各种算法跨受试者平均kappa 值

在BCI-IV-2a 上各种算法的平均kappa 值结果如表3 所示。结果表明,算法1 的表现较差,甚至低于基准算法1,算法2 和算法3 的分类结果相近,相比其他算法具有明显提升。在已知样本量极少的情况下(N≤5),无监督算法仍具有优势。RPA-MDRM相比基准算法2 也有一定程度的提升,证明基于黎曼普鲁克分析的半监督算法确实能在小样本量下提高分类性能。整体来看仍是算法3 最优,在N=5、10、15 和20 时,相比基准算法1 提升了0.03、0.02、0.04 和0.04,相比RA-MDRM 提升了0.01、0.05、0.09和0.1,相比RPA-MDRM 提升了0.02、0.02、0.05和0.05。

表3 BCI-IV-2a 上各种算法跨受试者平均kappa 值

2.2 跨数据集迁移学习

2.1 节结果证明了所提算法在跨受试者迁移学习的有效性,但其应用前提条件是已有一定数量其他受试者的样本数据,如能够利用其他数据集实施迁移学习,将有效规避这个问题。为了测试各种算法跨数据集迁移学习的表现,以具有大量受试者的PhysionetMI 为训练集,BCI-IV-2a 为测试集。为了适配BCI-IV-2a,对PhysionetMI 提取左手、右手和双脚3 类样本数据,通道数也降至对应的22 通道。结果如表4 所示,RA-MDRM 和所提出的3 种算法与跨受试者的结果相当,算法3 整体上有略微的提升,证明了所提算法跨数据集迁移学习的可行性。值得注意的是,RPA-MDRM 算法在跨数据集的测试中具有明显的提升,相比跨受试者的平均kappa 值,在N=5、10、15 和20 时分别提升了0.04、0.06、0.07 和0.08,整体上比算法3 提升了0.02。

表4 BCI-IV-2a 上各种算法跨数据集平均kappa 值

图3 给出了N=20 时各受试者的kappa 值,可以明显看到,各种算法的测试结果均与基准算法呈正相关,说明每个受试者数据质量本身决定了可区分性的上限,不同算法分类性能的优劣更多在于针对不同受试者的泛化能力。例如无监督算法RAMDRM,其测试结果的随机性最高,对受试者S5 具有最好的表现,对受试者S2 的结果却小于0(分类正确率低于随机值)。原因在于每个个体存在特殊性,与所有个体的平均表现存在差异,无监督算法无法应对这种差异。RPA-MDRM 与RA-MDRM 的区别在于多了一步旋转变换操作,它考虑了每个个体的特殊性,利用其少量有标签数据将该个体与其他个体数据分布进一步旋转对齐,扩充了训练集,从而得到较基准算法2 更高的分类精度。算法3 对每个受试者的测试结果均优于基准算法1,展示出了良好的泛化能力。

图3 N=20 时各受试者kappa 值

表5 给出了N=20 时RPA-MDRM 和算法3 为每个受试者训练模型及分类的平均耗时,测试环境为Matlab R2021a,硬件配置为Intel(R) Core(TM)i7-11800H@2.30 GHz,2.30 GHz,16 GB RAM。从跨受试者到跨数据集,随着训练集的扩大2 种算法的平均耗时均明显增大,而所提算法3 的计算效率分别是RPA-MDRM 的194 倍和153 倍。究其原因,算法3 无论是旋转矩阵的求解或是LDA 分类模型的训练,其内部的数学过程都存在解析解,计算效率高。相比之下基于黎曼框架的RPA-MDRM 无论是旋转矩阵的求解还是黎曼均值的计算都依赖于数值计算方法,需要大量的迭代运算,计算成本高昂。

表5 N=20 时RPA-MDRM 和算法3 平均运算耗时

对比所提的3 种方法,它们的差别仅在于数据的对齐变换环节,在计算成本上相差无几,而在分类性能上算法1 最差,算法3 略优于算法2。也就是说RA 算法最优,EA 算法次之,CN 算法最差,这与现有文献[22]的测试结果相符。分析其中的原因,CN 算法将单个样本的数据按照不同的通道割裂开来,每个通道提取频带能量作为特征单独考虑,忽视了各通道信号之间的联系。虽然信号事先经过了ICA 空间滤波,但所采用的算法是简化的Infomax 算法,并不保证滤波后各通道信号之间完全的独立性,仅仅是提高了信号的信噪比。而EA 与RA 算法是对样本数据的协方差矩阵进行整体操作的,EA 保证了对齐后所有数据的协方差矩阵算术平均值为单位矩阵,RA 保证了对齐后所有数据的协方差矩阵几何平均值为单位矩阵。对比发现,3 种方法不是对样本数据本身做对齐变换,都是做了一定的降维处理,前者提取频带能量,后者提取协方差矩阵。协方差矩阵相比频带能量蕴含更丰富的信息,其对角线上元素是各个通道信号的方差,这就相当于频带能量,而其他元素是不同通道信号之间的协方差,这蕴含了空间信息[23],也是CN 算法所忽视的部分。EA 和RA 的作用原理是相似的,只是前者是在欧氏空间,后者是在黎曼空间,协方差矩阵作为对称正定矩阵属于黎曼光滑流形[6],在黎曼空间上进行处理更有优势。

3 结论

本文提出基于独立分量分析和普鲁克分析的运动想象迁移学习策略,对运动想象信号应用独立分量分析和对齐变换算法,得到经过初步对齐的特征向量,将欧氏空间下的普鲁克分析引入脑电信号处理领域,针对性设计了旋转变换策略以进一步匹配源域和目标域,从而实现有效的迁移学习。所提出的算法无论是在计算效率还是在分类性能上均优于基于黎曼框架的迁移学习算法,在目标域已知标签样本量较少的情况下相比传统机器学习具有显著提高,这有助于降低对校准数据量的需求,从而有效减少校准实验的耗时。并且在跨数据集的测试中保持着良好的表现,显示其不对已有数据的依赖,这有利于算法的推广应用。未来将继续探索将所提方法应用于在线分类识别的可能。