基于独立成分的加权高阶脑网络的分类方法

2018-09-21 12:44杨艳丽谷金晔李欣芸陈俊杰
太原理工大学学报 2018年5期
关键词:子图高阶步长

杨艳丽,李 瑶,谷金晔,李欣芸,陈俊杰

(太原理工大学 a.信息与计算机学院,b.软件学院,太原 030024)

利用功能性磁共振成像技术,从复杂网络分析角度研究脑疾病的发病机理,已成为脑科学领域的研究热点之一[1]。该方法主要包括:节点的定义,连接的定义以及网络的分析。节点定义最常用的方法是利用脑图谱划分节点;然而这种节点的定义方法过于依赖先验的脑模板,不同模板建立起来的网络可能会存在显著差异,这将严重影响功能连接网络的分析结果[2]。ALLEN在研究中使用组独立成分分析(group independent component analysis,group ICA)提取到的独立成分作为功能的网络节点[3]。

传统的静息态功能连接假定功能连接在时间上是静止的,功能连接网络在扫描时间内稳定不变。这种方法的主要问题是忽略了扫描时间内可能发生的神经活动或相互作用[4]。然而,最近的研究已经表明大脑的功能连接承载着丰富的时间信息,无论是任务态还是静息态,功能连接都会随着神经活动的变化而变化[5]。CHEN使用滑动窗口的方法来划分整个RS-fMRI时间序列,从而构建出了高阶功能连接网络[6]。这种动态功能连接方法,在传统的功能连接网络上添加了时变因素,充分考虑了时间特性。

目前脑网络的分析方法有很多,其中最常用的是使用网络拓扑指标来描述脑网络特征[7]。然而这种方法受网络规模和稀疏度的影响较大,且容易忽视网络中一些有用的拓扑结构。DU先对脑网络进行阈值化处理,然后在无权图上使用频繁子图挖掘和判别性特征选择方法[8]。但阈值化处理时,无论是单阈值还是多阈值,都会造成网络信息的丢失。KONG et al通过构建脑网络的加权图(边以一定概率存在),进行加权图的频繁子图挖掘,并将无权图上的判别性特征选择方法推广到了加权图上[9]。

1 实验材料及方法

1.1 数据采集及预处理

本文的所有数据都来自ADNI(Alzheimer's disease neuroimaging initiative)数据库。ADNI数据库自建立以来,为阿尔兹海默症(Alzheimer's disease,AD)相关疾病及早期诊断方法的研究提供了丰富的数据支持[11],得到了广泛的使用。本实验数据包括30名正常被试和29名阿尔兹海默症患者,被试基本信息如表1所示。表中数值是平均值±标准差;NC表示正常对照组;NMSE表示简易精神状况检查量表;a为双样本T检验;b为皮尔逊卡方检验。

表1 被试基本信息Table 1 Basic information for participants

原始数据预处理使用SPM8(http://www.fil.ion.ucl.ac.uk/spm)进行。主要步骤包括1) 时间片校正:校正图像在获取时间上的差异;2) 头动校正:删除头动大于3 mm或转动大于3度的被试数据,丢弃的被试数据不包含在最终的被试中;3) 空间标准化:对图像进行12维度的优化仿射变换,将其标准化到3 mm体素的MNI(montreal neurological institute)标准空间中;4) 平滑:消除不同被试脑结构之间的细微差别、提高信噪比,在10 mm半高全宽高斯空间上进行平滑。

1.2 方法框架

基于组独立成分分析的加权高阶功能连接网络的静息态功能性磁共振成像数据分类方法包括以下4个步骤。

1) 数据采集及预处理。

2) 组独立成分分析。

组独立成分分析的主要步骤包括:数据降维、空间独立成分估计、数据反重构、筛选脑网络成分[12]。

3) 高阶功能连接网络的构建,主要包括两个过程:

a.选择长度固定的滑动窗口,对独立成分的时间序列进行时间窗划分,并计算每个时间窗下的皮尔逊相关系数矩阵,得到低阶功能连接网络;

b.堆栈所有的低阶功能连接网络,再在其上计算皮尔逊相关系数矩阵,得到高阶功能连接网络;

4) 加权图的频繁子图挖掘及特征选择,主要包括两个过程:

a.对构建的全连接加权的脑网络进行频繁子图挖掘,得到加权的频繁子图模式;

b.计算基于动态规划的判别分数函数的相关统计指标。

1.3 组独立成分分析

组独立组分分析使用GIFT(http://mialab.mrn.org/software/gift)工具箱进行。本文采用信息极大化(Infomax)算法进行独立成分的估计和分离,该算法的核心思想是通过最大化输入和输出的互信息等价地达到输出各分量间互信息的最小化[13]。首先使用GIFT软件估计独立成分的个数,并结合先验的研究信息[14],将独立成分的个数设为54;接着标准化独立成分以消除被试个体差异的影响;随后为了确保独立成分的稳定性和可靠性,在ICASSO软件上重复了20次Infomax算法;最后使用数据反重构方法获取被试独立成分的空间分布和时间序列。

使用组独立成分分析提取的独立成分既包括本文感兴趣的脑网络成分,也包括其他无关成分或含噪声较多的成分。因此需要使用先验模板匹配方法对这些独立成分进行筛选,并结合人工肉眼检查方法对这些成分进行进一步的确认。脑网络成分的筛选标准包括:与先验模板匹配的多重回归系数较大;主要激活区域分布在灰质区域。最终去除了32个无关成分或含噪声较多的成分后保留了22个脑网络成分,并确认了这些独立成分分别属于听觉网络、感觉运动网络、视觉网络、默认网络、注意网络和额叶网络。

1.4 高阶功能连接网络

在构建高阶功能连接网络之前,还需要对被试独立成分的时间序列进行后处理,包括去线性漂移和低通滤波,以降低低频漂移和高频生理噪声的影响。接着在每个独立成分的时间序列上,选择长度固定的滑动窗口,按照一定步长进行时间窗滑动。假设时间序列的长度为K,滑动窗口的长度为w,滑动窗口每次移动的步长为s,则可以将整个时间序列(维数为K×N,N为独立成分的个数)划分为l个相互重叠的时间窗口(维数为w×H).其中l的计算公式如下:

l=[(K-w)/s+1] .

(1)

接着在每个时间窗下,计算独立成分两两之间的皮尔逊(Person)相关系数,就可以得到l个低阶功能连接网络(维数为N×N),它反映了所有独立成分之间连接强度随时间的变化情况。其中皮尔逊相关系数的计算公式如下:

(2)

式中:ri,j表示独立成分i与独立成分j时间序列的皮尔逊相关系数,cov(i,j)表示两个独立成分时间序列的协方差,σi和σj分别表示两个独立成分i与j时间序列的标准差。

最后在新生成的相关时间序列上,再次计算独立成分两两之间的皮尔逊相关系数,就得到了高阶功能连接网络,维度为

(3)

所谓高阶体现在矩阵中的任一元素都能反映了一条功能连接对另一条功能连接的影响,体现了多达4个独立成分之间的交互作用。

1.5 加权图的频繁子图挖掘

在高阶功能连接网络中,功能连接之间的皮尔逊相关系数可以视为功能连接之间交互的概率。因此依据概率的定义,需要将负值的皮尔逊相关系数按零值处理。本文在加权的高阶功能连接网络上进行频繁子图挖掘,频繁子图挖掘的目的就是在整个网络中找出出现概率较高的连接模式(即子图)[15]。

加权图的频繁子图挖掘算法如下:

1) 遍历加权的高阶功能脑网络,得到所有的1-子图模式,按照公式(3)计算期望支持度。

2) 如果1-子图模式的期望支持度大于给定支持度,则把它加入到1-子图模式集合中。

3) 对每个1-子图模式,调用模式增长算法,得到新的子图模式集合,继续使用公式(3)计算期望支持度。同样地,如果新子图模式的期望支持度大于给定支持度,就把它加入到k-子图模式集合中(k为新子图模式的边数)。

4) 重复上步,直到没有满足条件的子图生成为止。

模式增长算法如下:

1) 将(k-1)-子图模式所在子搜索空间标记为i.

2) 在1-子图模式集合中找出标号>i的子图,将其添加到(k-1)-子图上,得到k-子图。如果k-子图模式连通,则将其加入到k-子图模式集合中。

给定一个图集G,一个子图g的期望支持度定义为:

(3)

式中:Exp(g)表示子图模式g的期望支持度,n表示加权图的个数;Pr(g⊆Gj)表示子图模式g在加权图Gj上的概率;k表示子图模式g的边数;pj(ek)表示子图模式g的边ek在加权图Gj上的概率。

上述加权图的频繁子图挖掘中挖掘出的子图有很多,需要从中选出具有判别性的子图作为特征,本文采用的方法是KONG et al[9]提出的基于统计指标的方法。但这种方法受统计指标的影响较大且最终的分类正确率较低,因此我们提出了一些新的统计指标,并结合无权图上的判别分数函数(见表2),通过分类正确率来衡量子图模式的判别性。

表2 判别分数函数Table 2 Discriminant fraction function

表3 统计指标公式Table 3 Statistical indicator formula

表3中前3种:期望(mean)、方差(variance)和φ-probability,是KONG et al[9]在实验中使用的方法。受该方法的启发,本文提出了两种新的统计指标——修正的样本均值(trimmean)和任意阶中心距(moment),来验证这种方法的合理性。另外,表3中只给出了正样本中的计算方法,对负样本类似。

2 实验结果与分析

2.1 独立成分分析结果

从图1中可以看出,注意网络中包含的成分最多,其次是感觉运动网络和视觉网络,然后是默认网络,额叶网络和听觉网络中包含的成分最少。这说明注意网络的分布较广,而听觉网络的分布较窄,这与以往基于脑图谱的全脑功能连接的研究结果基本一致。

图1 静息态脑网络成分的峰值区域Fig.1 Peak area of static brain network

2.2 频繁子图挖掘结果

图2中显示的是作为特征进行分类的20个频繁子图模式,不同颜色的节点分别代表不同的静息态脑网路。从中可以发现,感觉运动网络、默认网络和视觉网络中连接的边比较密集,这说明这些网络在患者和正常被试的分类过程中起到的作用比较大。

图2 频繁子图模式Fig.2 Frequent subgraph mode

2.3 分类结果与分析

由于被试人数有限,本文使用基于RBF核函数的支持向量机(support vector machine,SVM)进行分类,并使用留一交叉验证(leave-one-out cross validation,LOOCV)方法来评估分类器的的泛化性能(具体实验使用基于MATLAB的LIBSVM工具包进行)。分类器的性能可以量化为正确率(accuracy),灵敏度(sensitivity)和特异度(specificity).其中,灵敏度可以衡量该方法正确识别患者的能力,特异度衡量的是正确识别正常被试的能力。进一步使用ROC曲线下的面积(the area under receiver operating characteristic curve,AUC)来评价不同方法的性能表现,具体结果如表4所示。

从表4中可以看出,本文提出的两种统计指标(修正的样本均值和任意阶中心距),都可以很好地找到与分类相关的特征,获得较高的分类正确率;但与φ-probability方法相比,在分类正确率、灵敏度、特异度以及AUC值上均有些差距。虽然在Confidence判别函数上这两种方法的分类效果比φ-prob方法好,但分类效果最好的还是φ-prob-HSIC方法,其分类正确率达到95.24%。从判别分数函数角度来看,虽然最好的分类效果出现在HSIC判别函数上,但整体来看,还是Gtest判别函数的分类效果较为稳定,分类正确率都在90%以上。因此,使用φ-prob统计指标和Gtest判别函数的分类效果较好。

表4 不同特征选择的分类结果比较Table 4 Comparison of classification results of different feature selection

此外,为了验证基于独立成分分析的高阶功能连接网络的优越性,本实验使用相同的被试数据分别构建了基于AAL的低阶功能连接网络、基于AAL的高阶功能连接网络、基于group ICA的低阶功能连接网络和基于group ICA的高阶功能连接网络,并使用加权图的频繁子图挖掘和φ-prob-Gtest特征选择方法,进行SVM分类,结果如表5所示。

表5 不同方法的分类结果比较Table 5 Comparison of classification results of different methods

从表5中可以看出,使用本文方法时,在group ICA提取的独立成分的时间序列上构建高阶功能连接网络,并以加权图的频繁子图挖掘出的子图作为特征进行分类识别,分类正确率达到95.24%,远高于其他方法。而且高阶功能连接脑网络上的分类效果要远好于传统的低阶功能连接网络,这表明高阶功能连接脑网络上包含更多的对分类识别有用的信息。另外本文方法在灵敏度和特异度等指标上也较传统方法有一定的提升,在一定程度上能够为临床诊断提供客观参考。

2.4 不同参数的影响

本文所使用的高阶功能连接网络会受一些参数的影响,如滑动窗口的长度w和每次移动的步长s等。由公式(1)可知,选择不同参数时,得到的时间窗数l不同,进而构建出来的高阶功能连接网络也不同。因此,本实验先在滑动窗口每次移动步长都为1 s的情况下,分别选择滑动窗口的长度为23,43,63,83,103 s,探究滑动窗口的长度对分类效果的影响,结果如图3(a)所示。当滑动窗口的长度为63 s时,分类效果最好,且分类曲线呈开口向下的抛物线形状。这可能是因为:当选择的滑动窗口的长度过小时,划分出来的时间窗数很多,其中包含的特征数更多,从中选择判别性特征的难度将增大;而选择的滑动窗口的长度过大时,划分出来的时间窗数很少,其中所包含的时变特征更少,这会大大影响了分类效果。此外,本实验还在滑动窗口的长度都为63 s时,分别选择滑动窗口每次移动的步长为1 s,

图3 不同参数的影响Fig.3 Impact of different parameters

2 s,3 s,4 s,5 s,探究滑动窗口每次移动的步长对分类结果的影响,结果如图3(b)所示。当滑动窗口每

次移动的步长为1 s时,分类效果最好,且每次移动的步长越长,分类的效果越差。这可能是因为:滑动窗口每次移动的步长越长,得到的时间窗数越少,其中所包含的时变特性就更少,分类正确率也会随之降低。因此本实验中选择的滑动窗口长度为63 s和每次移动步长为1 s.

3 总结

本文在对静息态功能性磁共振成像数据分类时,先使用组独立成分分析方法提取静息态脑网络成分,接着构建高阶功能连接网络,然后使用加权图的频繁子图挖掘和判别性特征选择方法,最后进行SVM分类。结果表明,该方法具有较好的分类效果,可以为临床医学诊断提供参考依据。然而,该方法构建高阶功能连接网络的过程较为复杂,大大增加了运算量;而且该方法在加权图上做频繁子图挖掘时存在大量的冗余操作,效率较低,只适用于小样本数据集。因此,如何降低高阶功能连接网络的复杂性和加权图的频繁子图挖掘的冗余度,是今后研究的重点。

猜你喜欢
子图高阶步长
中心差商公式变步长算法的计算终止条件
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
关于2树子图的一些性质
滚动轴承寿命高阶计算与应用
基于随机森林回归的智能手机用步长估计模型
高阶思维介入的高中英语阅读教学
临界完全图Ramsey数
不含3K1和K1+C4为导出子图的图色数上界∗
基于高阶奇异值分解的LPV鲁棒控制器设计
基于动态步长的无人机三维实时航迹规划