祝 承,赵晓琦,赵丽萍,焦玉宏,朱亚飞,陈建英,周 伟,谭 颖
(计算机系统国家民委重点实验室(西南民族大学),成都 610041)
精神分裂症是一种常见疾病,给患者家庭和社会带来了沉重的负担。随着磁共振成像(Magnetic Resonance Imaging,MRI)成像技术的快速发展,功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)成为研究脑部疾病的重要手段之一[1]。但由于fMRI数据特征维度高而样本量少,所以考虑如何解决过拟合问题是必要的,而特征选择或降维就是常用方法之一。
聚类方法在fMRI数据的特征选择中已经得到了广泛的应用,并且在没有先验知识的情况下,可以根据fMRI时间序列的相关性将数据分为子图内部相似性最大、子图间相似性最小的若干类。然而,传统的聚类方法,如:k-means和模糊C均值算法(Fuzzy C-Means,FCM)需要假设fMRI数据满足凸球样本空间分布,而功能磁共振数据是高维的、未知的、空间变换的,不满足凸球型分布,所以算法容易陷入局部最优。
谱聚类是一种基于图论的聚类方法,能在任意形状的样本空间上聚类,即具有识别非凸分布的聚类能力,可以收敛于全局最优解[2]。其基本思想是根据给定的样本数据集间的相似关系构建亲和矩阵,计算特征值和特征向量,依据样本间的潜在联系,聚类出类内相似、类间有异的不同簇。Zhao等[3]基于谱图理论提出(SPECtral feature selection,SPEC)算法,通过评估特征值分布与目标的一致性进行特征选择;王连喜等[4]提出基于聚类集成的特征选择算法,该算法是利用聚类算法将冗余特征聚成一类簇,从各类簇中挑选最具代表性的特征构成最优特征子集;非负判别特征选择(Nonnegative Discriminant Feature Selection,NDFS)算法[5]采用谱聚类算法学习样本类标,将特征选择融入学习过程中;近年来,谢娟英等[6]提出了基于谱聚类无监督特征选择(Feature Selection by Spectral Clustering,FSSC)思想用于特征选择,该方法已初步应用于有高维度小样本特点的癌症相关基因数据,并取得良好效果。谱聚类算法目前在应用方面的研究主要集中在普通图像层面,在fMRI数据的分类中应用较少。
综上,本文借助谱聚类算法的优势,利用FSSC思想,提出基于谱聚类半监督特征选择(Semi-Supervised Feature Selection by Spectral Clustering,SS-FSSC)的fMRI数据分类模型。利用序统计量相关系数与皮尔逊相关系数描述脑区间功能连接特征,确定基于Constraint得分的特征重要性准则,选择具有代表性的特征构建特征子集,输入支持向量机(Support Vector Machine,SVM)进行分类器训练,最后对大脑特异性进行分析确定重要病变脑区,为精神分裂症的早期诊断和治疗提供支撑。
本文用于研究的数据来源于新墨西哥大学生物医学研究中心提供的公开数据集COBRE(Center for Biomedical Research Excellence),包含了146名被试(年龄:18~65岁)的原始fMRI脑影像数据和其他临床信息,其中有72位(58名男性)精神分裂症患者和74位(51名男性)健康对照组。该数据集不包含近12个月中被诊断为神经系统疾病、智力迟钝、严重头部外伤、药物滥用或依赖的受试者。为了平衡不同组间性别与被试数量的差异,本文将12名健康被试与10名病患移除,故而实验数据为62个精神分裂症病患与62个健康被试。病患组与对照组部分信息如表1所示。
表1 挑拣后的COBRE数据集特性Tab.1 Characteristicsof COBRE dataset after selection
COBRE数据集是由3T西门子磁共振成像扫描仪在静息状态下扫描获取的,具体参数如下:层厚度=3.5 mm,层间距=1.05 mm,RT=2 000 ms,ET=29 ms,FA=75°,33层轴向切片,获得大小为64×64的矩阵,扫描视野为240 mm。
为更好地评估模型性能,在本研究中,将挑选后的COBRE数据集分为训练集与测试集两部分,其中训练集用于特征谱聚类以及分类器模型的训练。
特征选择旨在从原始的特征空间中遴选与任务相关的特征,删除冗余、无关的特征。FSSC思想以构建具有高分类信息且相互之间低冗余的特征子集为原则,对所有特征进行谱聚类,将相似特征聚到同一类簇中。
本文模型以FSSC思想[6]为基础进行特征选择,揭示脑区间功能连接所隐藏的潜在规律。首先对数据进行预处理,然后利用FSL5.0提供的哈佛牛津地图集将大脑分成48个脑区,提取fMRI数据的时间序列;再选取用于描述脑区间功能连接的两种相关系数,将其输入不同的谱聚类算法进行聚类操作,得到多个类簇,并依据特征重要性准则,挑出重要特征构成特征子集,将特征子集输入分类器进行分类。其在fMRI数据下的应用流程如图1所示。
图1 基于SS-FSSC的fMRI数据分类流程Fig.1 Flowchart of fMRIdata classification based on SS-FSSC
其中,FSSC思想算法流程[6]描述如下所示:
输入:训练数据集D∈Rn×d,n为训练样本数,d为特征数;被选特征子集规模数k。
输出:特征子集S。
BEGIN
1)初始化被选特征子集S=∅,全部特征集合为F;
2)对全部特征采用谱聚类算法进行谱聚类,得到k个特征簇;
3)利用特征重要性准则计算各特征的Score值,从各特征簇选取Score值最大的特征加入特征子集S;
4)输出特征子集S。
END
1.2.1 功能连接描述
谱聚类算法本质是将聚类问题转化为二维图的最优划分问题,即需要两个维度的信息来描述聚类样本,因此需要选取合适的二维信息来描述fMRI数据脑区功能连接特征。杰出统计学家Fisher证明,当样本满足二元高斯分布时,皮尔逊积矩相关系数是母体相关系数的渐近无偏最优估计。故本文中利用皮尔逊积矩相关系数作为描述功能连接特征的工具之一。
检测环境、时空差异都会影响到人脑的活动,而精神状态的变化会对静息态fMRI信号产生直接影响,在数据预处理过程中不能完全消除差异性活动,该情况可以假定为一种脑区时间序列信号下的轻微非线性畸变。新近提出的方法序统计量相关系数(Order Statistics Correlation Coefficient,OSCC),可适用于解决样本存在轻微的单调非线性畸变的情况[7-10];且该相关系数在fMRI数据问题上已得到利用[11],其公式如下所示:
其中:x、y是长度为N+的两个时间序列,按照xi(i=1,2,…,N+)信号的幅值对两个时间序列重新排序后,分别得到新的序列x(i)和y(i),其中x信号满足x(1)≤x(2)≤…≤x(N),即为序统计量,y[1],y[2],…,y[N]为相关性伴随序列。互换x和y的 作 用,定 义y的 序 统 计 量 为y(1),y(2),…,y(N),而x[1],x[2],…,x[N]作为其伴随序列。
综上,本文选取皮尔逊积矩相关系数与OSCC作为脑区功能连接特征的描述,并将所有被试各脑区的两个相关系数均值作为二维特征,然后进行特征谱聚类。
1.2.2 特征谱聚类
特征谱聚类是将特征聚类问题转换为特征图切分问题,可以在任意形状的样本空间上通过分割子图来聚类数据点,且收敛于全局最优解。故切分准则的好坏将直接影响到聚类结果,依据切分准则的差异,本文分别采用规范割集准则(Normalized Cut,NCut)算法与比例割集准则(Ratio Cut,RCut)算法进行谱聚类。
对特征进行谱聚类,即以特征为顶点,特征间相似性为顶点连接边权重,可以利用特征间的潜在联系,发现最优的特征簇。本文中,将每个功能连接特征视为图顶点V,对顶点间的边赋距离值W,确定基于特征距离的无向加权图G=(V,E)。
其中|A|、|B|表示子图A、B中顶点的个数。比例割集准则Rcut算法兼顾了孤立点与均衡化问题,同时加大了类间样本相似性,降低了过分分割的几率,但运行速度较慢。
1.2.3 特征评价准则
特征选择作为数据预处理的重要步骤,其评价准则的优劣直接影响到特征子集的优劣。理想特征的评判标准是去除无关、弱相关且冗余特征,保留弱相关非冗余特征和强相关特征[12],因此对于特征的选择既要考虑到相关性又要兼顾到冗余性。
本文利用Constraint得分进行实验,Constraint得分是一种将成对约束作为监督信息的受监督的特征选择算法,其目标为选择同类样本间差异小、异类样本间差异大的特征。Constraint得分需定义must-link约束集M={(xi,xj)|xi,xj同类}和cannot-link约束集C={(xi,xj)|xi,xj异类},然后使用约束集M和C对特征f进行评分,其评分函数有两种:
其中:fi表示样本xi在特征f上的取值,正则化系数λ平衡式(5)前后两项的贡献,λ<1;且特征重要性越高,式(4)与式(5)得分越低。本文选用第一种评分函数。此外,得到各个类簇中最大得分的特征后,依据其得分进行降序排列,挑选排在前面一定数量的特征作为最后的分类训练特征子集。
采用基于谱聚类半监督特征选择SS-FSSC的fMRI数据分类模型,需要先确定谱聚类算法类型与用于输入分类器的相关系数类型;此外,还需确定类簇数与期望保留输入分类器的特征总量。为得到模型的最优参数解,验证模型性能,并讨论病患脑区连接异常,将实验及结果分析分为三部分。
第一部分讨论不同谱聚类算法与切割准则下模型的解。采用5折交叉验证法与分类准确率标准差对比分类性能,并选取指标:准确率(Accuracy,ACC)、敏感性(Sensitivity,SEN)和特异性(Specificity,SPE)来量化最优设置下支持向量机SVM分类器的性能。各项指标公式[13]如式(6)~(8)所示:
其中:TP(True Positive)为真阳性的个数,即正确诊断病人的个数;TN(True Negative)为真阴性的个数,即正确诊断正常人的个数;FP(False Positive)为假阳性的个数,即错误诊断正常人的个数;TN(False Negative)为假阴性的个数,即错误诊断病人的个数。
第二部分首先将基于全脑功能连接(Functional Connectivity,FC),即利用预处理后fMRI全部数据信息进行分类器训练的方法与本文方法进行对比;然后对本文模型不同分类器设置下的结果进行对比;最后,将不同特征降维方法与本文方法进行对比。
第三部分基于本文模型结果,对病患大脑异常进行分析。
此外,本文利用决策树(Decision Tree,DT)、随机森林(Random Forest,RF)、SVM分类器、主成分分析(Principal Component Analysis,PCA)、BP(Back Propagation)神经网络、线性判别分析(Linear Discriminant Analysis,LDA)以100次5折交叉验证实验结果的平均值比较各算法的性能。其中,SVM分类器的核函数采用多项式核函数ploy;PCA设置保留40%的信息;BP神经网络利用sklearn.neural_network库中的MLPClassifier函数实现,设置权重优化的求解器为adam,启用early_stopping,其余参数为默认设置;DT、RF、LDA皆为scikitlearn函数under different parameters库默认设置。
本文对静态功能连接特征,分别利用谱聚类中规范割集准则NCut与不规范的比例割集准则RCut进行聚类,再确定选择后要输入SVM分类器的特征数量,最后分别采用皮尔逊积矩相关系数与序统计量相关系数OSCC来表示特征,进行分类器训练。具体结果如图2所示,其中类簇数固定为1 000,SVM核函数固定为多项式核函数(Poly),图例中_G表示grade得分。为保证分类结果的可靠性,本文将五折交叉验证重复100次,并取其总体平均准确率与总体平均标准差。
由图2(a)可以看出,当保留特征数量在0~20时,随着输入分类器特征数量的不断增加各类模型的准确率快速上升,达到70%时基本趋于稳定,本文称准确率达到70%时保留的特征数量为模型的临界点;从图2(b)可以看出,当保留的特征数量大于150时,各类模型的准确率开始逐渐下降。其中,各类模型的最值点和临界点的具体信息如表2所示。
图2 不同特征数量下SS-FSSC各类模型的分类准确率Fig.2 Classification accuracy of SS-FSSCwith different featurenumbers
表2 不同参数下模型的最值点与临界点信息Tab.2 Information of maximum and critical pointsof themodel
从表2可看出,各类模型最高准确率差异波动在1%~2%,且保留特征数较少时模型准确率较不稳定;从局部看利用OSCC时,SVM分类器能更快达到模型临界点;从总体看Pearon与Rcut的组合设置能在保留特征数量较小时,更快达到最优解,且OSCC与RCut的组合设置达到了最高的模型准确率。因此,选用准确率ACC、敏感性SEN和特异性SPE来量化OSCC与RCut组合设置下的模型性能,结果如表3所示。
表3 OSCC_RCut设置下模型分类结果评价Tab.3 Evaluation of model classification results under OSCC_RCut setting
2.2.1 FC与SS-FSSC方法下模型分类结果对比
实验分别选取特征数量为16和152两个值,对基于FC和SS-FSSC方法的不同模型的分类结果进行比较,2种方法在不同分类器上的准确率如图3所示(保留小数点后3位,若末尾为0则不显示)。由图3可以看出,基于谱聚类半监督特征选择的分类模型准确率明显优于基于全脑功能连接特征的各类分类模型,且由图3(b)可以看出特征数量值为152时,采用SVM为分类器时平均准确率可达77%,次之是利用随机森林(RF)的分类结果,最低准确率是在决策树(DT)上的分类结果;而基于功能连接特征的分类模型,其准确率在各个模型上基本稳定于51%左右,基于SVM为分类器的结果有所提高。
图3 FC与SS-FSSC方法下模型分类结果对比Fig.3 Comparison of model classification resultsunder FCand SS-FSSCmethods
2.2.2 基于不同分类器的分类效果实验
将基于谱聚类半监督特征选择SS-FSSC的功能连接特征子集输入不同分类器进行对比,图4显示了不同特征数在临界点和最值点的分类准确率。
图4 基于SS-FSSC的不同分类器结果对比Fig.4 Comparison of different classifier resultsbased on SS-FSSC
由图4可以看出,无论是在临界点还是最值点,基于SVM的分类效果都要优于其他两类的分类效果,且从图4(b)可以看出,当特征数量值为152时,其最高准确率可达95.83%,得到较好的准确率。但是相对于保留152个特征数量时,保留16个特征数量的分类结果并不是很稳定。本文实验的最佳效果是基于SVM分类得到的。
2.2.3 基于不同特征降维方法的分类结果对比
实验分别选取特征数量为16和152两个值,将不同特征降维方法PCA、BP神经网络、LDA与本文方法进行对比,结果如图5所示。无论是在临界点还是最值点,本文模型准确率都优于常用经典的特征降维方法。
图5 不同特征降维方法与本文模型分类结果对比Fig.5 Comparison of classification results of different feature dimension reduction methods and the proposed model
由表2可知,选用OSCC作为工具时,保留特征数16是模型的临界点,所以认为该16个功能连接是可能的精神分裂症重要病变功能连接,且其所对应的脑区可能为重要病变脑区。具体分布如图6所示。
图6中功能连接对应脑区的出现频率如表4所示,精神分裂症重要病变功能连接及其病变脑区集中分布在左脑。其中距状裂皮质(Intracalcarine Cortex)出现频次最高,颞上回前部、楔前皮质、颞下回,颞枕部、扣带回旁、额叶内侧皮质、颞横回(包括H1和H2)、颞平面、额叶前部出现频次较高。
图6 重要病变连接及其对应脑区Fig.6 Important diseased connectionsand the correspondingbrain regions
依据以往对精神分裂症病患的fMRI数据研究,认为其主要病变脑区位于脑岛(Insula)、海马体(Hippocampus)、额叶(Frontal)和颞叶(Temporal)[14-15]。本文的定位的10个脑区也覆盖上述区域。
距状裂皮质在语言学习和记忆中发挥重要作用,同时在精神分裂症研究中的地位已得到广泛关注[16-18],从表4可知,本文定位的脑区中距状裂皮质出现频次最高,因此上述研究结论与本文实验结果一致。
表4 重要功能连接对应脑区出现频率统计Tab.4 Occurrence frequency statisticsof brain regions corresponding to important functional connections
对精神分裂症患者的皮质下区域体积改变的大规模调查中,发现患者左右脑存在不对称,患者左脑苍白球比右脑苍白球平均大4%左右,表明精神分裂症中的神经通路和连接方式异常侧向的可能性[19-21],这或许可以解释本研究中精神分裂症重要病变功能连接及其病变脑区集中分布在左脑的结果。
本文提出基于谱聚类半监督特征选择SS-FSSC的fMRI数据分类模型。通过皮尔逊积矩相关系数和OSSC描述脑区间功能连接特征,利用切分准则将相似性高的特征聚成一类簇,基于Constraint得分进行特征重要性评判,选择具有代表性的特征构成特征子集,并结合SVM分类器进行分类。经过实验发现本文模型仅利用16或17个功能连接特征,就能稳定达到70%以上的平均准确率;输入特征数为150左右时,达到约为77%的最高平均准确率;同时因模型输入分类器特征较少,避免了过拟合的问题;最后通过分析上述16个功能连接特征,发现其集中分布在左脑,并且对应脑区中距状裂皮质出现频次最高,符合现有研究状况,但其具体原因还需进一步研究。因此,本研究不仅可以用于fMRI数据精神分裂症的辅助诊断中,还对病变脑区的确定有着重大意义。但是本模型在如何运用新提出的谱聚类算法进行谱聚类、寻求更多数学方法描述脑区间功能连接特征、调整特征重要性准则、机器学习算法的融合创新[22]等方面仍有待改进之处。