刘舜琪 谭 颖* 崔文植 闫士林 宋建成
1(西南民族大学计算机科学与技术学院 四川 成都 610041)2(杭州师范大学信息科学与工程学院 浙江 杭州 311121)
精神分裂症对人类的感知觉、思维、情感和行为等都有着严重的负面影响,多发于15~34岁人群。这种疾病具有早期可控、晚期反复发作及认知功能严重受损等特点[1],尽早诊断治疗将减轻社会成本以及患者家庭负担。随着科学技术的快速发展,计算机辅助诊断已在大脑结构磁共振成像(Structural Magnetic Resonance Image,sMRI)研究中广泛应用,比如脑肿瘤分割[2]、阿尔兹海默症分类[3]和多动症诊断[4]等,同时也为精神分裂症的分类提供了有效方法。
从数学角度而言,辅助诊断即实现目标的分类。实现辅助诊断的分类算法目前主要为统计分析方法、机器学习和深度学习算法。统计分析方法中,t检验等参数分析法能有效应对小样本数据,但找到高维特征分类的最优决策边界较困难。机器学习算法解决了这一问题,因此对于具有小样本、高维特征特点的分类目标sMRI数据相对适用,其中支持向量机(Support Vector Machine,SVM)性能最佳。在2014年至2018年间,超过55%的大脑疾病神经影像研究中使用了SVM[5]。Lu等[6]的精神分裂症sMRI研究计算了各个大脑感兴趣区域(Regions of interest,ROI)的灰质和白质体积,并将两者间的显著差异作为输入特征,利用SVM分类。Liu等[7]通过测量大脑每个ROI的皮质厚度,构建分层脑网络,提取网络的节点及边缘特征,输入到SVM中实现精神分裂症辅助诊断。相同地,将这些机器学习算法、统计分析方法应用于sMRI辅助诊断的研究都需要人的先验知识去设计特征。
深度学习则是一种不依赖于先验知识的算法,它可以从数据中自动学习特征。Pinaya等[8]训练了深度信念网络(Deep Belief Network,DBN)提取精神分裂症sMRI数据的形态学数据特征。但深度学习依靠数据驱动的这一特点决定了其需要大量数据去训练网络,对于特征维数远大于样本数的sMRI数据来说,可能效果表现不佳,会产生泛化能力差、过拟合等问题。而迁移已有的深度卷积神经网络(Convolutional Neural Network,CNN)作为特征提取器的方法,能成功地将CNN应用于小规模医学影像数据集[9]。Jain等[10]在阿尔兹海默症分类研究中迁移了ImageNet数据集训练的VGGNet16[11]以提取sMRI数据特征。2019年,文献[12]指出,迁移CNN模型作为特征提取器时,迁移性能最佳的模型为Inception-ResNet V2[13],而不是目前在ImageNet上取得最高准确率的网络。但该研究仅针对ImageNet识别大赛中第一名的网络结构和目前最先进、性能最好的网络,而许多取得很好迁移效果的sMRI分类研究中所使用的VGGNet并没有在其中提及。
基于上述分析,本文提出了基于CNN结合SVM的精神分裂症诊断分类方法。该方法首先预处理sMRI数据,获得合适的图片信息;再迁移深度CNN模型VGGNet16的13层卷积层VGG13,将其作用于预处理后的精神分裂症sMRI数据提取特征并利用主成分分析降维;最后再利用网格搜索算法(Grid Search Algorithm,GSA)寻优最佳SVM进行特征分类。将Inception-ResNet V2作为对比特征提取器、全连接网络作为对比分类器,验证了本文方法对于精神分裂症大脑sMRI具有更佳的适用性。
本实验数据集来自于美国生物医学研究中心(Center for Biomedical Research Excellence,COBRE)的公开数据集,COBRE数据集获取的地址为http://fcon_1000.projects.nitrc.org/indi/retro/cobre.html。本文数据集包含了年龄在18岁至65岁之间的146名样本,其信息如表1所示。
表1 被试者信息表
本文的数据预处理分为基于体素的形态学分析(Voxel-Base Morphometry,VBM)和基于特征提取器的图像预处理两个部分。第一部分的VBM利用MATLAB 2017b平台上的SPM12工具包生成灰质和白质密度图;第二部分使用NIfTI_20140122工具包、mricro软件将密度图转换为符合特征提取器输入格式的图像。
VBM的三个步骤具体如下:(1) 从脑组织sMRI中分割出灰质和白质密度图,以便Dartel配准;(2) 通过迭代上一步所生成的密度图创建一个平均的Dartel模板,将每个被试者配准到Dartel模板;(3) 对配准后的图像仿射变换后标准化到MNI空间并做高斯平滑处理,最终生成体素大小为1.5 mm×1.5 mm×1.5 mm、维度为121×145×121的密度图。
经VBM预处理后的密度图与特征提取器CNN架构的输入图像通道、格式、大小并不一致,所以需要进行图像转换。首先采用NIfTI_20140122工具包进行三线插值和补全操作,并切割筛选掉无信息的部分,再使用mricro软件对每个被试的密度图平均切片,并将其转为伪彩图。最终每个样本得到尺寸224×224、格式为PNG、RGB通道的灰质密度图90幅和白质密度图76幅,灰质图预处理流程如图1所示。白质与灰质处理流程相同。
图1 灰质图预处理流程
VGGNet16是由牛津大学的Simonyan等[11]提出的CNN模型。本文令其输入为224×224的RGB三通道图像,包含13个卷积核为3×3、步长为1、激活函数为ReLU的卷积层;5个max池化层,其参数为2×2,步长为2;3个全连接层(Fully connected layer,FC)和softmax层。卷积层表达式如下:
(1)
(2)
本实验不考虑全连接层和softmax层,迁移VGGNet16卷积池化层的结构和预训练参数构成特征提取器VGG13,作用于已预处理及过滤无信息切片的COBRE数据集去提取特征。用于本实验的VGG13结构如图2所示。本文将224×224的RGB图依次输入卷积层,携带共享权重的3×3卷积核在输入图像上进行滑动,从而计算出不同时刻的局部感受野,再输入到非线性激活函数ReLU形成特征图,池化层通过最大子采样的方式得到最具有代表性的特征,从而降低了上一层产生的输出维度。靠近输入图像的浅层卷积提取低级通用特征,比如边缘特征、纹理特征等,经过一系列卷积池化层后,呈现出更高级的抽象特征[14]。以5个池化层的特征为例,提取的部分特征变化过程如图3所示。卷积和池化结构简化了模型的复杂度并减少了模型的参数量。图片经过VGG13提取特征得到灰质和白质特征向量分别为(146,90,25 088)、(146,76,25 088),括号中的三个参数分别表示样本数量、每个样本的灰质或白质图片数量、每幅图片特征维数。
图2 VGG13结构图
图3 部分特征变化过程
谷歌团队发布的Inception通过改变网络结构,而不是一味地增加网络深度和宽度来提升模型性能,Szegedy等[13]受ResNet的启发,在Inception的基础上简化了部分残差区块,引入了残差连接加快网络的训练速度,从而构建了Inception-ResNet V2模型。本实验将其作为提取特征性能的对比对象,提取灰质和白质特征向量分别为(146,90,38 400)、(146,76,38 400)。
经VGG13提取特征之后,每个样本的灰质特征维度为2 257 920维、白质特征维度为1 906 688维;经Inception-ResNet V2处理后的灰质特征维度为3 456 000维,白质特征维度2 918 400维。在这些特征数据中,60%以上是非零特征信息,而实验中样本数总数只有146例,可见特征数远超过样本数,这将产生维数灾难问题。若直接将这些特征用于分类,则可能出现过拟合现象,从而导致测试集结果不理想。因此,需使用PCA对这些特征进行降维处理。
PCA是一种将样本从原始的高维空间映射到维度小于样本数的新低维空间的降维方法。在新空间中存在这样一个超平面,样本点到其的距离最近,即最近重构性[15]。本实验并非直接指定低维空间维数,而是从重构性的角度设定了重构阈值,其公式如下:
(3)
式中:λi为样本协方差矩阵所分解出的特征值;d为高维空间的维数,当式(3)成立时,求得d′的最小值即为低维空间的维数。降维流程有以下5步:(1) 中心化所有样本并计算样本的协方差矩阵;(2) 从协方差矩阵中分解出特征值并将其从大到小排列;(3) 据式(1)求得低维空间维数d′;(4) 前d′个特征值对应的特征向量被取出,构成映射矩阵;(5) 样本数据在映射矩阵作用下从原始空间转换成新空间。本文将重构阈值设为60%,经PCA后的维数见表2。
SVM是常用的机器学习分类算法之一,能有效地解决小样本高维度数据分类问题。其利用核函数,将原始非线性可分的特征空间映射到更高维空间,并在新空间中构造一个具有最大间隔的超平面,能最优地将样本分为两类[16]。分类模型公式如下:
(4)
本实验使用GSA参数寻优算法将一组SVM搜索参数(包含线性核linear的惩罚因子C;径向基核rbf的C和系数gamma;多项式核poly的C、gamma和次数degree)划分为网格,遍历每个网格中的参数,快速找出全局最优的SVM参数值。6组特征降维后,将每一组数据按8 ∶2的比例划分成训练集和测试集,对应的标签被划分为训练数据真实标签和测试数据真实标签。针对GSA中不同的核函数、不同的系数和不同的惩罚因子,本实验在6组训练集上采用五折交叉验证,分别选择出本组中交叉验证准确率最高的核参数,即为此组最佳模型核参数,如表3所示。本实验中将降维后的特征和被试信息标签分为训练集(训练分类模型)和测试集(预测分类结果),对比预测结果和真实标签,得到分类结果。
表3 GSA-SVM最佳核参数及交叉验证准确率表
通常情况下,CNN模型的分类器一般为全连接层,因此本文还用VGG13提取的特征训练了其后三层全连接层并修改输出为二分类,将传统全连接网络作为对比分类器。Inception-ResNet V2提取的特征同样被用去训练全连接层。其中训练集和测试集与SVM所用数据保持一致,学习率为0.001,epoch迭代30次趋于平稳,实验结果见表4。本文实验的分类流程如图4所示。
表4 全连接网络作分类器时的验证准确率表 %
图4 分类流程
本实验属于二分类问题,根据真实结果与预测结果组合可形成四种情况,分别为TP(预测为患病的被试其真实情况为患病)、FP(预测为健康的被试其真实情况为患病)、TN(预测为健康的被试其真实情况为健康)、FN(预测为患病的被试其真实情况为健康)。由以上四种情况定义准确率Ace、灵敏度Sen和特异性Spe三项评价指标如下:
(5)
(6)
(7)
此外,本文还利用受试者工作特征ROC曲线图分析了模型性能,若一个模型的ROC曲线完全包裹住另一模型的曲线,则前者的性能优于后者,若两曲线交叉,则以ROC曲线下面积AUC来衡量模型优劣。
本实验对精神分裂症sMRI数据集进行预处理并筛除无信息切片,采用VGG13和Inception-ResNet V2两种CNN模型去自动提取76幅白质和90幅灰质密度图切片的特征,白质特征、灰质特征和组合特征经PCA降维后,再采用五折交叉验证对6组特征训练集分别训练GSA-SVM,最后测试集在最佳的分类SVM模型上进行预测。与此同时,用CNN模型特征训练全连接网络作为对比分类器。分类结果及对比的现有方法指标详见表5。
表5 分类结果表 %
从特征提取器模型、分类器类型、特征种类三个方面进行分析。(1) VGG13获得的白质密度图和灰质密度图结合特征在SVM上分类的准确率为83.33%,灵敏度为80.00%,这两个指标都是所有组中最高,且相较于文献[17]方法的准确率提高了6百分点左右。特异性最高为93.33%,其属于Inception-ResNet V2提取的白质密度图和灰质密度图组合特征。SVM作为分类器时,VGG13所提取的特征其三个指标总体上都优于Inception-ResNet V2模型。FC作为分类器时,同样是VGG13优于Inception-ResNet V2特征提取器。(2) 当VGG13作为特征提取器时,白质特征和灰质特征在SVM分类器上三个指标远高于在FC分类器的指标,而组合特征在SVM上与在FC的分类指标相差较小,SVM指标略高;当Inception-ResNet V2作为特征提取器时,两个分类器指标特点与VGG13一致。(3) 在表5的四组分类模型中,组合特征的准确率、敏感度、特异性总体上优于灰质特征和白质特征的指标;从单独特征上看,灰质特征的三个分类指标整体上稍微高于白质特征。
SVM作为分类器时的整体效果明显优于全连接网络,因此实验中重点呈现了两种特征提取器在SVM上形成的6组ROC曲线,如图5所示。其中VGG13模型3种特征组和Inception-ResNet V2模型3种特征组AUC最高的都是组合特征,分别为0.84、0.82,且VGG13组合特征的AUC最高。VGG13的白质密度特征、灰质密度特征、白质灰质密度组合特征模型的AUC分别为0.81、0.74、0.84,这三组模型的AUC都优于Inception-ResNet V2对应的三组特征模型。
图5 6组模型的ROC曲线和AUC值
本文基于卷积神经网络和支持向量机的精神分裂症分类研究,以VGG13模型提取精神分裂症sMRI数据的白质密度图切片和灰质密度图切片特征,经PCA降维后,利用网格搜索算法寻找分类器的最优参数,最后通过SVM对精神分裂症被试和健康被试进行分类。并将Inception-ResNet V2作为对比特征提取器以及全连接网络作为对比分类器,对模型性能进行了分析。得到结论如下:
1) 本文方法可以自动地提取精神分裂症结构磁共振数据的特征,并实现较高的分类性能。迁移CNN模型作为精神分裂症sMRI特征提取器时,并不是越深越复杂的CNN模型迁移效果更好,VGG13模型自动提取的精神分裂症sMRI特征,其测试集在支持向量机上分类性能更佳,即说明在作为精神分裂症的特征提取器的情况下,VGG13的迁移效果更佳,更适合sMRI数据分类问题。
2) 无论是VGG13还是 Inception-ResNet V2作为特征提取器的情况下,SVM的三项分类指标整体上都高于全连接网络,这说明针对本文中特征提取器所得的精神分类症特征而言,其在SVM上的分类效果优于CNN的传统全连接网络分类器。
3) 比较VGG13和Inception-ResNet V2特征提取方法,两者的三组精神分裂症特征在SVM上的分类指标及ROC曲线下面积都具有相似的大小特点,这说明组合特征的分类效果相较单独特征更优。在单独特征中,灰质密度图切片特征明显优于白质密度切片特征的分类效果。
4) 本文的GMWMVGG13-SVM的准确率比现有方法提高了约6百分点,这证明了该模型对于精神分裂症诊断的适用性和有效性。
总体而言,本文方法旨在以深度CNN模型为基础来自动提取精神分裂症sMRI数据的特征并找到最优分类方法,避免经验不稳定性、精力有限性等人为因素所导致的误差,为精神分裂症的辅助诊断提供了有效的思路和方法。精神分裂症的分类研究还有许多方法,比如功能磁共振、正电子发射断层扫描、脑电图扫描等,本文只采用了结构磁共振特征,考虑到特征的单一性,未来将进一步研究多模态特征。