机器学习方法在fMRI数据中的应用研究

2023-07-14 14:50黄庆坤贺政刚杨鹏
计算机应用文摘 2023年12期
关键词:复杂网络统计分析机器学习

黄庆坤 贺政刚 杨鹏

摘要:文章通过机器学习方法对功能性核磁共振成像(fMRI)数据进行分类研究.旨在探讨精神分裂患者的差异性脑网络结构。在特征选择上,采用了复杂网络分析来度量脑网络的拓扑属性,并且以年龄为协变量通过双样本£检验构建显著差异性特征集;在分类算法上,采用粒子群优化支持向量机分类算法,在10折交叉验证下进行建模分析。结果表明精神分裂患者(SCH)组和正常被试(NC)组在全局属性和节点属性上存在显著差异,在分类模型下能够得到最佳准确率93%。

关键词:机器学习;功能性核磁共振成像;统计分析;复杂网络

中图法分类号:TPI83 文献标识码:A

1 引言

人在处理事件或完成某项任务时,大脑需要依赖各个功能脑区的相互协作,尽管在休息时,大脑仍需要消耗大量的能量来进行信息处理。从各个功能脑区相互作用所形成的复杂脑网络这一角度研究大脑,能进一步阐述脑内信息加工机制,对相关脑疾病诊断具有较大的理论价值。近年来,FMRI 技术已广泛应用于脑功能网络的研究,Rubinov 等[1] 通过复杂网络分析来量化大脑网络拓扑结构;Wang 等[2] 通过静息态fMRI 数据研究脑功能网络拓扑指标并对TRT 参数进行评估;Onias 等[3] 概述了复杂网络的统计参数并对癫痫患者的脑网络结构进行度量;王静等[4] 对抑郁症患者大脑的复杂网络研究进行综述等。在先前的研究中[5] ,研究了大脑感兴趣区域(ROI)的功能连接(FC),将其作为特征向量,通过PCA 算法构建特征集并进行分类实验,其本质上属于种子点分析法,仅通过建模分类来说明在精神分裂患者中存在差异性脑区或脑网络机制,但未深入研究大脑网络结构的拓扑属性以及各个节点之间存在的差异性。对此,本文首先通过复杂网络统计量描述来度量SCH 组与NC 组的脑网络结构;其次将年龄作为协变量,通过统计检验方法讨论精神分裂患者的差异性脑网络结构并构建特征集;最后使用粒子群优化SVM 分类模型进行建模论证,通过机器学习方法进一步解释精神分裂患者的潜在患病机理。

2 相关理论

2.1 复杂网络的统计描述

在大脑中,将以ROI 为节点所构成的复杂网络中根据全局指标(Global)和节点指标(Node)作为网络度量方法[6] 。全局指标根据整个网络结构对相关统计进行描述, 具体包括: 聚类系数( Clusteringcoefficient)、最短路径长度(Shortest path length)、小世界属性(Small world)、全局效率(Global efficiency)、同配性(Assortativity)、同步性(Synchronization)、层次(Hierarchy)系数[7] 。节点指标根据节点信息进行计算,具体包括:节点聚类系数、节点最短路径长度、节点效率( Nodal efficiency )、度中心性( DegreeCentrality)、介数中心性(Betweenness Centrality)。

2.2 粒子群算法优化分类

3 实验

3.1 实验平台

实验基于Matlab 平台R2021a 版本和Pycharm 平台2021.2 版本。Matlab 中主要使用的工具箱为gretnav2. 0 版本[8] 。Pycharm 中主要使用Anaconda3,nilearn0.8.1 版本,sklearn0.24.2 版本以及数据处理库和绘图库等。

3.2 实验数据

实验数据来源于生物医学研究卓越中心提供的精神分裂症数据集,实验选择74 名NC 和72 名SCH的rs?fMRI(fmri_XXXXXXX.nii.gz)和被试采集记录构建样本数据。通过校正、标准化、平滑、去线性趋势、回归协变量、滤波等程序对fMRI 数据进行标准预处理。

3.3 实验流程

实验通过Python 编程语言进行代码简写,如图1所示。(1) 划分样本数据。通过cobre 数据集中phenotypic_data.tsv 文件将fMRI 数据分为NC 组(74名正常被试NC.nii)和SCH 组(72 名精神分裂患者SCH.nii)2 类,并构造类别标签集(NC.label 和SCH.label)。(2) 全局和节点网络分析。实验使用解剖学自动标记图谱ALL?90,通过gretna 计算相关全局与节点指标,具体见2.1 节,其中使用Network Sparsity 阈值法(阈值被定义为实际连边数与最大可能性连边数的比率)进行筛选,并且与随机网络进行对比,以确定非随机拓扑结构,稀疏阈值设置为[0.05, 0.1, 0.15,0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5]。(3)统计检验构建特征集。将年龄作为协变量,通过双样本t 检验对比NC 组和SCH 组的差异性指标(p<0.05,FDR 矫正)并构建特征集(NC.train 和SCH.train)。(4)建立SVM 模型。通過PSO 优化算法在10 折交叉验证下对特征集和标签集进行二分类实验。

4 实验结果

4.1 全局指标

通过曲下面积(AUC)分析发现:聚类系数(Cp)有显著差异p = 0.038,t = 2.09,NC 组大于SCH 组;最短路径长度(Lp)有显著差异p =0.003,t =3.01,NC 组大于SCH 组;小世界指数(σ 有)显著差异p =0.01,t =-2.58,NC 组小于SCH 组;全局效率(Eg)有显著差异p =0.037,t = -2.1,NC 组小于SCH 组;层级系数(ab)有显著差异p =0.017,t =-2.42,NC 组小于SCH 组,如图2 所示;局部效率(Eloc)、同配性(ar)、同步性(as)没有显著差异(P>0.05)。

4.2 节点指标

节点聚类系数(NCp)有显著差異的节点为57(左侧中央后回)。提取57 节点的值进行双样本t 检验:节点57 的t =3.75,NC 组大于SCH 组,如图3 所示。

节点效率(NE)有显著差异的节点为4(右侧背外侧额上回)、74(右侧豆状壳核)、77(左侧丘脑)、78(右侧丘脑)。提取4 个节点的值进行双样本t 检验:节点4 的t =-3.42,NC 组小于SCH 组;节点74 的t =-3.46,NC 组小于SCH 组;节点77 的t =-4.23,NC 组小于SCH 组;节点78 的t =-4.12,NC 组小于SCH 组,如图4 所示。

节点度中心性(NDc)有显著差异的脑区为69(左侧中央旁小叶)、74(右侧豆状壳核)、77(左侧丘脑)、78(右侧丘脑)。提取4 个脑区的值进行双样本t 检验:节点69 的t =3.28,NC 组大于SCH 组;节点74 的t=-3.46,NC 组小于SCH 组;节点77 的t = -4.18,NC组小于SCH 组;节点78 的t = -3.58,NC 组小于SCH组,如图5 所示。

节点局部效率(NLe)没有显著差异;节点介数中心性(NBc)没有显著差异;节点最短路径长度(NLp)没有显著差异。

4.3 分类结果

通过显著差异的全局指标和节点指标构建特征集,如图6 所示。实验对比高斯核函数和线性核函数,在k =10 的交叉验证下(KFlod),rbf SVM 分类准确率平均为76% (C = 130. 554 9,gam = 0. 001),linearSVM 分类准确率平均为75.1% (C = 130.554 9)。其中,当K =1 时,linear SVM 分类准确率最高为93.3%,当K =10 时,linear SMV 和rbf SVM 对于特征集的训练效果普遍较差,这是由于KFold 交叉验证划分训练样本不均所导致的。实验同时对比全局指标和节点指标,其中节点指标平均准确率均高于全局指标平均准确率,同时低于特征集平均准确率,如图7 所示。

5 讨论

本文在特征选择上属于种子点分析法,区别于传统FC 分析和PCA 降维等方法在特征上选择具有显著差异性全局属性和节点属性。通过双样本t 检验发现,患者脑网络中聚类系数和最短路径长度低于正常被试,在节点中央后回(PoCG.L)的节点聚类系数存在显著差异(P<0.001),吴伟斌等[9] 解释了该结果的生理学原理。全局效率患者高于正常被试,在节点背外侧额上回(SFGdor.R)、豆状壳核(PUT. R)、丘脑(THA)的节点效率存在显著差异(P<0.001),说明精神分裂患者脑网络的集团化程度和信息传输速率存在差异,特别是各种感觉的传导通路均在THA 内更换神经元后投射到大脑皮层,解释了精神分裂患者存在幻想症、思维混乱、极度激动等行为,由于小世界属性参数受到随机网络的聚类系数与最短路径影响,因此出现小世界属性SCH 组大于NC 组的现象。在实验中为了减少个体性差异对实验的影响,在进行双样本t 检验时,均以年龄为协变量对比两组被试的全局指标和节点指标,考虑到性别所带来的影响,实验对比仅发现男性患者(58 人)和女性患者(14 人)在节点度中心性的上距状裂周围皮层(CAL.R)脑区存在显著差异(p =0.0002,t =3.92,FDR 矫正),具有较强的特征解释性。在分类方法上属于机器学习中的监督学习,实验通过SVM 算法解决fMRI 数据小样本问题,通过核函数解决了fMRI 数据高维度特性问题,相较于之前的实验结果,最优分类准确率93%也进一步证实从复杂网络研究角度构建特征来进一步区别患者与正常被试的可能性,为计算机辅助诊断提供了参考。实验中仍有未充分考虑的其他干扰因素导致样本泛化能力有待提高,如KFlod 交叉验证中正负样本均等划分以及大脑结构成像中扫描的灰质、白质和脑脊液的形态结构以及被试的性别、惯用手等因素,因此对于部分划分的样本训练效果较差。下一步工作可结合多模态MRI 分析,提取不同特征值和尝试不同算法[10] ,以尽量减少由于个体差异性以及多变的生理学因素所带来的干扰。

参考文献:

[1] RUBINOV M,SPORNS O.Complex network measures of brainconnectivity: uses and interpretations.[J].Neuroimage,2010,52(3):1059?1069.

[2] WANG J H,ZUO X N,SURIL G,et al. Graph theoreticalanalysis of functional brain networks:test-retest evaluation onshort- and long - term resting - state functional MRI data[J].PloS one,2011,6(7):21976.

[3] ONIAS H, VIOL A, PALHANO?FONTES F, et al. Braincomplex network analysis by means of resting state fMRI andgraph analysis: Will it be helpful in clinical epilepsy?[J].EPILEPSY AND BEHAVIOR,2014,38(1):71?80.

[4] 王静,孔令茵,雷炳业,等.抑郁症的脑复杂网络研究进展[J].中国医学物理学杂志,2020,37(6):6.

[5] 黄庆坤,杨鹏.基于神经网络的精神分裂fMRI 数据分类[J].电子技术与软件工程,2020(3):2.

[6] SILVA T C,ZHAO L.Machine Learning in Complex Networks[M].Springer International Publishing,2016.

[7] ERZSéBET Ra, LáSZLó B A. Hierarchical organization incomplex networks [ J]. Physical Review E, 2003, 67 ( 2):026112.

[8] WANG J, WANG X, XIA M, et al. GRETNA: a graphtheoretical network analysis toolbox for imaging connectomics[J].Frontiers in Human Neuroscience,2015,9(386):386.

[9] 吴伟斌,傅礼洪,上官文博,等.青少年精神分裂症BOLD?fMRI 特征与认知功能的关系[J].中国CT 和MRI 杂志,2022,20(6):4?7.

[10] AHMAD F,AHMAD I,GUERRERO?S?NCHEZ Y.Classificationof schizophrenia?associated brain regions in resting?state fMRI[J].The European Physical Journal Plus,2023,138(1):58.

作者简介:黄庆坤(1994—),硕士,助教,研究方向:计算机技术。

贺政刚(1994—),硕士,助教,研究方向:应用数学。

杨鹏(1995—),本科,助教,研究方向:临床医学。

猜你喜欢
复杂网络统计分析机器学习
基于图熵聚类的重叠社区发现算法
基于网络搜索数据的平遥旅游客流量预测分析
如何发挥新时期统计工作的作用之我见
前缀字母为特征在维吾尔语文本情感分类中的研究
基于复杂网络理论的通用机场保障网络研究
以统计分析为基础的房地产税收优化分析
基于支持向量机的金融数据分析研究
城市群复合交通网络复杂性实证研究
SPSS在高校图书馆服务体系中的应用研究