高文逸 赵国桦 吴亚平 王梅云 林予松,2*
1(郑州大学互联网与健康服务河南省协同创新中心 河南 郑州 450052)2(郑州大学软件学院 河南 郑州 450052)3(河南省人民医院影像科 河南 郑州 450003)
影像组学的概念最早由荷兰学者Lambin等[1]在2011年提出,其含义是指通过计算机断层摄影、正电子发射断层摄影或磁共振成像获得的医学图像中提取和分析大量高通量的高级定量成像特征,创建医学影像的可挖掘数据库,用来建立描述性和预测性模型,将图像特征与表型或基因-蛋白质特征相关联[2-4]。与传统影像学相比,影像组学是一种多学科交叉、多种影像技术相结合的技术。影像组学分析流程主要包括:图像获取,病灶分割,特征提取和选择,模型构建和临床信息解析[1]。其中特征提取和选择是影像组学实施的核心。
影像组学从医学影像中提取多维度定量数据,有助于癌症检测、肿瘤分割、预测生存期、分级分类,以及反应评估新的生物标记物等的研究[5-7]。其中确定肿瘤边界是这些工作的基础。部分肿瘤呈浸润性生长,这就使得肿瘤边界划分在临床手术治疗中成为很大的挑战。在影像组学的研究领域中,肿瘤的边界特征对决策也会产生重大影响。具体表现在:由于自动和半自动分割算法的不成熟,对于肿瘤影像,病变区域大都是由影像科医生手动分割的,多个影像科医生依据自身的经验进行手动分割,会导致分割的感兴趣区域产生细微差别。文献[8]研究结果表明部分影像组学特征对影像的变化非常敏感,细小变化可能引起影像组学特征的剧烈改变,导致训练的模型不可靠,这类特征被称为边界敏感特征,即不稳定特征。文献[9]研究表明肿瘤边界差异产生的边界敏感性特征对采用影像组学预测突变状态有显著的影响。文献[10]通过对分割边界和离散化算法的分析,得出肿瘤的敏感性特征对肿瘤分割边界产生重大影响。因此,在进行影像组学研究时,为了保证实验结果的可靠性,要去除边界敏感特征。
目前常用影像组学特征包括亮度、形状、纹理和小波四大类[11],同时,由于肿瘤异质性的存在,可以进一步计算肿瘤亚区的影像组学特征,造成特征数量成倍增加[12]。影像组学的影像特征必须具备3个特性:可重复性,非冗余性,信息量丰富[13]。可重复性即稳定性,即影像特征不会随着影像细微变化产生较大改变;非冗余性是指选择的影像特征不存在互相可以表达的冗余特征;信息量丰富即要求影像学特征要包含影像的全部信息。文献[14]显示冗余基因限制了生物标记基因集的效率和普遍性。若生物标记基因包含冗余基因,则该基因集不能有效地表达疾病。因此,在进行研究时,要去除掉冗余特征。文献[15]研究发现,影像组学特征可以通过聚类的方式予以分组,通过剔除分组相关系数高的特征达到去冗余的效果。但用聚类算法去除冗余特征时,取决于聚类算法中距离的度量,不同的距离度量可能会对冗余特征去除产生影响,从而使实验结果不具有普适性。文献[16]研究用影像组学特征对肝细胞癌进行术前预测试时,用最大相关最小冗余算法(mRMR)去除高维特征中的冗余和不相关特征。但mRMR算法中冗余度和相关性评价方法较为单一,不能根据实际需求进行参数调整。
通过以上分析可知,在用影像组学进行肿瘤研究时,只有相关性较高的非冗余的稳定性特征才能用于后续研究,在建模分析时才能获得较为精确的结果。但现存的大多数研究都不能同时把稳定性、相关性和冗余性考虑在内,大都只从单一的方面来进行特征选择。基于此,本文提出一种用于影像组学的多级特征选择方法,此方法不仅把肿瘤边界考虑在内,而且也考虑了特征的相关性和特征之间的冗余性,同时,该方法也考虑到了不同特征选择方法互补性问题。
本文的主要工作如下:
1) 提出一种新的特征相关性选择算法,混合F-Score和信息增益的特征选择方法,引入融合性指标MSOM(Mean Score of Mixed)来对特征进行相关性选择。
2) 提出一种用于影像组学的多级特征选择方法,先对两次不同边界的影像计算ICC值,根据阈值筛选对边界不稳定的特征;之后用本文提出的相关性选择的算法,通过对MSOM值排序,进行相关性选择;最后,引入遗传算法进行特征冗余性选择。此方法充分考虑到单一特征选择方法难以获得通用的最佳特征子集的劣势,采用多级特征选择机制,结合了遗传算法计算准确、有较强鲁棒性和F-Score与信息增益简单、快速的特点,把影像组学海量特征中的稳定性特征、相关性特征和非冗余性特征考虑在内。
针对单一性的F-Score和信息增益[17-18]特征选择方法存在评价准则单一的缺陷,本文采用F-Score与信息增益混合的特征选择方法(MSOM)来获得具有鲁棒性、稳定性和通用性的特征子集。本方法将MSOM值作为评判标准来筛选特征,分三个步骤:
(1) 计算每个特征的F-Score和信息增益值。
(2) 对每个特征计算出来的F-Score和信息增益得分进行归一化。
(3) 根据归一化后的值,计算每个特征的MSOM值。
由于MSOM方法是混合F-Score和信息增益得分,为使两者具有可比性,选择将其进行归一化。具体方法为:
(1) 选择所有特征中最大的IG值,进行以下操作:
(1)
IG(D)j=Entropy(N)-Entropy(Dj)
(2)
(3)
(4)
(2) 计算所有特征的F-Score值,选择所有特征中最大的F-Score值,进行以下操作:
(5)
(6)
将特征i的MSOM值定义为:
(7)
对MSOM值的大小进行特征选择,具有更大MSOM值的特征认为更具有分辨性,即认为是好的特征。
MSOM方法结合了两种常用的特征选择方法,仅仅考虑了单个特征对类别的影响,选取单个特征对类别相关性较高的特征,但忽略了特征之间的冗余性,选出的特征子集可能存在冗余特征,难以获得稳定的最优特征子集。
基于以上MSOM特征选择方法的缺点,本文提出了一种多级特征选择方法——MSOM-GA,在MSOM方法基础之上引入遗传算法[19-20],去除特征之间的冗余特征。本文实验使用遗传算法时,用个体的分类准确性来构造适应度函数,具体评价标准是ROC曲线下的auc值,分类器采用lightgbm。鉴于本文实验数据集脑胶质瘤的特殊性,在医生手动分割肿瘤时,会存在多个医生对肿瘤边界的划分的偏差性,因此,提取到的特征会包含对肿瘤边界敏感的特征。于是,本文实验加入了ICC指标[21],作为衡量特征稳定性的标准。具体流程如图1所示。
图1 MSOM-GA基本流程
一种用于影像组学的多级特征选择方法可分为以下几个步骤:
(1) 去除对肿瘤边界敏感的特征。脑胶质瘤感兴趣区域通常由肿瘤专家和放射科医生手动分割,这就导致感兴趣区域的边界可能会存在细微差别。在相关研究中表明,一部分影像特征会因为肿瘤分割边界一个较小的变化而产生较大范围的改变,而有一部分特征基本不随着分割边界的改变而发生变化。因此,通过引入ICC指标来筛选出稳定性特征。针对两个医生分割的感兴趣区域,分别计算影像组学特征,对于计算出的两个特征集,逐个使用组内相关系数计算每个特征的ICC值,ICC值越大,表明此特征越稳定。根据ICC值对特征进行排序,选择出ICC值大于阈值的特征,即认为是稳定的特征,由此得到稳定的特征子集C1。
为了验证本文算法的效果,本文实验使用河南省人民医院提供的2012年到2018年的303例脑胶质瘤MRI数据进行测试,所有数据均做了去隐私化处理,其中:高级别样本203例,低级别样本100例,划分为训练集和测试集,选取情况如表1所示。数据集包括T1加权成像(T1)、T2加权成像(T2)、液体衰减反转恢复成像(FLAIR)和TI加权增强成像(CET1)等序列,本实验使用的是CET1序列。
表1 测试集和数据集的数据分布情况
本文实验目的是验证本文提出MSOM-GA的有效性,实验通过对脑胶质瘤高低级别分级的准确性,来反映特征选择方法的优劣。该实验处理流程在Python 3.0的环境下进行,预处理做去除颅骨处理,由两名放射科医生手动分割,所用的分割工具为ITK-SNAP 3.6.0。特征提取用的是pyradiomics工具包。对于特征选择算法,实验采用的是本文提出的MSOM-GA和6种用于影像组学的传统特征选择方法,这6种特征选择方法分别是:随机森林(RF),方差(Variance),信息增益(IG),方差阈值-随机森林(Var-RF),F-Score遗传算法(F-GA),信息增益-遗传算法(IG-GA)。
为了体现特征选择的作用,实验选用Gradient Boosting(GB)分类器对选择过的脑胶质瘤特征进行模型训练。根据文献[22]所述,特征选择后的特征个数一般小于原始特征集数量的10%,因此本文实验最大特征个数K设定为56,运用网格搜索,对不同K值(1~56)进行实验,根据不同K值的分类准确性等指标来选取最佳的特征个数K。最终选取四组有代表性的结果来展示,依次对应特征数K为7、16、25、31。
本文实验在进行脑胶质瘤分级预测时,把高级别脑胶质瘤预测为高级别脑胶质瘤(真阳性)记为TP,高级别脑胶质瘤预测为低级别脑胶质瘤(假阴性)记为FN,低级别脑胶质瘤预测为低级别脑胶质瘤(真阴性)记为TN,低级别脑胶质瘤预测为高级别脑胶质瘤(假阳性)记为FP,预测效果采用以下几个指标进行评估。
1) 准确率(acc)。准确率是分类器预测效果的直观评价,指的是分类器正确分类的样本占总样本数的比率,计算公式如下:
(8)
通常来说,准确率越高,分类器效果越好。但准确率的大小受数据集中正负样本分布的影响较大。对于不平衡数据集来说,仅用准确率的大小评价分类器性能具有一定的不可靠性,因此,本文又引入以下几个指标作为评价标准。
2) 敏感性(Sensitivity)和特异性(Specificity)。敏感性指的是分类器预测出真阳性的比率。特异性为分类器预测出真阴性的比率。计算公式分别如下:
(9)
(10)
在本文实验中,当敏感性高时,表示对高级别脑胶质瘤预测结果是可靠;当特异性高时,表示对低级别脑胶质瘤的预测结果是可靠的。因此,特异性和敏感性的值越大,代表分类器越好。
3) 阴性预测率(NPV)和阳性预测率(PPV)。阳性预测率指的是分类器预测的所有阳性样本中真实阳性样本所占的比率;阴性预测率指的是分类器预测的所有阴性样本中真实阴性样本所占的比率。
(11)
(12)
4) ROC曲线的面积(auc)。受试者工作特征曲线(Receiver Operating Characteristics,ROC)是一个度量分类中的非均衡性工具,可以用来比较不同分类器的性能,横坐标为假阳率,纵坐标为真阳率,计算公式为式(13)和式(14)。ROC曲线的一个重要特性是其对数据集中正负样本分布不敏感,即当测试数据中正负样本数量发生变化时,ROC曲线保持不变,这对医学数据可能存在的数据不平衡现象来说特别重要。
(13)
(14)
尽管通过观察ROC曲线可以分辨出分类器的优劣,但通过数值大小判断更加直观,因此,引入了曲线下面积auc来评价分类器性能,auc越大表示这个分类器平均性能越好。
本文实验脑胶质瘤MRI的特征提取用的是pyradiomics,提取到的特征数总数为558个,特征类型分为四类,分别是一阶统计特征、空间几何特征、纹理特征和小波特征。小波特征指的是通过小波变换后得到的高频和低频数据计算的各类特征。其中:空间几何特征是从原始数据中获得的,而纹理特征和一阶统计特征可以从原始数据和小波变换后的数据中获得。在本文实验中,对原始的影像信息进行了三维小波变换,分解为8个子带。提取到的特征的详细分布如表2所示。
表2 特征类型分布情况
1) 根据MSOM-GA的流程,用组内相关系数(ICC)作为评价标准来去除对肿瘤边界敏感的特征。具体操作是将计算出来的ICC值排序,根据阈值进行选择,阈值设定为0.8,选择出ICC值大于阈值的特征,据此选出的372个特征。特征约简情况如表3所示。
表3 稳定性特征和原始特征约简情况表
2) 对去过不稳定的脑胶质瘤特征子集进行相关性和冗余性特征选择。根据所选取的四组代表性的K值,应用MSOM-GA,特征约简情况如表4所示。
表4 冗余和相关性特征约简表
由以上约简过的四组特征子集进行模型训练,结果如图2所示。可直观看出,当特征个数K取16的时候,acc值最大,即达到了最大的预测精确度,同时,敏感度和阴性预测率(NPV)也达到最大;当特征个数K取31的时候,特异性和阳性预测率(PPV)达到最大,但此时的准确率却小于0.92。因此,当特征个数为16时,MSOM-GA能达到最佳的实验效果。
图2 不同K值下分类器的性能
为了验证本文算法的有效性,选取了单一特征选择方法和多级特征选择方法进行对比实验,实验所用分类器均为Gradient Boosting。单一特征选择方法选用了随机森林(RF)、方差阈值、信息增益(IG)三种机器学习中常用的特征选择方法进行验证,所选择的特征个数均为16,实验结果如表5所示。
表5 单一特征选择方法性能对比
多级特征选择方法选用的是方差阈值-随机森林(Var-RF)、F-Score遗传算法(F-GA)、信息增益-遗传算法(IG-GA),实验结果如表6所示,其中WithoutFS指的是原始特征子集预处理后没有进行特征选择直接训练模型。
表6 多级特征选择方法性能对比
可以看出,对于没有做特征选择的原始特征集,直接进行训练时,由于存在对肿瘤边敏感的特征、冗余性、大量的与标签无关的特征,导致训练的精确度只有0.793 4,ROC曲线下auc值只有0.891 1,敏感度和特异性分别为0.834 0和0.720 6;而本文方法精确度可达0.922 9,auc值为0.975 6,敏感度和特异性值分别为0.937 0和0.892 6,相比于原始特征子集,精确度提高了13百分点,敏感性和特异度也分别提高了10百分点和17百分点左右;IG方法表现出较好的分类效果,但相比于本文方法,仍然具有显著差异,MSOM-GA的acc值提高了8百分点左右,灵敏度和特异性也有很大提高。对于多级特征选择方法来说,如表6所示,Var-RF方法与直接用原始特征集进行训练相比,acc值仅仅提高了1百分点;F-GA与直接用原始特征集进行训练相比,acc值提高了9百分点,同时敏感度和特异性提高了10百分点以上;IG-GA与直接用原始特征集进行训练相比,acc值提高了7百分点,敏感度和特异性也提高了10百分点以上。由此可说明,多级特征选择方法具有较好的效果。对于本文方法,选择性能较好的F-GA进行对比,acc值提高了4百分点,auc值提高了2百分点,敏感性和特异度也都略有提升。
为了更直观地观察和对比本文方法的实际效果,使用四项雷达图将7个混淆矩阵的数据整合分析。在本文的雷达图中,HGG(True)和LGG(True)代表预测正确的高低级别脑胶质瘤的图片数,HGG(False)和LGG(False)代表预测错误的高低级别脑胶质瘤的图片数并且基于直角坐标系上的两项是对应的,它们表示了高级别或低级别脑胶质瘤的总测试图像数。实验组在第一象限占据的面积越大,同时第三象限的面积越小,表明该分类性能越好。
图3是MSOM-GA和单一特征选择方法最优性能的IG方法的雷达图,可以观察到,MSOM-GA在第一象限的面积远远大于信息增益的面积并且第三象限的面积远远小于信息增益的面积,由此可见MSOM-GA的效果明显优于单一的特征选择方法。图4是MSOM-GA和多级特征选择方法中性能最优的F-GA的对比,也可以直观地看出本文方法的优势。
图3 单一特征选择方法对比图
图4 混合特征选择方法对比图
综上所述,本文方法性能上不仅显著优于常用单一特征选择方法,在多级特征选择方法上也占有一定优势。
本文针对影像组学领域中高维特征选择的问题,提出一种用于影像组学的多级特征选择方法。该方法考虑了肿瘤边界敏感的特征,首先通过ICC值筛选对肿瘤边界敏感的特征;之后提出一种混合F-Score与信息增益的特征选择方法作为一级特征选择,去除不相关的特征;最后通过遗传算法进行二次选择,选出最有价值的特征。该方法在脑胶质瘤数据集上进行实验,实验结果表明,本文算法不仅能大大提高脑胶质瘤分级的准确性,而且也减少最终训练模型的特征个数,降低模型训练的计算复杂度。本文实验的不足在于数据量比较小,在下一步工作中拟提高样本数量,使用不同的数据集,提高本文算法的泛化能力。