基于RoughSet的特征集融合PET/CT肺部肿瘤CAD模型*

2017-10-18 01:39吴翠颖周涛陆惠玲王媛媛
生物医学工程研究 2017年1期
关键词:约简粗糙集遗传算法

吴翠颖,周涛,陆惠玲,王媛媛

(1.宁夏医科大学公共卫生与管理学院,银川 750004;2.宁夏医科大学理学院,银川 750004)

1 引 言

肺癌是当今世界上最常见的内脏恶性肿瘤之一,也是目前为止对人类健康构成巨大威胁的恶性肿瘤,因此,对肺癌的诊断和防治引起了世界医学界的广泛关注[1]。随着科学技术的飞速发展,医学影像检查成为临床检查中重要的组成部分。目前医院临床使用的医学影像检查设备主要包括:B超机、X线机、CT(计算机断层扫描)、MR(核磁共振)、PET(正电子断层扫描)、SPECT、超声内窥镜等。计算机辅助系统是能够给医生提供定量分析,减轻医生诊断工作量,以期提高诊断效果,降低活动次数的有效技术手段[2]。

因此,计算机辅助诊断成为了临床诊断研究的热点。如秦菊[3]讨论了CAD对数字化胸片早期肺结节检出的临床应用价值;张国鹏[4]利用提取190个病灶的39个三维纹理特征在虚拟结肠镜系统中实现病灶的计算机辅助诊断;Kandemir[5]通过分析303例患者的肠超声图像,基于k近邻和隐马尔可夫模型提出了一种前列腺癌计算机辅助诊断方法,实验结果表明泌尿科专家在CAD下诊断能力明显提高;Howard Lee[6]综述了计算机诊断系统能够进行复杂的图像处理,以协助临床医生检测不同形式的癌症,如乳腺癌、前列腺癌、肺癌和皮肤癌等;Kiyonori[7]研究了三维(3D)计算机断层扫描(CT)预测周围型肺癌胸膜侵犯的临床应用价值。在肺部肿瘤诊断中,CT检查只能在解剖和形态上显示病变的特征性变化[8],不能完全区分病变的良恶性,且缺乏特异性[9-10];PET影像能够提供癌细胞的代谢和功能信息,能从分子水平上反应人体的生理、代谢状况等[11],但其空间分辨率差,定位不准确;PET/CT是一种集PET的功能显像和CT解剖形态影像于一体的新型影像设备,可以同时反应肺癌患者病灶的生理功能变化及形态结构变化,两者优势互补。

因此,在本研究肺部肿瘤诊断中,以肺部肿瘤患者的PET/CT影像为研究对象,针对肺部肿瘤PET/CT感兴趣区域在高维特征表示下存在着特征相关和维数灾难问题,我们提出了一种基于粗糙集特征集融合的PET/CT肺部肿瘤计算机辅助模型,该模型应用粗糙集理论于肺部肿瘤的计算机辅助诊断识别中,通过对PET/CT肺部肿瘤ROI区域提取的形状特征、灰度特征、纹理特征、灰度共生矩阵特征和频域特征等进行降维,解决高维特征中的相关特征和维数灾难问题,提高肺部肿瘤诊断识别的正确率,减小错误率和漏诊率。

图1PET/CT肺部肿瘤ROI区域特征提取过程

Fig1ROIfeatureextractionprocessofPET/CTlungtumor

图1给出了PET/CT肺部肿瘤ROI区域所提取的特征,共计98维,具体见表1。

表1 PET/CT肺部肿瘤ROI区域特征

2 粗糙集

肺部肿瘤感兴趣区域(ROI)在高维特征表示下存在特征相关和维数灾难问题,当临床医生对医学影像进行特征分析时,可能会造成特征分量信息交叉,无法对ROI进行最有效的特征表达,因此,剔除冗余特征分量,降低特征维数是解决上述问题的关键。本研究采取粗糙集模型进行知识约简,降低特征维数。

粗糙集作为一种处理不精确、不确定和不协调数据的软计算数学工具,是由波兰科学院院士、数学家Pawlak于1982年提出来的。其主要思想是能在保持原数据集合分类能力和决策能力不变的前提下消除冗余的信息,从而获得知识的简洁表达。它最突出的优点是“让数据自己说话”,即不需要数据集合之外的任何信息,获得的知识更具客观性。

2.1 基于遗传算法的知识约简方法

遗传算法是借鉴生物界自然选择和进化机制而设计的计算模型,其核心思想启发于适者生存的自然选择规律,因此其搜索算法是“生存+检测”的迭代过程,是一种非常有效的搜索和优化技术,可以实现高度并行的、随机的、自适应的搜索,不易陷入局部最优,能以很大的概率找到整体最优解,其鲁棒性好。一般利用遗传算法求约简是通过一个二进制编码实现的,编码中的1表示该位置选择对应属性,而0表示不选择对应属性。适应度函数一般是通过属性集合的长度和属性集合分类能力或决策能力的大小来表示。

Step1:t=1,求取决策表的核CoreD(C)。

Step2:随机产生N个个体组成初始种群pop(t),并将核属性加入pop(t)中。

Step3:计算pop(t)中每个个体的适应度,找出pop(t)中适应度最大的所有个体。

Step4:对pop(t)进行选择、交叉、变异操作,产生新种群pop(t+1)。

Step5:计算pop(t+1)中每个个体的适应度,对个体适应度进行排序,将pop(t)中所有适应度高的个体替换pop(t+1)中适应度低的个体,找出pop(t+1)中适应度最大的个体。

Step6:判断是否满足终止条件,如果是,则终止计算,将最优个体转化为条件属性,输出该属性集;否则t=t+1,转Step4。

图2基于遗传算法的知识约简方法流程图

Fig2Flowchartofknowledgereductionmethodbasedongeneticalgorithm

2.2 基于属性重要度的启发式算法

基于属性重要度的约简算法是在1995年由胡小华提出的,算法将属性重要性作为启发原则,其基本思想是:首先,计算决策表的近似精度,并求出条件属性集合中所有重要度大于0的属性,这些属性构成决策表的核;计算核的相对正域,得到近似精度,与整个决策表的近似精度比较,若相等,则停止,核即为决策表的唯一约简,否则进行下一步。第二,以核为起点,计算所有非核属性对核的重要度,加入重要度最大的属性到核,计算更新后的属性子集的近似精度,并与整个决策表的近似精度进行比较,若相等,则输出该属性子集为约简,否则,再依次进行,直到属性子集的近似精度满足为止。然后通过一个反向检查每个属性的必要性,若属性不必要,则从属性子集中去掉,如必要,则保留,最终找到的那个属性子集即为所求。

基于属性重要度的约简启发式算法如下:

输入:决策表S=(U,A,V,f ),A=C∪D。

输出:S=(U,A,V,f ),A=C∪D的一个约简。

Step4:输出B。

3 本文模型

3.1 模型思想

从宁夏医科大学附属医院核医学科收集经过影像科医生标记的2 000例肺部肿瘤PET/CT图像(其中良性肺部肿瘤1 000例,恶性肺部肿瘤1 000例)作为研究样本,首先提取肺部肿瘤ROI的8维形状特征、7维灰度特征、3维Tamura纹理特征、56维GLCM特征和24维频域特征,得到98维特征矢量,并对提取的特征集合(标识为F)进行补齐、离散和归一化;然后基于遗传算法的知识约简方法和基于属性重要度的启发式算法对提取的特征集合分别进行特征级融合得到特征子集G1、G2、G3,A1、A2、A3,降低特征矢量的维数;接着利用网格寻优算法优化核函数的SVM作为分类器分别进行融合前和融合后的分类识别比较,基于遗传算法的特征集融合和基于属性重要度的特征集融合的分类识别比较2组实验;最后以2 000幅肺部肿瘤的PET/CT图像为原始数据,采用基于粗糙集特征集融合的肺部肿瘤PET/CT计算机辅助诊断模型对肺部肿瘤进行辅助诊断,实验结果采用交叉验证的方式进行统计,模型流程见图3。

图3 基于粗糙集特征集融合的PET/CT肺部肿瘤CAD模型流程图

3.2 模型描述

算法 基于粗糙集特征集融合的PET/CT肺部肿瘤CAD模型。

输入:

(1)PET/CT肺部肿瘤ROI图像Xi,i=1,2,3,4,…,2000(1000幅肺部恶性肿瘤,1000幅肺部良性肿瘤)。

(2)样本类别数m=2。

输出:

粗糙集特征级融合前后SVM识别精度;基于遗传算法特征级融合和基于属性重要度特征级融合SVM识别精度。

步骤:

Begin

for i=1:N//N为样本数目,提取所有样本的98维特征;

H1i=Statistical(Xi)//H1是6维特征向量组成的灰度特征子空间;

H2i=Shape(Xi)//H2是8维特征向量组成的形状特征子空间;

H3i=GLCM(Xi)//H3是56维特征向量组成的灰度共生矩阵纹理特征子空间;

H4i=Tamura(Xi)//H4是3维特征向量组成的Tamura纹理特征子空间;

H5i=Frequency(Xi)//H5是24维特征向量组成的频域特征子空间;

end

H={H1,H2,H3,H4,H5}//由H1,H2,H3,H4,H5合并构成描述ROI区域的98维特征空间;

Genetic_H= Genetic(H)//对特征向量H进行遗传算法特征级融合得到空间Genetic_H;

Attribute_H=Attribute(H)//对特征向量H进行属性重要度特征级融合得到空间//Attribute _H;

分别在H和Genetic_H两个空间、H和Attribute_H两个空间利用SVM分类器分别进行交叉验证:

For i=1:K//K折交叉验证;

Tec_SVM1(i)=MM_SVM(H(i))//在H(i)空间中用SVM分类器进行识别;

Tec_SVM2(i)=MM_SVM(Genetic_H (i))//在Genetic_H (i)空间中用SVM分类器进行//识别;

Tec_SVM3(i)=MM_SVM(H(i))//在H(i)空间中用SVM分类器进行识别;

Tec_SVM4(i)=MM_SVM(Attribute_H (i))//在Attribute_H (i)空间中用SVM分类器进//行识别;

end

Sum1=0;Sum2=0;Sum3=0;Sum4=0;

for i=1:K//计算平均识别精度

Sum1= Sum1+ Tec_SVM1(i); Sum2= Sum2+ Tec_SVM2(i);

Sum3= Sum3+ Tec_SVM3(i); Sum4= Sum4+ Tec_SVM4(i);

end

Sum1= Sum1/K; Sum2= Sum2/K;

Sum3= Sum3/K; Sum4= Sum4/K;

end

4 实验结果及分析

4.1 实验环境与数据

(1)硬件环境:Intel Core i5 4670-3.4GHz,8.0GB内存,500GB硬盘。

(2)软件环境:Matlab R2012b,LibSVM,Windows 7操作系统。

(3)实验数据:采用从宁夏医科大学附属医院核医学科收集的经医生标记的2 000幅肺部肿瘤PET/CT图像(其中肺部恶性肿瘤1 000幅,肺部良性肿瘤1 000幅)作为实验样本。图4(a)给出了三例肺部恶性肿瘤PET/CT图像ROI,图4(b)给出了三例肺部良性肿瘤PET/CT图像ROI。

4.2 基于粗糙集的特征集融合

为了降低计算复杂度同时提高最后的识别精度,对提取的特征集合采用粗糙集模型(基于遗传算法的特征集融合和基于属性重要度的特征集融合)分别进行3次数据融合处理,表2 给出了融合结果。

(a)

(b)

图4部分肺部肿瘤PET/CT图像ROI

(a)部分肺部恶性肿瘤PET/CT图像ROI (b)部分肺部良性肿瘤PET/CT图像ROI

Fig4PartofthelungtumorPET/CTimageROI

表2 粗糙集模型融合后特征集合

图5肺部恶性肿瘤PET/CT图像ROI

Fig5LungmalignanttumorPET/CTimageROI

4.3 肺部肿瘤PET/CT图像ROI特征提取举例

表3给出了两例患者的PET/CT图像ROI区域,分别提取这两例患者的肺部肿瘤ROI区域的98维特征,提取的特征值见表3、图5、图6。

4.4 基于粗糙集特征集融合前后有效性

对每一幅肺部肿瘤PET/CT图像提取了98维特征矢量,采用粗糙集特征集融合(基于遗传算法特征集融合和基于属性重要度特征集融合)分别对肺部良性肿瘤和肺部恶性肿瘤特征库进行降维,得到特征子集G1和A1,通过不同的测试比例进行分类检测,最后得到准确率、敏感性、特异性和时间作为分类识别的结果。特征集融合前后的识别情况见表4、表5。

图6肺部良性肿瘤PET/CT图像ROI

Fig6LungbenigntumorPET/CTimageROI

表3 肺部肿瘤PET/CT图像ROI区域特征值

实验结果表明:基于遗传算法特征集融合的图像的识别率相比于融合前的图像的识别率提高4.12%,敏感性、特异性和时间分别提高3.95%、4.28%和0.4817s;基于属性重要度特征集融合的图像的识别率相比于融合前的图像的识别率提高5.42%,敏感性、特异性和时间也分别得到提高。说明基于粗糙集特征集融合方法是有效的,不仅能够降低冗余特征,剔除无效数据,还能去除这些冗余特征和无效数据对实验结果造成的影响,提高了识别率。

4.5 基于粗糙集特征集融合的有效性

采用基于遗传算法的知识约简方法和基于属性重要度的启发式算法分别进行了3次特征集融合得到特征子集G1、G2、G3,A1、A2、A3,统计各个子集的融合后属性数、准确率和耗时。

实验结果表明:基于遗传算法的特征级融合和基于属性重要度的特征集融合相比于特征级融合前的识别准确率均有明显提高,这说明粗糙集模型在本文研究98维特征空间中的特征集融合是有效的,很适用于消除本研究所提特征的冗余信息,同时也说明基于粗糙集特征集融合后的属性数能够充分表示分析前的98维特征矢量,实现了特征矢量的有效降维。

表4基于遗传算法特征集融合前后不同训练数据下的识别情况

Table4Recognitionofdifferenttrainingdatabeforefeature-levelfusionandafterfeature-levelfusionbasedongeneticalgorithm

测试数据/训练数据准确率(%)敏感性(%)特异性(%)时间(s)特征集融合前200/180093.492.694.20.61400/160093.2592.5293.980.578600/14009392.4693.540.5632800/120092.7591.893.70.5211000/10009291.3592.650.5621200/80092.291.4930.5531400/60091.69192.20.5461600/40091.3290.692.040.4981800/2008987.7590.250.523均值92.0591.2792.840.5504基于遗传算法特征集融合(G1)200/180098.597.499.60.0669400/160098.2596.899.70.0729600/140097.1796.398.040.0732800/120096.7596.197.40.06231000/10009695.296.80.05781200/80096.5895.497.760.06711400/60095.8694.597.220.07631600/40093.1292.493.840.07921800/20093.3392.993.760.0625均值96.1795.2297.120.0687提高幅度4.123.954.280.4817

5 结语

本研究从PET/CT肺部肿瘤的诊断识别入手,提出了一种基于粗糙集特征集融合的PET/CT肺部肿瘤CAD模型。该模型针对PET/CT肺部肿瘤ROI区域的高维特征描述,指出高维特征对ROI区域可以进行全面的刻画,但同时也带来了信息冗余和维数灾难问题。为此基于粗糙集特征集融合的PET/CT肺部肿瘤CAD模型对高维特征进行降维,并用支持向量机分类识别;最后以2000幅肺部肿瘤患者的PET/CT图像为原始数据对肺部肿瘤进行良恶性诊断,实验结果表明,基于粗糙集模型的降维是有效的,对PET/CT肺部肿瘤的计算机辅助诊断具有重要的意义。

表5基于属性重要度特征级融合前后不同训练数据下的识别情况

Table5Recognitionofdifferenttrainingdatabeforefeature-levelfusionandafterfeature-levelfusionbasedonattributeimportancedegree

测试数据/训练数据准确率(%)敏感性(%)特异性(%)时间(s)特征集融合前200/180093.492.694.20.61400/160093.2592.5293.980.578600/14009392.4693.540.5632800/120092.7591.893.70.5211000/10009291.3592.650.5621200/80092.291.4930.5531400/60091.69192.20.5461600/40091.3290.692.040.4981800/2008987.7590.250.523均值92.0591.2792.840.5504基于属性重要度特征级融合(A1)200/180099981000.0623400/160098.597.0599.950.0536600/140098.3396.8599.810.0478800/120097.8896.699.160.04691000/100097.896.3599.250.06251200/80097.6696.299.120.04721400/60097.2195.998.520.04761600/40095.5694.696.520.06231800/20095.339496.660.0634均值97.4796.1798.780.0548提高幅度5.424.95.940.4956

表6 基于粗糙集特征集融合的有效性比较研究

猜你喜欢
约简粗糙集遗传算法
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
实值多变量维数约简:综述
基于自适应遗传算法的CSAMT一维反演
基于模糊贴近度的属性约简
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
基于改进的遗传算法的模糊聚类算法