基于CNN-L1/L2-ELM 混合架构的肺结节分类研究

2020-09-15 01:01梁淑芬陈琛秦传波冯跃杨芳臣付迎迎
关键词:正确率特征提取结节

梁淑芬,陈琛,秦传波,冯跃,杨芳臣,付迎迎

(五邑大学 智能制造学部,广东 江门 529020)

2018 年最新的全球肿瘤统计结果显示,肺癌占每年1 819 万新癌症病例的约11.6%,发病率排行第一[1].患有晚期IV 期肺癌的患者的5 年生存率低于4%,但如果在原发肿瘤较小且在其扩散之前进行早期诊断并治疗,则生存率至少为54%[2].因此,早期肺癌检测提供了最佳的治愈机会.

目前,肺结节分类主要工作集中在良恶性分类上,传统的计算机辅助诊断系统最常用的特征包括纹理特征描述(如基于灰度共生矩阵(GLCM)的特征[3-4]和方向梯度直方图(HOG))和形状特征描述(如傅立叶形状描述和球谐函数).诊断系统去利用提取的视觉特征来训练分类器(例如支持向量机(SVM)[5]、K-近邻(KNN)[6]和随机森林等[7]).这些筛查辅助系统很大程度上依赖于手工制作的特征和分类器,提取的特征往往是主观的,在一定程度上限制了模型的性能.

深度学习提供了统一的特征提取—分类框架,避免了手工特征提取的麻烦.对于肺结节分类,Hua 等人[8]应用深度卷积神经网络(convolutional neural network,CNN)和深度信念网络(DBN)区分良性和恶性肺结节,证明深度学习能够获得更好的辨别能力.Kumar 等人[9]使用自动编码器和CNN 将肺结节分为恶性或良性,准确率为77.52%.Shafiee 等人[10]使用杠杆随机序列发生器,由三个随机形成的卷积层组成,获得了84.49%的准确度.

为进一步提高胸部CT 影像中肺结节分类的准确性和分类效率,本文提出一种基于卷积神经网络特征提取和正则化极限学习机分类的混合模型,用于肺部良恶性结节的分类.通过对CNN 结构中超参数的调整,使CNN 从输入图像中自适应地提取结节最优特征;然后将提取的特征输送到L1/L2-ELM(extreme learning machine)分类模型中得到分类结果.实验中对激活函数和隐层数量做了调整,以获得更好的实验结果.

1 混合 CNN-L1/L2-ELM 模型的体系结构

CNN-L1/L2-ELM 混合体系架构如图1 所示.该结构图主要由两部分构成,第一部分是特征提取,包括一系列卷积池化和特征映射,第二部分是L1/L2-ELM分类器.我们使用反向传播算法来训练这个网络,以第一个全连通层中的2 048 个单元作为特征提取,将有限向量输入L1/L2-ELM分类器,以预测肺结节良恶性分类.

图1 混合体系结构图

首先,输入肺结节感兴趣区域图像训练原有的CNN 模型,直到收敛;再用L1/L2-ELM取代CNN最后一层.最后,将全连接层特征转换为一维向量作为L1/L2-ELM的输入来完成分类.图1 中,以C5 层输出的特征作为L1/L2-ELM的输入,获得新的决策.

本文设计的混合架构的特征提取阶段包括卷积层和最大池化层,这里详细给出相关参数,如每个滤波器的数目、每个特征映射的大小、每个滤波器的内核大小、每个滑动窗口的步长等,具体见表1 所示.例如,第一卷积层由32 个卷积核组成,其卷积核大小为3,滑动窗口的步幅为2,最后一个卷积层使用全零进行填充.然后全连接层将特征映射转换为有利于分类的一维向量.最后,将L1/L2-ELM结构与CNN 模型相结合,对肺结节良恶性任务进行分类.

表1 混合体系架构各层详细参数表

1.1 卷积层

在卷积层中,在前一层和一系列过滤器之间执行卷积操作,从输入特征图中提取特征.卷积的输出将增加一个附加的偏置,并将非线性激活函数应用于前面的结果.我们在实验中使用ReLU 函数作为激活函数[11]:

卷积层提供了从图像的低层次表示到高级语义理解的非线性映射.为了便于以后的计算,式(1)可以简单地表示为

其中⊗表示卷积运算,wij表示第j个特征图中第i层的权值,先被随机初始化,再用BP 神经网络进行训练,η(i-1)是第i-1层的输出,ηj为卷积中第j个特征映射的输出.

1.2 池化层

一般来说,池化的目的是将联合特征表示转换为一种新颖、更有用的关键信息,同时丢弃不相关的细节[12].子采样层中的每个特征映射都是通过在卷积层中的相应特征映射上执行的最大池化操作得到的.最大池化操作后,第i层或子采样层的第j个特征图中(m,n) 处的单位值为

最大池化操作能在局部区域上获取最大值的点,并对输入特征映射进行下采样.此时,子采样层中的特征图数量为32,而过滤器的大小为2,滑动窗口的步幅为2.最大池化操作的目的是,检测生成的特征图的最大响应,减少特征图的分辨率.

1.3 分类层

ELM 是由Huang 等人[13]提出的,可用于单隐层前馈神经网络(SLFN).其做法是随机分配输入权重和隐藏层偏差,再结合训练数据集确定SLFN 的输出权重.对于任意不同的样本,其输出权重可以表示为

其中H为隐藏层输出矩阵,T为样本标签,H+为输出矩阵的广义逆矩阵,β为输出权重.

随后,为了防止模型的过拟合和稀疏性,我们在式中加入了1-范数和2-范数来保证权重更具鲁棒性,即

对式(5)进行求偏导数并令结果为零,可以求得

在卷积和子采样操作之后,用L1/L2-ELM对由特征映射转换的一维向量进行分类.它只更新输出权值,而输入权值和隐藏层偏差是随机设置的.因此我们随机生成输入参数,并在训练阶段计算输出权值.整个过程无需迭代操作,可提高神经网络泛化能力.从图1 中可以发现,完全连接层的输出是L1/L2-ELM的输入,而隐藏节点的数量是变量.

在L1/L2-ELM尚未被调用的第一阶段,我们的混合结构需要在训练阶段从学习过程中调整CNN的参数.如果精度接近设定阈值的70%,将调用L1/L2-ELM层:先计算隐藏层权重,再缓存中间的β矩阵,然后用混合结构来验证其精度.该过程总结如下:

步骤1:当卷积层和输出标签之间的连接是全连接层时,在训练阶段调整CNN 的参数;

步骤2:利用式(6)计算隐层权重和缓存中间β矩阵,同时验证整合网络的准确性;

步骤3:停止训练过程并计算β的平均值;

步骤4:使用混合结构对测试数据集进行分类.

2 实验结果与讨论

2.1 样本数据

为验证算法有效性,本文以LIDC-IDRI 数据库作为实验数据.癌症成像档案(TCIA)中的LIDC-IDRI 数据库包含从7 个机构获得的1 018 个临床胸部CT 扫描和肺结节;有一个关联的XML文件,详细说明了每个512×512切片上的结节位置.每个可疑病变被分类为非结节,<3 mm的结节或长轴直径≥3 mm的结节.对于这项研究,我们只考虑直径≥3 mm的结节.因为目前的筛查方案认为结节<3 mm不具有临床意义.我们选择那些被至少一位放射科医师注释过的结节用于这项研究.因此,有1 301个良性结节,1 256个恶性结节.为了减少不确定的结节对恶性肿瘤评估的影响,我们将不确定性结节归为恶性结节.分割结节如图2 所示.

图2 轴向平面CT 分割结节

将每个肺结节图裁剪并归一化成一个64×64 像素的图像.为了扩大训练数据集,将裁剪的结节图像进行适当的旋转以增大数据集.本算法在Tensorflow 框架下,使用Matlab 软件来实现.

2.2 结果与讨论

在训练阶段,我们主要调整卷积网络参数.首先进行CNN 模型的训练,经过10 000 次的训练得到了90%的正确率,错误率也大幅下降.图3 为训练正确率与损失函数值图.可以发现,训练错误率在开始时很高,在迭代的过程中趋于平稳.因此,本文的混合结构不仅能够自动快速调整参数,确保卷积层提取有利于分类的判别特征,而且可以为分类器提供更好的参数.

图3 正确率与损失函数值曲线图

L1/L2-ELM隐层神经元的数目和激活函数对分类模型的分类能力有很大影响,需要进行实验才能获得最优值.通过在相同激活函数下改变隐层神经元数目,我们检测出了在不同大小的隐藏节点下和不同激活函数下的训练正确率,如图4 所示,随着隐层节点数的增加,正确率缓慢上升后趋于平稳,可以看出在隐层神经元为5 000 时正确率最高.如果不断增加隐藏的节点会加剧越界,从而导致分类性能下降.因此,在实验中将隐藏节点设置为5 000,而且通过对比图4 中不同的激活函数稳定后的正确率,可以看到激活函数hardlim 的正确率是最高的,所以激活函数设置为hardlim 函数.

图4 不同激活函数的正确率曲对比图

经典的卷积神经模型有很多种,本论文分别选取Lenet、Alexnet、VGG16、Resnet 4 种模型和CNN-L1/L2-ELM 混合架构相结合,利用CNN 良好的特征提取能力对肺结核图像直接进行特征提取,然后利用正则化极限学习机进行良恶性分类,通过对比图5~8,可以明显地发现,当卷积神经模型选取Lenet 时,它的正确率和损失率可以更快地达到更理想的状态.

图5 Lenet 训练图

图6 Alexnet 训练图

图7 VGG16 训练图

图8 Resnet 训练图

为防止网络训练不充分而出现过拟合现象.将数据分为10 等份,其中一份作为测试集,其余剩下的部分作为训练集.分别做了10 组实验,其实验结果如图9 所示.通过 交 叉 实 验 可 以 看 出,Lenet-L1/L2-ELM混合网络的平均测试准确率为92.87%,是4 个网络中准确率最高的,可以较为准确地对肺结节进行分类处理,经实验证明,本论文的卷积神经网络模型选取Lenet 模型.

图9 十折交叉验证结果

通过以上实验,对CNN 的结构进行训练.用L1/L2-ELM 代替CNN 的最后一层.将CNN 的C5 层特征作为输入传递给L1/L2-ELM分类器,得到新的分类结果.敏感性(SE)、特异性(SP)和准确性(AC)是评估病理图像分类识别的3 个重要指标,对此我们进行了分类统计来判断本文提出的肺结节分类算法的性能.为了分别计算出准确性、敏感性和特异性的概率,将样本分为阳性和阴性两类,TP、TN、FP、FN 分别为真阳性、真阴性、假阳性、假阴性,则3 个指标定义为:

表2 为各模型在训练数据集上训练结果的对比.从结果可以看出,混合深度 CNN-L1/L2-ELM模型的分类错误率低于其他算法,在各性能指标上也优于其他算法,达到了预期的结果,证明了CNN-L1/L2-ELM 的可行 性.

表2 不同模型结果对比

准确性体现了算法对良恶性分类的可靠程度,它直接反映了算法的性能;敏感性和特异性是对良恶性分类识别正确率的反应,其值越高说明算法越好,对错误分类的情况就越低.本文所提出的算法在3 个指标中都高于现有文章中提出的方法,有较好的分类准确度.

3 结论

本文结合卷积神经网络和极限学习机的分层方式,充分利用CNN 和ELM 的优势,提出了一种新的混合分类算法结构(CNN-L1/L2-ELM),用来处理肺结节分类任务.针对LIDC 数据库,本文探讨了样本训练正确率与损失函数值,L1/L2-ELM隐层神经元的数目和激活函数对分类模型的分类能力的影响,并优化了神经元的数目和激活函数以获得最佳准确率.研究结果表明,本文提出的混合算法获得了92.87%的样本训练正确率,而且敏感性和特异性也分别达到87.15%和94.45%,优于其他算法.

猜你喜欢
正确率特征提取结节
个性化护理干预对提高住院患者留取痰标本正确率的影响
乳腺结节状病变的MRI诊断
超声引导下甲状腺结节细针穿刺活检的6种操作方法的比较
肺结节,不纠结
发现肺结节需要做PET/CT吗?
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于Daubechies(dbN)的飞行器音频特征提取
基于两种LSTM结构的文本情感分析