基于有序多分类的肺结节良恶性分析

2021-03-09 12:31邵立伟黄德皇黄钰斌于泽源王艳芳陈庆武通讯作者
影像研究与医学应用 2021年2期
关键词:正则恶性结节

王 骏,邵立伟,黄德皇,黄钰斌,于泽源,王艳芳,陈庆武,马 力(通讯作者)

(1中山火炬开发区医院放射医学科 广东 中山 528400)

(2中山市北京理工大学研究院 广东 中山 528400)

(3中国科技大学 安徽 合肥 230000)

(4中山仰视科技有限公司 广东 中山 528400)

引言

肺癌是致死率最高的疾病之一,在美国这种发达国家5年生存率只有16%,在发展中国家更低[1]。随着现代医学的进展,研究人员已经证明如果肺癌能够在早期进行治疗,5年平均生存率能达到54%[2]。因此在CAD系统中早期发现肺结节成为肺癌诊断和治疗的关键。

CT是肺癌检测的常用工具,通过人体组织对于X光的吸收程度不同来提供内部组织的可视化。肺结节通常具有与正常组织相同的吸收水平,但具有独特的形状:与支气管和血管这样具有连续的管道系统,在根部粗壮,分支后稀薄的形状相比,结节通常为球形和孤立存在。有些肺结节很小,很难找到。对一个病人进行彻底的检查,一个有经验的医生也需要大约10分钟时间。而且肺结节本身有很多类型,不同类型成长为癌症的可能性是不同的。对于肺结节良恶性的判断,医生主要是已经肺结节的形态特征,高度依赖于医生的经验[3]。

医生期待CAD系统肺结节检测方面具有高敏感度和低假阳性率,从而具有较高的参考价值。最近在深度学习方面的进展,给肺癌早期诊断带来了新的机会。

在数据集方面,大规模数据集比如L I D C-I D R I[4]等的出现事实上加速了肺结节检测方面的研发。肺结节的检测通常包括两个部分:肺结节检测[5-7]和肺结节分类[7-9]。

本文针对肺结节分类的任务提出一种适用于肺结节分类的网络结构和相应的损失函数。我们设计了以3D-ResNet网络为基架,将网络特征和全局特征进行融合,并用XGB[10]进行最终的分类。我们提出的损失函数充分考虑肺结节良恶性分类指标之间存在的有序性关系以及数据的不平衡性。该损失函数对于类似具有有序性指标分类问题都具有适用性。我们使用上述技术在LIDCIDRI数据集上训练出的模型,有着高的准确率、召回率、特异度和F1值。

1 方法

在深度学习技术出现之前,肺结节的分类方法主要依靠人工提取的特征,包括数据的3D轮廓,形状,纹理等。相比于传统特征提取手段而言,深度学习技术基于大规模数据进行学习,在特征表现学习方面有很大优势,能够自动涵盖多种特征,适用性更强。我们提出的深度学习方法,以2个3D-ResNet网络为基干网络用于特征提取。特征提取网络的输出向量与肺结节的直径这个参数用concat方式连接成为一个一维向量作为整体的特征向量输入到后续的分类器进行分类。这里我们通过实验,最终选取XGB作为最后的分类器。

我们使用的肺结节分类中,良恶性指标为1~5,分数1,2,3为良性,而分数4,5为恶性,分数越高,恶性程度越高,各个分类之间是有序关系。为了让网络能够应对这种类似回归的分类,学习指标之间的有序关系,我们在cross entropy损失的基础上,增加了L1损失作为正则化惩罚项。损失函数如下:

其中,λ为超参数,范围是0到1之间。

2 训练

我们训练使用的肺结节数据来自于数据集LIDCIDRI。我们将其中的肺结节数据按尺寸分为两组,当肺结节直接小于3 mm时,不将它们作为分类对象。只有直接范围在3 mm以上的结节被用于训练。直径3 mm以上共计5910个。该数据集由四位医生独立标注,不同医生对于某个结节的评估结果不一致。为了保持数据的一致性,我们将标注区域有重叠的结节,都视为同一结节。见表1。

表1 直径≥3mm的结节分布

我们先对数据进行预处理,以每个结节的中心为立方体的中心,截取72×72×72块作为第一个3DRestNet网络训练数据,第二个3DRestNet网络中的16×16×16的块由72×72×72块进行resize得到。

因为数据量有限,我们进行了数据增强。首先将72×72×72的数据随机裁剪成64×64×64的数据,然后对裁剪后的数据进行随机翻转、镜像、旋转,最后对数据进行标准化处理后输入网络中。

3 实验

我们通过对λ的不同取值进行实验。实验结果的统计中我们将1类、2类、3类合并作为良性,4类、5类作为恶性,统计相应的准确率、召回率、特异度和F_1值。结果见表2。

表2 有序多分类-五折实验平均结果统计

此外,我们将本文中的提出模型的准确率与其他模型的准确率进行了对比。实验结果如下。

表3 与其他模型的对比

由表2可知,有序多分类模型随着λ从0到1增加,其各个指标的大致趋势为先上升后减小,综合考虑,当λ=0.7时最优。此外通过表3可知,对于单模型而言,当λ=0.7时,我们的模型要优于Multi-scale CNN、2D CNN Slice-level、2D CNN Nodule-level、Vanilla 3D CNN、Deep 3D DPN,这不仅是由于3D卷积能更好提取3D数据特征以及利用深度残差网络能更好提取数据深层特征,更主要的一个原因是我们引入了有序正则项,使我们的模型能更好的学习到数据的有序结构信息,使得信息更加利用充分。

最后我们通过提取结节数据的全局特征和结节直径信息,将其与网络特征结合,然后用XGB做分类,实验的结果也表明,当λ=0.7时,比λ=0.0的效果要好,这更充分表明了引入有序正则项对有序分类训练具有促进作用。

4 总结

本文提出了一种基于有序多分类的深度学习模型,模型通过有序正则项学习数据之间的有序关系,并通过调整超参数λ得到比较好的结果。实验表明,引入有序正则项能够稳定地提升分类模型的泛化性能,并取得更好的预测效果[11-14]。我们通过和其他模型的实验对比,表明我们的有序正则化分类模型的优越性。

猜你喜欢
正则恶性结节
NEAT1和miR-146a在结核性与恶性胸腔积液鉴别诊断中的价值
一类具强内射的正则环
具有逆断面的正则半群上与格林关系有关的同余
体检发现的结节,离癌症有多远?
肺结节,不纠结
发现肺结节需要做PET/CT吗?
肺结节≠肺癌,发现肺结节如何复查?
恶性胸膜间皮瘤、肺鳞癌重复癌一例
探讨超声检查在甲状腺肿块良恶性鉴别中的诊断价值
力挽恶性通胀的美联储前主席保罗·沃尔克逝世,享年92岁