基于病理图像的DCNN鼻咽癌诊断模型和算法

2018-07-12 09:37林琰超
电脑知识与技术 2018年14期
关键词:特征融合

林琰超

摘要:鼻咽癌是一类高发的恶性肿瘤,实现其快速诊断具有重要意义。该文提出了一种基于深度卷积神经网络(DCNN)的病理图像数据肿瘤区域自动检测和诊断方法。通过在病理切片像素20000*20000中检测和定位出像素大小为256*256的肿瘤区域,将提取到的不同分辨

率下patch通过VGG-16网络(10x,20x)模型提取浅层特征,并将其输入Inception-V3网

络的后半部分与Inception-V3提取的40x patch的特征进行融合,以此建立基于病理图像鼻咽癌融合诊断模型,在机制上可提升分析性能并降低假阳性率。实际资料处理结果表明,对于鼻咽癌的检测准确率达到91.5%,较大提高了诊断准确率。

关键词:鼻咽癌诊断;深度卷积网络;特征融合;多尺度分析;学习算法

中图分类号:TP183 文献标识码:A 文章编号:1009-3044(2018)14-0183-03

Abstract: Nasopharyngeal carcinoma is a kind of high incidence malignant tumor. It is of great significance to realize its rapid diagnosis. In this paper, an automatic detection and diagnosis method based on deep convolution neural network (DCNN) is presented. The tumor area with a pixel size of 256 * 256 was detected and located in the pathological section with a pixel size of 20000 * 20000. Shallow features of patches at different resolutions are extracted by the VGG-16 network (10x, 20x) model. The features are inputted into the second half of the Inception-V3 network and fused with the features of the 40x patch extracted by the Inception-V3, to establish a nasopharyngeal carcinoma fusion diagnosis model based on pathological image, which can improve the analyzing performance and reduce the false positive rate in the mechanism. The actual data processing results show that the detection accuracy for nasopharyngeal carcinoma reached 91.5%, and the accuracy of diagnosis is greatly improved.

Key words: diagnosis of nasopharyngeal carcinoma; deep convolution network; feature fusion; multiscale analysis; learning algorithm

1 背景

在我国,鼻咽癌为临床中常见的一种恶性肿瘤,发生率及病死率高。据研究,鼻咽癌早期患者经治疗后的5年生存率达到90%以上,而中晚期患者超过5年仅为50%-60%左右[1],表明鼻咽癌患者的早期发现、诊断和及时治疗十分重要。

近年来,卷积神经网络(convolutional neural network,CNN)在计算机视觉、图像领域得到了广泛的应用,其强大的特征学习与分类能力引起了广泛的关注。VGGNet[2]是牛津大学计算机视觉组研发的一种深度卷积神经网络,该网络相比之前的网络结构,错误率大幅下降,取得了“ImageNet大规模视觉识别挑战赛”(ILSVRC 2014)比赛分类项目的第二名和定位项目的第一名。同时由Google公司研发Google Inception Net[3]首次出現在ILSVRC 2014比赛中,就以较大的优势取得了分类项目第一名。

由于卷积神经网络避免了对图像的复杂前期预处理,可以直接输入原始图像;VGG-16网络结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化尺寸(2*2),通过不断加深网络结构来提升性能。Inception-V3网络模型层数更深,表达能力更强,其中的Inception Module提高了参数的利用效率。该文提出了一种将VGG-16网络和Inception-V3网络信息处理相融合的模型和方法,实现对鼻咽癌病理图像数据中肿瘤区域的自动检测。

2 基于病理图像的DCNN鼻咽癌诊断模型

该文选取VGG-16卷积网络与Inception-V3卷积网络作为初始网络模型,通过信息融合构建一种新的基于病理图像的DCNN鼻咽癌诊断模型。

2.1 VGG-16网络模型

VGG-16探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3[×3]的小型卷积核和2[×2]的最大池化层。VGGNet的拓展性很强,迁移到其他图片数据上的泛化性非常好。VGG-16全部使用了3[×3]得卷积核和2[×2]的池化核,通过不断加深网络结构来提升性能。该文中我们选择VGG-16网络作为初始模型,其模型结构如图1所示:

2.2 Inception-V3网络模型

Inception-V3最大的特点是控制了计算量和参数量的同时,获得了非常好的分类性能。Inception-V3网络对传统CNN主要有两方面的改造:一是引入了Factorization into small convolutions的思想,将一个较大的二维卷积拆成两个较小的一维卷积,例如将[7×7]卷积拆成[1×7]卷积和[7×1]卷积,一方面减少了大量参数,加速运算并减轻了过拟合,同时增加了一层非线性扩展模型表达能力。文献[3]中指出,这种非对称的卷积结构拆分,其结果比对称地拆为几个相同的小卷积核效果更明显,可以处理更多、更丰富的空间特征,增加特征多样性。其网络结构和参数设置如圖2所示:

2.3 多尺度下鼻咽癌诊断融合模型

该文提出的多尺度下鼻咽癌诊断分类融合模型的整体框架和处理流程如图3所示。主要思路如下:在基于病理图像的鼻咽癌诊断中,对于同一患者在相同视角下提取不同倍率的像素大小相同的组织病理patch。由于病理数据的特殊性,在处理中我们通过记录原始图像坐标的方式提取像素大小为256*256的patch,构造不同倍率(10x,20x,40x)下的数据集,不同倍率下相同大小的patch包含不同的纹理、结构、空间关系等特征,因此,采用多尺度的方法进行模型的训练与测试。在训练阶段,将低倍率下10x,20x的patch送入基础网络进行训练,将40x的patch 直接送入精细网络进行训练。研究中,基础网络取为VGG-16网络,精细网络取为Inception-V3模型。然后利用训练好的深度卷积网络融合模型,在测试数据集中将同一患者的病理图片分别提取10x,20x,40x分辨率下的相同数量的patch,将10x,20x的patch送入基础网络,将基础网络提取的特征与40x直接送入精细网络,在Inception-V3模型中将特征进行融合,预测得出基于每个patch的概率,并依据统计学原理得出该患者患有鼻咽癌的概率,并将可能患有鼻咽癌的病理组织区域在病理切边上标记出来。

3 仿真实验和结果分析

3.1实验数据

该文中的数据取自广州中山医院病理科62位患者的病理图像数据。病理图像原始数据如图4所示。其中,被绿色实线所标注的区域是为此图中可见的部分癌巢(细胞发生癌变的区域);被红色标注的区域即是正常区域的示例。

该实验基于鼻咽癌癌病理切片进行诊断的目标是利于深度卷积神经网络技术,使计算机能够自动地将鼻咽癌癌数字组织病理切片的局部视野中的癌巢快速精准地标识出来。选取鼻咽癌病理图像,为常规HE染色原始病理切片,大小为20000×20000像素,svs格式。我们从医生标识的癌变组织区域中分别取10x,20x,40x下像素为256*256大小的patch,对正常的组织区域也在不同的倍率下取256*256像素的patch用于模型的训练与测试

在训练集中,10x,20x,40x的图片分别为15000、15000、 15000张,我们将训练集、测试集与验证集按照7:2:1的比例进行分配。在训练卷积神经网络时,可以随机调整训练图像的这些属性,从而使得训练得到的模型尽可能小的受到无关因素的影响。最后以相同大小的概率选取同等数量的正常组织与癌变组织。

3.2 实验环境和模型参数设置

在实验中,针对百万级别的样本量,硬件选择为戴尔C4130节点,包含4颗K80显卡,每颗包含两个GPU,单GPU显存为12G,满足本项目实验计算性能要求。

模型开发平台选择为tensorflow,支持python语言,可以较好的兼容不同的软件开发平台。同时tensorflow的灵活性为本项目实现不同模型功能结构提供了很好的帮助。

3.3 实验结果和分析

实验中,通过多尺度融合的模型对测试集上病理组织患癌区域进行识别的准确率可以达到91.5%。相对于单用VGG-16与Inception-V3模型进行识别具有明显的优势,图5为我们在测试数据集上进行不同模型的试验结果对比。通过对比可以看出,该文提出的模型相对于其他两个模型,能够识别出更多的肿瘤区域。

通过采用不同的模型进行实验对比,我们得出在相同实验数据下实验结果对比,如表1所示:

利用多尺度模型融合网络成功地训练数据集并建立模型,从而实现对鼻咽癌全扫描病理图像的肿瘤区域的诊断,有助于病理医生迅速找到感兴趣的区域,对患者的病情做出迅速的判断,因此在临床上具有一定的价值。

4 结束语

该文提出了一种基于VGG-16网络与Inception-V3网络信息融合的深度卷积神经网络模型,建立了相应的学习算法,可实现对鼻咽癌病理图像癌区直接进行识别和标记。在信息处理中,直接通过深度卷积神经网络从正常细胞与癌细胞所具有的不同特征出发,利用多次卷积,非线性映射、池化等操作进行自动诊断,从而快速地实现了对不同病理和细胞组织的识别,较大提升了识别准确率和计算效率,可为今后的研究提供参考。

参考文献:

[1] Liang Xin, Yang Jian. Nasopharynx Cancer Epidemiology in China[J]. China Cancer, 2016, 25(11): 828-830.

[2] KH Yu, Zhang C, Berry G J, et al. Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features[J]. Nature Communications, 2016(7): 12474.

[3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale Image recognition[EB/OL]. http://arxiv.org/abs/1409.1556v2.

猜你喜欢
特征融合
基于稀疏表示与特征融合的人脸识别方法
一种“客观度量”和“深度学习”共同驱动的立体匹配方法
语谱图傅里叶变换的二字汉语词汇语音识别
基于移动端的树木叶片识别方法的研究
融合整体与局部特征的车辆型号识别方法