深度学习技术在乳腺癌诊断中的应用

2021-02-16 02:23李蒙蒙

中国医学工程 2021年1期

李蒙蒙

（河南科技大学第一附属医院肿瘤内科，河南洛阳 471000）

随着人工智能（Artificial Intelligence）和大数据时代的到来，深度学习技术成为推动临床医疗领域快速发展的新引擎［1-2］。乳腺癌（breast cancer）作为当前全球女性常见的癌症，早期发现和及时治疗尤为重要［3-4］。通过调研发现，传统的医疗诊断技术在检测过程中难免会出现一些人为误差，而且也花费了医疗工作者大量的时间和精力［5］。因此，为了获得准确、高效的诊断结果，提升乳腺癌诊断的智能化水平，如何创造性地将深度学习技术［6］和乳腺癌诊断相结合，成为当前乳腺癌检测领域亟待解决的关键科学问题之一。在国际上，LECUN 等［7］研究学者在深度学习领域提出了一种卷积神经网络（Convolutional Neural Networks）方法，为医疗工作者在辅助诊断疑似患者方面提供了新的思路。本文首先通过对临床上常用的乳腺癌数据集进行数据清洗和数据处理，其次运用深度学习中的卷积神经网络技术来训练模型，使得该模型能够自动地辅助诊断出乳腺癌患者，减少人工操作在时间和经验方面的影响。在临床实践过程中，通过选取本文所采用的乳腺癌疑似患者的检测指标，并将检测指标输入到卷积神经网络模型中，能够快速准确地检测出待测患者是否为恶性肿瘤患者。该方法不仅可以辅助医生及时发现恶性乳腺癌肿瘤患者，而且为癌症诊断的智能化和信息化指明了新的方向。

1 资料与方法

1.1 乳腺癌数据集

本文采用由威斯康星医学院William H.Wolberg 博士提供的乳腺癌公开数据样本。该数据集是乳腺癌领域研究人员常用的公开数据集。公开数据集的选取为乳腺癌领域的研究人员进行对比和评估提供了共同基础。本文采用的数据样本都来自于真实的临床案例，每个案例具有32 个属性，每个属性值由不同量纲的数值表示。其中第1个属性是患者的编号（ID 号），第2 个属性是分类属性（benign 表示良性，malignancy 表示恶性），第3～30 个属性是检测恶性乳腺癌患者常用的指标。见表1。

表1 乳腺癌公开数据样本

1.2 卷积神经网络

卷积神经网络是深度学习领域中的一项关键技术，它的研究可追溯到20 世纪80 年代，而后随着深度学习理论的进一步完善和计算机设备的不断更新，卷积神经网络理论也取得了快速发展，成为大型医院自动化辅助检测疾病的一项关键技术［8］。从理论上讲，卷积神经网络是一种包含卷积层并具有深度结构的前馈型神经网络。该神经网络通常有输入层、隐藏层（卷积层、池化层和全连接层）和输出层构成。其中输入层主要处理一维和二维数据，卷积层主要是卷积核构造和卷积层参数的设置，池化层是在卷积层的基础上进行信息过滤和特征选择。输出层通常使用逻辑函数输出分类的标签。

1.3 支持向量机

支持向量机［9］是机器学习领域中一种经典的分类方法。它的核心思想是通过选择合适的特征，进而在特征空间（Feature Space）中找到一个最优的平面（直线），将良性肿瘤患者和恶性肿瘤患者分开。如图1 所示，蓝色圆点和红色圆点分别代表良性肿瘤患者和恶性肿瘤患者。为了获得更加准确的分类效果，通常将肿瘤患者的特征数据转换成更高的维度，从而找到能准确区分两类患者的高维度分类平面（直线）。

图1 支持向量机结构

2 模型构建和预测

2.1 模型构建

本文研究中主要使用深度学习领域的卷积神经网络方法和传统机器学习领域的支持向量机方法。我们分别使用R 软件（3.6.1 版本）中神经网络包中的nnet 软件包和kernlab 软件［10］。为了进一步验证本文提出的卷积神经网络模型性能，我们使用传统的支持向量机方法作为对比。本文提出的卷积神经网络模型的详细步骤如下：

2.1.1 卷积神经网络模型的数据输入分别选取表1 中良性肿瘤患者和恶性肿瘤患者中的肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘性、单上皮细胞的大小、裸核、乏味染色体、正常核和有丝分裂等特征数据作为卷积神经网络输入层。

2.1.2 建立卷积神经网络优化模型第一层：输入层。输入的样本数据为肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘性、单上皮细胞的大小、裸核、乏味染色体、正常核和有丝分裂等9 个。这些特征数据作为判断恶性和良性肿瘤患者的历史数据，因此输入层由9 个神经元构成。

第二层：隐藏层。首先，通过将9 个输入神经元正向传播，同时计算隐层的总输出结果。其次，将隐层中每一个神经元的结果传递给输出层。根据卷积神经网络的输出层传递的误差信号，计算隐层中每一个神经元的误差信号值。最后，由于卷积神经网络模型受到神经元数量与隐层层数的影响，我们分别将隐藏神经元的数量设为10～15个，并从中选取出准确率最高时所对应的隐层神经元的数量。

第三层：输出层。通过计算期望值与输出值之间的相对误差，当两者之间相对误差的绝对值保持在0.0～0.5%时，停止训练。该层的输出值为良性肿瘤患者（用“0”表示）和恶性肿瘤患者（用“1”表示）。通过准确构建输入层、隐层和输出层神经元的数量，保证卷积神经网络模型能够具有自适应性和准确性。

2.2 准确性分析与评价

本文通过运用卷积神经网络模型和支持向量机模型，选取肿瘤患者中的9 种常用的特征来预测疑似恶性肿瘤患者。首先对常用的肿瘤特征进行选取，其次运用卷积神经网络模型和支持向量机模型进行训练，获得预测效果最好时对应的模型参数，从而建立一种具有高度智能化和自适应性的卷积神经网络模型，实验结果如表2 所示。结果表明，本文提出的卷积神经网络模型与传统的支持向量机模型相比，在准确率、特异性、敏感性和曲线下面积（area under curve,AUC）方面分别提高了2.7%、2.9%、2.8% 和3.0%，表现出更好的预测结果。该方法的提出能够有效地辅助医疗人员检测恶性乳腺癌患者，提高了乳腺癌检测的智能化水平。

表2 两种方法的实验结果比较（%）

3 讨论

针对当前乳腺癌检测过程中，人为误差造成的检测结果不准确和检测效率低等问题，本文创造性地将人工智能领域的卷积神经网络技术与真实临床中的乳腺癌数据集进行结合，提出了一种基于卷积神经网络的乳腺癌智能化检测方法。从检测结果上分析，本文提出的卷积神经网络方法优于传统的支持向量机模型。为了进一步在临床实践中验证本文所提出方法的有效性，我们运用临床上的医疗工具分别测定待测患者的9 种指标数值，并将其输入到卷积神经网络模型，便可以准确快速地诊断出待测患者是否为乳腺癌恶性肿瘤。

综上所述，该方法是新一代人工智能技术与乳腺癌诊断相结合的很好展示，不仅提高了乳腺癌检测的准确率和效率，而且为乳腺癌智能化检测提供了新的思路。在未来，我们将继续研究人工智能方面的其它深度学习技术在乳腺癌诊断和早期发现治疗方面的应用。