曹燕珍,周盼运,赵兴岳,李 敏,
(1新疆医科大学第三临床医学院/附属肿瘤医院病理科,乌鲁木齐 830011;2新疆大学软件学院;3新疆大学软件工程技术重点实验室,乌鲁木齐 830002)
结直肠癌(Colorectal cancer, CRC)是一种在结肠、直肠组织形成的高度恶性肿瘤, 其发病率位居世界第三, 仅次于肺癌和乳腺癌, 是癌症死亡的第二大原因[1-2]。临床上, 对结直肠癌诊断主要通过以下途径:实验室检查法, 如血常规、尿常规等;影像学检查法, 如B 超、CT、MRI 等;病理学检查法[3-5]。实验室检查法操作简单, 常应用于对结直肠癌的初步筛查;影像学检查法常应用于肿瘤浸润肠壁的深度及邻近组织检测、预后评估等;病理学检查法是结直肠癌确诊的最终依据, 是结直肠癌诊断的最常用方法[6]。在病理诊断中, 结直肠腺癌被划分为高、中、低3种分化类型[7], 临床医师针对不同分化类型的腺癌采取不同的治疗手段, 以达到最佳的治疗效果[8]。近年来, 随着结直肠癌患者数量的增加, 医师的工作量也在逐日倍增, 如何有效缓解临床医师工作压力、提供客观的辅助诊断结果显得尤为重要[9-10]。通过对现有的基于组织病理学图像的结直肠腺癌辅助诊断研究的调研发现, 研究中存在以下空白:如Tsai 等[11]未对结直肠腺癌的多分化类型进行探究;Awan[12]、Zhou 等[13]未对高度和中度分化的癌组织划分。为弥补上述研究中的空白, 本研究提出了CNN-OVA-SVM 辅助诊断模型, 该模型使用ResNet50 预训练模型进行特征提取,使用一对多集成分类器对多分化类型结直肠腺癌进行诊断。本研究探究CNN-OVA-SVM 辅助诊断模型对高、中、低3种分化类型结直肠腺癌的诊断价值, 现报道如下。
1.1 一般资料选取新疆医科大学附属肿瘤医院,2012 年1 月-2016 年3 月间的60 名不同分化类型的结直肠癌患者为研究对象,其中男性34 名, 女性24名, 高、中、低分化类型患者各20例, 所有患者的结直肠组织切片均从医院病理科调取。通过使用PRE⁃CICE 500B型数字病理成像仪, 在40倍的放大倍数下对组织切扫描, 得到患者的组织病理学图像。
1.2 纳入与排除标准本研究所纳入的患者均属于高、中、低3 种结直肠腺癌中的1 种, 分化结果均经手术组织活检证实。选取患者的病理组织切片时, 排除染色质量较差、年代久远的切片, 选择对比清晰的切片。
1.3 切片的处理方法本研究所纳入的切片均采用苏木精-伊红染色法染色。 在两位经验丰富的临床医师的帮助下, 勾画病理组织切片中的感兴趣区域(Region Of Interest, ROI), 将组织切片水平放置于数字病理成像仪下, 以40倍放大倍数从每个ROI中提取6幅均为1 665×1 393 像素的非重叠图像, 共提取360幅图像。
1.4 诊断标准结直肠组织病理学图像中, 正常结肠黏膜上皮细胞的数量和排列相对稳定, 而腺瘤和腺癌上皮细胞则由于过度增殖变得结构复杂[14]。对于不同分化类型腺癌的划分, 则以腺体形状的保持程度为标准[15]:若腺体的保持程度在95%以上为高分化, 在50%~95% 之间为中分化, 在50% 以下为低分化,不同分化类型的结直肠腺癌见图1。
图1 不同分化类型的结直肠腺癌(40×, a: 低分化;b: 中分化;c: 高分化)
1.5 模型的建立将360 张结直肠腺癌组织病理学图像,按照8∶2 的比例划分为训练集和测试集。使用ResNet50预训练模型[15]从每幅图像中提取2 048维的特征, 运用主成分分析(Principal Component Analysis,PCA)算法选择贡献率大于等于90% 的特征。将特征输入到一对多集成分类器中, 构建用于结直肠腺癌多分类的CNN-OVA-SVM模型, 模型整体流程图见图2。
图2 CNN-OVA-SVM模型整体流程图
1.6 图像和特征的处理
1.6.1 图像的处理[16]将原像素大小为1 665×1 393的图片缩放到224×224, 并对训练集应用数据增强, 包括旋转、剪切、缩放, 以增加可变性并减少由于数据量较少而产生的过拟合现象。扩增后的训练集共包含4 500张图像, 高、中、低3种分化类型的图片各1 500张。
1.6.2 特征的处理 本研究采用微调的ResNet50 预训练模型进行特征提取,模型的微调主要包括除去原模型的输出层和添加窗口大小为7×7 的平均池化层两个步骤。从每张图片中提取2 048 维的特征, 为避免特征过多造成的维数灾难和机器学习器泛化性能较低的问题, 本文选取3种常用的无监督特征选择方法, PCA[17]、非负矩阵分解(Nonnegative Matrix Factor⁃ization, NMF)[18]、独立 成分分析(Independent Compo⁃nent Analysis, ICA)[19], 进行特征降维, 提高模型性能。
1.7 指标的测定
1.7.1 不同子核函数的SVM 性能指标的测定 为使一对多集成模型的性能达到最优, 本研究探讨了4种不同核函数的SVM 在多分化类型的结直肠组织病理学图像上的表现。通过比较不同核函数的SVM 的精度、召回率、F1 分数等指标, 选取总体分类性能最优的分类器作为集成模型的子分类器。
1.7.2 不同模型性能指标的测定 本研究选取受试者工作特征(Receiver Operating Characteristic, ROC)和混淆矩阵对不同模型的性能进行评估。ROC 曲线线下的面积(Area Under Curve, AUC)以定量的方式来验证模型的泛化能力[20], 面积越接近于1, 模型的泛化能力越高。混淆矩阵则通过可视化的矩阵来展示预测样本的真正例(True Positive, TP), 假正例(False Positive, FP), 真反例(True Negative, TN), 假反例(False Negative, FN)等指标。
1.8 数据模型的建立本研究所有实验均基于Py⁃thon平台, 使用sklearn机器学习库来构建实验过程中所需要的机器学习器。
1.8.1 SVM 分类器 SVM 由于其在二分类问题上展示出的优异性, 被广泛应用于多个领域的分类问题[21]。SVM 通过划分适合样本分类的“最大间隔”的超平面来实现对不同类别样本的分类, 分类结果具有很好鲁棒性和泛化能力。SVM适用于小样本、高维模式识别等分类问题[22], 核函数的存在, 使得原始空间的样本通过映射到达线性可分的高维特征空间[23]。对于某个样本xi及其对应的标签ci, 计算如下:
1.8.2 CNN-OVA-SVM 模型的设计 SVM 作为一个用于二元分类的广义线性分类器, 在二分类问题上具有优越性, 为了让SVM 适应多分类任务, 对SVM 分类器采用多分类集成策略。研究表明决策有向无环图(Decision Directed Acyclic Graph, DDAG)[24]、一 对多[25]等集成算法较为常用。本研究则选择一对多作为本项研究的多分类集成策略。该集成策略可根据样本的类别数量生成相应数量的子分类器, 每个子分类器对应一个样本类别, 其职责是将该类别与其他类别分隔开来, 以进行最终分类。
2.1 PCA、NMF、ICA3 种不同的特征选择算法特征降维的实验结果综合PCA、NMF、ICA 三种算法在50、80、110、140、170、200 等特征数量下的训练结果,可以得出:PCA算法在大部分情况下都展现出较高的准确率。本研究选择PCA作为特征降维算法, 见图3。
图3 PCA、NMF、ICA不同特征降维算法的分类准确率
2.2 不同核函数的SVM 的性能指标结果本研究横向对比Sigmoid、线性、多项式、高斯4 种核函数的SVM 对结直肠癌多分类的表现, 基于高斯核函数的SVM 分类器的分类性能最佳,平均准确率0.805,故本研究选择基于高斯核函数的SVM 作为一对多集成算法的基分类器, 见表1。
表1 不同核函数的SVM性能指标的比较
2.3 不同模型性能指标的实验结果CNN-OVASVM 模型在分类精度和泛化能力上表现最佳, 对高分化腺癌时的分类精度达到了90.48%, 对于中分化和低分化分别达到85.19% 和83.33% 的精度, 总体准确率达到了0.861。CNN-RF 模型对高、中、低3 种分化类型的腺癌分别达到了0.720、0.714、0.631 的精度,总体准确率为0.694, CNN-KNN 模型对高、中、低3种分化类型的腺癌分别达到了0.727、0.645、0.684 的精度, 总体准确率为0.681, 见表2。
表2 不同分类模型性能指标的比较
2.4 模型评估的实验结果CNN-OVA-SVM 模型在高、中、低3 种分化类型下AUC 值分别为0.88、0.94、0.89;CNN-KNN 模型在高、中、低3 种分化类型下AUC 值分别为0.82、0.86、0.76;CNN-RF 模型在高、中、低3种分化类型下AUC 值分别为0.87、0.89、0.85。CNN-KNN、CNN-RF、CNN-OVA-SVM3 种模型的分类表现见图4-6。
图4 (a):CNN-KNN的ROC曲线;(b):CNN-KNN的混淆矩阵
图5 (a): CNN-RF的ROC曲线;(b): CNN-RF的混淆矩阵
图6 (a):CNN-OVA-SVM的ROC曲线;(b): CNN-OVA-SVM的混淆矩阵
本研究将CNN-OVA-SVM 模型应用与结直肠腺癌的分类,经实验验证该模型在一定程度上能够缓解结直肠癌人工诊断过程中存在的误诊漏诊问题。实验结果表明CNN-OVA-SVM 模型分类准确率比CNN-RF 分类准确率高16.67%, 比KNN 分类准确率高18.05%, 相比于单个模型该集成模型表现更佳, 为结直肠腺癌的多分类研究提供较为准确的辅助指导,从而更好地为基于组织病理学图像的辅助诊断研究提供了正确的指导方向。 本研究所提出的CNNOVA-SVM 模型受到组织病理学图像的颜色、存放时间等客观因素的不良影响,使得模型性能仍有较大提升空间。在后期的研究工作中将继续收集多中心、多类型的结直肠腺癌组织病理学图像, 用以建立性能更好、泛化能力更高的分类模型, 提高辅助诊断模型实用价值。