石静文,李 嘉
(五邑大学智能制造学部,广东江门 529020)
乳腺癌常常被称作“粉红杀手”,根据国际癌症研究机构2021年公布的全球最新癌症统计数据表明:女性乳腺癌取代肺癌成为全球第一大癌[1]。乳腺癌产生的原因不止与遗传原因、激素变化和既往相关疾病史有关,并且随着时代的发展、现代都市生活节奏日益加快,女性也承担着更多的社会责任而导致有过度的精神压力,过于紧张的生活带来的精神心理因素等也有可能增加罹患乳腺癌的风险,由此可见,乳腺癌对女性的身体健康造成了很大的影响。因此乳腺癌的早期筛查与诊断非常有必要,不仅能及时发现隐患,而且可以有效提高患者的存活率。
现阶段对乳腺癌的检测研究,主要依赖于病理医生的大量专业知识和诊断经验,但是由于我国医疗资源不足,并且随着社会的发展,生理和心理承受的压力越来越大,女性患乳腺癌的风险日益增加。在乳腺癌的检测研究中,对特征的提取是一个关键环节,因为检测效果受到特征提取的影响,近几年乳腺癌病理图像特征提取方法主要有基于纹理、形态特征等的传统人工特征提取和基于深层神经网络的自动特征提取两大类。
本文首先介绍了公开常用的乳腺癌病理图像相关数据集,然后总结归纳了近几年乳腺癌病理图像特征提取算法的研究进展,并分析了这些算法的优缺点,最后对乳腺癌病理图像特征提取算法的未来研究发展进行了展望。
数据集在乳腺癌病理图像特征提取领域的研究中具有重要意义,它是衡量特征提取算法性能的基本,也是推动乳腺癌病理图像特征提取算法研究领域向更复杂方向发展的重要力量[2]。近几年,公开常用的相关数据集有Digital Database for Screening Mammography(DDSM)[3-4],其是马萨诸塞州综合医院、南佛罗里达大学和桑迪亚国家实验室的合作项目,包含2 620个病例,总计20 480张的3 000×4 800像素和16位灰度级别的乳房X光图像,灰度图像的强度级别在0~255之间,图像的原始格式是LJPEG,但它被转换为jpg格式以降低复杂性。Mammographic Image Analysis Society Digital Mammo⁃gram Database(MIAS)[5]数据集收集在英国,该数据库包含322张尺寸为1 024×1 024的数字乳房X光检查图像,并由专家精确标记。Wisconsin Breast Cancer Database(WDC)[6]数据集是由Dr.William H Walberg从威斯康星大学麦迪逊医院收集的,该数据集包括699个实例和10个患者特征,包括实例标识符、肿瘤信息、类等。Wis⁃consin Diagnostic Breast Cancer(WDBC)[7]数据集也由Dr.William H Walberg从威斯康星大学麦迪逊医院收集,该数据集包含569个实例(62.74%为良性,37.26%为恶性),并有32个患者属性,包括1个患者ID号记录,30个肿瘤诊断信息,1个肿瘤诊断结果记录(良、恶性),数据集中的肿瘤诊断信息来源于10个方面,对于每个来源,给出3个测量结果,即均值、标准误差和最大值,结果在数据集中有30个特征记录。Breast Cancer Histo⁃pathological Database(BreakHis)[8]数据集是巴西巴拉那的P&D实验室——病理解剖学和细胞病理学合作建立的,数据集由来自82名患者的7 909张乳腺肿瘤组织显微图像组成,其中包含5 429个恶性肿瘤样本和2 480个良性肿瘤样本。详细内容如表1所示。
表1 常见乳腺癌病理图像数据集
人工提取特征常用的方法主要利用基本统计特征对图像进行描述,常见的图像特征包括纹理特征、空间特征和颜色特征等[9]。纹理特征例如有小波变换、灰度共现矩阵(Gray-level Co-occurrence Matrix,GLCM)、完全局部二进制模式(Completed Local Binary Pattern,CLBP)和局部二进制模式(Local Bimary Pattern,LBP)等[10-13],另外还有空间特征,如最小生成树(Minimum Spanning Tree,MST)、Delaunay三角剖分(Delaunay Tr⁃langulation,DT)、Voronoi图(Voronoi Diagram,VD)等[14-17]方法。具体如Mercan C等[17]将为将全载玻片乳腺组织病理学图像分为多个类,于是利用各种特征描述符对图像进行特征提取,如DT、LBP、MST、VD等描述符,最终精度达到81%和69%。Spanhol F A等[13]利用LBP、CLBP、GLCM和对参数自由阈值邻接统计量(Pa⁃rameter-Free Threshold Adjacency Statistics,PFTAS)为特征提取技术,并分别应用至不同的分类器,实验结果证明,PFTAS和支持向量机分类器的组合取得了更好的性能,准确率为85%。Vartika Mishra等[18]基于尺度不变特征变换(Scale-invariant feature transform,SIFT)和改进的SIFT被称为Speeded Up Robust Features(SURF)[19]为特征提取技术对乳腺癌病理图像进行特征提取,然后用主成分分析(Principle Component Analysis,PCA)降维,并对4种分类器的性能进行了客观分析,结果表明,K最近邻(K-NearestNeighbor,KNN)在SIFT、SIFTPCA、SURF和SURF-PCA中具有最高的精度,而且SURF比SIFT更快。张红斌等[20]使用SIFT、空间包络特征(Gist)、方向梯度直方图(Histogram of Oriented Gra⁃dient,HOG)和VGG16对乳腺癌细胞从形状、纹理、深度学习等角度进行了特征提取,并改进ERGS(Effective Range Based Gene Selection)算法动态计算特征权重进行特征选择,采用自适应提升算法将弱分类器集成为强分类器,并对其输出的预估概率做ERGS加权,实现多特征融合,实验表明,算法识别精准度达86.24%,SIFT、Gist、HOG特征之间具有较强互补性。马尚洋等[21]针对乳腺癌细胞,采用LBP描述乳腺癌细胞特征,并且利用多维缩放(Multidimensional Scaling,MDS)、局部线性嵌入(Locally Linear Embedding,LLE)等矩阵降维,以反向传播(Back Propagation,BP)神经网络算法实现癌细胞辅助判读,实验结果表明,采用LBP-LLE-BP结合的方法,数据规模降维至5×252时,准确率高达89.61%。此外,Pullaiah N等[22]还提出了混合局部最优定向模式(Lo⁃cal Optimal Oriented Pattern,LOOP)&Haralick特征提取技术。Singh S[23]提出从乳腺癌病理图像灰度图中提取GL⁃CM、LBP、LTE(Law's texture energy)和HTF(Haralick Texture Feature)等特征,然后将这些特征集放在一起,形成一个特征向量进行分类;Gupta V[24]使用颜色-纹理特征来描述图像,例如Gabor特征、多层坐标群集表示法等。
图像特征除上述特征之外,还有形态特征,例如细胞核的细胞结构等。在提取形态特征方面,于翠如[25]统计了细胞核占整个面积的比例、细胞核面积和周长的平均值、标准差、最大最小值等特征值。另外还有采用自适应阈值技术和高斯混合聚类对细胞核进行分割[26],采用圆形霍夫变换估计细胞核位置[27]等特征提取方法。
人工提取特征方法需要手动设计乳腺癌病理图像中感兴趣的区域特征,所以具有一定的局限性和复杂性,更缺乏良好的适应性,难以包含有效且变化多样的病变特征。尽管如此,这些特征提取技术也为进一步研究乳腺癌病理图像特征提取方法提供了理论意义和参考价值。
深层神经网络又称深度学习,基于深层神经网络的乳腺癌病理图像特征提取方法主要采用人工神经网络(Artificial Neural Network,ANN)。人工神经网络是一种重要且有效的机器学习技术,其能够对数据进行自主学习完成特征提取和分类任务。其本质是通过生物学的基本原理,对人脑神经网络进行抽象而建立的模型[28]。近年来,深层神经网络被成功地引入到乳腺癌病理图像特征提取研究中[29-31]。具体如Kassani SH等[32]提出了一种自适应VGG19、MobileNet和DenseNet三个预训练的卷积神经网络集成模型,该集成模型用于特征表示和提取步骤,提出的多模型集成方法比单分类器和机器学习算法获得更好的预测。Vo D M等[33]利用Inception-ResNet-v2模型对多尺度图像进行视觉特征提取,然后采用梯度提升树进行最后的分类步骤。Gandomkar Z等[34]开发了一个使用深度残余网络(MuDeRN)对H&E染色的乳腺癌组织病理学图像进行特征提取的框架。Darlington A Akogo等[35]使用端对端(End-to-end)卷积神经网络对乳腺癌细胞进行自动特征提取,系统具有6层CNN,能够区分两种不同的癌细胞类型,实验结果显示可达到99%的准确率。Han Z等[36]基于GoogLeNet架构提出了一种新的CSDCNN模型,该模型可以实现端到端识别,也取得了很好的识别效果。杨晓玲等[37]基于经典的LeNet-5模型,通过改变网络的卷积层数等方法,对乳腺癌病理图像进行识别,实验结果显示,该方法对乳腺癌病理图像平均识别率达89.58%,对恶性乳腺癌细胞识别率可达96.75%之高。孙福权等[38]提出多模型(VGG16、Inception-V3和ResNet-V2-152)卷积神经网络对乳腺癌病理图像进行识别,实验结果表明,在Break His数据集的放大200倍的乳腺癌病理图像上,准确率可达到97.64%。Jinyin Chen等[39]设计了基于深层神经网络的双网络结构(Net+DeNet),用于基因特征提取和癌症分类,双重网络的特征提取方法既考虑了提取特征的分类能力又考虑了重构能力。蒋慧琴等[40]利用YOLOv3主干网络提取特征,特征提取网络由5个残差模块组成,可以获得检测目标的多尺度全局特征。
通过对现阶段研究成果的分析,发现基于深层神经网络的乳腺癌病理图像特征提取算法在准确率方面取得了突破性的成功。深层神经网络的优势在于可以通过其多个隐含层的网络结构自动挖掘数据深层次隐式特征[28],这些隐式特征有利于改善乳腺癌病理图像特征提取的效果,然而大多数深层神经网络的训练过程相当耗时。其最重要原因在于:深层神经网络结构错综复杂而且涉及到许多超参数,这种复杂性使得分析深层神经网络结构变得十分困难;为了在个性化应用中获得更高的诊断精度,深度学习模型不断加深网络层数或者调整参数,但有时增加网络深度反而会出现性能退化的问题。
本文对国内外研究者针对乳腺癌病理图像特征提取问题所进行的大量科学研究进行归纳和总结,可以得出:(1)基于传统人工特征提取算法需要病理学专家的丰富经验对乳腺癌病理图像进行标注,在此过程中有可能因为专家的个人因素导致误诊,并且人工设计的乳腺癌病理图像特征表示方法往往只适用于某几种显著特征的识别,所以具有一定的局限性,更缺乏良好的适应性;(2)深层神经网络能对乳腺癌病理图像进行自动提取特征,相比于传统人工特征提取方法减少了许多繁琐的步骤,并且可以提高癌症检测的准确率和效率,但是深层神经网络仍然被训练时长问题和复杂的网络结构等问题所困扰。
在今后的研究工作中,可以从以下3个方面进行:(1)由于不同的研究是在不同的乳腺癌病理图像数据集上进行的,所以特征提取算法的比较缺乏说服性,因此在今后的研究中需要建立一个公开可靠的乳腺癌病理图像数据集供国内外研究学者使用;(2)除目前现有乳腺癌病理图像特征提取算法外,缺乏对其他高效的特征提取方法的探讨,因此设计一种方便、高效和普适性强的乳腺癌病理图像特征提取算法是今后研究的重要内容;(3)目前乳腺癌病理图像研究主要还是粗略识别良性和恶性两类肿瘤细胞,在今后的研究中,应该充分发挥人工智能的优越性,辅助诊断更为细致、精确的肿瘤细胞的实时情况,让医生可以做出更加精准的治疗,更好地为患者服务。