赵 爽,马志庆*,赵文华,赵晓辰
(1.山东中医药大学理工学院,济南 250355;2.联勤保障部队第960医院,济南 250031)
癌症是世界范围内致死率最高的疾病之一,其中乳腺癌是女性发病率最高的恶性肿瘤之一,且其发病率呈逐年上升和年轻化的趋势[1]。早期乳腺癌可望永久性治愈,因此乳腺癌的早期发现并治疗能有效提高患者的存活率。目前,临床诊断中基于人工的病理图像分类费力、耗时,且诊断结果易受到主观人为因素的影响,借助计算机辅助诊断对病理图像自动进行良、恶性分类,可为医生提供更加客观、准确的诊断结果。相比X-ray、钼靶、MRI等图像,病理图像是医生最后确诊乳腺癌的重要标准,对病理图像进行准确的诊断是医生制订最佳治疗方案的重要依据。
Spanhol等[2]建立并公开了乳腺肿瘤病理图像数据集BreaKHis,然后利用BreaKHis提取了局部二值模式(local binary patterns,LBP)[3]、灰度共生矩阵(gray-level co-occurrence matrix,GLCM)[4]等不同特征并利用随机森林(randomforest,RF)[5]、支持向量机(support vector machine,SVM)[6]等不同的分类器进行分类,准确度达到80%~85%。王爽[7]主要对宫颈病理图像提取了形态特征,利用BP(back propagation)神经网络[8]进行分类,在测试集上准确率最高达86.2%。陈海蛟[9]从肝癌病理图像中提取了纹理特征,利用极限学习机(extreme learning machine,ELM)[10]进行正常、高中低分化分类,在测试集上准确率平均达到85.80%。
上述研究中提取了病理图像的纹理、形状等特征,但良恶性肿瘤细胞结构差异性大,尤其是细胞核,所以病理图像中染色分布也有差异,而颜色特征对于乳腺肿瘤的良恶性分类非常重要。因此本研究提取乳腺肿瘤病理图像的颜色自相关图,利用k最近邻(k-nearest neighbor,k-NN)分类器构建乳腺肿瘤良恶性分类模型,对乳腺肿瘤良恶性进行分类。
本研究采用公开数据集BreaKHis。BreaKHis由采用不同显微镜放大倍率(40×、100×、200×和 400×)采集的82个患者的7 909幅乳腺肿瘤组织病理图像组成,包含2480幅良性肿瘤图像和5429幅恶性肿瘤图像(700×460像素,RGB三通道,每个通道8位深度,PNG格式)[2]。该数据集是Spanhol等与巴西的P&D实验室合作建立的。
从乳房组织活检切片中提取样本,用苏木精和伊红染色。整个制备过程包括取材、固定、修整、脱水、透明、浸蜡、包埋、切片、染色等步骤。切片厚度为3 μm,染色后用盖玻片封片。病理学家通过在显微镜下对组织切片的视觉分析来识别每个载玻片上的肿瘤区域,每个病例的最终诊断均由经验丰富的病理学家提供,并通过免疫组织化学分析等辅助检查进行确认。最后使用数码彩色相机从乳房组织切片获得数字化图像。去除不需要的区域,最终被剪切并保存为700×460像素,且图像是无颜色、标准化的原始图像。
本研究选取数据集BreaKHis中40×的1 995幅(良性625幅、恶性1 370幅)肿瘤病理图像为研究对象。乳腺恶性肿瘤病理切片图如图1所示。
图1 乳腺恶性肿瘤病理切片图
1.2.1 特征提取
特征提取是进行乳腺肿瘤良恶性诊断的关键一步,通过从病理图像中提取特征来量化肿瘤等重大疾病,可以有效解决肿瘤良恶性难以定量评估的问题。由于良恶性肿瘤细胞形态、结构不同,对苏木精和伊红的吸收程度也不同,染色后的良恶性肿瘤病理图像颜色也会有所差异,所以颜色特征对区分乳腺肿瘤良恶性尤为重要。因此本文提取图像颜色自相关图64维特征对乳腺肿瘤进行量化。
颜色自相关图是借助颜色相关图得到的,颜色相关图不但反映了某一种颜色的像素数量占整个图像的比例,还体现了不同颜色对之间的空间相关性[11]。其定义[12]如下:
假设I表示n×n的一幅图像,将图像I中的颜色量化为m种颜色(C1,C2…,Cm),任意像素点P=(x,y)∈I(x、y为空间坐标)。
图像 I的任意 2 个像素点P1=(x1,y1)和P2=(x2,y2)之间的距离d可由下式表示:
颜色相关图的公式表示为
其中,ICi表示颜色为Ci的所有像素,ICj表示颜色为Cj的所有像素;Pr表示求概率运算,即颜色为Ci的像素与颜色为Cj的像素之间的距离为k的概率。
由于颜色相关图非常复杂和庞大,若Ci=Cj=Cw(w∈m),则变成了颜色自相关图,仅表示具有相同颜色的像素间的空间关系,空间复杂度降低很多。其公式表示为
彩色图像有R、G、B 3个通道,每个通道取值通常为0~255,因此一个像素点的颜色取值有2~24种,在求取颜色相关图时相当复杂。为计算方便,本实验将图像量化为 64 种颜色,采用d=1、3、5、7、9 这5个距离作为算法中的像素空间距离,提取每一像素空间距离下的64维颜色自相关特征,最后根据分类结果求出最优距离。
1.2.2 良恶性诊断模型构建
k-NN是一种最基本的、基于实例的学习方法,即学习过程只是简单地存储已知的训练数据,遇到新的查询实例时,从训练集中取出相似的实例,因此它是一种懒惰的学习方法[13]。特别是1-NN通常用于特征的分类。本研究的基本思路为:对于测试集和训练集,求取每个测试样本与训练样本之间的距离(本研究选择欧氏距离),然后选择距离最近的近邻,根据这个近邻所属类别对测试样本进行归类。
本研究将40×的1 995幅乳腺病理图像随机分为训练集(1 395幅)和测试集(600幅)。采用minmax标准化(min-max normalization)对训练集和测试集的特征数据进行归一化处理,然后利用1-NN建立分类模型,并在测试集进行验证。分类模型构建流程图如图2所示。
图2 分类模型构建流程图
本研究基于乳腺肿瘤病理图像,提取了图像的颜色自相关图特征,对特征数据进行归一化处理后,利用1-NN构建了乳腺肿瘤良恶性分类模型。分类模型的评判标准有很多,目前应用最广泛的有灵敏度、特异度和准确度,本研究计算了模型测试的灵敏度、特异度和准确度,并测试了颜色自相关图中不同的像素空间距离d分别对模型预测的性能影响。实验结果是通过100次重复实验后取均值得到的。分类结果见表1,结果以均值±标准差的形式表示。
表1 分类结果%
在相同数据集上分别使用归一化后的数据和原始数据进行预测,比较两者差异,发现归一化后数据求解速度明显比未归一化数据快很多。
由表1可知,对比不同的像素空间距离,发现像素空间距离为1时分类精度最高,准确度平均达到87.01%,灵敏度平均达到88.52%,特异度平均达到85.49%,表明此模型具有一定的可行性。而标准差较小,准确度大多为85.42%~88.60%,表明此模型具有良好的鲁棒性。
为了进一步评估本文提出的方法,在相同的数据集下,与Spanhol等[2]提取不同纹理特征并利用不同的分类器分类的结果进行了比较,本文提出的方法准确度(85.42%~88.60%)明显高于Spanhol等所提出的方法(准确度达到80%~85%),为乳腺肿瘤提供了一种更简便、更准确的诊断方法。
本研究主要针对乳腺肿瘤良恶性的诊断,也可应用于其他部位肿瘤病理图像的病理分型和良恶性诊断。本研究的局限性在于,仅仅根据82例患者的乳腺肿瘤案例进行训练测试,并不能代表全部的病例,希望以后可加大样本量,做出更准确、全面的诊断结果。
当前乳腺肿瘤良恶性的人工分类费力、耗时,且诊断结果易受到主观人为因素的影响。因此一些学者陆续在计算机辅助诊断的基础上对乳腺肿瘤进行自动分类,虽达到良好的分类结果,但算法较复杂。本研究对乳腺病理图像提取了颜色自相关图64维特征,利用1-NN建立分类模型并进行了测试,结果发现颜色自相关图中像素空间距离为1时分类精度最高,准确度平均达到87.01%,灵敏度平均达到88.52%,特异度平均达到85.49%,表明此模型具有良好的鲁棒性和可行性,为乳腺肿瘤提供了一种简便、低成本和可重复的诊断方法。但是实验只能诊断肿瘤是良性还是恶性,希望以后的工作能够更详细地对肿瘤的发生发展阶段做出判断。