基于病理图像颜色和纹理特征对乳腺良恶性肿瘤的鉴别诊断*

2019-05-21 02:57:56马志庆赵文华李延军
实用医药杂志 2019年5期
关键词:纹理恶性乳腺

赵 爽,马志庆,赵文华,李延军

乳腺癌是女性发病率最高的恶性肿瘤,其发病率呈逐年上升和年轻化的趋势[1],乳腺癌的早期发现及有效治疗能提高患者的存活率。目前乳腺癌临床诊断多基于人工病理图像分析,其费力、耗时,且诊断结果易受到主观人为因素的影响,借助计算机辅助诊断对病理图像自动进行良、恶性分类,可为医师提供更加客观、准确的诊断判断。

马军超等[2]从骨内CT图像中提取了灰度均值、偏度、平方和等多个纹理进行良恶性的鉴别;黄宝婵等[3]从乳腺肿瘤红外图像中计算乳腺图像肿瘤区域与非肿瘤区域的灰度共生矩阵,提取了图像的相关性、能量、逆差矩、最大概率、熵等纹理特征进行分类;熊飞等[4]中从肺部CT图像中提取了均值、熵值、偏度、峰度和不均匀度等纹理特征进行了分类。上述研究中对图像只提取了纹理特征,且都为CT、红外图像,而病理图像是医师最后确诊乳腺癌的重要标准,对病理图像进行准确的诊断是医师制订最佳治疗方案的重要依据。该次研究通过深入分析乳腺癌病理图像,提取乳腺肿瘤病理图像的颜色特征和纹理特征,构建乳腺肿瘤良恶性分类模型,对乳腺肿瘤良恶性进行分类。

1 资料与方法

1.1 实验实施 该研究采用公开数据集BreaKHis[5]。BreaKHis由82例患者采用不同显微镜放大倍率(40×,100×,200×及 400×)采集的 7909 幅乳腺肿瘤组织病理图像组成。其包含2480幅良性图像和5429幅恶性图像(700×460像素,RGB三通道,每个通道8位深度,PNG格式)。该数据库是Spanhol等人与巴西的P&D实验室合作建立的。

从乳房组织活检切片中产生样品,用苏木精和伊红染色。经SOB收集后进行组织学研究,并由P&D实验室的病理学家进行标记。其工作采用标准的石蜡切片制备方法,保留最初的组织切片结构。整个制备过程包括取材、固定、修整、脱水、透明、浸蜡、包埋、切片、染色等步骤。为了安装在载玻片上,切片厚度为3 μm,染色后用盖玻片封片。最后解剖学家和解剖病理学家通过在显微镜下对组织切片的视觉分析来识别每个载玻片上的肿瘤区域,每个病例的最终诊断均由经验丰富的病理学家提供,并通过免疫组织化学分析等辅助检查进行确认。

使用具有放大倍数为3.3倍中继镜的Olympus BX-50型显微镜与三星数码彩色相机SCC-131AN耦合,从乳房组织切片获得数字化图像(相机使用1/3Sony Super-HAD行间转移电荷耦合器件,像素尺寸为 6.5 μm×6.25 μm,总像素数为 752×582)。 去除不需要的区域,最终被剪切并保存为700×460像素,且图像是无颜色标准化的原始图像。

该研究选取其数据集40×的1995幅(良性625幅,恶性1370幅)肿瘤病理图像为研究对象,如图1所示。

图1 乳腺恶性肿瘤病理切片图

1.2 特征提取 特征提取是进行乳腺肿瘤良恶性诊断的关键一步,通过从病理图像中提取特征来量化肿瘤等重大疾病,可以有效解决肿瘤异质性难以定量评估的问题,该文提取了颜色矩、颜色自相关图、Haralick纹理特征共99维特征乳腺肿瘤进行量化。

由于HSV颜色空间与人眼对颜色的主观意识相对符合[6],该研究采用HSV颜色空间下的颜色矩作为颜色特征之一,每种颜色分量的一阶矩 (均值)、二阶矩(方差)、三阶矩(斜度)表示图像中的颜色分布。最后三个颜色分量的三阶颜色矩组成一个9维特征向量。

颜色自相关图是借助颜色相关图得到的,颜色相关图刻画了某一种颜色的像素数量占整个图像的比例,还反映了不同颜色对之间的空间相关性[7]。由于颜色相关图非常复杂和庞大,而颜色自相关图仅考察具有相同颜色的像素间的空间关系,空间复杂度降低很多。因此该研究采用 k=1、3、5、7、9这五个距离作为算法中的像素空间距离,提取每一像素空间距离下的64维颜色自相关特征,最后根据分类结果求出最优距离。

Haralick纹理特征是借助灰度共生矩阵(Graylevel Co-occurrence Matrix,GLCM)得到的[8]。 灰度共生矩阵通过计算像素相对距离(d=6)[9]和4个不同方向(θ=0°、45°、90°、135°),并对原始图像灰度级量化成16级得到。计算出13个Haralick纹理特征:角二阶矩、对比度、相关性、方差、逆差矩、和均值、和方差、和熵、熵、差方差、差熵、相关信息测度1和相关信息测度2。最后对四个方向上的特征向量取均值和标准差来获得26维特征向量。

具体特征维度分别为颜色矩,维度为9;颜色自相关图,维度为64;Haralick纹理特征,维度为26;合计为99。

1.3 良恶性诊断模型构建 将40×的乳腺病理图像随机分为训练集(70%)和测试集(30%)。采用“min-max 标准化”(Min-max normalization)对训练组和测试组的特征数据进行归一化处理,然后利用极限学习机(Extreme learning machine,ELM)建立分类模型,并在测试集进行了验证。分类模型构建流程图如图2所示。

极限学习机是由黄广斌提出来的求解单隐层神经网络的算法[10]。在训练中能够随机产生输入层和隐含层间的连接权值和隐含层神经元间的阈值,无须调整,只需设置隐含层神经元个数即可获得全局最优解。由于ELM学习速度快、泛化性能好等优点,近年来越来越多的学者将其应用于非线性函数拟合、回归和模式分类问题研究[11]。如图3 ELM的拓扑结构图所示,整个结构由输入层、隐含层和输出层组成,各层之间由神经元连接。图中的输入层有 t个输入变量(x1,x2,x3,……xt);隐含层中有 l个神经元(o1,o2,o3,……ol);输出层有 l个输出变量(y)。

ELM 算法主要步骤为[12]:(1)给定训练集,随机产生输入层与隐含层间权值wij和隐含层神经元阈值b;(2)确定隐含层神经元节点数和激活函数g(x)(默认取值“sig”);(3)计算出隐含层与输出层间的连接权值βjk和隐含层输出矩阵H;(4)计算输出层权值β;β=H-1T,式中:H-1为H的广义逆矩阵;T为理想输出。

为了获取更高的预测准确率,该研究对ELM的参数进行了优化。ELM的分类性能受到多种因素影响,其中最关键的因素为隐含层的节点数。该研究中隐含层节点个数的设置通过100个节点到500个节点以50个节点为间隔实验得到。

图2 分类模型构建流程图

图3 极限学习机算法拓扑结构

图4 不同像素空间距对模型的性能影响

2 结果

该研究基于颜色特征和纹理特征利用ELM构建了乳腺肿瘤良恶性分类模型,对分类模型的评判标准有很多,该研究选择“灵敏度”“特异性”和“准确度”进行了计算。实验结果是通过100次实验后取均值得到的。

颜色自相关图中不同的像素空间距离k分别对模型预测的性能影响,如图4所示。

由图可知,不同的像素空间距离比较后发现差异很小,距离为9时分类准确度达到最高为90.67%;对比不同的节点,发现曲线呈相同趋势,先升高后下降,节点数为250,300,350时均呈现过最高点,分类准确度最高达到90.67%。

综上所述像素空间距离为9,隐含层节点数为250时分类准确度最高,达到90.67%。

对像素空间距离为9,隐含层节点数为250的灵敏度和特异性单独进行了计算,结果:准确度为90.79%,灵敏度为89.18%,特异性为92.39%。

3 结论

在计算机辅助诊断的基础上,该研究对乳腺病理图像提取了颜色特征和纹理特征共99维特征,并利用ELM建立分类器进行了测试,结果发现颜色自相关图中像素空间距离为9,ELM隐含层节点数为250时分类精度最高,准确度能达到90.79%,灵敏性达到89.18%,特异性达到92.39%。对于肿瘤组织的量化比较,该文通过提取颜色和纹理特征对乳腺肿瘤病理图像进行了量化,利用乳腺病理图像数据集中随机选取的70%图像进行训练建立模型,最后对30%图像进行测试,测试图像为良性还是恶性,与原数据集中标记的良恶性进行比较,准确度能达到90.79%,从而完成对乳腺病理图像的良恶性进行了分类。该研究仅对乳腺肿瘤进行了分类,也可以对其他肿瘤进行分类。但是实验只能诊断肿瘤是良性还是恶性,希望以后的工作能够对肿瘤的发生发展阶段做出更详细判断。

猜你喜欢
纹理恶性乳腺
恶性胸膜间皮瘤、肺鳞癌重复癌一例
云南医药(2021年3期)2021-07-21 05:41:06
基于BM3D的复杂纹理区域图像去噪
软件(2020年3期)2020-04-20 01:45:18
卵巢恶性Brenner瘤CT表现3例
使用纹理叠加添加艺术画特效
体检查出乳腺增生或结节,该怎么办
TEXTURE ON TEXTURE质地上的纹理
Coco薇(2017年8期)2017-08-03 15:23:38
得了乳腺增生,要怎么办?
妈妈宝宝(2017年2期)2017-02-21 01:21:22
消除凹凸纹理有妙招!
Coco薇(2015年5期)2016-03-29 23:22:15
甲状腺结节内钙化回声与病变良恶性的相关性
容易误诊的高回声型乳腺病变