漆云亮,杨 臻,2,马义德
(1. 兰州大学 信息科学与工程学院,甘肃 兰州 730000;2. 兰州交通大学 信息工程学院,甘肃 兰州 730070)
乳腺组织主要包含两部分:脂肪组织和纤维腺体组织。乳腺纤维腺体组织通常又被称为乳腺钼靶密度或乳腺密度。高乳腺密度在乳腺癌病例中占有很高的比例,并且乳腺密度也被认为是乳腺癌变风险预测最重要的因素之一[1-3]。研究发现,低脂肪饮食和激素治疗可以降低乳腺密度[4],希望能通过该策略降低这种风险因素,从而阻止乳腺癌变的进一步发展[5]。为了监控这种预防措施的进展,提出一种定量的、准确的乳腺密度的测量方法就显得很必要了,这可以通过分割出乳腺钼靶X线图像的致密部分,再进一步检测计算出致密区域占乳腺区域的百分比来完成。最早描述乳腺密度的方法主要是用视觉估计法把乳腺钼靶 X线图像分成 4个类型[6],分别是脂肪型(BIRADS-1)、纤维腺体型(BIRADS-2)、相对致密型(BIRADS-3)和致密型(BIRADS-4)。但是这种方法受观察者主观偏差的影响较大,因此一系列精确测量乳腺密度的方法,如手动跟踪和测面计算法[7]被提出,但其缺点是耗时较长。近年来,一种半定量的测量技术被提出,它基于用户指定的全局阈值将乳腺致密区域从钼靶X线图像中分割出来[8]。这种方法相对主观分类法来说已经比较定量化了,而且对手动测量法来说也是一种改进。但是它也存在很多不足,如:耗时较长、大量的用户干预等,而且简单的阈值化不能全面的说明乳腺钼靶X线图像的对比度和灰度变化。例如:乳腺钼靶X线图像某个区域的纤维腺体组织可能和另一个区域的脂肪组织有着相似的灰度级。放射科医生通常认为乳腺致密区域是片状的,呈现出很高的灰度值,但不包括宽度变化的血管区域。
本文首次将PCNN运用于乳腺密度区域的检测,提出了一种基于PCNN与小波变换的乳腺钼靶X线图像处理算法,并能较准确的测量出乳腺密度。首先是乳腺钼靶X线图像预处理阶段,采用最大连接域标记和区域生长的方法去除图像的标签和肌肉;然后利用小波变换分解出低频信息,用高斯滤波器去除噪声和干扰信息,进而采用顶帽变换和灰度拉伸变换函数增强乳腺致密区域;下一步利用小波重构出的图像,进行乳腺密度自动分割;最后用PCNN进行检测进而计算出乳腺密度。检测算法如图 1所示。实验证明该处理算法有效、准确、可行。论文的剩余部分主要是对实验数据的分析,依据统计学原理,得出了三类乳腺腺体的密度范围,并分别计算了准确度。
图1 基于PCNN的乳腺密度测量的流程图Fig.1 Flow chart of breast density measurement based on PCNN
乳腺钼靶X线图像的灰度级差异较小,图像细节比较模糊,因此在医学诊断中带来很大的干扰,而针对乳腺钼靶X线图像的预处理算法可以有效的增强图像对比度,获得较好的视觉效果。
本节选择威廉康星乳腺癌数据集 MIAS[9](The Mammographic Image Analysis Society,数据集网址:http://peipa.essex.ac.uk/info/mias.html),该数据集包含322张乳腺钼靶X线图像,附带乳腺病变的相应信息,如位置、背景组织的类型等。一般来讲,乳腺钼靶X线图像主要由乳腺区域、胸肌区域、背景和标签等组成。胸肌和标签等成份会影响实验的准确度,因此有效的去掉标签和胸肌是预处理中必须的步骤。以乳腺癌数据集MIAS中的图像“mdb003”作为示例,为了去除干扰信息,提高乳腺密度的检测率,本节采用最大连接域标记和区域生长的方法[10]去除标签和胸部肌肉,实验结果如图2所示。
图2 去标签和胸肌Fig.2 Remove the label and pectoral
小波变换具有时频分析的优越性,因此,针对乳腺钼靶X线图像细节由粗糙到细腻的特点,小波变换处理的优势显得更大。
1.2.1 乳腺钼靶X线图像的小波分解
乳腺钼靶X线图像的正常组织,如纤维腺体组织和脂肪组织等经过小波变换后将被分解到低频信息中,而乳腺的主要细节,如腺体细节等属于高频信息,还有钙化点、噪声等也主要集中在高频信息中[11]。基于Mallat提出的小波多分辨率分析算法[12],乳腺钼靶X线图像经过小波变换会被分解为四个子图像,按照从高频到低频的顺序,依次是对角信息Dk、垂直信息Vk、水平信息Hk、近似信息Ak,图像的主要信息则集中在Ak频带中,所承载的信号能量在四个频带中也是最大的,而其他的三个高频子带的能量相对较小,主要包含乳腺的一些细节信息。在实验中,本文采用系数为 1/2的默认低通和高通滤波器来进行乳腺钼靶X线图像的小波分解,根据一维离散小波分解的基础,依次对已处理的乳腺钼靶X图像(已去标签和肌肉)的矩阵的每一行和每一列进行一维离散小波分解,进而完成乳腺钼靶X线图像的小波分解过程,实验结果如图3所示。
图3 乳腺钼靶X线图像的小波分解Fig.3 Wavelet decomposition of mammography target mammogram
从实验结果图可以看出,乳腺钼靶X线图像的信息主要集中在小波低频子带中,包含了图像的主要能量,而其他的三个高频子带仅包含了腺体等细节部分,集中了信号少量的能量,这与小波理论也是相符的。
1.2.2 乳腺钼靶X线图像的增强
为了增大乳腺钼靶X线图像的对比度,增强乳腺纤维腺体区域,本节采用灰度拉伸函数来处理小波分解图像的低频子带,这里采用γ函数,表示为:
上式中,r是乳腺钼靶 X线图像经过小波变换后的低频子带图像,γ是一个常数,如果0<γ<1,那么乳腺钼靶X线图像的较亮区域会被增强,反之,较暗区域会被增强,经过多次实验,我们选择γ的值为0.6时结果较为理想。图4(b)展示了γ变换增强后的图像,可以看到,乳腺钼靶X线图像的纤维腺体等致密区域的灰度级强度相比原图更大。
如图4所示,(b)图为低频子带经过灰度拉伸变换增强的结果,为了平滑模糊背景区域,还需要进一步将灰度拉伸函数增强后的图像滤波,这里本节采用高斯滤波器,基于一维低通高斯滤波器,可以得到二维高斯滤波器:
其中,D(u,v)表示到频窗中心的距离,D0是截止频率,滤波结果如图4(c)所示。
图4 乳腺X线图像低频子带的处理结果Fig.4 Processing results of low-frequency subband of mammography
1.2.3 乳腺钼靶X线图像的小波重构
由前面内容我们知道,经过小波分解的乳腺钼靶X线图像包含四个子图像,分别是对角信息Dk、垂直信息Vk、水平信息Hk、近似信息Ak,而三个高频子带包含了原图像的细节信息,为了不丢失图像的细节信息,还需要对分解后的图像进行小波重构,重构后的实验结果如图5所示。
图5 小波重构结果Fig.5 W avelet reconstruction results
在这一小节,乳腺钼靶X线图像将基于提出的算法被自动处理,分割出腺体致密区域,然后用脉冲耦合神经网络进行检测,最后计算出乳腺密度。
本节的实验数据采用了威廉康星乳腺癌数据集MIAS的322张乳腺钼靶X线图像,这些图像代表着很大范围的X射线照相特征,包括从高脂肪型到极致密型等等。完整乳腺区域的分割可以通过Kittler和Illingworth’s的最佳阈值算法[13]来完成,这个算法是在假设阈值可以区分目标像素和背景像素的条件下完成的。在本节的实验中,经过预处理、小波分解等方法的增强处理,乳腺区域已经被完整的呈现,然后致密区域可以再进一步分割。然而,传统的阈值分割方法对后期乳腺密度的评估会造成严重偏高,因为致密区域的分割结果很大程度的包含了一些血管和韧带组织,这些细小的组织有着很高的灰度值,它们和纤维腺体组织的灰度值很相近,因此会很粗略的被分割到致密区域中。
为此,本节采用了 Sivaramakrishna[14]提出的修改分割算法,可以较理想的分割出乳腺纤维腺体致密区域而不包含血管和韧带组织。基本原理可以表示为:
其中,S是邻域的总像素数,这里我们选用5×5的邻域窗口,M表示邻域窗口内的像素值,M(I, J)表示邻域窗口的中心像素值。
通过式(5)就可以将乳腺钼靶 X线图像变换到“V域”,在“V域”图像中,低 V值的纤维腺体组织相比高V值的血管、韧带组织有更大的灰度值,而这些血管、韧带像素的强度将被弱化。“V域”变换的实验结果如图6所示:(a)是原图,(b)是变换到“V域”的经过灰度级标定的实验结果。
图6 乳腺钼靶X线图像的“V域”变换Fig.6 “V domain” transformation of mammography target mammogram
脉冲耦合神经网络(Pulse coupled neural network-简称PCNN)是一种不需要训练的单层神经网络,它起源于Eckhorn神经元模型[15],是受猫的大脑皮层视觉区神经元的传导特性启发而来的。PCNN与传统的人工神经网络不同,并且在很多领域中已经被证明是一种高效的处理工具。基于其生物学背景,PCNN非常适合用于数字视觉图像的处理[16],如文献[17]提出的基于最大熵准则的植物细胞图像的分割等应用。如图7所示为构成PCNN的单个神经元的基本模型,传统神经元算法通常不能很方便的应用到实际中,并且由于设定参数过多,算法的效率也不高。因此,在实际中,一些简易的PCNN模型被使用。基于乳腺钼靶X线图像的特点,本节采用一种简易的模型[18],其中还需要设定恰当的参数,在所使用的模型中涉及六个参数的设定,分别是Fα、Eα、VE、β、VL和n,在密度检测的实验中,基于文献[19],
图7 脉冲耦合神经元模型Fig.7 Pulse coupled neuron model
本节采用半自动的参数调节,由于每张乳腺钼靶X线图像的致密区域特点的不同,n和αE的设定需要依据经验值确定,如“mdb003”作为例子,本书设置αE=1,效果较好。其他参数的设定为:
其中,σ(I)为输入图像I的标准差;Smax为输入图像像素的最大灰度值,S′是基于大津法[20]的最佳直方图阈值。密度检测实验的结果如图8所示。
图8 基于PCNN的乳腺密度检测结果Fig.8 PCNN-based detection results of breast density
其中,(a)图为预处理原图,(b)图为经过PCNN检测的图像。
为了证实本节处理算法的可靠性,我们对MIAS数据集中的322张乳腺钼靶X线图像进行算法检测处理和密度计算。
从乳腺腺体组织类型的角度,分析MIAS数据库里的乳腺钼靶X线图像,主要分为三类:分别是F(Fatty)型(脂肪型)、D(Dense-glandular)型(致密腺体型)、G(Fatty-glandular)型(脂肪腺体型)。我们分别对脂肪型(F)乳腺、致密腺体型(D)乳腺和脂肪腺体型(G)乳腺进行了乳腺密度计算分析和统计。
脂肪腺体型(G)乳腺的纤维腺体成份相比致密腺体型(D)乳腺较低,相对应其乳腺密度也较小,从主观视觉定性来看,这类腺体的亮度范围也相对较小,因此,为便于后续PCNN腺体密度像素灰度值检测,需要在实验中根据实际情况调整灰度拉伸参数γ。
一般情况下,将参数 γ调小就能取得较好的效果。如图 8所示,本节以 MIAS数据集中的“mdb041”图像为例,来说明这类乳腺钼靶X线图像的密度检测实验,基于上述对脂肪腺体型乳腺的腺体特点分析,实验参数的选择为γ=0.1,αe=1.15。实验结果如图9所示。
图9 致密腺体型乳腺的密度检测过程Fig.9 Density detection process of dense glandular breast
其中,(a)为原始的乳腺钼靶 X线图像,(b)为预处理后的图像,(c)图为乳腺钼靶X线图像的小波低频子带经过灰度拉伸变换的结果,(d)图为小波重构后的图像,(e)图为“V域”图像,(f)图为PCNN检测“V域”图像的结果。
为了证明该处理算法有效,在本小节中,将对MIAS数据集中的322张乳腺钼靶X图像进行密度测量和分析。
2.3.1 乳腺钼靶X线图像的密度分析
SPSS作为一款具有人机交换界面的统计软件,在数据分析和处理方面有着强大的功能,特别适合用于数据的统计分析。本节中,将借助该软件来处理实验数据。
本节首先对脂肪腺体型乳腺图像进行分析,在MIAS数据集中,共有103张脂肪腺体型(G)乳腺图像,对其进行算法处理和检测,基于SPSS软件绘制出密度分布直方图如图10所示。
图10 脂肪腺体型(G)乳腺密度分布直方图Fig.10 Fat gland type (G) breast density distribution histogram
可以直观的看出,脂肪腺体型乳腺的密度分布主要集中在5%-10%之间,基于0.95的置信水平的估计,其置信区间为6.55%-9.18%。
类似地,MIAS数据集共有113张致密腺体型(D)乳腺图像,对其进行算法处理,运用SPSS数据分析软件,本节绘制出了密度分布直方图如图11所示。
从图11,可以直观的看到致密腺体型乳腺的乳腺密度大致分布在>20%的范围内,为了不违背客观性,本节以0.95的置信水平对其做了置信区间的估计,经过SPSS软件的置信区间分析,致密腺体型乳腺的密度分布的置信区间为:25.63%-30.35%。
图11 致密腺体型(D)乳腺密度分布直方图Fig.11 Histogram of dense glandular type(D) breast density distribution
和前两种乳腺的密度分析一样,运用 SPSS软件进行脂肪型(F)乳腺的密度分布直方图分析,结果如图12所示。可以看到,脂肪型乳腺的纤维腺体成份极少,密度分布极低,大概分布在 2%以下,通过0.95的置信水平分析,可以得到脂肪型乳腺的密度分布的置信区间为:1.07%-1.53%。
图12 脂肪型(F)乳腺密度分布直方图Fig.12 Histogram of density distribution of fat type (F) breast
2.3.2 乳腺密度测量的误差分析
前面我们已经利用乳腺钼靶X图像的实验测量密度分布估计出了密度的置信区间,此外,还需要分析实验中造成误差的因素和误差大小。
影响本节方法处理性能的主要误差因素是灰度拉伸算法和PCNN的参数设定难以最佳。根据三种类型的乳腺密度分布的置信区间和分布直方图,我们可以确定三种乳腺钼靶X线图像的密度范围分别为:脂肪型(F型,<1.53%),脂肪腺体型(G型,1.53%-9.18%)和致密腺体型(D型,>9.18%)。设三种类型的乳腺的测量误差分别为σD、σG和σF, 则它们的值为:
其中,D0为实验测量中不在密度范围内的图像计数,D为该乳腺类型的总图像数。
经统计分析,113张致密腺体型乳腺密度测量中有四张是密度低于界限值的,测量情况如表 1所示。
表1 致密腺体型(D)乳腺误测密度Tab.1 Dense glandular type (D) Mammary gland falsely measured density
于是得到致密腺体型(D)乳腺密度的测量误差为:
同样的方法,可以得到其他两种乳腺的密度测量误差为:σG= 1 2.3%和σF= 1 1.8%。
表2给出了所提算法对每一类乳腺密度的测量准确度,同时给出了文献[21]和文献[22]的方法的对比实验结果。文献[21]的乳腺密度类别为四类,为了便于分析,我们将D、G、F型乳腺分别对应于文献[21]和文献[22]的Ⅰ、Ⅱ和Ⅲ、Ⅳ进行对比。从表2可以看出,本文方法对D、G和F型乳腺分类性能相比文献[21]有了明显提高,此外,本文方法相比文献[22]有更强的鲁棒性。
表2 乳腺密度测量准确度对比Tab.2 Comparison of measurement accuracy of breast density
本节以PCNN和小波变换为基础,对乳腺钼靶X线图像进行了密度测量,得到了322组乳腺密度的测量样本,通过数据统计分析估计了三种乳腺腺体类型的界限值,由实验结果可以知道,在误差允许的范围内,该乳腺密度的测量算法是可靠的。
目前还没有对乳腺密度界限值的分类的系统的方法,因此,除了本节的分类方法之外,对致密腺体型(D型)、脂肪腺体型(G型)和脂肪型(F型)的乳腺密度分类估计还是比较主观的。
传统的乳腺钼靶X线图像的密度检测大多是通过阈值分割得到腺体致密区域,进而求得面积百分比作为乳腺密度值。一般情况下,这种基于直方图分析的阈值分割方法是要具备理想条件的,因为它只能处理像素间的阈值存在的情况,如乳腺和背景区域等。因此本节引用了Sivaramarishna的自动分割算法,避免了脂肪和血管等组织对腺体密度测量造成的干扰。本节的处理算法基于乳腺钼靶X线图像,运用小波变换和PCNN检测纤维腺体区域,原始图像首先要经过去标签和肌肉的预处理操作,然后通过小波变换分解出低频信息,再用灰度拉伸操作进行纤维腺体增强,最后用高斯滤波器模糊背景后进行小波重构。然后进行密度自动分割,最后用PCNN检测并计算。
在实验中,需要对算法处理的结果进行区间估计分析,利用SPSS软件,本书以0.95的置信水平估计了三种乳腺的密度分布的置信区间,并由此确定了三种腺体的密度界限值。值得一提的是,本节用PCNN检测纤维腺体区域,与传统的计算面积比例的方法不同,以检测到的密度二值图像像素点求得总和的方式来计算乳腺密度,因此,整体密度水平相对较低,但这并不影响PCNN检测的准确性。在PCNN和灰度拉伸的参数调节方面,实现了半自动化处理,接下来我们会把工作重心转移到全自动化方面,以及对癌变乳腺和正常乳腺钼靶X线图像的密度分类上,然后进一步探索PCNN的高效率,高准确性检测。
本节基于PCNN和小波变换讲述了一种定量的乳腺密度测量方法,主要分为两阶段:乳腺钼靶X线图像的预处理和乳腺密度的检测、计算。具体地,第一阶段,乳腺图像依次经过去标签和胸肌、小波变换、图像去噪、图像增强、小波重构处理。第二阶段,预处理后的图像依次经过乳腺密度分割、PCNN检测、乳腺密度的计算。实验验证了本节所提算法的有效性。