张敏辉,杨 剑
(1.成都师范学院 计算机科学学院,四川 成都 611130;2.电子科技大学成都学院 计算机学院,四川 成都 611130)
基于CT图像的自动诊断是指通过模式识别技术对CT图像中的病灶组织进行识别,从而辅助诊断的技术。针对CT图像的自动诊断主要包括两大步骤:感兴趣区域(regions of interest,ROI)分割和病灶分类[1,2]。即首先利用基于阈值或聚类的技术将感兴趣区域分离,再利用分类技术对每个ROI进行形态和灰度特征提取,标记病灶状态。利用标记的ROI训练分类器,并对新样本中的ROI进行疾病状态预测。
由于早期诊断在疾病预防中的出色效果,使得基于医学图像的自动诊断成为医学及计算机科学中的热点问题之一[3-6]。常用的CT图像诊断方法包括前文所述的分类方法和聚类方法[3,4]。当前的研究重点在对两类方法中的不同环节进行改进。例如陈侃等[5]助聚类方法将图像分离出病灶部位和非病灶部位,再对未知样本根据其到聚类中心的欧式距离进行归类。这种方法由于大量依赖历史标记,在临床中难以获得应用,与分类方法不同的是,聚类方法不依赖历史样本标记,可以直接针对图像数据区分出不同类别。Alfonso等[6]直接采用聚类方法从ROI区域分离出病灶部位,但准确性不高。孙娟等[1]考虑病灶组织与非病灶组织数量的不均衡性,提出基于全权模糊聚类的病灶识别方法,在精度上获得了一定提升。
然而,现有的模式分类方法将不同ROI视为各自独立的区域,仅针对每个ROI的形态特征训练分类器或进行聚类。这种方法难以对形态不规则的病灶组织加以区分,因此难以获得理想的准确度。
针对这类问题,本文提出一种基于低秩优化(low-rank optimization)[7]的病灶识别方法。它充分考虑到病灶组织在多幅样本图像中的多样性特征:即多幅CT图像中病人的正常组织部分通常保持稳定,而病灶组织变化较大,形态各异。方法的主要思想是:首先将多幅医疗图像按标准部位图像进行配准(diffeomorphism)[8],映射到标准器官形状,将校准后的图像连接为一个矩阵。由于只有病灶组织在不同图像中呈现变化,通过寻找矩阵的低秩成分和稀疏成分,可以分离出每幅图像的病灶组织,从而可以将疾病诊断描述为一个低秩优化问题,通过优化方法分离出原始病灶组织。
实验选取肺部图像公开数据集LIDC 300张临床CT图像进行肺部结节识别,以判断患者是否有肺部疾病。实验结果显示本文提出的方法相对于传统的分类或聚类方法可以提高5%的诊断精度并大大提高诊断速度,表明该方法在早期诊断中的重要意义。
本文中,我们提出一种基于低秩优化(low-rank optimization)的医学图像识别方法。它充分利用医学影像中正常组织的低秩性和病灶组织的稀疏性,将问题表示为低秩优化问题。通过优化目标函数直接获得图像诊断结果。
令X=[x1,x2,…,xn] 表示输入图像连接的矩阵,其中xi={xi1,xi2,…xid} 为第i个图像的像素灰度集合。将该矩阵表示为病灶部分和非病灶部分的叠加
X=Y+E
(1)
式中:Y——正常组织部分,E——病灶部分。
由于正常组织部分在多幅图像之间变化很小,是一个低秩矩阵(low rank matrix)。而病灶组织由于在多幅图像之间差异较大,并且占据较小的比重,因此是一个稀疏矩阵。
我们的目标变成在观察矩阵X中寻找这样的低秩矩阵Y和稀疏矩阵E,使两者能合成原始矩阵,即
(2)
该形式是一个非凸形式,因此,我们可以将其松弛到一个用凸包(convex envelope)表示的形式
(3)
对式(3)进行优化求解,得到的E即是所得的病灶图像集合。
为了求解式(3)的优化问题,我们首先将其中的等式约束转化为惩罚项的形式,即
(4)
接下来,我们采用增广拉格朗日乘子法(augmented Lagrange multiplier,ALM)求解上述优化问题。
(5)
式中:U表示拉格朗日乘子,μ是一个正的标量。
对式(5)按照算法1求解最优值,得到E*,即为所求病灶部位图像集合。
算法1:基于ALM的算法求解式(4)
输入: {医学图像集合X, 参数γ,ρ}
输出: {病灶图像集合E}
(1)初始化
μ0>0;ρ>1;k=0;
(2)重复直到收敛
2) 重复直到收敛:
//其中, S_u[x]=max(x-u,0);
j=j+1;
μk+1=ρμk;
k=k+1;
在有了上述质量模型的定义后,我们将介绍具体的诊断方法。图1展示了整个识别方法的流程。首先对医学影像库的图像进行校准,然后利用第2节介绍的低秩优化方法对图像的病灶部分和正常组织部分进行区分,最后分离出测试集对应的病灶图像。
在预处理阶段,对于给定的图像与标准器官部位的图像进行校准(diffeomorphism)。图像校准是指对于原始图像采用某种变形策略映射到标准的图像上,使得两种图像在形态上吻合[8]。校准前的图像由于仪器及拍摄者的差异,会出现不同形状,通过校准后使得图像归一成一个形状,而其中的各个部位不会增减。我们采用Ashburne提出的DARTEL流程[8]将图像校准成标准部位图像。
将校准后的灰度图像(矩阵)按列拼接为向量,将每个向量逐一相连,形成一个矩阵X,利用算法1进行低秩优化,分离后成为两个矩阵,其中一个矩阵是正常组织的矩阵,另一个矩阵是病灶部位形成的矩阵。将两部分矩阵分别还原成原始图像,从而分离出其中的病灶组织图像集。
由于低秩优化得到的图像集合既包含训练数据又包含测试数据。因此将优化得到的病灶组织图像集按照原始拼接顺序分离出测试集对应的病灶组织图像,并作为最终输出。
为了测试本文介绍的方法的效果,我们选取肺部图像公开数据集LIDC(lung image database consortium)[9]进行肺结节检测实验,肺结节检测是一种常见的肺部疾病诊断方法,它通过对肺部图像中的肺结节进行模式识别,进而判断患者是否有肺部疾病。实验中,我们从该数据集中随机抽取300幅图像,按照5∶1的比例分为训练集(250张图像)和测试集(50张图像),并用10倍交叉验证检验模型的拟合效果。实验中取参数λ=0.5,ρ=1.2。
为了衡量本文介绍的方法的准确度,我们评估4大指标:
(1)准确性(accuracy):所有检测结果中,准确检测出的样本占所有样本的比率
(2)敏感度(sensitivity):所有检测结果中,准确检测出的阳性样本占所有阳性样本的比率
(3)特异度(specificity):反映对正常样本的检测性能。表示为所有检测结果中,检测正常的样本占所有真实正常样本的比率
(4)假阳率(FPR):反映诊断的代价,表示为检测结果中被错误检测为病灶组织的正常样本占所有非正常样本的比率
其中,TP表示检测出的真阳性病灶组织,FN表示未能检测出的真阳性病灶组织,FP表示误诊为阳性的假阳性健康组织,TN表示真阴性健康组织。
另外,为评估方法的运行效率,我们比较不同算法在不同样本数下的运行总时间。
我们将本文的方法与常用的医学图像诊断方法进行比较。分别是基于SVM的分类方法[4]和基于聚类的方法PWFCM[1]。
SVM:该方法采用支持向量机(support vector mac-hine)进行模式分类。首先检测出感兴趣区域,再对感兴趣区域进行图像特征提取。在特征提取阶段采用Curvelet变换提取图像纹理,把原始图像分为34个子代。每个子代用Curvelet提取14个特征,分别是灰度均值、熵、能量、聚类趋势、同质度、和的熵、差的熵、逆差矩、相关性、标准差、最大概率、惯量、和的均值、差的均值。最后将提取的特征训练SVM模型进行模式分类。实验采用径向基函数作为核函数。
PWFCM:该方法在提取ROI后,对每个ROI提取6类特征,分别是ROI面积(像素个数)、圆形度(反映ROI接近圆形的程度)、似圆度、边界离心率、与肺门距离、平均灰度值。接着给每个样本及其特征分别赋予权值并引入隶属度来约束收敛性,利用二次聚类策略对ROI进行聚类,从而对病灶部位进行分割。
表1列出了不同方法在不同评估指标下的性能对比。结果显示本文方法比传统的分类和聚类方法具有更高的敏感性和更低的假阳率,准确性平均提高了5%。这样的结果表明,本文方法考虑到病灶组织在众多样本下的多样性和稀疏性,可以有效地提高诊断精度,减少漏诊和误诊,对早期疾病诊断有较大的临床意义。
表1 不同方法在不同评估指标下的性能对比
表2列出了不同方法在不同样本数下的运行时间对比。在不同样本数下本文方法均比其它方法缩小超过一半的运行时间。表明本文方法相比于传统的SVM和PWFCM方法有明显的速度提升。
表2 不同方法的运行时间对比/毫秒
图2显示了两个代表性肺结节检测样例。其中的白色标记表示算法发现的肺结节。这一类肺结节形状不规则,甚至处于图像边缘,传统方法如SVM难以将它们检测出来,而本文的低秩优化算法由于不依赖形状特征,可以成功的将它们分离。
图2 肺结节检测样例
对于低秩模型,矩阵的低秩属性是否满足对模型最后的分解结果有很大影响。因此图像校准是否正确,将严重影响模型是否满足低秩属性。为了验证图像校准对低秩属性的影响,本文从数据集中选取100张正常的肺部图像进行图像校准,并将校准后的图像按照算法1进行低秩成分分析。由于正常肺部图像没有不规则的肺结节结构,因此低秩优化后应该满足低秩属性,如果图像校准有误差,则结果中会出现较多的高秩成分。通过检测结果中的高秩成分在整个图像中的比例可以反映图像校准对实验结果的影响。实验中我们统计算法得到的高秩成分所占的像素个数,实验结果显示,正常肺部图像在经过本文算法后只出现3%的高秩成分。该结果表明,校准后的肺部图像满足正常部位低秩病变部位高秩的属性,对疾病部位的检测效果影响很小。
本文提出一种基于低秩优化的CT图像诊断方法,利用病变组织在众多样本中的稀疏性与动态性,将众多CT图像配准到标准图像中,并连接为一个矩阵。通过低秩优化寻找矩阵中的低秩成分和稀疏成分,直接分离出标准组织部分和病灶组织部分。实验结果表明基于低秩优化的方法相对传统的分类和聚类方法可以将诊断精度提高5%。并大大提高了诊断速度。对于早期疾病诊断具有重要的意义。后续研究将针对更多图像的局部特征设计新的低秩检测算法。