基于SURF的肺结核DR 图像病变区域检测

2015-12-20 06:55王俊峰姬郁林张菊英
计算机工程与设计 2015年9期
关键词:分类器算子肺结核

符 尧,王俊峰,高 琳,姬郁林,张菊英

(1.四川大学 计算机学院,四川 成都610065;2.西南科技大学 计算机科学与技术学院,四川 绵阳621010;3.四川大学 华西医院,四川 成都610041;4.四川大学 华西公共卫生学院,四川 成都610041)

0 引 言

在当前的肺结核诊断方式中,价格低廉且辐射量小的数字X 光照片 (digital radiography,DR)广泛应用于临床诊断,特别是大规模的体检筛查。但在医师的实际诊断过程中,由于肋骨、胸膜等重叠组织以及阅片医师的个人阅历等问题,存在的漏检、误判、效率低等问题[1]。针对该问题,Steven Schalekamp等[2]研发了肺结核计算机辅助系统 (CAD)辅助诊断。研究结果表明,使用该方案可以减小误诊率,同时提高阅片医师的工作效率。

当前,Yu等[3]通过对整张DR 片的分析,判断该DR片是否为异常DR 片,给医师提供诊断支持,但该方法对病变不明显的DR 片效果较差,且在实际诊断中,无法检测出病变区域,给医师提供直观的诊断参考;而通用的病变区域检测方法[4],存在漏检率低、准确度低等问题。因此,本文提出一种基于SURF 算子的肺结核病变区域检测方法,采用SURF算子检测出疑似病变区域,根据疑似病变区域的特征,使用SVM 判断病变区域,检测出肺结核病变区域。

1 相关研究

Tao Xu等的文献中指出了肺结核病变区域检测的通用框架[4]。首先输入DR 片,并对其做预处理。其次使用模式识别等方法,检测出疑似病变区域。再次提取疑似病变区域的特征,如形状特征、纹理特征、密度特征等。最后使用分类器判断候选病变区域是否为病变区域。

通用肺结核DR CAD 系统流程,如图1所示。

图1 通用肺结核DR CAD 系统流程

在该框架的基础上,Rui Shen等[5]提出了一种混合的基于先验引导 (hybrid knowledge-guided,HKG)的肺结核诊断框架。使用基于自适应阈值均值漂移聚类 (mean-shift clustering)来检测候选区域,然后分割出候选区域中的重要部分,并提取梯度方向变化系数 (gradient inverse coefficient of variation,GICOV),最后使用贝叶斯分类器判断候选区域是否为异常区域。然而该方法有一些局限,首先,当病变区域过小时,均值漂移聚类效果较差,且其参数难以确定;其次,当病变区域边缘模糊时,GICOV 特征辨识度低。Tao Xu等[4]则提出了基于高斯模板匹配 (Gaussian-model-based template matching,GTM)检测候选区域的方法,基于他们的空洞模板,该方法在空洞检测上效果较好,但肺结核的影像学表现除了空洞,还有钙化、节点、斑片等多种形式,故该方法局限性较大。

为了克服以上困难,本文提出了一种基于SURF 算子的肺结核病变区域检测方法,流程如图2 所示。在DR 片预处理的基础上,首先分割肺实质区域;其次在肺实质图像上使用SURF算子检测图像特征点,并剔除部分冗余特征点,结合尺度信息得到疑似病变区域;接着提取疑似病变区域的纹理、灰度值统计等特征;最后使用SVM 分类器,判断疑似病变区域是否为病变区域,给医师提供诊断支持。实验结果表明,本文的方法可以获得较低的漏检率及较高的准确度。

图2 本文提出的肺结核DR 片病变区域检测流程

2 肺结核病变区域检测方法

2.1 预处理

本文使用的300张实验DR 片来源于参加十二五国家重大科技专项的24个医院,由于实际拍摄的环境、拍摄方式的差异,在检测疑似病变区域前,需要对DR 片进行预处理。本文使用直方图均衡化加强DR 片的对比度以及高斯滤波去除高斯噪声。

2.2 肺实质分割

由于医学图像,特别是肺部DR 片中组织重叠、边界模糊,因此,包含人工判断的交互式分割才能得到最理想的分割效果。微软研究院提出的GrabCut[6]算法,是对图割 (graph cut)的优化,在交互式分割中有分割精确度高、交互式、运行速度快等优点,故本文使用的是基于Grab-Cut的交互式分割方法。分割效果如图3 所示,其中图3(a)为原始肺部DR 片图像,图3 (b)为本文方法分割后的DR 片图像。

2.3 获取疑似病变区域

在得到肺实质区域之后,我们将在肺实质上检测疑似病变区域,本部分由检测疑似病变区域及筛查疑似病变区域组成。

2.3.1 检测疑似病变区域

图3 肺部分割结果

加速稳健特征 (speeded up robust features,SURF)[7]是 尺 度 不 变 特 征 转 换 (scale-invariant feature transform,SIFT)的改进,以能够快速地检测出大量的特征点,在图像匹配中得到了广泛的应用。此外,由于SURF 算子的局部极值点特性,可以检测到绝大多数病变点。因此,我们在肺实质图像上使用SURF 算子检测局部最值点,得到候选的特征点,再结合SURF 的尺度信息,得到疑似病变区域。

2.3.2 筛查疑似病变区域

又由于SURF算子检测所有局部最值点的特性,2.3.1中得到的检测结果中有大量冗余疑似病变区域,部分如图4所示,为了剔除假阳性区域,抑制假阳性率,在此先对疑似病变区域进行初步筛查。根据分析,冗余特征区域主要有边缘区域、重叠区域以及其它区域。

图4 冗余疑似病变区域

(1)边缘区域:边缘区域因与肺实质外部相交,故能被SURF算子检测出,如图4 (a)所示。根据肺实质分割后的图像中,肺实质区域外像素值为零的特性,本文提出一种快速的边缘区域检测法。

首先,根据特征点坐标和尺度,提取疑似候选区域为感兴趣区域 (region of interest,ROI),然后以ROI中心点为原点,尺度半径为半径,构建特征圆。从圆心出发,以30°为夹角旋转半径,得到6条直径线,统计6条直径线上像素值为0的点。定义边界率 (boundary ratio,BR)

式中:N——6条直径线上像素值为0的点的数量,Λ——6条直径线上像素点的总数量。当BR>10%时,该疑似病变区域为边界点。

(2)重叠区域:由于同一区域可能有不同尺度,故存在重叠的疑似病变区域,如图4 (b)所示。本文提出了基于重叠率 (overlapping ratio,OLR)的筛选法。定义如下

式中:S0——重叠部分面积,S——候选区域面积。本文实验中,若OLR>40%,则判定为严重重叠,并去除该区域。

(3)其它区域:根据肺结核病专家的指导以及参考手册[8],肺结核的主要病变特征如结节、钙化、片团、斑片等,相比于非病变区域,其密度有着显著的变化,根据此指南,我们可以筛除部分非结核病变区域,典型如图4 (c)所示,该特征区域内灰度值基本一致。因此,实验过程中,我们使用局部密度法与高斯拉普拉斯算子 (Laplace of Gaussian,LoG)边缘检测联合判断。

1)设疑似病变区域的半径为R,则分别计算同圆心,半径为R、R/2、2R 的3个区域的灰度均值,得到灰度均值为m1、m2、m3,有公式

式中:δ——密度差异因子。

2)在疑似病变区域内,使用LoG 算子检测边缘。

若满足条件1)且2)中无边缘线,则为非病变区域。

2.4 特征提取

参考Stefan Jaeger等[9]的研究指南,本文选取以下4组特征,分别实验单个特征、多特征融合的分类效果,以确定最适合本文方法的分类特征。

(1)SURF特征:通过在特征点周围取一个方框,然后把该方框划分为16个子区域每个子区域统计25个像素的水平方向和垂直方向的haar小波特征。特征向量的维度为64。

(2)“词袋”(bag of words,BoW)特征:BoW 源于自然语言处理,后在计算机视觉中得到了应用。本文首先提取所有SURF 特征,以k 为1000 使用k 均值聚类,得到1000个单词 (即语义字典),最后,对具体的特征点,把其归到具体的词里。特征向量的维度为1000。

(3)方向梯度直方图特征 (HOG):在特征点周围划分单元区域,计算单元区域内的每个像素的方向梯度,并统计为的梯度直方图,形成特征描述符。由于划分尺寸不同,特征维度不同,本文取特征向量维度为900。

(4)统计特征 (statistical feature):Tan JH 等[10]使用统计特征,在结核DR 片的筛查上获得了成功,因此,实验过程中,我们选用了均值、方差、熵3种统计特征

其中,d(i)为i的分布

其中,φ(i)是灰度值为i的数量,Λ 是感兴趣区域 (ROI)内像素点的总数量。

2.5 特征分类

本文选用支持向量机 (SVM)构建分类器。SVM 是一种有监督学习的分类器,通过核函数变换,把原始向量映射到超平面之上,使原来线性不可分的向量,在超平面上线性可分[11]。SVM 的分类效果与构造超平面的核函数与参数有直接关系。在实际使用中,选用哪种核函数,没有统一的标准[12]。本文选用以下4 种核函数作为比较,以确定最合适的核函数,相关参数则参考经验。其中核函数有:

线性核 (linear)

多项式核 (polynomial)

径向基函数 (RBF)核

Sigmoid核

而对SVM 分类效果影响最大的参数是惩罚系数c和核函数宽度g。为了得到最优的c和g,本文使用k-折交叉验证的方法寻找最优参数[13]。k-折交叉验证首先把完整的数据随机分割成k 份,每份的大小相同,然后把其中的k-1份作为训练数据,而剩下的作为测试数据,按照此方法训练测试分类k次,每次训练和分类过程中,使用网格寻优算法,得到最优的c和g。

3 实验结果及分析

本文主要从疑似病变区域的选取情况以及分类结果两方面评估本文所提的方法。作为比较,我们实现了Rui Shen等[5]提出 的HKG 方法。

3.1 数据采样

本文实验使用的数据集来源于十二五重大传染病国家科技重大专项,该项目对30万人进行健康筛查,其中有约20万人拍摄了DR 胸片。该DR 胸片通过乡镇卫生院放射科医师、区县CDC结核专家、四川大学华西医院结核专家三级判断,筛查出疑似活动性肺结核的DR 片,最后,四川大学华西医院结核专家标注肺结核病变区域。

我们挑选了300张活动性肺结核DR 片作为实验材料。该批DR 胸片全为后前位 (PA 位)拍摄的,拍摄者为20~60岁之间的体检者,DR 片的图像格式为JPEG,位深度为8,尺寸不完全规则,在2000*2000像素和2500*2500像素之间,像素间的物理尺寸为0.14mm。

3.2 候选点选取结果

本 文 使 用Tao Xu 等[4]提 出 的 缺 失 率 (missing rate,MR)作为评判方式。其计算公式为

式中:M ——缺失的病变区域数量,∑——总的病变区域数量。由于直径小于5 mm 的病变点细微不可见,故本文实验过程中不考虑该病变点。

在肺实质分割的基础上,本文使用SURF 算子检测特征点,结合尺度信息,得到疑似区域。再使用本文提出的疑似病变区域筛查法,剔除冗余区域。结果表明,每张DR片,本文所提筛查法剔除了约3800个冗余疑似区域,且剩余的200个疑似区域基本涵盖了所有的病变区域。图5为筛选前后的疑似区域对比,其中图5 (a)为筛选前的疑似区域分布情况,图5 (b)为筛选后疑似区域分布情况。

图5 疑似区域筛选结果

对Rui Shen等[5]提出的基于均值漂移聚类检测法,我们得到如表1所示的疑似病变区域检测对比结果。由表可知,相比于均值漂移聚类,本文方法的疑似病变区域的检测缺失率 (MR)下降了约27%,且检测出的数量远远高于均值漂移聚类。

表1 疑似病变区域检测结果

图6为本文检测实例,显然,本文的方法,对绝大多数区域都能检出,而MSC在病变区域不明显 (如组1)时,检出效果较差。

3.3 分类结果

在最终分类前,首先要确定最合适的SVM 核函数及分类特征。

图6 疑似病变区域检测实例

首先,分别实验单特征、融合特征在不同核函数下分类效果,以确定最合适的分类特征。如使用单个特征时,得到表2及图7 是对单个特征分类效果测试结果,显然,SURF特征分类效果较好。

表2 同核函数、不同特征分类结果

图7 同核函数、不同特征分类结果ROC曲线

其次,选择核函数时,分布使用4种不同的核函数构建SVM 分类器,随机挑选出10张作为测试数据,其余的用于训练分类器。如使用SURF 特征分类,得到如图8所示的ROC曲线,以及表3的分类效果。显然,对SURF特征,多项式核的SVM 分类效果略优于RBF核的SVM,明显优于线性核和Sigmoid核的SVM。

表3 同特征、不同核函数分类结果

图8 同特征,不同核函数的分类结果ROC曲线

按以上步骤以及k-折参数优化,确定最终的分类特征、分类器及参数,即SURF 特征结合HOG 特征,核函数为多项式,主要参数c=0.00087656,g=22.6274。使用此方法,得到了如图9所示的分类结果以及如图10所示的检测结果。作为对比,本文采用Rui Shen等[5]提出HKG 方法,使用均值漂移聚类得到候选点后,再提取GICOV 特征用于分类,得到如表4所示的分类结果,ROC曲线如图8所示。显然本文方法可以获得较高的分类准确度及AUC值。

图9 本文方法与HKG 分类结果ROC曲线

图10 本文方法检测结果

表4 本文方法与HKG 分类结果对比

3.4 讨 论

本文对方法中的主要两部分,即疑似病变区域的选取以及病变区域的判断做了详细的测试及评估。显然,基于SURF的疑似病变区域检测具有较低的漏检率以及较高的分类准确率,明显优于Rui Shen等[5]的HKG 法。

由于SURF 算子检测特征点的全面性,得到了表1所示的每张DR 片约200 的疑似病变区域,其中大量为非病变区域,即负样本。即使通过分类器判断,不可避免的会有非病变区域被判断为病变区域,即负样本被判断为正样本(FT)。考虑到实际辅助诊断时,高检出率比低漏检率更重要,即使有不少的FT 结果,诊断医师也可以凭个人的经验进一步判断,而辅助诊断系统也起到了 “提示”的辅助功能,而高漏检率可能会错过重要的病变区域。因此,本方法在的低漏检率在辅助诊断过程中更具有实际意义,相比与其它方法也更有优势。

4 结束语

针对当前肺结核DR 片病变区域检测的研究较少,当前方法的漏检率较高,且通用性低等情况,本文提出一种基于SURF的肺结核DR 片病变区域检测方法,并对该方法中系统框架的关键步骤进行了详细分析和实验研究,最后实现了肺结核DR 片病变区域检测系统,得到了良好的效果,表明了本文所提方法的可行性。和已有的方法比较,本文的方法具有低漏检率以及高检测准确度的优点。

后续的研究将集中在:疑似病变区域筛选方法的优化;进一步提高检测的准确度;优化本方法的运行速度;以及进一步判断病变区域的类型,区分肺癌、结核等病灶类似但病理不同的情况。

[1]Noor NM,Rijal OM,Yunus A,et al.A statistical interpretation of the chest radiograph for the detection of pulmonary tuberculosis[C]//IEEE Conference on Biomedical Engineering and Sciences,2010:47-51.

[2]Steven Schalekamp,Bram van Ginneken,Emmeline Koedam,et al.Computer-aided detection improves detection of pulmonary nodules in chest radiographs beyond the support by bone-suppressed images[J].Radiology,2014,272:252-261.

[3]Yu P,Xu H,Zhu Y,et al.An automatic computer-aided detection scheme for pneumoconiosis on digital chest radiographs[J].Journal Digit Imaging,2011,24:382-393.

[4]Tao Xu,Irene Cheng,Richard Long,et al.Novel coarse-tofine dual scale technique for tuberculosis cavity detection in chest radiographs[J].EURASIP Journal on Image and Video Processing,2013,3:1-18.

[5]Shen R,Cheng I,Basu A.A hybrid knowledge guided detection technique for screening of infectious pulmonary tuberculosis from chest radiographs[J].IEEE Trans Biomed Eng,2010,57:2646-2656.

[6]Han Shoudong,Tao Wenbing,Wang Desheng,et al.Image segmentation based on grabcut framework integrating multiscale nonlinear structure tensor [J].IEEE Transactions on Image Processing,2009,18:2289-2302.

[7]Herbert Bay,Tinne Tuytelaars,Luc Van Gool.SURF:Speeded up robust features [J].Computer Vision and Image Understanding,2008,110:346-359.

[8]Long R,Ellis E.Canadian tuberculosis standards:7th edition[EB/OL].http://www.respiratoryguidelines.ca/tb-standards,2013.

[9]Stefan Jaeger,Alexandros Karargyris,Sema Candemir,et al.Automatic screening for tuberculosis in chest radiographs a survey [J].Quant Imaging Med Surg,2013,2:89-99.

[10]Jen Hong Tan,Rajendra Acharya U,Collin Tan,et al.Computer-assisted diagnosis of tuberculosis:A first order statistical approach to chest radiograph [J].Journal of Medical Systems,2012,36:2751-2759.

[11]Pasolli Edoardo,Melgani Farid,Tuia Devis,et al.SVM active learning approach for image classification using spatial information [J].IEEE Transactions on Geoscience and Remote Sensing,2014,52:2217-2233.

[12]Li Yang,Wen Dunwei,Wang Ke,et al.Mixed kernel function SVM for pulmonary nodule recognition[G].LNCS 8157:Image Analysis and Processing-ICIAP,2013:449-458.

[13]Zhang Junying,Liu Shenling,Wang Yue.Gene association study with SVM,MLP and cross-validation for the diagnosis of diseases[J].Progress in Natural Science,2008,18 (6):741-750.

猜你喜欢
分类器算子肺结核
拟微分算子在Hp(ω)上的有界性
各向异性次Laplace算子和拟p-次Laplace算子的Picone恒等式及其应用
一类Markov模算子半群与相应的算子值Dirichlet型刻画
爱情是一场肺结核,热恋则是一场感冒
Roper-Suffridge延拓算子与Loewner链
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
蒙西医结合治疗肺结核进展
疣状皮肤结核合并继发型肺结核1例
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别