孔喜梅,木拉提·哈米提△,严传波,姚娟,孙静
(1.新疆医科大学医学工程技术学院,乌鲁木齐830011;2.新疆医科大学第一附属医院影像中心,乌鲁木齐830011)
肝包虫病又称为肝棘蚴球病,可分为细粒棘球蚴病和泡状棘球蚴病,是我国西北畜牧业发达地区常见的在人体肝脏内而引起的人畜共患寄生虫病,其膨胀性生长过程中对肝组织产生压迫症状,及其并发症都可对人体造成严重的危害[1-2]。临床上,CT诊断肝包虫的效果优于B超与MRI,由于CT扫描的层次较薄,且有着较高的横断面图像分辨率,可观察到细微的病灶结构;同时能够显示肝包虫病的结构、位置、形态及大小等,且不同疾病阶段时期的病理形态不相同,能够为临床治疗提供参考依据[3]。
纹理分析能够鉴定物质特有的属性和特征,用于分类、分割和识别。在过去的各种特征提取和分类技术的应用过程中都只是为了进行纹理分析。近年来,国内外学者提出了大量的纹理特征提取算法,较著名的有灰度共生矩阵(GLCM)、分形维数、灰度梯度共生矩阵及小波变换等。例如,周晶晶等[4]提出利用灰度共生矩阵法分析肝包虫CT图像的纹理特征,主要描述了肝包虫CT图像的纹理和灰度分布的差异,结合肝包虫病症的特点,将灰度共生矩阵和最大类间距结合,使用Bayes判别分析,一定程度上有助于对肝包虫CT图像进行分类和检索;员伟康等人[5]选取了新疆地方性肝包虫病中的单囊型肝包虫和正常肝脏CT图像为研究对象,提取灰度直方图、灰度共生矩阵和kc复杂性三种特征组成综合特征进行分类,最后使用Fisher判别分析法对特征的分类能量进行评价,得到了较高的分类准确率。
目前,以小波分析为代表可实现多分辨率,并在时域和频域都能表征信号的局部特征的信号处理方法已经越来越多的应用到医学图像的研究中[6-7],在肝脏 CT图像[8]、脑 CT图像[9]、乳腺 X线图像[10]等领域已经取得了较为出色的成效。而针对小波变换进行肝包虫CT图像特征提取这一方面几乎为零,因此,本研究拟采用一种基于小波变换的纹理分析方法,利用2种小波变换将图像分解成不同的子带,提取正常肝脏和多子囊型肝包虫CT图像的纹理特征组成特征集。由于所提取的特征之间存在一定的冗余性,因此,使用单因素方差分析法筛选出优化的特征子集,并利用决策树C4.5分类器进行训练和测试,为新疆地方性肝包虫计算机辅助诊断系统奠定基础。
实验中选用的正常肝脏CT图像和多子囊肝包虫CT图像,来自于新疆医科大学第一附属医院及南北疆各地州市医院,经影像科医师进行指导分类,有效样本共计200例,其中正常人100例,多子囊肝包虫患者100例,样本采集均在40岁以上,男性多于女性。
由于实验需求在多个地方进行图像的采集过程中,不同的机器所得到的图像分辨率会有所不同,而实际应用中,我们也只是对整幅图像中的感兴趣病灶区进行分析。但是不同图像的感兴趣区域的分辨率差异可能成数量级变换,这些差异很容易在分类过程中造成准确率的下降。因此,在选择感兴趣病灶区前,先对图像进行预处理,降低分辨率的差异以免得到的分类性能较差。
本研究对图像进行预处理的步骤:(1)灰度尺寸归一化由于病灶位置、尺寸大小各不相同,因此,采用均匀量化的方法对图像进行尺寸归一化,进一步对图像进行灰度转换以减少计算机运行速度及运算量;(2)图像去噪 CT图像在摄片过程中会受到各种噪声的干扰,影响成像的质量,存在的噪声也会干扰图像特征提取的结果,采用中值滤波对正常和多子囊肝包虫CT图像进行滤波,抑制噪声,同时不会丢失图像细节;(3)图像增强 使用自适应直方图均衡化使CT图像的灰度分布更均匀,细节描述更清晰。
感兴趣病灶区的选择步骤:首先,如图1所示,在每幅图像中,根据病变区域的面积大小,用矩形框分割出不同大小的目标区域,分割时尽可能将肝包虫病变区域全部包含在内。其次,对感兴趣病灶区域内的分辨率进行手工调整,使相同面积的感兴趣病灶区域像素数处于同一数量级。
图1 感兴趣病灶区域(a)正常肝脏;(b)多子囊肝包虫Fig 1 Region of Interest Lesion
小波变换作为一种信号分析的数学工具,在科学技术界已经成为一个热门话题。经过几十年的发展,它不仅在理论和方法上取得了突破性的进展,而且在信号与图像处理、计算机视觉与编码、模式识别等领域中也得到越来越多的关注和重视[11]。因此,被誉为“数学显微镜”,是调和分析发展史上的里程碑[12]。
2.2.1 小波变换基本原理 连续小波变换主要用于理论分析,实际应用中离散小波变换更适于计算机处理。把连续小波变换中的尺度参数a和平移参数b的离散化公式分别取作,其中j,k∈Z,扩展步长是固定值[13]。所以对应的离散小波函数 Ψj,k(t)可写成:
相应的离散小波变换定义为:
其重构公式为:
c是一个与信号无关的常数。
只有当对尺度参数a和平移参数b离散化,并且能从这些离散点上的值完全重构f(t)时,小波变换才能成为实际可行的分析工具。
取 a0=2,b0=1,每个网格点对应的尺度为 2j,而平移为2jk。由此得到的小波:
称为二进小波。相应的小波变换可表示为:
由于图像是二维信号,因此,在应用小波变换对图像进行处理的过程中,需要把原来的基于一维的小波变换推广到二维。其中二维的尺度函数为:
上式中的Ψ(x)和Ψ(y)为一维小波变换的尺度函数。
2.2.2 二维小波分解 小波变换将一维时域函数映射到二维“时间-尺度”域上,即小波变换的多分辨率分析[8]。
对每一幅CT图像进行3层小波分解,分解步骤如下[14]:(1)图像经过第一层小波分解,进行隔行隔列采样后,即二维图像经一次小波变换,分解为原图像1/4大小的四个子图像:低频近似分量LL、水平细节分量HL、垂直细节分量LH和对角细节分量HH,其中L和H分别表示低通和高通滤波输出。得到的这些子图像分别从不同角度描述了原图像。(2)第二次小波变换时又可以进一步的将该近似分量LL子带分解成1个低频部分和3个高频部分,以此类推逐级进行分解。各级的分解系数反映了信号在不同分辨率下,即不同尺度下的低频信息和高频信息。对图像进行3层小波分解,见图2。
图2 三层小波分解示意图Fig 2 Schematic diagram of three layer wavelet decomposition
纹理特征提取的效果主要取决于小波基的选择和小波分解层数。国内外的研究者已经对不同的小波基从不同的角度出发,进行大量的实验验证,并应用于图像纹理特征提取的领域,得到了较好的实验效果[15-16]。在实际应用中,对小波基的选择,一般考虑对称性,本研究主要考虑2种正交小波sym4和db4,sym4具有近似对称性,db4具有不对称性。将这两种小波用于新疆地方性肝包虫CT图像的纹理特征提取中。图3是一幅多子囊肝包虫CT图像利用sym4小波进行的3层小波分解图。
图3 多子囊肝包虫CT图像3层分解图(a)原始图像;(b)3层小波分解图Fig 3 Three layer decomposition of multiple daughter hydatid cyst CT images
图像经过小波变换可以得到很多描述纹理信息的特征,其中能量作为特征的方法被广泛应用。实验过程中,小波分解层并不是越多越好,经过多次试验比较,并考虑到计算的复杂度及计算机运行速度,将原图像进行3层小波分解,提取每层子通道的高频系数。由于第三层的低频子图反映的是纹理图像的整体概貌,其特征提取无纹理上的意义,所以将其舍去。因此,本研究利用两种小波基对原图像分别进行3层小波分解,得到高频子图数目分别为9个,然后对每幅高频子图应用式(7)计算其能量值[17]。计算能量值公式如下:
其中M,N为图像的行和列数,P为第i行j列的值。
基于小波变换的新疆地方性肝包虫CT图像特征提取的算法如下:
(1)对每一幅经过预处理后的CT图像选择其感兴趣病灶区;
(2)选用sym4和db4两种小波基分别对提取的感兴趣病灶区CT图像进行3层小波分解,最终各获得了一个低频子图和9个不同方向的高频子图;
(3)提取1~3层各方向高频子图的系数,计算小波系数能量值,分别得到9个能量特征:Es=[Esd1,Esh1,Esv1;Esd2,Esh2,Esv2;Esd3,Esh3,Esv3]
Ed=[Edd1,Edh1,Edv1;Edd2,Edh2,Edv2;Edd3,Edh3,Edv3]
(4)分别对得到的特征向量进行统计学方法,筛选出最优的特征,构造用于分类的特征向量,结果分别记作 Eso和 Edo,则 Eso=[Esv1,Esh2,Esv2,Esd3,Esh3,Esv3];Edo=[Edd1,Edv1,Edd2,Edh2,Edv2,Edd3,Edh3,Edv3]
(5)用决策树C4.5分类器对正常肝脏和多子囊型肝包虫进行分类,通过试验比较,选择出适合于进行特征提取的小波基。图4给出了基于小波变换的特征提取与决策树C4.5进行分类的算法框图。
图4 CT图像经小波变换后进行特征提取和决策树C4.5分类的处理框图Fig 4 After wavelet transform for process diagram of feature extraction and C4.5 decision tree
Quinlan JR于1993年提出了C4.5算法,它是以ID3算法为核心的完整的决策树生成系统[18]。它通过两个步骤来建立决策树:树的生成阶段和树的剪枝阶段。C4.5算法在ID3的基础上增加了对连续型属性和属性值空缺情况的处理,对树剪枝也有了较成熟的方法[19-20]。
与ID3不同,C4.5采用基于信息增益率的方法选择测试属性。信息增益率等于信息增益对分割信息量比值。
比较ID3算法,C4.5算法在效率上有了很大的提高。不仅可以直接处理连续型属性,还可以允许训练样本集中出现属性空缺的样本。生成的决策树的分枝也较少。信息增益函数对于那些可能产生多分支输出的测试倾向于产生大的函数值,但是输出分支多,不表示该测试对未知的对象具有更好的预测效果,信息增益率函数可以弥补该缺陷[21]。以往的经验说明信息增益率函数比信息增益函数更优越,能稳定的选择好的测试。
为了客观地评价分类算法的性能,本研究采用正确率、敏感性和特异性来定性评价,常用的各项指标计算方法如下[22-24]:
其中,tp(true positive,tp.)为真阳性例数,即被正确分类的正常肝脏图像例数;tn(true negative,tn)为真阴性的例数,即被正确分类的多子囊肝包虫图像例数;fp(false positive,fp)为假阳性的例数,即多子囊肝包虫图像被错分为正常肝脏图像例数;fn(false negative,fn)为假阴性的例数,即正常肝脏图像被错分为多子囊肝包虫图像例数。另外,在分类过程中可以获得每一个测试样本到决策面的距离,将每一个距离作为一个阈值,可以得到相应的受试者工作特征(receiver operating characteristic,ROC),ROC曲线下面积(area under the curve,AUC)也可以作为一个量化分类器好坏的指标。
本研究使用单因素方差分析进行特征的筛选,将得到的最优能量特征组成一个新的特征组。两种小波基提取的正常肝脏图像及多子囊肝包虫图像各项特征参数间差异有统计学意义(P<0.05),结果见表1、表2。
表1 sym4小波提取正常肝脏和多子囊型肝包虫CT图像的纹理特征指标Table 1 sym4 wavelet extract texture feature indicators of normal liver and multiple daughter hydatid cyst CT images
表2 db4提取正常肝脏和多子囊型肝包虫CT图像的纹理特征指标Table 2 db4 wavelet extract texture feature indicators of normal liver and multiple daughter hydatid cyst CT images
本实验选择的均是经临床医师诊断的肝包虫CT图像进行分类研究,在MATALB R2010a环境下对正常肝脏和多子囊肝包虫各100幅CT图像进行分类仿真,分别使用两种小波基提取新疆的地方性肝包虫CT图像,将经筛选的特征输入C4.5决策树分类器进行分类。在数据集中,取出特定的百分比的数据用于训练,其余的数据用于测试,以此来评价分类器预测分类的性能。本研究依次选取10%-90%的样本作为训练样本,其余的作为测试样本。见图5。
从图5可得,db4小波提取的纹理特征所得的分类准确率趋势明显高于sym4小波提取的纹理特征所得的分类准确率。
由表3可知,依次选取10%~90%的样本作为训练样本,其余的作为测试样本,可以分别得到db4小波算法及sym4小波算法的平均分类准确率、平均灵敏度、平均特异性和平均 ROC曲线下的面积。
表3 db4和sym4两种小波算法的平均分类结果Table 3 db4 and sym4 wavelet algorithm of average classification result
其中db4小波算法结合C4.5决策树进行分类所获得的ROC曲线下的面积明显大于sym4小波算法结合C4.5决策树分类所获得的ROC曲线下的面积,见图6。
此外,文献[4]中,分别选取正常肝脏和多子囊型肝包虫CT图像50幅进行试验,并使用灰度共生矩阵、最大类间距及Bayes算法得到正常肝脏与多子囊型肝包虫CT图像,平均分类准确率为75%。而本研究也分别随机选取50幅正常肝脏和多子囊型肝包虫CT图像为研究对象,分别求两种小波的平均准确率,并将本文的方法与文献[4]方法进行比较。结果表明,本研究使用的方法得到的分类准确率高于文献[4]方法得到的分类准确率,见图7。
图6 db4和sym4两种小波算法的ROC曲线图Fig 6 db4 and sym4 wavelet algorithm of ROC curves
图7 三种算法结果对比图Fig 7 Three algorithm results contrast figure
因此,db4小波算法提取的新疆地方性肝包虫CT图像的纹理特征更适合于对肝包虫CT图像进行分类,对于建立肝包虫的数字化诊断标准具有较好的效果。
本研究选取正常肝脏和多子囊型新疆地方性肝包虫医学CT图像为研究对象,提出了基于db4和sym4两种小波基的小波变换算法分析技术,分别提取正常肝脏和多子囊型肝包虫CT图像的高频信息,计算其能量值。采用统计学方法进行特征选择,证明了正常肝脏和多子囊型肝包虫CT图像在纹理特征上存在显著差异。并在此基础上,使用C4.5决策树分类器构建分类模型。实验结果表明,采用db4小波进行3层分解,并通过统计学分析方法进行特征选择后,利用C4.5决策树分类效果最佳。总之,研究肝包虫CT影像数字特征的提取和分析有助于发现和利用更多潜在的、有用的信息,为计算机辅助诊断新疆地方性肝包虫CT图像疾病提供有力的临床依据。