于 超,王 璐,吴 琼,裴志松
(长春工业大学a.人文信息学院,长春130122;b.软件职业技术学院,长春 130012)
图像数据挖掘是目前国际上数据库、图形图像技术和信息决策领域最前沿的研究方向之一。图像数据挖掘技术可以广泛应用于医学影像诊断分析、卫星图像分析和地下矿藏预测等各领域[1,2]。目前应用于医学诊断的图像种类很多,CT(Computer Tomography)图像是其中一种重要的种类。在临床诊断中,医生往往在结合自己的临床经验阅读CT片后,作出医学诊断。但这其中难免有一定的误差,因此在实际的治疗诊断过程中,需要借助有效的计算机辅助诊断CAD(Computer Aided Diagnosis)[3]方法帮助医生进行疾病诊断。基于此,笔者提出了一种基于纹理特征的关联规则挖掘方法:首先提取大量的HIS(Hospital Information System)或PACS(Picture Archiving and Communication Systems)中的CT图像的纹理特征,然后结合病患的病例信息存入图像挖掘库,并使用关联规则和剪枝的方法得到有价值的规则,最终自动判断CT图像是否存在病变。
针对医学辅助诊断的需要,笔者提取了CT图像的纹理特征。纹理特征的分析方法主要有统计法和频谱法。笔者采用了基于统计法的灰度共生矩阵提取CT图像的纹理特征。灰度共生矩阵的14个参数都包含纹理信息,这14个特征可以分为4种类型:基于可视纹理的特征、基于信息理论的特征、基于统计的特征和基于相关度的特征[3]。笔者选取了这4类特征中经过实验验证,能力较强的5个特征值,即能量、熵、惯性矩、局部平稳和相关系数。
相关系数在一定程度上反映了矩阵行与列的线性相关程度,同时,区域图像的均匀程度也可以从相关系数的值得到体现。
笔者将以上提取出的几个CT图像的特征,结合HIS中提供的病患自然信息、病史信息等,以事物的形式存入图像挖掘库中[5]。数据库中记录存储的形式为:(CTID;LayID;i1,i2,…,in;j1,j2,…,jm;Class)。其中CTID为事务编号;LayID表示CT图像层编号;i1,i2,…,in为图像中提取的特征信息;j1,j2,…,jm为在HIS中原有的病患信息;Class代表CT图像是否反映有病变。在建立数据库的过程中,对于没有病变的CT图像,抽取所有的特征信息;而对于存在病变的,则只抽取病灶点区域的特征信息。这样做的目的是为了更准确地发现关联规则。
在前面的图像特征提取中所提取出的特征值一般为数值型(如:熵、能量等)。对数值型的特征值要进行处理,将其转化成数值属性才能进行特征关联,这里提供了一种特征值预处理的方式。
通过以上的处理可以得到每个特征值对应的数值属性集,进而得到最终的数值属性集IR,即要应用的特征集。
表1 特征值数据及区域划分Tab.1 Eigenvalue data and zoning
在这里使用Apriori算法[5]发现从CT图像数据库中提取的特征信息与CT图像所属类别之间的关联规则。通过约束挖掘的规则,使规则的前提是从图像中提取特征的合取形式,规则的结论是CT图像的类别。
挖掘关联规则进行图像分类的过程由以下两个阶段组成[6-8]:
1)训练阶段。用已知类型的图像训练分类系统,首先合并所有的特征并存入事务库,然后应用Apriori算法挖掘满足约束条件的关联规则;
2)测试阶段。对未分类的图像进行分类,一旦关联规则被发现,就可利用这些关联规则对未分类的CT图像进行分类,图像的分类结果为正常或不正常。
笔者将挖掘出的关联规则定义为:将图像数据库中存储的特征集合作为规则的前项,将图像所属的类别作为规则的后项。将最小可信度定义为50%,将最小支持度定义为25%。将每1 000条挖掘记录分为1组,将所有的挖掘记录分成10组,建立关联规则挖掘模型。首先把第1组数据当作测试数据,其他9组作为训练数据进行挖掘,然后将得出的关联规则利用第1组数据进行测试,得到一个准确率。将该过程对这10组数据中的每组都重复1次,最后将得到的10个准确率取平均值作为整个模型的准确率。
在第1次的实验中,笔者将没有病变特征的图像和有病变特征的图像的比例分别设定成30%和70%,挖掘结果的准确率为66.95%(见表2),效果不理想。于是在进行第2次实验时,将没有病变和存在病变的图像比例都调整为50%,挖掘结果的准确率提升为77.95%(见表2)。
在第2组挖掘结果的基础上,笔者对关联规则进行了剪枝处理,剔出规则中含有的噪音,从而进一步提升关联规则的适用性。剪枝的具体处理方式如下:
1)若存在规则1和规则2,这两条规则的前项不同但后项一致,且规则1的前项属于规则2的前项,则满足下列条件之一的,删除规则2,保留规则1。
①两条规则的可信度一致,但规则1的支持度高于规则2。
②两条规则的支持度与可信度一致,但规则1的前项少于规则2。
③规则1的可信度高于规则2。
2)如果规则1和规则2的前项一致但后项却相反,则一并删除两条规则。
对第2组数据的挖掘结果按照以上方式进行剪枝处理后,挖掘结果的准确率提升为87.58%(见表2)。
表2 CT图像挖掘结果Tab.2 The results of CT image mining
将医生诊断结果与用自然语言解释的规则库中的规则进行对比,可以发现其中存在的联系,以下是两条典型的医学解释。
1)RULE:0<能量<0.3,则CT反映病变信息
当一幅CT图像的能量较低时,代表了该图像的纹理平滑度高,灰度分布向一个范围内连续变化。因此,该规则用自然语言可以解释为:当CT图像的灰度变化维持在某一范围内时,该图像中存在病灶点。如一幅肝部CT图像的能量值如果维持在这一范围,则表示该CT图像所反映的肝部表面质感粗糙,而这与肝纤维化的情形相一致。
2)RULE:0<相关系数<0.1 and 0.70<局部平稳<0.74,则CT无病变信息
该规则用自然语言可以解释为:如果CT图像的局部均匀程度在0.70~0.74之间,并且图像的排列规律性较强时,图像中没有病灶点。
进行分析时,需要输入如下两个参数。
1)最小置信度,用来过滤可能性过小的规则。实验中将最小置信度设为0.5。
2)最小支持度,用来表示这种规则发生的概率。实验中将最小支持度设为0.25。
在此,如果设定规则“0<CT图像能量<0.2,则CT图像不正常”的置信度为C,支持度为S,则:C=0<CT图像能量<0.2时CT图像(不正常)/所有0<图像能量<0.2的CT图像。
S=0<CT图像能量<0.2时CT图像(不正常)/所有在库的CT图像。
在此需要说明的是,建立关联规则库时,需要结合医院已有的病历数据库,即该患者的已有信息,包括患病史,自然信息等综合考量。
将以上的规则应用于CT图像的辅助诊断,可以得到如下结论(见表3)。
表3 部分结论Tab.3 Part of conclusions
笔者采用了一种将医学领域的知识与PACS中存储的CT图像相结合的方法,提出了一种通过灰度共生矩阵提取CT图像纹理特征信息,结合HIS中存储病患的自然信息以及病患病史信息,共同建立CT图像数据关联规则库的解决方案。按照该方案实现的原型系统经过试验证实可以辅助医生快速诊断出恶性病变。在今后的工作中,还需要进一步将关联规则进行完善,不断根据实际情况向关联规则库中加入更有效的规则,尽可能提高挖掘结果的准确性,通过更多的数据训练挖掘的关联规则,更好地完成辅助诊断的任务。
:
[1]刘晓民.纹理研究综述[J].计算机应用研究,2008,25(8):2284-2288.
LIU Xiao-min.Summary of Texture Research [J].Application Research of Computers,2008,25(8):2284-2288.
[2]陈戏墨,李志铭,李扬彬.基于PACS的知识发现及用例分析[J].医学信息,2008(8):1234-1237.
CHEN Xi-mo,LI Zhi-ming,LI Yang-bin.Knowledge Discovery in Picture Archiving and Communication System with a Case Study[J].Medical Information,2008(8):1234-1237.
[3]孙进辉,于洋.灰度共生矩阵和神经网络在医学图像处理中的应用[J].实验技术与管理,2011(7):59-61.
SUN Jin-hui,YU Yang.Application of Gray Level Co-Occurrence Matrix and Neural Network in Medical Image Processing[J].Experimental Technology and Management,2011(7):59-61.
[4]范丽红,付丽,杨勇,等.灰度共生矩阵提取文理特征的实验结果分析[J].计算机应用,2009(4):1018-1021.
FAN Li-hong,FU Li,YANG Yong,et al.Analysis of Texture Feature Extracted by Gray Level Co-Occurrence Matrix [J].Journal of Computer Applacation,2009(4):1018-1021.
[5]徐冬,王翰虎,陈梅.图像挖掘技术在医学CT图像上的应用[J].海南师范学院学报:自然科学版,2004,17(4):342-346.
XU Dong,WANG Han-hu,CHEN Mei.Application of Image Mining Technique in CT Image[J].Journal of Hainan Normal University:Natural Science,2004,17(4):342-346.
[6]WANG H,GUO X H,JIA Z W,et al.Multilevel Binomial Logistic Prediction Model for Malignant Pulmonary Nodules Based on Texture Features of CT Image[J].European Journal of Radiology,2010,74(1):124-129.
[7]ELCAP,VIA Research Groups.ELCAP Public Lung Image Database[DB/OL].[2010-03-05].http://www.via.cornel1.edu/databases/ungdb/.
[8]HAN J,KAMBER M.Data Mining Concepts and Techniques[M].California:MorganKaufmann Publishers,2011:149-167.