刘宏伟
(平顶山市解放军第152医院信息科 河南 467000)
近年来,随着人工智能技术和数据库的发展,逐渐衍生出了“数据挖掘”这一种全新信息技术。该术语最早出现于 1989年,主要是指从数据库中提出的潜在的、人们事先示知的知识和信息,在大量的数据中通过利用各种分析工具发现数据间关系和构建模型的交互迭代过程,数据挖掘技术在商业领域中和医学数据分析中都得到了广泛应用,医学数据经数据挖掘理论分析,提取隐含在其中有着重要意义和价值的信息,对正确诊断与治疗及促进对疾病的研究都具有着重要意义[1]。在数据库和信息决策领域数据挖掘技术备受到国内外学者关注,数据挖掘技术在医学影响领域也就应运而生。
人工神经网络是一门新兴学科。其发展速度较快,主要通过模拟人脑神经元结构来学习非线性预测模型。该技术可以完成多种数据挖掘任务,包括聚类、分类及关联规则等。人工神经网络其自身主要有较强的容错性和自组织性等特点。近年来,工神经网络技术越来越被广泛使用于数据挖掘技术中。
关联分类算法属于一种新的分类方法,其主要综合了分类挖掘技术和关联规则。其处理主要包括两个步骤:一是挖掘相关的关联规则主要是采用标准关联规则挖掘算法;二是在所挖掘出的关联规则基础上构造上一个分类器。
支持向量机是统计学中结构风险最小原理和VC维理论的具体体现。该技术主要将输入空间通过非线性变换形式变换到一个高维的空间,而最优线性分类面就是从这个新空间中所获取的。这种方法对于模型的复杂性和学习能力能从有限的样本信息中寻求到最佳折衷,以此取取较好的推广能力。
决策树是采用一批已知的训练数据建立一棵决策树,之后针对各种数据受各变量影响的情况通过树枝状模型来进行预测分析。在处理医学资料方面,决策树的功能非常强大,随着医学技术的发展,决策树算法得到了不断改进和完善,进一步扩展应用到了管理决策和医学领域中,具有着重要的应用价值,并且具有较好的发展前景。当前,决策树算法主要有 ID3、CART、C4.5及CHAID。
进化计算法目前也属于一种新的计算方法,其主要是根据生物进化规律而演化出的。该方法主要包括进化的规划和策略,遗传的编程和算法。进化计算法作为一个新的交叉学科,近些年来关于进化的应用和研究得到了不断发展,其理论基础也得到了进一步提高,拥有了广阔的应用前景。进化计算法不仅可以对各种算法性质进行更好地分析和利用,还可以设计出有效的进化算法,使已有的算法得到改进。
在数据挖掘中,关联规则挖掘算法是一个重要的研究领域。早在1993 年,已给出了关联规则处理大数据量上的有效算法,目前,关联规则的挖掘算法已出现了很多,一些并行算法、抽样算法、多层次挖掘算法、分割算法等比较常用。而频繁项集的求解就是关联规则挖掘算法的核心。
近年来,随着医学影像学的不断发展,各种医学影像学数据已越来越多,在医学影像分析研究中数据挖掘技术发挥着非常大的作用。
Wang等[2]在进行有关使用右心室接受左心室辅助装置患者的研究中,对138例使用左心室辅助装置患者的临床资料进行了回顾性分析,对现有的风险评分进行了对比,运用决策树体现出了较多的优势。在定量上对于预测右心室支持它主要通过了非线性编码的术前变量之间的协同作用,对于临床推理模型能更仔细地进行研究。随着医疗机构中心的进一步发展,对于左心室辅助装置分类治疗纵向数据提供了具有重要价值的预测工具,能有效地改善预后。
在医学影像报告中普遍存在着不确定性,可能延误临床决策或导致诊断错误,导致了医疗卫生出现了各种不良后果。Case等[3]报道了与滤波反投影法相比,运用贝叶斯迭代传输梯度重建算法在心脏单光子发射计算体层摄影术衰减矫正灌注图像中更能显示改善的心肌壁变化图像,在较宽的光谱图中这种重建方法能快速地提供准确的衰减地图,并能使患者的衰减矫正灌注图像有效提高。
Hapfelmeier 等[4]把正电子发射计算机断层扫描的数据库与结构化患者数据资料相互联系起来,对于类似的典型脑代谢主要通过确定集群的正电子发射计算机断层扫描来实现共享,然后解释在人口统计学变量中与集群之间的临床的共同点和差异,进而解释在光学领域中子组和集群的描述,并计算聚类的 P值,最终有利于我们对各种类型的痴呆有更好地理解。此外,在有关超声对肾脏图像分类和自动诊断的支持决策研究中,针对多层反向传播网络与分类器的特异性、敏感性及准确性的比较,主要应用了关联规则、ARCKi算法、PreSAGe 算法及计算机决策支持系统,结果显示多种算法联合应用能达到高准确性(93%以上)和高敏感性(94%以上)。在支持决策研究中,为临床医师提供了预测正常肾脏的特征值向异常演变的可能性。
对于所引入的数据库技术和建立的DICOM 3.0 标准,有效促进了医学影像传输与存储系统的应用和发展,使医学影像中很多难题已得到解决,包括统一、集中、使用和存储来自不同医疗设备所取得的各种医学影像数据问题。同时,对于该系统的应用也爆炸性的增长了医学影像数据,如何在影像信息的检索和查询中应用数据挖掘技术已逐渐成为研究重点。当前,解决主要可以通过以下两种方法:①针对病例可能的诊断根据医学影像信息来进行查询,病例信息在影像中提取到后,对于可能的病例诊断主要利用检索系统来获取;②检索医学影像信息主要根据病例记录,也就是在影像存储的基础上建立患者的病例信息标引,并进行统计学分析,以后进行查询时都可以通过病例信息标引医学影像信息。
总之,在疾病的早期干预和诊断中数据挖掘技术已经得到广泛用,随着各种数据资料的增长,数据挖掘方法和挖掘技术均在迅速发展,各种数据挖掘技术虽然都具有一定的局限性,为避免单一方法存在的不足,我们可以综合利用各种不同的挖掘方法。在疾病的预防和诊疗过程中数据挖掘技术将帮助研究者提供更准确的决策。因此,在医学科研、疾病诊断治疗及医院的管理等方面,相信数据挖掘技术将会发挥更大的作用。
[1]林国庆,曲 哲.医学影像学中的数据挖掘技术[J].医疗装备.2004,18(3):1-4
[2]W ang Y,Simon MA,Bonde P,et al.Decision tree for adjuvant right ventricular support in patients receiving a left ventricular assist device.J Heart Lung Transplant,2012,31(2):140-149.
[3]Reiner B.Uncovering and improving upon the inherent deficiencies ofradiology reporting through data m ining.J Digit Imaging,2010,23(2):109-118.
[4]Hapfelmeier A,Schm idt J,Mueller M,et al,Interpreting PET scans bystructured patient data:A data m ining case study in dementia research.IEEE Computer Society,2010,24(1):149-170.