聚类分析法在医学上的应用研究

2014-04-29 04:05李双良
电子世界 2014年19期
关键词:聚类分析数据挖掘应用研究

【摘要】目前,聚类分析作为一种新兴技术手段被应用于国内外医学领域,从不同程度辅助提升了医疗效果。了解聚类分析在医学领域的主要应用,探索它的应用前景及发展方向有助于各项医务工作的展开。文章通过查阅各种数据库的相关文献,借助文献计量学及SPSS,MATLAB等软件全面总结出聚类分析在医学领域的主要应用。

【关键词】聚类分析;数据挖掘;数字医疗;应用研究

聚类分析,它是直接比较各事物之间的性质,将性质相近的归为一类,性质差别较大的归入不同类的一种多元统计分析方法。现代化数字医疗的严峻形势对医务人员的要求越来越高。聚类分析技术在发达国家的应用已经很广泛,在我国医学领域应用的较晚但前景广阔。

常用的统计聚类分析方法包括谱系聚类(hierarchical clustering)、快速聚类(K-means)、两阶段聚类(Two-Step)、动态聚类、最优分割和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS、MATLAB等。国外比较有名的数据挖掘系统有SAS公司的Enterprise Miner、IBM公司的Intelligent Miner, SGI公司的 MinerSet、SPSS公司的Clementine、加拿大Simon Fraser大学开发的DBMiner等。

通过查阅万方、维普、知网等各种数据库的相关文献,借助文献计量学及SPSS,MATLAB等软件分析,发现聚类分析在医学领域的应用主要有以下几个方面。

一、聚类分析在医学影像上的应用

医学图像数据挖掘技术聚类分析是有效解决医学图像处理与分析的重要手段之一,它可以揭示正常人体各组织器官影像特征数据的分布规则和关系,为人体组织器官图像的自动分类和病变组织图像自动识别开辟新的途经[1]。

目前的典型研究有:

1.在医学图像灰度密度研究的基础上,提出基于医学图像带修正系数的密度构造聚类算法。对现有图像数据挖掘算法加以比较筛选和改进,深入研究了医学图像数据的核密度函数、数据分箱和基于数据分箱策略的密度构方法,使图像更精确。

2.用Matlab语言优化K-均值聚类算法程序,提高了K-均值聚类算法在医学CT图像分割上的应用效果、稳定性和质量,减少了程序的运行时间,为图像的识别处理奠定了基础。

3.将遗传算法与聚类分析两种工具相结合,应用到医学CT 图像分割中。利用遗传算法搜索的随机性和并行性,克服了K均值聚类的局部性和对初始聚类中心的敏感性。并且可以根据分割的要求,合理地调整聚类时的特征向量和权重。

4.将模糊聚类分析方法引入到医学图像处理领域,在不断的改进和其他方法的伴随下,改善算法的速度和处理效果。

5.采用无监督的聚类分析的计算机系统提高对病灶的MRI X光检查的诊断准确性,作为计算机辅助诊断病灶X光检查。

二、聚类分析在疾病的诊断和分型上的应用

在医学中,值得注意的是,某些临床实体可以有种种原因,如由非常不同的细菌造成的脑膜炎在临床上可能无可区别;反之,一种病因可以产生种种体征,症状和病理现象,例如,梅毒。在当前的数字化医疗时代,医学聚类分析在疾病的计算机诊断上大放异彩,解决了很多关于疾病实体和综合征的诊断和分型的棘手问题[2]。

较早的应用有:Manning和Wstson(1966)使用分类学距离和平均连锁聚成来对心脏病分类;Jones等通过聚类分析分开两种症状非常多变而交叠的结肠疾病;Zinsser(1964) 使用因子分析和聚类分析区分肾盂肾炎……

我国精神分裂症诊断标准的制定和残肢者肌电信号的控制都应用了模糊聚类。

如今发达国家采用统计聚类分析为早期帕金森疾病分亚型,这种亚型的鉴定对致病机制假说的提出和治疗策略的制定有重大暗示;将统计聚类分析方法应用在胃旁路减肥手术中,来辨别肥胖病人不同的亚型,借此找到阻碍减肥成功和术后恢复的模式;采用K-means聚类分析对听力图形进行分类,改善和整合临床设置中的图形识别,减少由于个体经验而发生的错误,被用于诊所开发;利用SPSS软件对203例有随访结果的肿瘤作因子分析和聚类判别分析,用于讨论乳腺叶状肿瘤的9种病理形态学特征性参数的诊断价值等等。

三、聚类分析在监测和评价疾病预后上的应用

聚类分析在国内医疗这方面的应用几乎为空白,但在国外应用已经很有成效。

发达国家采用凝聚谱系聚类分析将慢性病的表现症状分解,用来评估慢性病的生活质量,如肺癌;用聚类分析评估I型糖尿病胰岛移植后自我监测的血糖指标,观察血糖波动和预后[3];用聚类分析判断病理指标,如尽管肝功能保存良好,但低BTR水平仍能表明肝细胞癌切除患者的早期复发;用几何编码和聚类分析识别参数来评估和控制II型糖尿病患者的代谢控制情况,有助于改善他们的监测和治疗;用聚类分析预测妇女生育年龄的心血管疾病和代谢风险因素等等。

四、聚类分析在基因靶向治疗上的应用

基因数据标准化处理后可以进行基因聚类分析,通过基因聚类分析可以考察未知基因的功能信息或已知基因的未知功能信息。对基因和样本进行双聚类可以更好地发现基因表达模式并且具有更清晰的生物学解释[4]。

通过聚类分析,可以获取对种群固有结构的认识。有利于疾病进行根本的靶向治疗。同样的,国外聚类分析在这方面的研究也远远多于几乎空白的国内。

目前根据形态学对肿瘤进行分类有很大的局限性,而基因表达聚类分析可以利用肿瘤间不同的基因表达谱进行更精确的肿瘤亚型分类。在肿瘤新标志基因发现中使用聚类算法和其它分析方法已经取得很有价值的发现,使得对肿瘤的机制有了更清晰的解释,对肿瘤的早期诊断和患者的生存预判提供了重要的参考。

除了在对肿瘤基因的研究,发达国家还利用聚类分析研究COPD基因,辨别不同亚型的带有不同模式的呼吸道疾病和肺气肿的吸烟患者;用层次聚类分析分析基因突变和某些疾病预后的关系,如AML(急性粒细胞白血病)预后和NPM1基因突变的关系;用离散聚类分析,K-means算法聚类分析和期望最大值算法来分析大规模离散型国际人类基因组单核苷酸多态性数据变量;用标准和一致性聚类分析工具(SC2ATmd)探索MATLAB中的微阵基因表达数据;用离散的拉普拉斯的聚类分析方法分析欧洲男士Y染色体的短串联重复序列……,聚类分析这把强大的工具使人类在疾病治疗的基因水平上迈出了一大步。

五、聚类分析在分子流行病学中的应用

国内国外聚类分析在这方面的研究都已颇为成熟。典型研究有:

1.聚类分析在院内感染性疾病的研究应用(以大肠杆菌为例)

改进并运用基因分型方法, 研究临床所分离到的彩超广谱B 内酰胺酶大肠杆菌的分子流行病学。采用脉冲场凝胶电泳< PFGE> 分析电泳图谱经数据转化后进行聚类分析, 计算各菌株间的相似性系数(SSm),根据SSm 进行单链锁聚类分析,得到相似性系数三角矩阵,对结果进行分析,以确定菌株间的亲缘关系[5]。细菌的分子流行病学研究是控制院内感染的重要基础,它利用分子生物学方法来判断实验菌株之间的亲缘关系以发现爆发流行的来源及传播途径。

2.聚类分析在流行病生态学研究上的应用

例:王春晓等根据颈椎病患者的临床表现设计调查表,收集575例颈椎病患者的症状”体征”舌脉等信息,采用聚类分析和主成分分析法对调查表中98个常见症状进行聚类分析。提示聚类分析和主成分分析用于中医证型的分类研究具有一定科学性。

3.聚类分析在药效学和药动学上的研究应用

例:发达国家为快速,方便,可靠的研究药物对白血病细胞的识别以及用于新药的临床试验,利用傅里叶变换红外显微光谱结合无监督谱系聚类分析快速识别白血病细胞的耐药性和敏感性;他们还证明顺序聚类分析是有效的heatmap展示抗生素耐药性时空变化模式可视化的方法;使用基于地理信息系统的凝聚谱系聚类分析,可以划分出基于时空的可视化的抗生素耐药模式等等。

六、结语

大量实例证明,聚类分析是可以运用在医学上的一把利刃,目前对它的应用也只是冰山一角,它在医学上有很大的应用空间和光明的前景。现代数字化医疗形势对广大的医务人员提出了更高的要求,我们应该逐步接触并掌握好这门先进的工具为医学为病人更好的服务。

参考文献

[1]杨生友.聚类分析在医学图像中的应用[D].兰州大学,2009.

[2]孙迎.医院信息的数据挖掘与方法研究[A].中华医学会第十次全国医学信息学术会议论文汇编[C].2004.

[3]Takita,M.,et al.,Cluster analysis of self-monitoring blood glucose assessments in clinical islet cell transplantation for type 1 diabetes.Diabetes Care,2011.34(8):1799-803.

[4]Eisen MB,Spellman PT,Brown PO,et al.Cluster analysis and display ofgenome-wideexpression patterns[J].Genetics,2008,95(25):14863-14868.

[5]康梅,陈超杨,NOrman Hui, 陈文昭, 过孝静, 郑动斌.产超广谱β酰胺酶大肠杆菌的脉冲场凝胶电泳分型研究 四川大学学报(医学版),200435(2):214-216.

作者简介:李双良(1993—),女,辽宁沈阳人,现就读于中国医科大学,研究方向:聚类分析在医学上的应用。

猜你喜欢
聚类分析数据挖掘应用研究
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
农村居民家庭人均生活消费支出分析
进驻数字课堂的新兴教学媒体
基于省会城市经济发展程度的实证分析
AG接入技术在固网NGN的应用研究
分层教学,兼顾全体
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究
一种基于Hadoop的大数据挖掘云服务及应用