聚类算法在医疗大数据上的应用研究

2020-07-22 09:55王艳娥张拓杨倩

电脑知识与技术 2020年12期

王艳娥张拓杨倩

摘要：随着大数据技术的不断发展，医疗大数据的研究也成为我国医疗建设的重要一环，聚类能够挖掘出医疗大数据中潜在隐藏的信息，协助医生、医疗管理部门、科研所进行有效工作。研究分析聚类算法K-means和K-medoids在医疗大数据的应用，从优化聚类算法降低时间复杂度、对高维医疗大数据进行特征提取降低维度、通过并行处理平台加速医疗数据的处理速度方面出发，阐明聚类算法在医疗大数据的数据预处理、数据分类、疾病预测等方面都广泛的应用。随着并行处理平台的建设，聚类算法在医疗大数据的应用也将越来越广泛。

关键词：聚类算法;K-means;K-medoids;医疗大数据

中图分类号：TP181 文献标识码：A

文章编号：1009-3044（2020）12-0012-02

1聚类与医疗大数据

聚类是数据挖掘中无监督学习分析数据常用的方法之一，通过聚类能够挖掘出数据集中隐藏的内在的联系。医疗大数据的研究是我国医疗健康必经之路，通过聚类对医疗大数据进行分析，有效挖掘其隐藏的关联为临床诊断和医疗研究等提供有效的信息。根据聚类原理的不同，聚类可分为层次聚类、划分式聚类、基于密度聚类和基于模型的方法，其中划分式聚类算法因为原理简单易于实现得到广泛的应用。划分式聚类算法是按照相似性和相异性原则将数据集划分为k类。采用划分式聚类算法分析数据时需要提前知道数据集的类数k，初始情况下，随机选择k个数据作为初始聚类中心，再按照相似行原则将其余数据划分给不同的类，然后根据优化目标重新选择新的聚类中心，直到满足给定的条件为止。K-means算法和K-medoids算法是划分式聚类算法的典型代表，其中K-means算法因为运行速度快，在医疗大数据的应用中得到广泛的应用，K-medoids算法对噪声点的处理具有较好的效果也得到广泛的应用。原理简单、易实现得到广泛的应用。

1.1聚类算法

K-means算法和K-medoid算法的算法原理基本相同。K-means算法原理是随机选择K个数据点作为初始聚类中心，再根据相似性原则进行分类，使用同类数据的均值作为新的聚类中心，如此不断迭代，直到满足聚类目标结束。K-medoids算法原理也是随机选择K个数据作为初始聚类中心，再根据相似性原则进行分类，使用同类中的最接近中心的实际数据作为初始聚类中心，直到满足聚类目标结束。两者的相同点是聚类前需要提前告知聚类的类数K，且初始聚类中心都是随机选择。不同点在是K-means算法在迭代聚类中心是选择的是同类数据的均值，从而导致噪声点对聚类结果的影响大。K-medoid算法在迭代聚类中心是选择的是实际的数据，使得噪声点的影响较小。传统的K-means算法和K-medoids算法因为其缺陷，往往不直接应用在数据处理中，很多研究学者将这两种算法进行优化，再将其使用在医疗大数据中。

1.2医疗大数据

医疗大数据是大数据的一种，具有大数据的4V特性：Volume体量大、velocity实时性、variety多样性、veracity不确定性。医疗大数据的研究对我国临床医疗、药物研究、健康医疗和基因研究都有着重要的作用。2018年国家卫生健康委印发了《国家健康医疗大数据标准、安全和服务管理办法（试行）》，对医疗健康大数据行业从规范管理和开发利用的角度出发进行规范。据前瞻产业研究院发布的《中国医疗信息化行业市场前瞻与投资战略规划分析报告》统计数据显示截止至2017年我国医疗信息化市场规模为448亿元，同比增长17.59%。预测2019年我国医疗信息化市场规模将接近600亿元。医疗大数据的研究是未来研究的热点内容。

关于医疗大数据的研究复杂性主要也是从大数据的4V特性出发。聚类算法在医疗大数据的应用涉及医疗图像处理、医疗费用分析、疾病预测、医疗数据关键性的特征提取等方面。

2聚类算法在医疗大数据中的应用

使用聚类算法在处理医疗大数据集，主要的问题是医疗数据体量大。但随着数据并行处理的不断发展，对于医疗大数据的可计算问题主要从串行处理和并行处理出发。其中串行处理主要从优化聚类算法提高算法的减少算法运行的时间复杂度或者通过分析医疗大数据的属性，进行特征提取方法减少医疗大数据的体量，然后进行聚类等;并行处理主要在hadoop环境性使用Mapreduce、spark或者storm计算框架进行并行处理，实现对医疗大数据的聚类分析。

2.1基于串行处理的聚类算法在医疗大数据中的应用

文献[3-9]通过对聚类算法进行优化，提高算法的运行速度。文献[3]将优化的k-means算法和K-medoids算法应用在红斑鳞状皮肤病的数据中，在提高聚类算法运行速度的同时提高分析的精确度，分析效果良好。文献[4]将优化的K-means算法应用在检测胆固醇高低的真实数据集中，优化的k-means算法减少時间复杂度，使K-means算法应用在医疗大数据中，同时聚类效果良好。文献[5]在癌胚抗原数据中采用优化K-means算法，获取有价值的诊断信息，协助癌症的预测和防御。文献[6]针对乳腺癌组织病理中的关键因素腺管密度进行分析，将k-means算法与随机森林分类算法结合，能够对乳腺癌的自动分类达到较优的效果。文献[7]针对医学图像中含有重要信息的孤立节点，通过聚类算法将医学图片进行分割，将相互孤立的结点转换为直观有价值的图像区域，实现对孤立结点的处理，解决医疗图像中因为疲劳而对影像出现的一些误诊，提高诊断的准确率。文献[8]将聚类算法K-means算法应用在医疗费的分析中，分析出影响医疗费用的几个关键因素，通过优化关键因素，可以是医疗费用的使用更加合理有效。文献[9]针对社会医疗保险欺诈行为，通过K-means算法建立医保欺诈识别的有效模型，有效确认医保中的欺骗行为。

医疗数据体量大的一个重要因素是很多医疗数据的维度很高，针对高维度的医疗大数据可以通过特征提取减少医疗数据的体量。文献[10-12]通过使用聚类算法分析医疗大数据的属性，针对预定的目标分析出关系紧密的属性，进行特征提取，从而减少医疗大数据的体量。文献[10]针对医疗大数据中不同属性具有不同的重要性，将部分对聚类结果没有或有较少影响的属性进行约简，减少医疗大数据的维度，加快医疗大数据的处理速度，同时提高医疗大数据的处理精度。文献[11]针对大肠早癌研究其诊断方法，通过分析数据特征、数据预处理、训练数据和分类预测等方面进行研究，在数据特征提取这方面先对聚类算法进行优化，再将优化的算法应用于数据集的特征提取中，取得较好效果。文献[12]针对医疗大数据的高维度，将聚类算法K-means与粗糙集进行结合，实现医疗大数据的特征提取，并将算法应用在乳腺癌数据集中，取得良好的效果。

2.2并行处理平台下聚类算法在医疗大数据上的应用

文献[13-15]是基于Hadoop平台或Spark平台下，对k-means算法或k-medoids算法进行优化，处理医疗大数据。文献[13]针对我国医疗质量评价体系存在的问题，基于X-means进行优化建立Hadoop平台，在面对大量医疗数据时能够快速分析和提高医疗质量评价的精确度。文献[14]针对K-means算法在Hadoop平台上许多次遍历所有数据问题，提出优化的M+Kmeans算法，该算法对所有数据秩序遍历一次，从而加快算法的运行时间，便于医疗大数据的处理。文献[15]构建Hadoop平台，在该平台上对K-means算法进行优化，降低算法时间复杂度、提高算法精确度，使之能够对海量的数据进行分析和处理。随着并行处理技术的不断发展和平台建设的不断完善，基于并行处理医疗大数据的聚类算法将会越来越多。

3应用展望

聚类算法能够有效挖掘医疗大数据中隐藏的重要信息。随着国家对医疗数据的标准化、医疗大数据平台的不断建设，聚类算法在并行化处理平台上的应用将是未来研究的热点。