胡毅 朱子江
摘 要: 对于传统云环境大数据聚类中的量子进化方法的聚类精准度比较低的问题,为了降低存储开销,提高数据管理能力与调度能力,提出将优化粒子群算法作为基础的云环境大数据聚类算法,对云环境大数据聚类原理进行分析,将传统模糊C均值聚类作为基础,通过粒子群聚类算法对大数据聚类算法进行改进,从而实现空间分割,得出云存储系统的海量数据模糊聚类。利用粒子群聚类方法分配聚类数据离散成本,得到数据聚类信息浓度;与粒子群优化聚类约束条件结合,得到云环境大数据聚类中心最优解。仿真结果表明,此算法的数据聚类精准度比较高,具有良好的收敛性能。
关键词: 大数据聚类; 云环境; 粒子群优化; 空间分割; 模糊聚类; 仿真测试
中图分类号: TN919?34 文獻标识码: A 文章编号: 1004?373X(2020)14?0072?04
PSO?based big data clustering algorithm in cloud environment
HU Yi, ZHU Zijiang
(South China Business College Guangdong University of Foreign Studies, Guangzhou 410545, China)
Abstract: As the clustering accuracy of the quantum evolution method of the big data clustering in the traditional cloud environment is relatively low, a PSO?based big data clustering algorithm in the cloud environment is proposed to reduce the storage cost and improve the abilities of data management and scheduling. The principle of big data clustering in the cloud environment is analyzed. By taking the traditional fuzzy C?means clustering as the basis, the big data clustering algorithm is improved by means of the particle swarm clustering algorithm, so as to achieve the spatial segmentation and get the fuzzy clustering of mass data in the cloud storage system. The discrete cost of clustering data is distributed by means of the particle swarm clustering method to get the information concentration of data clustering, and is combined with the clustering constraint condition of particle swarm optimization to get the optimal solution of big data clustering center in the cloud environment. The simulation results show that the algorithm has high accuracy of data clustering and good convergence performance.
Keywords: big data clustering; cloud environment; particle swarm optimization; space division; fuzzy clustering; simulation testing
0 引 言
云计算概念是IBM于2007年提出的。云计算是并行处理、分布式计算、网格计算之后所发展起来的最新计算方式,其将各种互联计算、数据、存储和使用等资源整合,从而能够实现多层次虚拟化和抽象,用户只需要和网络连接,就能够利用云计算强大的计算和存储能力实现功能。基于云计算背景,大数据信息处理能够实现数据聚类,利用大数据的特征参量可以对数据进行分析。基于数据聚类可实现大数据的创建,并且利用模式识别与诊断实现服务分析。
1 云环境大数据存储的设计
云计算是指通过现代互联网对结构模型与存储空间进行动态扩展。要想以云计算作为背景,进行分类挖掘与大数据存储,首先就要实现大数据存储机制架构的创建。在云环境中,大数据存储通过虚拟化存储在计算机集群开展云计算部署,通过USB磁盘层、结构层、计算机等构成,企业利用终端就能够使用,通过分布式计算机就能进行计算。
云环境大数据存储结构如图1所示。
利用图1所示结构,将屋内分配应用到云计算虚拟机中。通过式(1)、式(2)实现优化聚类算法,利用最优解实现云计算背景中大数据特点聚类物理分配,公式为:
[x=12μ(1+μ+(μ+1)(μ-3))]
[x=12μ(1+μ+(μ+1)(μ-3))]
为了避免粒子陷入局部最优,实现大数据信息特征矢量Xi存档,计算公式为:
[li(k)=(1-ρ)li(k-1)+γf(xi(k))]
设置聚类阈值为Nth,在Neff