基于联合半监督学习的大数据聚类算法

2019-07-01 02:35谌裕勇
智能计算机与应用 2019年3期
关键词:聚类大数据

谌裕勇

摘 要:为了提高对用户行为特征挖掘能力,需要对用户行为特征多维度文本数据进行优化聚类处理,提出一种基于联合半监督学习的大数据聚类算法。采用分段线性拟合方法进行用户行为特征大数据线性规划处理,提取用户行为特征大数据的互信息特征量,结合联合关联规则检测方法进行用户行为特征多维度文本数据的统计分析,构建大数据分布的关联属性样本集,采用联合半监督学习分类器进行数据分类,结合多传感量化跟踪识别方法进行聚类中心自动搜索,提高聚类收敛性。仿真结果表明,采用该方法进行用户行为特征多维度文本数据聚类处理的信息融合性能较好,数据聚类中心的自动搜索能力较强,提高了大数据分类检索能力。

关键词: 联合半监督学习;大数据;用户行为特征;聚类

文章编号: 2095-2163(2019)03-0266-04 中图分类号: TP391 文献标志码: A

0 引 言

随着大数据信息技术的发展,在云环境中进行大数据的聚类处理,实现对数据的优化分类检索和识别,在社交网络中,需要对网络用户行为特征的文本大数据进行优化聚类处理,结合数据的聚类属性特征进行融合调度和分类识别,提高对用户行为特征的准确定位分析能力,研究基于大数据的用户行为特征多维度文本数据聚类方法,在提高社交网络的信息推荐能力和大数据信息处理能力方面具有重要意义[1]。对用户行为特征多维度文本信息聚类处理是建立在对数据的多维度特征提取和关联规则挖掘基础上,结合传感数据采集方法提取用户行为特征多维度文本信息的关联规则特征量,实现多维度文本数据分类识别[2]。本文提出一种基于联合半监督学习的大数据聚类算法。采用分段线性拟合方法进行用户行为特征大数据规划处理,提取用户行为特征大数据的互信息特征量,采用联合半监督学习分类器进行数据分类,最后进行仿真实验分析,展示了本文方法在提高用户行为特征多维度文本数据聚类能力方面的优越性能。

1 用户行为特征大数据采样及特征参量提取

1.1 用户行为特征多维度文本特征数据采样

在社交网络中,用户行为特征多维度文本信息结构复杂,系统耦合性强,通过对用户行为特征多维度文本数据分类,实现对用户行为特征的优化检测和分类识别,采用多维度文本信息融合方法进行社区网络用户行为特征检测和智能分析[3]。构建用户行为特征多维度文本特征数据分布结构模型如图1所示。

根据图1,用户行为特征分布集合在B模型中的输出状态特征量为xj={x1j,x2j,...,xmj}T,以2倍以上波特率进行采样,得用户行为特征多维度文本数据的状态特征分布为p(x0),文本数据的关联规则联合特征挖掘结果为:

根據用户行为特征多维度文本信息传输码元特征量,进行信息重构,采用模糊数据聚类分析技术[4],得到用户行为特征多维大数据传输的比特序列分布为:

求得用户行为特征多维度文本数据的语义概念集,对用户行为特征多维度文本数据进行粗糙集调度和频繁性挖掘[5],根据数据聚集树分层特征得到用户行为特征多维度文本数据分类状态特征量为z(t),数据聚类中心的粗糙概念分布子集Si(i=1,2,…,L)满足半监督学习的收敛性条件为:

根据上述分析,采用一种网格聚类方法进行用户行为特征多维度文本数据分类处理,结合小扰动抑制方法避免聚类中心扰动,提高聚类的收敛性。

1.2 用户行为特征大数据线性规划处理

采用分段线性拟合方法进行用户行为特征大数据线性规划处理,提取用户行为特征大数据的互信息特征量,描述为:

对于用户行为特征多维度文本数据的标量时间序列为x(t),t=0,1,…,n-1,给定用户行为特征多维度文本数据信息流的一向量组x1,x2,…,xn∈Cm(m维复数空间),结合线性规划方法,得到用户行为特征多维度文本数据集分布的有限集合为:

对融合数据进行分段样本组合设计,得到用户行为特征多维度文本数据的关联规则集特征提取的时间间隔为O(d)和O(N1d),数据聚类空间的嵌入维数m→1时,snξ→tanh ξ,由此得到用户行为特征多维度文本数据准确聚类的边值收敛条件满足:

设计3种核函数分别表示用户行为特征多维度文本数据聚类的线性核函数、随机分布特征核函数和均匀分布核函数[6],表达式分别为:

根据上述三个核函数进行用户行为特征多维度文本数据准确聚类的线性规划设计,结合半监督学习算法,提高数据聚类过程中的收敛控制能力[7]。

2 大数据聚类优化

在上述采用分段线性拟合方法进行用户行为特征大数据线性规划处理的基础上,进行大数据聚类算法的优化设计,本文提出一种基于联合半监督学习的大数据聚类算法。提取用户行为特征大数据的互信息特征量[8],得到用户行为特征大数据聚类的几何邻域(t, f)在非线性空间的特征分布值为:

3 仿真实验分析

为了测试本文方法在实现用户行为特征多维度文本数据的聚类中的性能,进行仿真实验,实验建立在Deep Web数据库基础上,结合Matlab进行数据聚类算法设计,大数据样本的属性设置为6,数据聚类的初始置信度为95%,临界值Qc=1.24,判断阈值为0.13,特征空间分布的嵌入维数设定为m=4,测试样本集的数据长度为2 000,仿真时长为120 s,根据上述仿真环境和参数设定,进行用户行为特征多维度文本大数据聚类分析,得到原始数据分布如图3所示。

以图3的数据为研究对象,进行数据聚类处理,采用联合半监督学习分类器进行数据分类,得到聚类输出结果如图4所示。

分析图4得知,采用本文方法能有效实现大数据聚类处理,数据分类的准确性较高,误分率较小,测试不同方法进行大数据聚类的性能,得到对比结果如图5所示,分析图5得知,本文方法进行大数据聚类的误分率较低,性能优于传统方法。

4 结束语

结合传感数据采集方法提取用户行为特征多维度文本信息的关联规则特征量,实现多维度文本数据分类识别,本文提出一种基于联合半监督学习的大数据聚类算法。采用分段线性拟合方法进行用户行为特征大数据线性规划处理,提取用户行为特征大数据的互信息特征量,结合联合关联规则检测方法进行用户行为特征多维度文本数据的统计分析,构建大数据分布的关联属性样本集,采用联合半监督学习分类器进行数据分类,结合多传感量化跟踪识别方法进行聚类中心自动搜索,提高聚类收敛性。研究得知,采用本文方法进行用户行为特征多维度文本数据聚类处理的信息融合性能较好,数据聚类中心的自动搜索能力较强,提高了大数据分类检索能力,具有很好的应用价值。

参考文献

[1]毕安琪, 董爱美, 王士同. 基于概率和代表点的数据流动态聚类算法[J]. 计算机研究与发展, 2016, 53(5): 1029-1042.

[2]蒋芸,陈娜,明利特,等. 基于Bagging的概率神经网络集成分类算法[J]. 计算机科学,2013,40(5): 242-246.

[3]孙力娟, 陈小东,韩崇,等. 一种新的数据流模糊聚类方法[J].  电子与信息学报, 2015, 37(7): 1620-1625.

[4]張红蕊,张永,于静雯. 云计算环境下基于朴素贝叶斯的数据分类[J]. 计算机应用与软件,2015,32(3):27-30.

[5]梁聪刚,王鸿章.  微分进化算法的优化研究及其在聚类分析中的应用[J]. 现代电子技术,2016,39(13):103-107.

[6]李昆仑, 关立伟, 郭昌隆. 基于聚类和改进共生演算法的云任务调度策略[J]. 计算机应用, 2018, 38(3): 707-714.

[7]文政颖,李运娣. 语义指向性特征聚类的图像检索算法研究[J]. 计算机技术与发展,2017,27(4):83-88.

[8]林楠,史苇杭.  基于多层空间模糊减法聚类算法的Web数据库安全索引[J]. 计算机科学,2014,41(10):216-219.

[9]廖大强.  面向多目标的云计算资源调度算法[J]. 计算机系统应用, 2016, 25(2):180-189.

[10]徐建. 用遗传算法评价部分股市常用技术指标的探索[J]. 智能计算机与应用,2018,8(5):158-160.

猜你喜欢
聚类大数据
K-means算法概述
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
数据挖掘的主要技术
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索