基于关联规则的网络数据动态聚类方法研究

2021-12-19 19:55王喆宋晓峰王玉芳
电脑知识与技术 2021年32期
关键词:关联规则

王喆 宋晓峰 王玉芳

摘要:针对传统聚类方法动态聚类效果差、耗时长的问题,提出了一种基于关联规则的网络数据动态聚类方法。通过对网络数据属性的分析,建立关联规则,并在此基础上确定网络数据的值函数,实现网络数据的动态聚类。实验表明,该方法在改善聚类效果方面具有一定的优势。

关键词: 网络数据;动态聚类;关联规则

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2021)32-0051-02

随着网络规模的不断扩大和网络数据的激增,网络数据的碎片化和高度非结构化给网络数据的挖掘和聚类带来了挑战,使其成为近年来学术界研究的热点。例如,用户浏览网站后留下的各种各样的信息和数据,使得网络数据迅速膨胀,在由此形成的网络数据库中,可以实时分析挖掘出用户的个性化需求和兴趣,以及用户的职业、年龄、教育背景、地域等信息,对这些信息进行聚类分析,可以获得网络舆论和用户态度等统计数据。但是,传统聚类方法动态聚类效果差、耗时长,为此,本文提出了一种基于关联规则的网络数据动态聚类方法,利用网络数据属性进行关联分析,确定网络数据的值函数,实现网络数据的动态聚類。实验表明,该方法可有效改善聚类效果。

1 网络数据属性

当通用告警转换为模糊告警的时候,模糊告警项的模糊支持度[X]定义为:

[fsupportX=1ni=1nj=1,k∈Fxjmμfiksij]                  (1)

其中:[n]为事件数量,[m]为集合X的元素个数,表[μfiksij]显示了告警[j]与[X]关于模糊集[k]经过[i]转换之后的关系。如果给定两个集合[X=x1,x2,...,xp]和[Y=y1,y2,...,yq],支持度和可信度的转换关系[X?Y]定义如下;

[fsupportX?Y=1ni=1nj=1,k∈Fxjpμfjksij∧j=1,k∈Fyjqμfjksij]     (2)

[fconfidenceX?Y=fsupportX?YfsupportXY]                 (3)

通过在模糊集中引入模糊关系度,加入模糊频率集的特征以满足向下封闭规则,也就是模糊频率集的子集必须具有模糊频率特性。

[I=i1,i2,...,im]表示模糊告警数据库中的所有告警集,[S]为一个[k-]项目集[(k

[FS,n=ij∈Sμj+j=1n-kμij]                             (4)

其中,[ij∈Suj]表示项目集[S]中的[k]个模糊关系度之和,[j=1n-kμij]表示除去[S]后的具有最大关系度的前[n-k]个早期告警的模糊关系度之和。根据最小模糊支持度,支持[n-]项目集S的频率项的数量不能太低:

[CS,n=fminsup×TFS,n]                               (5)

其中,[fminsup]表示所有支持k-项目集s的阈值的最小值。

因此,在聚类过程中,必须根据网络数据的属性分别进行处理。成员是这种属性的函数关联关系。通过上面的分析,成员表达式可修改为如下形式:

[u*ik=uikpik]                                        (6)

其中,[uik]是成员函数,[pik]是网络数据属性对成员函数的贡献。

2 动态聚类分析

2.1关联规则

在网络数据之间存在许多未知的关联,关联分析可以获得很多有价值的结果。

(1)事件及项目集合:分别用[D]和[I]表示,此处[D=d1,d2,...,dx,...dn],[I=i1,i2,...,iy,...in]。

(2)项目集:一个条目集是所有条目集合的任意子集。[k]表示任意条目集中的条目数量,则该条目集为[k]条目的集合。若包含在每个事件中的条目集是[I]的子集,那么:

[dx=i1,i2,...,ik,1≤k≤m]

(3)支持:表示在[D]中[X]和[Y]共存的概率。当D中项目集[X]存在的概率大于集合支持阈值,意味着[X]是一个高频率项目集。这种情况下,支持阈值就是最小支持。[k]频率项目集可利用[Lk]来描述。

(4)可信度:当[D]中共存项目集[X]和[Y]时,表明[D]中[Y]的频度包含了[X]的频度。在计算可信度的过程中,通常采用最小值作为可信度的预设值,也称为最小可信度。

(5)关联规则:可通过逻辑表达式[X→Y]来描述,[X]和[Y]为中所有项目的集合,其中[X?Y=Φ]。[X→Y]的强度可通过支持和[X→Y]的可信度来描述。

2.2 值函数

假定仿真控制的有限状态为:

[Z=T,I,O,μ,η]                                 (7)

其中:[T]表示状态集;[I]和[O]分别表示输入和输出集;[μ]和[η]分别表示状态转换函数和输出转换函数。

假设节点[i]的状态变量为[si],当节点与其相邻节点通信时,[si]表示在多场景交互处理中的各种物理量。当所有节点的状态变量都一致的时候,该模型就达到了一致收敛。下面为连续时间一致性算法公式:

[sit=-j∈Nnθijsit-sjt]                          (8)

在公式中,[n]表示模型中迭代的次数;[θij]表示在节点连接仿真结构图中的邻接矩阵中所有数据对应的元素。对于任意特征J,由于其在数据表示中具有不同的意义,他具有不同的权值[wj]。矢量模型的基本思想通过矢量[W1,W2,W3,...,Wn]来表示。有许多算法可用于计算权值[wj],通常用[TF-IDF]公式计算:

[wj=kfk,d×log2Nnjk∈d1+log2kfk,d×Nnk]                        (9)

其中,[nj]为网络数据特征项的权值,[nk]为网络数据特征项目的个数,N为网络数据特征总数,[kfk,d]为相同网络数据同时存在的特征的数量。网络数据特征的相似性[x]和[y]可通过以下公式计算:

[Simx,y=x·yxy]                                     (10)

其中:[x]为网络数据特征[x]的属性矢量,[y]为网络数据特征[y]的属性矢量,[xy]为属性矢量单元,[·]为点积。

基于时间抽样的序列可以相等的时间间隔记录网络数据特征存储的位置:

[T=e1,y1,t1,...,...,ei,yi,ti,...,...,en,yn,tn,...ti=t1+(i-1)Δt]              (11)

其中[ei,yi1≤i≤n]为在[ti]时刻网络数据对象的空间位置,[Δt]为网络数据存储的时间间隔,两个存储空间[Ti]和[Tj]的间隔计算公式为:

[DTWTi,Tj=0m=0∧n=0dispi1,pj1+DTWRtm≠0∧n≠0∞m=0∨n=0]     (12)

其中,[m]和[n]分別为网络数据存储空间[Ti]和[Tj]包含的网络数据的数量;[dispi1,pj1]为[Ti]和[Tj]的第一个点之间的欧拉距离;[Rt]为网络数据特征存储的第一个点之后的剩余时间。

在分类之前,需要定义一个值函数用于确定当分类算法的停止点。以传统分类算法定义的值函数如下:

[V=j=1cVj=j=1cxi∈gjcdisxi,cj]                    (13)

其中:[cj]为网络数据中心;[disxi,cj]为任意网络数据对象[xi]和数据库中心[cj]之间的距离。

与k-均值算法不同,模糊c-均值算法将网络数据集分为多个模糊子集,利用关系矩阵来表达每个元素归属于每个群的程度:

[V=j=1cxi∈gjfmijdisxi,cj2]                                 (14)

其中:[m]为模糊聚类算法的模糊度。

2.3 动态分类

为了获得值函数的最小值判据,可利用拉格朗日乘数法来产生一个新的目标函数:

[V(F,c1,...,cc,λ1,...,λn)=i=1cλij=1cfij-1fmijdisxi,xj]       (15)

模糊c-均值聚类算法目标函数的约束条件如下:

[JECMU,V=k=1Ni=1Cuikmxk-vi2]               (16)

[s.t.i=1Cuik=1k=1,2,...,N]                     (17)

其中,[uik]为网络数据[uk]与以[vi]为中心的属性[i]的关联度,[0≤uik≤1], [ui=ui1,ui2,...,uiN], [1≤i≤C]。

假设内部类的分散矩阵[Sb]和[Sw]表示每一个属性点与属性集的关系,则每一个属性点及其所属的类的关系为:

[Sb=i=1cnimi-mmi-mT]                     (18)

[Sw=i=1cj∈clanimi-xjmi-xjT]                     (19)

其中[c]为网络数据集的分类的数目,[ni]为具有属性[i]的网络数据的数量, [mi]为具有属性[i]的网络数据的平均距离,[m]为所有网络数据点之间的平均距离,[xj]为第[j]个采样值。为了使低维度空间中各类网络数据集之间的距离更小/更大,通过以下方式获取聚类函数:

[JFw=wTSbwwTSww]                                  (20)

3 实验结果分析

在对改进的聚类算法进行性能测试的时候,实验平台为Weka6.0,采用Java语言实现。采用纯度作为聚类方法的评价指标。聚类纯度用来衡量网络数据聚类处理的准确率:

[Purity=i=1kMaxjMijH]                             (21)

其中,[H]为网络数据的量,[Mij]为具有属性[i]和[j]的网络数据,[k]为网络数据聚类算法中的类的总数。

在实验中,将文献[2]、文献[3]和文献[4] 采用的方法与本方法进行了对比,不同动态聚类方法的纯度见表1。

由表1可以看出,本文使用的方法纯度值约为0.951,比文献[2]高约0.105,比文献[3]高0.256,比文献[4]高0.308,整体纯度高,聚类效果好。

4 结论

实验结果表明,本文提出的基于关联规则的网络数据动态聚类方法具有较高的聚类纯度,在提高动态聚类效率方面有一定的优势。

参考文献:

[1] 钟耀霞,程建斌,项正山.传感网络局部离群数据动态聚类算法仿真[J].计算机仿真,2020,37(11):312-315,421.

[2] 姜延文.大数据分析下多维离散数据高效聚类方法仿真[J].计算机仿真,2019,36(2):205-208.

[3] 杨慧婷,杨文忠,殷亚博,等.基于深度信念网络的K-means聚类算法研究[J].现代电子技术,2019,42(8):145-150.

[4] 叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099.

[5] 張太华,胡小光,杨静.一种基于关联规则的知识推送方法[J].机械设计与制造,2020(2):300-303.

【通联编辑:唐一东】

猜你喜欢
关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究
数据挖掘在超市大数据中的应用