基于改进密度峰值聚类的企业数据管理研究

2024-01-17 09:57陈易平李庆珍
贵阳学院学报(自然科学版) 2023年4期
关键词:数据管理类别准确率

黄 铿,陈易平,李庆珍

(1.广州南洋理工职业学院 经济管理学院,广东 广州 510900;2.广州理工学院 计算机科学与工程学院,广东 广州 510540;3.中国政法大学 数据法治研究院,北京 102249)

大数据在多个行业的深入应用,以及各种大模型为海量数据的精细化深度分析提供的算力支持,为企业数据的集群化挖掘及分析提供了技术保证。不论是制造企业的工序分析,还是金融领域的大数据信用识别,电商领域的精准用户画像,电力行业的用电行为分析等,无时无刻不体现大数据应用的身影,数据分析的价值正逐渐为企业的发展提供新的机会。在企业数据的管理研究中,由于其他种类差异,其数据分析的要求及难度差别较大,[1]而且由于企业数据管理受到整个市场的影响,其数据分析不应当完全是独立企业内部数据的孤立分析,而是要结合所在行业数据以及与该企业相关行业的上下游产业链所有数据,因此企业数据分析的准确度需要大量算力支持。聚类算法作为开放大规模数据分析的常用手段,其不受企业行业特点的限制,而且在应对大规模数据分析时,仍能保持较高分析效率。

当前,聚类算法在企业数据管理应用中的研究较多。刘超等[2]通过软子空间聚类算法来判别银行用户信用类别,并提前对低信用用户进行筛选并纳入监管,以降低银行经营风险。吴花平等[3]对各行业的碳排放进行聚类管理,根据企业的经验和能源使用数据进行碳排放分类,以便实现碳排放不合格企业的提前预警,增强碳排放管理的智能性。李春生等[4]采用均值聚类对企业人员进行类别分析,根据行为类别进行绩效评价,有效提高了绩效评价的过程性和科学性,这都是聚类算法在企业数据管理中的有效应用。

本文采用密度峰值聚类算法用于企业数据管理应用,通过QWOA的优化,有效提高了DPC聚类算法在大数据分析应用中的适用性,且QWOA-DPC算法在多个行业的企业数据分析中均表现出较强的聚类性能。

1 密度峰值聚类算法

密度峰值聚类(DPC)在聚类时除了考虑节点间的距离值,还需考虑节点的属性密度,将距离和密度两者相结合,筛选聚类中心。

设包含N个样本点的集合X被划分为C={C1,C2,…,Ck},共k个类别,且X=C1∪C2…∪Ck,Ci∩Cj=φ(i≠j)。

设样本点xi和xj的距离rij为:

(1)

其中样本总维度为n。

xi在所有节点中的密度ρi计算方法[5]:

ρi=∑jχ(rij-rc)

(2)

其中rc为距离阈值,χ(x)满足条件[6]:

(3)

由于χ(x)非可导,将其换为可导的高斯函数,公式(2)修改为[7]:

(4)

点xi的最小距离δi计算公式为[8]:

(5)

计算所有节点的ρi和δi,并对所有点的ρi和δi作乘积运算:

γi=ρi·δi

(6)

然后对比N个样本点的ρi、δi和γi,选择三者均较大的点作为聚类中心,然后根据距离进行其他节点的类别划分。

2 改进的DPC企业数据聚类

2.1 鲸群优化算法(WOA)

鲸鱼在捕食过程中的位置变化比较复杂,这类位置变化可以迁移到最优解的寻找过程。WOA正是将可能解赋予鲸群个体,通过个体的猎物搜索及捕食来完成解的寻优。

WOA个体的随机位置变化方式为[9]:

(7)

(8)

(9)

(10)

螺旋攻击方式[11]:

(11)

其中b为常数,l为[-1,1]的随机数。

鲸鱼发现食物后,根据概率p选择运动方式,一种是包围捕食,另一种是螺旋攻击:[12]

(12)

不断执行式(12)进行捕食运动,迭代直至获取最优个体。

2.2 WOA鲸群位置的量子化

量子常用表示为[13]:

|φ〉=α|0〉+β|1〉

(13)

变换(13)式表示方法:

|φ〉=[α,β]T

(14)

令α=cos(θ),β=sin(θ),则式(13)为:

|φ〉=cos(θ)|0〉+sin(θ)|1〉=[cos(θ),sin(θ)]T

(15)

将鲸群所有个体位置进行重新编码:

(16)

其中θij=2π·Rand(),Rand()∈(0,1),i∈{1,2,…,n},j∈{1,2,…,m},n和m分别为鲸鱼规模和位置维度,则式(16)可写为[13]:

(17)

按照式(17)对所有鲸鱼个体位置进行编码,然后再执行WOA优化求解操作。

2.3 QWOA-DPC聚类流程

在DPC计算中,节点密度值与距离阈值rc强相关,而该值设定对聚类中心的选择影响明显,最终影响聚类结果。因此,在DPC应用时,应选择合理的距离阈值,随机设置容易造成不合理的情况,因此采用WOA算法对该值进行优化,以筛选出更合理的DPC聚类中心。将若干rc随机值构建鲸群,选择聚类准确度为WOA适应度函数,并将WOA鲸鱼个体位置进行量子化,扩展搜索方向和细化搜索精度,通过WOA的捕食运动过程来求解最优rc,最后采用最优rc进行DPC的聚类中心选择。

图1 基于QWOA-DPC的聚类流程

3 实例仿真

为了验证QWOA-DPC算法在企业数据管理中的应用性能,分别从不同角度对三类企业进行数据管理应用分析,并进行实例仿真。其中WOA主要参数为:鲸群最大规模为500,b=1。

3.1 电网企业数据分析

采用QWOA-DPC算法对六个省份的供电企业2021年度电网数据进行聚类分析,分别从企业的发展前景、资产质量、输配电服务和收入业绩[14]4个维度进行聚类,其主要数据集如表1所示。

表1 电网数据集

采用QWOA进行距离阈值优化后,对于六个不同省份供电企业在四个维度得到的簇中心数目、簇内节点至簇中心的距离的标准误差之和、QWOA-DPC的迭代次数统计结果分别如表2所示。

表2 电力企业的聚类类别

表3 电力企业的聚类标准误差

表4 电力企业聚类的迭代次数

从表2可知,对于四个聚类维度,采用QWOA-DPC自适应得到的聚类类别数和表1的实际类别数均相同。在发展前景方面,只有E省电力企业有一个类别,其他省电力企业均分成了二类,六省电力公司的资产质量均分为了三类;输配电服务质量方面,B省和D省供电服务质量均处于较高的水平,其他四省服务质量有一定参差;在收入业绩方面,相比于其他三个维度,QWOA-DPC得到的聚类结果类别更稀疏,这可能是因为六个省份由于区域用电差距明显,而造成的不同区域收入业绩分散度高。

从表3可知,根据QWOA-DPC对四个维度的自适应聚类类别,在该类别下的样本点至簇中心的距离与实际样本点至簇中心距离的标准误差均较小。其中企业F的发展前景和收入业绩聚类效果最佳,企业B的资产质量聚类准确度最高,企业D的输配电服务聚类质量最高。

从表4可知,6个电力企业完成4个维度QWOA-DPC聚类的迭代次数较接近,这说明QWOA-DPC在不同电力样本的聚类效率方面表现较稳定。

3.2 电商用户聚类

采用QWOA-DPC算法对国内五家主流电商企业的用户数据进行聚类分析,对用户进行类别划分,以筛选出对企业发展有帮助的用户[15]。其数据集如表5所示。

表5 电商用户数据

分别采用QWOA-DPC算法对5个电商平台的用户进行聚类分析,结合聚类结果标签,统计聚类纯度(P)、标准互信息(NMI)和F值(F)。

表6 QWOA-DPC的聚类性能

从表6可知,对于五家电商企业,其QWOA-DPC的聚类纯度均在0.86以上,其中电商企业4的聚类纯度最高,达到了0.9062;NMI性能基本保持0.77以上,电商企业5的NMI值最高,达到了0.8012;6家电商企业的F值均达到0.85以上,电商企业4的F值最高为0.8970。横向对比发现,相比于其他4家企业,QWOA-DPC在电商企业4的聚类适应度最高。下面对测试样本进行QWOA-DPC聚类仿真,根据样本的原有类别实际值,统计测试样本的聚类性能。

表7 聚类准确率及时间

从表7可知,5家电商企业的聚类准确率均高于0.9,聚类时间基本在22s左右。根据表6和表7可得到电商企业的用户分类情况,根据用户类别制定维持优质用户的策略方案、挖掘潜在用户的营销价值,并分析影响用户消费的关键因素,为不同用户提供个性化服务,增强用户黏度,从而为电商企业的管理提供有效建议。

3.3 在线学习企业聚类

采用QWOA-DPC算法对某在线学习企业的资源数据进行聚类分析,该在线平台为开放式资源分享平台,用户既作为使用者又作为资源贡献者,在学习资源管理时,既要为用户提供个性化资源,又要对上传的资源数据进行类别划分,仅靠人力分类效率低下,自适应算法是企业数据管理的重要手段。[16]下面对表8中的五个专业类别资源进行聚类分析。

表8 在线学习数据集

对表8中的五类数据集进行QWOA-DPC性能仿真,五类资源集的词特征数量多。在聚类时,分别选择不同词特征数量参与聚类,结果如图2所示。

图2 不同词特征数量的QWOA-DPC聚类准确率

从图2可知,词特征量对QWOA-DPC的聚类准确率影响明显。在词特征量为5时,QWOA-DPC的聚类准确率均在0.7以下,这主要是参与聚类的特征过少,造成聚类准确度受到较大影响;在词特征量为10时,5类样本集的聚类准确率上升明显,均超过了0.9;而词特征量为15和20时,其准确率曲线基本重合。这说明在词特征数为15时,QWOA-DPC的聚类准确率基本达到稳定,再增加词特征参与聚类,对准确率上升帮助不大,但可能会增加QWOA-DPC聚类的复杂度。

表9 不同词特征数量的QWOA-DPC聚类召回率和F1值

从表9可知,在词特征量为5时,QWOA-DPC的聚类召回率和F1值均较低;而词特征量为15和20时,两者性能基本达到稳定。聚类稳定时,5类数据集性能差距并不大,这说明QWOA-DPC对在线学习资源的聚类稳定性较强。这表明在对用户上传资源进行归档时可以有效借助QWOA-DPC模型来实现自动归类,为在线学习平台数据管理提供有效帮助。

4 结论

本文采用DPC算法用于企业大数据聚类,并结合QWOA算法对DPC关键参数进行优化求解,有效提高了DPC聚类算法应对多属性多维度企业数据分析的适应度。实验证明,QWOA-DPC算法在电力、电商、教育三个行业的企业数据聚类中均表现出较高的聚类性能。

猜你喜欢
数据管理类别准确率
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
CTCS-2级报文数据管理需求分析和实现
高速公路车牌识别标识站准确率验证法
服务类别
论类别股东会