基于K-medoids聚类的异构环境多源烟草物流数据集成方法研究

2024-12-31 00:00:00郭光根何蕊张玉军
科技创新与应用 2024年35期

摘" 要:由于烟草物流行业在运营过程中涉及的数据来源极其广泛且多样,数据不仅格式各异、结构复杂,而且往往分散存储在不同的信息系统中,导致物流数据在集成的过程中,出现数据吞吐量较低的现象。针对上述现象,提出基于K-medoids聚类的异构环境多源烟草物流数据集成方法。通过欠采样平衡类别分布,利用数据相关性和阈值清洗剔除冗余信息,提高异构环境多源烟草物流数据质量,设计基于K-medoids聚类的烟草物流数据集成框架,使用迁移学习动态调整源域权重以优化目标域聚类性能,引入带有相似性约束的新数据点作为初始聚类中心,实现异构环境多源烟草物流数据的有效集成。实验结果表明,设计方法通过聚类算法能够将来自不同数据源的数据进行有效分组和整合,降低数据处理的复杂性,提高数据集成的吞吐量。

关键词:K-medoids聚类;异构环境;多源数据;烟草物流数据;数据集成方法

中图分类号:TP311.1" " " 文献标志码:A" " " " " 文章编号:2095-2945(2024)35-0039-05

Abstract: Due to the extremely wide and diverse data sources involved in the operation process of the tobacco logistics industry, the data not only has different formats and complex structures, but is also often scattered and stored in different information systems, resulting in data throughput during the integration process of logistics data Low phenomenon. Aiming at the above phenomena, a multi-source tobacco logistics data integration method based on K-medoids clustering in heterogeneous environments is proposed. By undersampling to balance category distribution, using data correlation and threshold cleaning to eliminate redundant information, we improve the quality of multi-source tobacco logistics data in heterogeneous environments. A tobacco logistics data integration framework based on K-medoids clustering is designed, and transfer learning is used to dynamically adjust source domain weights to optimize target domain clustering performance. New data points with similarity constraints are introduced as the initial clustering center to achieve effective integration of multi-source tobacco logistics data in heterogeneous environments. Experimental results show that the design method can effectively group and integrate data from different data sources through clustering algorithm, reducing the complexity of data processing and improving the throughput of data integration.

Keywords: K-medoids clustering; heterogeneous environment; multi-source data; tobacco logistics data; data integration methods

在当今日益复杂的商业环境中,多源数据集成已成为提升业务效率和决策质量的关键技术之一。特别是在烟草物流领域,由于涉及多个环节、多个参与方以及多种数据类型,数据集成显得尤为重要。然而,传统的数据集成方法在面对异构环境时往往显得力不从心,无法有效处理来自不同系统、不同格式、不同质量的数据。

文献[1]提出基于云计算的建筑测绘数据集成管理方法,利用云计算的弹性伸缩和分布式处理能力,对建筑测绘产生的海量数据进行有效管理和集成。通过云计算平台,实现对数据的集中存储、统一管理和高效查询。文献[2]提出基于随机森林的多源小样本数据快速集成方法,从多个数据源中收集小样本数据,使用经过预处理的数据集构建随机森林模型,利用模型对多源小样本数据进行分类和预测。模型根据输入数据的特征将其划分为不同的类别,根据分类或预测结果,对多源小样本数据进行集成。

尽管文献[1]和文献[2]分别从不同角度对数据集成方法进行了探索,但它们在处理异构环境多源数据时,对异构数据的处理能力有限,无法有效处理来自不同系统、不同格式的数据。因此,本文提出基于K-medoids聚类的异构环境多源烟草物流数据集成方法,旨在实现烟草物流领域异构环境多源数据的有效集成,为烟草物流的决策分析和业务优化提供有力支持。

1" 异构环境多源烟草物流数据预处理

在烟草物流行业中,数据往往来自多个不同的系统、格式和结构,这些异构数据可能包含错误、重复、缺失或不一致的信息。因此,本文首先对异构环境多源烟草物流数据进行预处理。在烟草物流数据中,由于数据采集偏差、业务特性等,可能会出现某些类别的数据样本远多于其他类别的情况,导致后续在集成训练时偏向于多数类,而忽略少数类[3]。为了处理异构环境多源烟草物流数据中类别不平衡的问题,本文采用欠采样方法,通过减少多数类样本的数量来平衡不同类别之间的样本分布。

假设原始数据集中多数类样本的数量为Nd,少数类样本的数量为Ns,通过欠采样技术使得多数类样本的数量减少到Ny的过程可以用式(1)进行表示

Ny=Nd·Ns , (1)

式中:Ns表示异构环境多源烟草物流数据的欠采样率。

利用随机抽样算法从Nd个多数类样本中随机抽取Ny个样本进行保留,将保留的多数类样本和原有的少数类样本组合起来,形成新的数据集。新的数据集包含Ny个多数类样本和Ns个少数类样本,其中Ny+Ns=N。

将不同类别的样本均衡分布后,样本中的数据不仅格式各异,而且可能存在大量的重复或无效信息。因此,对异构环境多源烟草物流数据进行冗余处理,识别并剔除重复和无效的数据,在不损害数据原始性和真实性的前提下,降低数据处理和传输的复杂度。针对烟草物流数据的异构特性,本文采用一种基于数据相关性的冗余处理方法。假设N个样本中,有来自n个不同数据源的烟草物流数据,表示为X1,X2,K,Xn。对数据进行清洗,设置一个阈值范围[T1,T2],若某个数据点的值不在此范围内,则视为无效数据。清洗后的数据可以表示为

Xq= {x∈Xi│T1≤x≤T2} 。 (2)

将清洗后的数据融合成一个统一的数据流,如式(3)所示

Yi=f(Xq) , (3)

式中:f表示映射函数,将每个数据源的数据转换到统一的度量空间。

为了识别和剔除冗余数据,使用皮尔逊相关系数度量2个数据集之间的相关性。对于数据集Yi和Yj,其皮尔逊相关系数rij可以表示为

式中:Y表示数据集Yi和Yj中的第k个数据点;j表示它们的平均值;m表示数据点的数量。如果rij接近1,则表示2个数据集高度相关,可能存在冗余,根据数据特点,选择保留其中一个数据集。

经过上述的数据预处理步骤,处理了异构环境多源烟草物流数据中类别不平衡问题,并识别及剔除了数据中的重复和无效信息,提高了数据的质量,为后续的数据集成奠定了坚实的基础[4]。

2" 基于K-medoids聚类设计烟草物流数据集成框架

本文提出一种基于K-medoids聚类的集成算法框架,在异构烟草物流数据环境中构建准确聚类模型时,充分利用多源域数据,通过迁移学习来探索不同数据源之间的关联性和互补性,从而优化目标域上的聚类性能。

假设存在一个包含多个源域和目标域的数据空间K,其中,源域A中包含大量带有特征标记的样本,目标域B中可能包含较少或没有标记的样本[5]。源域数据集中存在M个中心点,这些中心点代表M个不同的簇。利用K-medoids聚类算法在源域A上构建初始聚类模型,也就是K-medoids算法通过迭代的方式寻找源域A中的M个中心点。对于源域数据集A中的每个数据点Ai,被分配给离它最近的medoids所代表的簇Cm,其中m=1,2,K,M。此时的目标函数是最小化所有点到其所属簇的medoids的距离之和,可以用式(5)进行表示

minimize, (5)

式中:d表示数据点Ai与其所属簇C的medoids之间的距离。

在构建面向目标域的聚类模型时,为目标域和多个源域的初始样本分配权重值。将目标域样本权重初始化为co′={co1,co′2,K,co′n},co′i是第i目标域样本的权重,将源域样本权重初始化为w={w1,w2,K,wm},wj是第j个源域样本的权重。通过多次迭代学习,根据梯度下降优化算法更新权重值,如式(6)所示

cj,t+1=wj,t-" , (6)

式中:t表示迭代次数;a表示学习率;L表示损失函数。

随着迭代过程的进行,本文根据多源域与目标域之间的损失值来评估不同源域对目标域聚类任务的贡献度[6]。通过计算多源损失,筛选出与目标域贡献度最大的源域,将其视为目标源类[7]。这一过程可以用式(7)进行表示

Ls=Lm+wL,j,tLj , (7)

式中:Lm表示目标域的损失;Lj表示第j个源域的损失;g表示源域的数量;wL,j,t表示第j个源域损失的权重。

不仅要考虑源域当前的损失值,还要考虑其在连续迭代中的变化趋势。如果源域的损失在连续迭代中持续下降,那么认为这个源域对目标域聚类任务的贡献在增加,因此应该增加其权重[8]。相反,如果源域的损失在连续迭代中保持不变或上升,那么认为这个源域对目标域聚类任务的贡献在减少或不再显著,因此应该减少其权重。基于上述考虑,对式(7)进行改进,得到以下公式

wL,j,t=wL,j,t·exp-λ· , (8)

式中:λ表示衰减率参数:1表示指示函数,当Lj,tlt;γ时取值为1,否则取值为0,确保只有当源域的损失小于阈值γ时,其权重才会被更新。

通过这种方式,可以更加精确地控制源域权重的更新,使得对目标域聚类任务有显著贡献的源域能够获得更高的权重,而贡献较小的源域则会被逐渐淘汰,有助于构建一个更加高效和准确的聚类模型,以适应复杂多变的异构烟草物流数据环境。

3" 选取聚类中心初始值集成烟草物流数据

由于传统的K-medoids聚类算法随机选择初始的medoids,这种做法可能会导致选择的medoids过于接近,从而增加算法收敛到稳定解所需的迭代次数。为了改进K-medoids聚类算法中聚类中心点初始值的选择过程,本文提出一种基于约束条件的medoids初始化方法。向已知的异构环境多源烟草物流数据集中引入V个新的数据点,并为这些新数据点制定2个关键约束条件。

第一,新加入的数据点必须与异构环境多源烟草物流数据集中的已有数据保持一定的相似性,确保算法更快地定位到可能的最优聚类中心[9]。

第二,新加入的V个数据点之间必须保持较低的相似性,确保初始的medoids在异构环境多源烟草物流数据空间中分布得更加均匀,减少算法在迭代过程中需要大幅度调整medoids位置的可能性。

基于上述2个约束条件,本文烟草物流数据集成过程示意图如图1所示。

选择出V个符合要求的新数据点,并将它们作为K-medoids聚类算法的初始medoids,运行K-medoids聚类算法将异构环境多源烟草物流数据集中的数据点分配给不同的聚类。在每次迭代中,根据每个数据点与当前medoids之间的距离,将数据点分配给距离最近的medoids所代表的聚类,通过替换当前的medoids为同一聚类中的其他数据点来优化聚类结果[10]。如果在连续多次迭代中,medoids的选择没有发生变化,代表算法已经收敛到稳定解,则停止迭代,此时的烟草物流数据聚类结果即为烟草物流数据的集成。由此,完成了基于K-medoids聚类的异构环境多源烟草物流数据集成设计。

4" 实验

4.1" 实验准备

为了全面验证本文提出的集成方法的可行性,设计一系列实验。通过集成多个不同来源、不同格式、不同结构的烟草物流数据,旨在实现数据的高效整合、无缝共享和充分利用,为烟草物流管理和决策提供有力支持。

首先进行实验环境设置,在硬件设备方面,采用型号为Dell PowerEdge R740的服务器,配备Intel Xeon Gold 6248R处理器和128 GB DDR4 ECC REG RAM内存,保证多源烟草物流数据处理的高效性和稳定性。在网络设备方面,选择型号为Cisco Catalyst 3850的交换机,构建实验网络,利用Cisco ASR 1000路由器将网络间的路由进行转发和流量控制。在软件环境方面,配置以MySQL 8.0为数据库管理系统来存储和管理多源烟草物流数据,借助Talend Open Studio作为ETL工具实现数据的抽取、转换和加载,利用Apache NiFi 1.15.0进行实时数据集成,并通过Python 3.9及其数据处理库对数据进行清洗、转换和分析。具体的实验环境参数设置见表1。

在实验环境搭建完成的基础上,进行数据准备。模拟多源烟草物流数据,包括来自不同供应商、不同物流环节、不同系统平台的数据见表2。

在进行烟草物流数据的集成工作时,由于数据来源于多个异构系统,要充分了解每个数据源的特点,包括数据格式、字段定义等,之后对模拟的数据进行清洗和预处理,去除重复数据、错误数据、无效数据等,确保数据的质量和准确性。将不同来源、不同格式、不同结构的数据转换为统一的格式和标准,启动数据集成工具,执行数据集成操作,将多源烟草物流数据集成到目标数据库中。在数据集成的过程中,可能会出现各种错误和异常情况,因此,要建立完善的错误处理和日志记录机制,及时发现、记录并解决问题。

4.2" 实验结果及分析

为了验证本文方法在异构环境多源烟草物流数据集成方面的优越性,将本文方法与文献[1]和文献[2]中提出的类似方法进行对比分析。对比3种方法在数据集成过程中的数据吞吐量,得到如图2所示的对比实验结果。

根据图2可以看出,本文方法在数据集成过程中的数据吞吐量表现优于文献[1]和文献[2]中的方法。从各个时间段的数据吞吐量来看,本文方法在每个时间段内的吞吐量都高于文献[1]和文献[2]中的方法。特别是在20~30 s的时间段内,本文方法的数据吞吐量达到了140 MB/s,明显高于其他2种方法,表明本文方法在数据集成过程中具有更高的处理效率和性能。从平均数据吞吐量来看,本文方法的平均吞吐量为133 MB/s,文献[1]和文献[2]中的方法平均吞吐量分别为109 MB/s和97.8 MB/s,进一步验证了本文方法在数据集成方面的优越性,不仅体现在瞬时处理速度上,更在长时间的稳定运行中保持了高效的数据处理能力。综上所述,可以得出结论:本文提出的数据集成方法在数据吞吐量方面具有明显的优势,可以满足异构环境多源烟草物流数据需要高效处理大量数据的需求。

5" 结论

本文通过K-medoids聚类算法,成功地将来自不同系统、不同格式、不同质量的烟草物流数据进行了有效集成,为后续的决策分析和业务优化提供了有力支持。在未来的研究工作中,我们将继续深化对K-medoids聚类算法的研究,探索其在处理更加复杂和异构数据时的性能表现。同时,我们将结合烟草物流的实际业务需求,开展更多关于数据集成后的应用研究,如基于集成数据的物流路径优化、库存管理等。此外,随着人工智能和大数据技术的不断发展,我们也将积极探索将更多先进的技术手段引入烟草物流数据集成中,以提升数据处理的效率和准确性。

参考文献:

[1] 王延堂.基于云计算的建筑测绘数据集成管理方法[J].信息与电脑(理论版),2024,36(2):156-158.

[2] 何昀,张川,张继夫,等.基于随机森林的多源小样本数据快速集成方法[J].信息与电脑(理论版),2024,36(1):52-54.

[3] 张海彬,罗玉林,区云帆,等.基于中铁贵州智慧社区管理的多源异构数据集成方法[J].建筑技术,2023,54(22):2808-2813.

[4] 沈川.基于K-Means算法的建筑工程进度数据集成方法[J].信息与电脑(理论版),2023,35(22):66-68.

[5] 陈超,胡才亮,崔钰,等.基于时空聚类的多源异构时序数据集成方法[J].电子设计工程,2023,31(20):168-171,176.

[6] 范洪斌.基于关联规则算法的工业生产数据智能集成方法[J].数字通信世界,2023(6):57-59.

[7] 祝鹏,郭艳光.基于K-medoids聚类算法的多源信息数据集成算法[J].吉林大学学报(理学版),2023,61(3):665-670.

[8] 杨航,卢伟开,黄海英,等.基于深度学习的IT服务综合监控系统异构数据集成方法[J].微型电脑应用,2023,39(3):68-70.

[9] 李跃先,殷传涛,魏亿钢.基于本体与中间件的科技资源数据集成方法[J].标准科学,2021(5):21-28.

[10] 盛静文,于艳丽,江开忠.基于K-medoids聚类的贝叶斯集成算法[J].智能计算机与应用,2021,11(2):84-87.