王婷婷 贺安坤 马靖 孙求知 李力强
摘 要:分布式数据挖掘作为数据挖掘技术中的一种,能够对局部知识进行整合,从而获取全局知识,最终提高决策水平。鉴于此,本文对分布式数据挖掘概念进行简要阐述,并在此基础上探讨两个典型分布式数据挖掘系统及特点,旨在进一步提高分布式数据挖掘质量,最大限度地发挥其应用价值。
关键词:分布式;数据挖掘;应用价值
中图分类号:TP311.12 文献标识码:A 文章编号:1671-2064(2018)08-0035-02
未来计算机技术与通信技术的快速发展,相继地拓展了移动网、互联网、广电网等网络及其衍生业务,从而导致大量分布式数据的形成,这些数据能够为决策提供相应的依据。传统集中式的数据挖掘技术因其受到网络平台的兼容性与易购性等影响,使其难以适应分布式计算环境,由此而使得分布式的数据挖掘技术便运用而生。但由于分布式的数据挖掘技术应用尚不广泛,大部分并不了解其系统及应用状况,因此需要对分布式数据挖掘技术进行如下探讨,以最大限度地提高分布式数据挖掘的质量。
1 分布式数据挖掘概念
1.1 分布式数据挖掘定义
分布式数据网挖掘的定义为基于网络空间的分布式计算环境的数据挖掘,此外人们还广泛地认为分布式的数据挖掘主要是基于分布式计算方式挖掘网络空间内的分布式数据,并且通过整合局部知识的方式来获取全局知识,以此来为决策提供安全可靠的依据。数据挖掘质量的高低,主要取决于局部知识整合方法和局部知识质量,在局部知识质量较高情况下必然可以保证数据挖掘质量。
1.2 分布式数据挖掘框架
挖掘原则为“全局分布、局部集中”,主要是通过站点间纯粹独立挖掘方式,但并不都是独立挖掘,数据挖掘可以利用某些站点进行。具体框架图如图1所示。
2 两个典型分布式数据挖掘系统分析
2.1 PADMA系统
PADMA体系主要由用户接口、数据挖掘代理以及协调器三个部分构成。其中用户接口的主要功能是确保用户与挖掘系统之间的信息交换,协调器在进行分布式数据挖掘时是接受用户标准SQL表示的查询,并且通过广播的方式对各个代理进行通知。各个代理在此基础上提供其提取到的与该查询相关信息,最后通过协调器汇集起相关信息,并将相关信息提供给用户数据挖掘代理模块,使其用于数据访问,并在数据访问中获得有效的高级信息。而数据挖掘代理主要是对某个挖掘活动时指定予以完成,并通过协调器使数据挖掘代理对信息进行共享。协调器在PADMA系统中的作用在于对各个代理进行协调,然后再将其挖掘到的有效信息向用戶接口提供,最终便能够实现从用户到代理之间的反馈工作。除此之外,PADMA在实际应用中包括并行数据分析、并行数据查询和访问、交互式聚类数据可视化三个功能。
2.2 CDM系统
CDM系统对学习新方法进行了归纳,主要在分布式垂直划分特征空间中进行。其在实际应用中的基本思想按照分布式的方式对待学习函数采用一组较为合适的基函数进行表示。该系统在实际应用中能够允许各个数据点选择不同的学习算法,从而便能够生成整个数据集的全局分布式模式,最后分解整个建模问题。
一般来说,CDM为两层体系结构,但其在实际应用的过程中能够扩充到多层。在建立该体系结构的过程中是将归纳学习分解成局部与非局部的基函数求解基础上,因而系统便为每个数据点提供了由局部观测变量的定义,然后将其用于计算基函数与局部分析等相关程序。最终通过各个数据点选择通信方式、学习算法以及处理方法,能够为每个程序分配一个自治度,此项过程便为软件数据挖掘代理。通常来说,各个软件代理在实际应用中属于独立无关的状态,但如有必要也会进行相互协作。
3 分布式数据挖掘系统特点
3.1 便于通讯工作
在本系统运行的过程中,有效的分布式挖掘系统能够在各个站点之间进行通讯,通讯工作的完成是基于较高层次。并且该分布式数据挖掘系统中所具有的通讯功,能够对原始数据、挖掘请求及其参数、挖掘知识等进行方便处理,甚至可以传送挖掘算法本身。
3.2 实现集中控制
为了能够对分布式的数据挖掘系统进行更为方便地实现,就必须确保用于集中控制的站点。为了能够获得全局知识,在实际运行中需要所有的站点能够进行大量广播,此种方式会增加其开销与难度。除此之外,在一部分分布式的数据挖掘算法的过程中还需要对全局范围内进行决策,在引入全局控制站点后便能很好地支持系统的灵活性与可扩展性。
3.3 挖掘系统灵活
分布式数据挖掘系统在实际应用中能够对用户的各种数据挖掘要求进行灵活地响应,例如能够挖掘不同位置与不同大小的数据库等。
3.4 实现移动挖掘
在一部分数据挖掘算法的过程中,需要挖掘算法顺序访问各个站点中的数据集,这就要求在采用分布式的数据挖掘系统中必须能够支持挖掘算法的移动性。这就表明,在本站点当一个算法在一个站点上完成了数据挖掘任务后,便能够继续移动至其它站点上进行数据挖掘工作。
3.5 实现知识共享
在各个站点之间实行分布式挖掘的过程中必须要确保采取能够被理解的知识形式,主要原因如下:其一,由于在分布式的数据挖掘中通常还包括面向知识挖掘,因此即使在本地知识基础上仍然需要对全局知识进行挖掘,因而这就表明必须在各个站点间采取同一理解的知识表达方式进行协同挖掘工作;其二,由于各个站点上用户可能还需要对其他站点上的知识进行访问,这就需要在实际应用中采取通用的知识表示方式。
3.6 保证运行安全
在采取分布式系统的过程中,进行行数据挖掘时需要严格确保数据的安全性。需要考虑到以下几点:其一,数据存取的权限控制;其二,对知识存取与传送的安全;其三,挖掘任务的设置权限。
3.7 容易扩展
由于近年来不断地出现了数据挖掘理论和算法研究新的知识形式与数据挖掘算法,因而在实际应用的过程中为了能够确保分布式数据挖掘系统的可持续利用,就需要将分布式数据挖掘系统设计成容易扩展的开放式系统。这项工作便能够使新的算法与新的知识形式出现时,该系统仍然能够通过自身的扩展性功能加入这些新的知识形式与算法中,不需要对系统进行重新编写或者构造。
4 结语
综上所述,本文对分布式数据挖掘技术定义及概念进行了简要的分析,并在此基础上对现阶段两种主要的分布式数据挖掘系统及特点进行了深入探讨,主要目的在于进一步提高分布式数据挖掘的质量与效率。但是需要注意的是,对于新建的分布式数据挖掘系统而言,因其与传统相关系统有所不同,这就要求在应用该系统前对其进行仿真实验,并对系统的可行性进行验证,在确保该系统具有高可靠性后方能正式使用。
参考文献
[1]张良防.基于用户行为的数据挖掘系统的设计与实现[D].哈尔滨工业大学,2017.
[2]尚斯年.基于云计算分布式技术的海量AIS数据挖掘系统设计与实现[D].大连海事大学,2017.
[3]万新贵.分布式数据流聚类算法研究与应用[D].南京邮电大学,2017.
[4]余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012,6(01):46-57.
[5]王建君.分布式数据挖掘研究[J].电子商务,2017,(07):41-42.
[6]贾哲.分布式环境中信息挖掘与隐私保护相关技术研究[D].北京邮电大学,2012.