基于云计算的三层架构网络用户访问路长数据智能挖掘系统设计

2019-06-19 02:33范海峰王萌
现代电子技术 2019年11期
关键词:云计算数据挖掘

范海峰 王萌

摘  要: 基于普通计算的智能挖掘系统在对三层架构网络用户访问路长数据进行挖掘时,花费的时间过长。为解决上述问题,基于云计算设计一种新的三层架构网络用户访问路长数据智能挖掘系统。系统硬件结构主要分为上、中、下三层。最底层为云计算层,包括计算云、数据云和存储云;中间层为数据挖掘层,由工作流模块、数据加载模块、并行ETL模块、并行数据挖掘算法模块、并行结果显示模块五部分构成;最顶层为应用程序层,同时管理视图、内容提供器、资源管理器、通知管理器、活动管理器和算法库。软件流程主要分为确定挖掘目标、数据准备、数据挖掘、模式评估和结果显示五步。与基于普通计算的智能挖掘系统进行实验对比,结果表明给出的挖掘系统花费时间短。

关键词: 云计算; 三层架构; 网络用户; 用户访问; 数据挖掘; 智能挖掘系统

中图分类号: TN915.07?34; TP393                    文献标识码: A                 文章编号: 1004?373X(2019)11?0090?05

Abstract: The intelligent mining system based on common computing takes too long time to mine the long network user access path data of the system with three?layer architecture. Therefore, a cloud computing based new intelligent mining system with three?layer architecture of network user access path length data is designed. The hardware structure of the system is mainly divided into upper, middle and bottom layers. The bottom layer is cloud computing layer, including computing cloud, data cloud and storage cloud. The middle layer is data mining layer, and composed of workflow module, data loading module, parallel ETL module, parallel data mining algorithm module and parallel result display module. The top layer is application layer, and manages the view, content supplier, resource manager, notification manager, activity manager and algorithmic library. The software process is divided into the steps of mining objectives determination, data preparation, data mining, pattern evaluation and result display. The proposed system is compared with the intelligent mining system based on common computing by means of experiment. The results show that the proposed mining system has shorter mining time.

Keywords: cloud computing; three?layer architecture; network user; user access; data mining; intelligent mining system

0  引  言

数据挖掘指的是在知识库中发现海量数据之间的关系,对数据进行深入挖掘可以加快计算机行业的发展[1]。用户访问路长数据种类较多,具有多重功能,同时多具备扩展性和多功能性,对其进行数据挖掘可以给用户提供更好的使用体验[2]。

传统的用户访问路长数据智能挖掘系统多是对移动空间中的网络用户访问路长智能数据进行挖掘,在其他状态下挖掘效果较差,耗费时间较长,成本过高,不适合挖掘工作运行[3]。

2007年,“云计算”在计算机界出现,并得以迅速发展。目前对于云计算的定义和内涵有很多解释,但是国内普遍认为云计算是分布式计算、并行计算和网格计算的发展计算方式[4]。作为一种超级计算模式,云计算能够将互联网的所有资源联合到一起,采用协同合作的方式为用户提供各种服务[5]。云计算的核心服务就是海量数据计算,在编程、存储和管理方面,云计算改变传统计算方式,使人们获得信息的方式得到了根本改变[6]。

本文利用云计算针对三层架构网络用户访问数据设计一种新的智能挖掘系统,由数据选择、数据预处理、数据转换、数据挖掘、模式评估和结果解释等步骤组成。研究内容主要包括系统的硬件和软件,通过实验对系统的有效性进行研究。

1  系统硬件设计

本文基于云计算设计的系统硬件结构主要分为三层,按照上、中、下三个方向排列。最底层为云计算层,负责整个系统的计算工作;中间层为数据挖掘层,负责执行云计算得到的计算结果;最顶层为应用程序层,负责将得到的结果显示给用户。系统结构图如图1所示。

图1  网络用户访问数据智能挖掘系统硬件结构

云计算层中包括多个云计算平台接口,这些接口能够满足不同的平台需要;数据挖掘层起到承上启下的作用,能够将云计算层与应用程序层衔接到一起;应用程序层是用来与客户直接交流的层次,能够将数据挖掘层得到的所有资源传送出去[7]。

本文设计的挖掘系统拥有多个目标子系统,各个子系统紧密结合[8]。每个目标子系统都会拥有一个透明的界面,负责向用户展示服务项目,展示方法为界面展示,用户只需要通过界面就可以了解到数据挖掘的内容,不需要担心内部存储空间是否不足,也不需要明白系统的具体运行过程,只需要根据界面提示的要求进行操作即可[1],这种开发模式也为程序员提供了方便。数据挖掘层拥有多个预留接口,适用于各种云计算平台,数据挖掘层平台的各项开发程序都具有移植性[9]。

1.1  云计算层

本文设计的云计算平台由三个基础结构组成,分别是存储云结构、数据云结构和计算云结构,组成方式如图2所示。

图2中的云计算基础结构采用并行集群方式运行,存储云、计算云和数据云的管理系统为MDFS系统,这是一个分布式管理系统,具有很强的扩展性、可用性和伸缩性。智能挖掘系统挖掘的数据量大,而网络用户访问路长数据文件保留的只是较小文件[10]。MDFS系统使用的服务器多是廉价服务器,成本较低。

图2  云计算基础结构

用户访问路长数据文件较大,绝大多数文件都能达到10 GB以上,如果使用传统的挖掘系统进行挖掘,很容易受到存储空间影响。本文设计的挖掘系统能够将所有文件分割出来,将1 GB以上的文件分成几个KB文件,通过优化处理,管理小型文件,达到资源的合理使用[11]。

所有的网络用户访问路长数据都被组装到一起,统一放置在一个大型数据库中,便于挖掘系统使用。云计算层能够同时实现读和写两种操作,读取方式有随机读取和流读取两种,每次执行工作时,系统只会选取少量有需要的数据进行工作,分批处理,提高操作的稳定性[12]。

传统的挖掘系统在集群时很容易出现节点失效、工作异常的现象,本文设计的云计算平台可以处理多种数据,使异常节点停止工作。MDFS具备监控能力,定期检查系统的异常现象,提高容错能力。云计算层包括两个主服务器和多个块服务器,可以同时挖掘多种类型的网络用户访问路长数据,在确保资源可靠的情况下,主服务器和块服务器会同时工作。云计算层结构如图3所示。

图3  云计算层结构

观察图3可知,云计算层具有分层的能力,可以将一个大文件分成多个小文件,主服务器通过64位处理标识处理用户访问路长数据,并存在Linux文件中。每一个文件都会被存储在不同的Linux块服务器上,记录成不同的名字。主服务器和块服务器负责不同的工作,主服务器负责维护各类元数据,记录控制信息、当前位置。本文使用两个主服务器,能同时控制系统内部数据,加快系统的工作效率,即使一个主服务器出现问题,另一个服务器也能正常运行。用户程序与主服务器紧密相连,可直接操作。

1.2  数据挖掘层

数据挖掘层包括工作流模块、数据加载模块、并行ETL模块、并行数据挖掘算法模块、并行结果显示模块五部分,具体如图4所示。

图4  数据挖掘层

不同的模块負责不同的工作:工作流模块负责管理整个数据挖掘工作和总控调度;数据加载模块负责将用户访问路长数据反馈给其他平台,并向下一平台传递需要执行的任务;并行ETL模块负责执行云计算平台下发的命令;并行数据挖掘算法模块负责计算所有的用户访问路长数据,存放在MDFS中;并行结果显示模块负责显示运行的结果,将每一个结果展示给用户。

数据挖掘算法的具体实现过程为:用户将程序记在系统中,利用Map函数和Reduce函数挖掘数据之间的关系。

具体实现过程如图5所示。

图5  数据挖掘算法的实现

网络用户访问路长数据输入到MDFS文件中后,被分割成块,每块的大小和分割点都由用户决定。每一个被分割的数据都要被送入到集群系统中,通过分析系统中的节点数量来确定系统内存。主服务器负责分配不同的任务,并将分配结果记录在磁盘中。每个Map和Reduce节点都有不同的任务状态,主服务器会对它们的状态进行持续追踪。Map节点和Reduce节点负责不同的工作,Map节点负责处理数据,Reduce节点负责缓存数据。执行完所有任务后,节点会将得到的结果反馈给主服务器,用户可以直接得到操作结果。

数据挖掘层使用的体系结构为MDBT结构,一个主服务器下端有多个表服务器,根据负载量确定表服务器的工作内容。

数据挖掘层的体系结构如图6所示。

图6  数据挖掘层体系结构

观察图6可知,数据挖掘层的体系结构与其他系统的体系结构有着很大的不同,用户的读写程序不需要主服务器操控,三个表服务器集合到一起,将所有的网络用户访问路长数据编程到一起。

1.3  应用程序层

应用程序层包括视图、内容提供器、资源管理器、通知管理器、活动管理器、算法库六部分,呈并列模式,如图7所示。

图7  应用程序层组成模块

应用程序层的组成模块十分丰富,且具有扩展性,由网格、列表、按钮等基本组件组成,每个程序之间都可以共享资源。管理器可以提供信息资源,再对各类数据进行重新排版。算法库中包含多种算法,可编写各类应用程序。

2  系统软件设计

根据设计的三层架构网络用户访问数据智能挖掘系统硬件,给出软件流程图,如图8所示。

图8  网络用户访问数据智能挖掘系统软件流程图

由图8可知,本文基于云计算的三层架构网络用户访问数据工作流程较为复杂,可概括为如下几个步骤:

1) 确定挖掘目标。該步骤是实现数据挖掘的基本步骤,也是十分重要的一个步骤,虽然挖掘结果难以预测,但是可以根据挖掘信息确定挖掘目标,分析挖掘要求,判断挖掘程度。

2) 数据准备。确定好被挖掘的数据后,进入数据准备工作,搜集相关信息,然后对基本数据进行再加工,确保后期挖掘的质量。数据准备主要包括网络用户访问路长数据之间的转换工作、冗余数据的清理工作、数据与数据之间的集成工作、噪声去除等。做完准备工作后,要对数据的一致性进行检查,确保系统的完整性,删除空白数据和无效数据,对于一些丢失数据进行填补。

3) 数据挖掘。数据挖掘是整个软件流程的核心步骤,利用三层架构建立挖掘算法分析模型,确定出合适的挖掘算法,在不同阶段选择的挖掘算法是不同的,主要根据用户访问路长数据自身特点和用户需求来判断,再利用智能工具调整挖掘工作的精确程度。

4) 模式评估。挖掘结束后,找到无关数据和冗余数据,对这些不能满足用户的数据采用消除处理,对于无法消除的数据采用回退处理,重新选择,确保挖掘结果有意义。

5) 结果显示。将得到的结果在计算机界面上显示出来,反馈给用户,每一个显示的模式都要做到可视化,并且能够在实际业务中使用,满足用户的需求。

3  验证实验

3.1  实验目的

为了检测本文研究的基于云计算的三层架构网络用户访问路长数据智能挖掘系统的实际效果,与基于普通计算方法的三层架构网络用户访问路长数据智能挖掘系统进行对比,分析实验结果。

3.2  实验参数设置

设置实验参数如表1所示。

表1  实验参数表

3.3  实验结果与分析

根据上述参数进行实验,选用本文研究的基于云计算的三层架构网络用户访问路长数据智能挖掘系统和基于普通计算方法的三层架构网络用户访问路长数据智能挖掘系统,同时对数据进行挖掘,记录两个系统挖掘的时间,根据结果对两种系统的性能进行具体分析。得到的实验结果如图9,表2所示。

图9  挖掘时间对比图

表2  本文挖掘系统和普通计算挖掘系统的挖掘时间对比

由图9,表2可知,随着挖掘资源数量的增加,云计算挖掘系统和普通计算挖掘系统花费时间越来越长,但是云计算挖掘系统花费的时间远远小于普通计算挖掘系统花费的时间。

综上所述,本文研究的挖掘系统具有很强的针对性,能够在短时间内挖掘出有效的网络用户访问路长数据,提高了工作效率。

4  结  语

本文基于云计算研究的三层架构网络用户访问数据智能挖掘系统由云计算层、数据挖掘层和应用程序层三个层次组成,软件以数据挖掘为核心开展工作。本文研究的挖掘系统能够有效缩短挖掘时间,提高了挖掘效率。虽然本文研究的系统具备上述优点,但是并非全智能系统,未来需要在该领域进行更深入的研究。

注:本文通讯作者为王萌。

参考文献

[1] 王小燕.基于云计算的大数据挖掘平台设计[J].电子设计工程,2017,25(13):25?27.

WANG Xiaoyan. Design of large data mining platform based on cloud computing [J]. Electronic design engineering, 2017, 25(13): 25?27.

[2] 程发洲.基于云计算的大数据挖掘系统架构[J].东莞理工学院学报,2017,24(3):39?43.

CHENG Fazhou. The system architecture of big data mining based on cloud computing [J]. Journal of Dongguan University of Technology, 2017, 24(3): 39?43.

[3] 钟若武,王惠平.基于数据挖掘的高校云计算管理系统中特定数据查询技术[J].现代电子技术,2018,41(2):130?132.

ZHONG Ruowu, WANG Huiping. Data mining based specific data query technology for cloud computing management system in university [J]. Modern electronics technique, 2018, 41(2): 130?132.

[4] 曹小阳.基于云计算的大数据挖掘内涵及解决方案研究[J].数字技术与应用,2017(11):108.

CAO Xiaoyang. Research on the connotation and solution of big data mining based on cloud computing [J]. Digital technology and application, 2017(11): 108.

[5] 陈勇.一种基于云计算的大数据关联规律挖掘分析方法[J].無线电工程,2017,47(3):8?11.

CHEN Yong. Big data association rule mining analysis method based on cloud computing [J]. Radio engineering, 2017, 47(3): 8?11.

[6] 陈霄.基于云计算数据库的数据挖掘方法分析[J].无线互联科技,2017(14):48?49.

CHEN Xiao. Analysis of data mining methods based on cloud computing database [J]. Wuxian hulian keji, 2017(14): 48?49.

[7] 任伟.基于云计算的物联网数据挖掘模型研究[J].软件,2017,38(12):229?232.

REN Wei. Research on data mining model of Internet of Things based on cloud computing [J]. Computer engineering & software, 2017, 38(12): 229?232.

[8] 梁涛,侯振国,邹继行,等.基于云计算平台的风电场SCADA系统的设计与应用[J].高技术通讯,2018,28(1):8?14.

LIANG Tao, HOU Zhenguo, ZOU Jihang, et al. Design and application of a wind farm SCADA system based on cloud computing platform [J]. Chinese high technology letters, 2018, 28(1): 8?14.

[9] 邵彧,师晓利.基于遥感数据挖掘的智能地理信息系统设计[J].现代电子技术,2016,39(10):54?57.

SHAO Yu, SHI Xiaoli. Design of intelligent geographic information system based on remote sensing data mining [J]. Mo?dern electronics technique, 2016, 39(10): 54?57.

[10] 宋小芹,王莉丽,张卫星.基于机会认知的类脑智能数据挖掘机制[J].计算机仿真,2016,33(11):375?378.

SONG Xiaoqin, WANG Lili, ZHANG Weixing. Brain?based intelligent data mining opportunities cognitive mechanisms [J]. Computer simulation, 2016, 33(11): 375?378.

[11] 韩王莹.基于数据挖掘技术的人力资源信息管理系统设计[J].电子设计工程,2015,23(15):54?56.

HAN Wangying. The design of human resource management information system based on data mining technology [J]. Electronic design engineering, 2015, 23(15): 54?56.

[12] 王小燕,张丽敏.基于大数据的数据挖掘引擎研究[J].电子设计工程,2017,25(15):31?34.

WANG Xiaoyan, ZHANG Limin. Research on data mining engine based on big data [J]. Electronic design engineering, 2017, 25(15): 31?34.

猜你喜欢
云计算数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索