沈永梅 王晖
摘要:对于数据拥有者来讲,数据挖掘服务的提供能够为其开展相关工作提供较大的便利。因此,基于这种认识,本文对一种基于Hadoop的大数据挖掘云服务进行了分析,并且对其在网页数据信息挖掘和分析上的应用展开了探讨,从而为关注这一话题的人们提供参考。
关键词:Hadoop 大数据挖掘 云服务 应用
中图分类号:TP311.5 文献标识码:A 文章编号:1007-9416(2016)06-0000-00
1基于Hadoop的大数据挖掘云服务
1.1云服务架构分析
云服务WMCS是新一代基于Hadoop的数据分析和挖掘平台,其集成了多种基于Hadoop的数据挖掘算法,能够为政府机构、企业进行数据挖掘提供支持。而所谓的Hadoop,其实就是可以进行稳定且可靠的接口及数据服务提供的平台,可以实现MAP/Reduce算法,并且能够将文本划分成可重复执行的若干个单元。在整个平台中,MAP/Reduce算法、分布式文件系统(HDFS)和分布式按列存储数据库(HBase)将始终贯穿。利用这些算法和数据库结构,系统能够以较高传输率进行大量数据访问,并且能够实现文本数据的分流访问[1]。此外,Hadoop平台也能够实现数据分解,并且完成大量数据的分析和处理。
从云服务WMCS体系结构上来看,该平台主要由用户管理模块、数据管理模块、任务管理模块和结果显示模块等几大模块构成。采用分布式文件系统和分布式按列存储数据库,平台将能进行大量数据的存储,并且确保用户能够进行数据的快速访问。利用Web界面,平台则能向用户展示数据挖掘结果。利用用户管理模块,平台则能够对用户进行权限管理,从而使用户只能进行有权限的数据的访问和管理,并且进行相应的数据挖掘功能的使用。利用任务管理模块,用户则能够进行挖掘任务和监控任务进度的查看。而平台的各个模块需要与后台挖掘系统进行对接,才能够实现各种功能,并且最终利用图形进行算法分析结果的展示。
1.2数据挖掘的实现
从数据挖掘实现角度来看,云服务WMCS是并行数据挖掘系统,其中含有40多种数据挖掘算法,能够利用多种算法完成数据的预处理操作。在该系统中,包含有文本处理与建模系统、信息采集系统、数据挖掘系统和前台接口。在系统运行的过程中,信息采集系统会将数据存储至分布式文件系统中,然后将网页描述信息存储至分布式按列存储数据库中。而信息采集需要以基于MAP的并行网络爬虫为主体,可以为多种采集模式提供支持。在文本预测及建模系统中,则包含包括中文分词模型建模、文本特征提取等多种文本挖掘预处理模块[2]。利用数据挖掘系统,则可以利用情感分析算法、关联分析算法、摘要提取算法等多种数据挖掘算法完成海量数据的挖掘。而利用MAP,则可以使这些算法独立运行。此外,在并行数据挖掘系统中,还包含基于内存计算框架Spark的数据挖掘算法,可以为用户提供开放服务。
2基于Hadoop的大数据挖掘云服务的应用研究
2.1应用介绍
利用Hadoop的大数据挖掘云服务WMCS,可以从网络数据信息中挖掘出有效的信息,从而为政府开展相关管理工作提供便利。就目前来看,社会热点和重大新闻在网络上的传播速度较快。政府管理者在开展民情调查和社会调查等工作时,可以借助互联网数据挖掘技术进行管理决策的制定。而使用云服务WMCS,则可以利用较为简便的数据挖掘流程进行网络事件的话题分析。同时,通过简单的配置,系统分析结果也将以多维度图形呈现出来,从而为用户开展相关管理工作提供便利。
2.2应用流程
以2015年年末的国内热点事件“习马会”为例,如果用户想要了解该话题的分布情况,就可以直接在系统界面上输入“习马会”这一关键词。而通过修改采集网页数量等参数,用户就可以完成系统的简单配置。在此基础上,系统将开始运行挖掘任务。具体来讲,就是以关键词为检索项进行搜索请求的发出。根据这一请求,搜索引擎进进行相关网页的搜集,然后返回设定数量的网页。所以,从云服务WMCS的应用流程上来看,系统运行是一种话题分析流程。在系统运行的过程中,后台将同时进行多个子话题的并行预处理,然后利用基于单扫描增量式聚类的并行主体发现算法完成数据的挖掘分析。通过将半结构化的原始网页处理成稀疏词频向量,系统将能利用并行主题发现算法实现向量的主题发现,然后进行网页文档群隐含话题的自动挖掘。完成挖掘流程之后,系统就可以利用多维度呈现技术进行用户关心热点事件分析结果的呈现。
2.3应用效果
从云服务WMCS的应用效果上来看,系统将利用饼图进行“习马会”话题分析结果的展示。在执行的话题分析任务中,分析的网页将形成7个聚类,每个聚类所占的比例也将得到显示。而在饼图的下方,也会出现用于展示聚类内部网页文档标题、内部关键词和相关统计信息的表格。针对网络中大量存在的网页,云服务WMCS还能够进行话题关键词检索服务的提供。通过对超过167万网页进行话题分析,系统将完成超过100GB原始数据量的分析,并且最终形成5002个话题类。而通过将话题的关键词进行倒排索引,则能够为用户提供关键词检索服务。
参考文献
[1]邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2015,07:103-108.
[2]余永红,向晓军,高阳等.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012,01:46-57.