陈利萍
摘要:数据采集与存储、数据预处理、数据挖掘算法并行化、数据输出与应用等是数据挖掘的核心技术。在移动云时代,门户网站分布式数据挖掘云平台架构通常由数据源、大数据挖掘平台和客户端三大层级组成,并通过DNS超级代理、CDN云计算化、访问记录与日志分析、用户数据动态分发网络等实现数据挖掘与智能调度。
关键词:门户网站;分布式系统;数据挖掘;云平台架构
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2018)05-0184-02
在信息技术不断发展的背景下,多样化的数据信息通过网络进行传输,数据的类型和规模均呈现出“爆炸式”增长。数据规模的不断增长呼唤有效的数据处理和分析技术,只有能够整合数据资源并输出有效数据产品的技术才能够真正挖掘数据的价值,实现更高效的数据运用。数据挖掘技术作为一种在较高层次对数据进行高级查询和筛选的技术,具有数据记录、整理、分析、输出的能力,尤其是在云平台的支持下,数据挖掘被赋予了更强的计算能力和更大的存储空间[1]。通过云端进行更高效的数据运算和智能分析,能提升数据挖掘的报告质量和输出价值。
1 云时代数据挖掘的核心技术
1.1 数据采集与存储
数据采集是进行数据挖掘的基础阶段,采集技术分为线上和线下两种类型。线上数据采集主要通过网络终端后台实现,例如档案、日志、浏览、点击等相关信息[2];线下数据采集则通过传感器、磁卡片、RFID技术等进行,获取用户的线下行为数据,从而建立用户的行为数字数据库。数据采集后,还须存储已采集数据,如设备存储、数据库存储、云端存储等。
1.2 数据预处理
采集的原始数据是非标准化的数据,数据的类型、大小、字段等信息均不统一,这种数据特征不利于进行深度的数据挖掘,因此需要在数据采集和存储的基础上进行数据预处理。数据预处理需要对已采集和存储的信息进行筛选、分类、集合、转化等操作,进而将数据进行标准化加工,在一定格式规则下建立数据存储与管理系统[2]。
1.3 数据挖掘算法并行化
经过预处理,数据能够呈现出标准化格式,可采用挖掘算法进行并行化数据挖掘。数据挖掘的算法包括关联算法、聚类算法、数据分类算法和回归算法等,这些算法能够对标准化的数据进行更为深入的整合和分析,探索数据内部蕴含的规律和关联关系,输出具有一定逻辑的数据结果[2]。数据挖掘算法并行化,能提升数据挖掘效率,并与云平台的运行规则适配。
1.4 数据输出与应用
通过云平台分析的数据,可以依据数据内部的逻辑和规律输出为可视化的数据报告和结果——通过数据可视化与数据转化技术,数据挖掘输出的结果是规范的数据报告。需要指出的是,所有的数据输出结果均应可追索数据源,以便于报告使用者进行检查与学习。云数据挖掘报告可在政府政策研究、公共管理、行業研究、消费者行为研究等领域广泛应用[2]。
本文探讨门户网站对“云数据挖掘技术”的一种应用架构,即门户网站分布式数据挖掘云平台架构。
2 门户网站分布式数据挖掘云平台架构
云平台又称云计算平台,是能够进行数据存储、数据处理和数据整合的一个服务平台。云平台的基础服务内容包括IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)三个方面。通过三方面的服务内容,云平台能够将云端的数据通过架构层面的软硬件服务设施进行基础搭建,并在应用层进行智能化的资源调度、并行计算和数据存储,最后在平台层通过应用代码、定制代码等工具进行最终的数据挖掘结果输出,从而完成对海量云端数据的高效挖掘[1]。分布式系统是相对于集中式系统而言的一种弱化集中处理性能的内聚性软件系统。一方面,分布式系统具有内聚性,系统内部的数据库和不同模块能够进行自治化的数据处理,而不需要经过集中性的决策和处理过程,这在一定程度上能够提升项目完成效率;另一方面,分布式系统具备全局化的透明性处理功能,能够基于系统内部的资源整体进行资源的整合和调配,在用户需求和相关指令的基础上,对于系统网络内部的资源进行自由的调度,匹配出最高效的资源分配和数据处理流程,从而实现平台目标。目前最为流行的分布式数据挖掘云平台架构是Hadoop平台,其能够通过多样的系统工具实现高效的数据处理,并通过HDFS进行数据存储,在并行化模式下进行海量数据的处理和运算,通过强大的服务器来支持众多客户端应用,实现对硬件成本、维护成本的控制[3]。门户网站Hadoop分布式数据挖掘云平台架构主要由数据源、大数据挖掘平台和客户端三个层级组成。
2.1 数据源层
数据源层是门户网站数据挖掘的底层,其能够整合来自云平台上的多样化数据,涵盖非结构化数据、半结构化数据、结构化数据类型。在实现充分的云计算平台互联互通的情况下,数据源层能够对接多个云平台的数据,实现对于海量数据的整合和存储,从而为门户网站数据挖掘提供充分的数据保障。
2.2 大数据挖掘平台层
大数据挖掘平台层是门户网站分布式数据挖掘云平台架构的核心技术层,也是多样化数据处理工具的整合技术平台。预处理工具是对数据源数据进行标准化处理的工具,包括数据ETL(提取、转化和加载)工具、多模态实体识别工具等。(1)基于Hadoop分布式系统,MapReduce工具能够进行数据的分析式计算,在任务拆分的基础上,分配运算资源,从而进行高效的数据分析;(2)HDFS作为分布式文件系统,能够对海量数据进行存储,通过文件分割和数据节点分配来提升存储的集约性和安全性;(3)数据挖掘云平台还能够搭载数据流处理、复杂事件处理、R语言分析、联系分析处理(OLAP)等工具,进一步提升了门户网站数据挖掘的输出效果和运行效率。
2.3 客户端层
通过一系列大数据挖掘工具和相关技术,海量的云平台数据能够通过计算机语言进行高效处理。在客户端层,数据处理的结果能够通过可视化工具、人机交互技术、数据源技术等进行加工,从而转换成能够被人工识别和阅读的数据报告。在门户网站后台,客户端能够对接大数据平台,并进行数据结果的转化,门户网站后台得到的是经过可视化处理的数据报告,并能够通过数据源的接口获得相关数据的原始信息。
3 门户网站分布式数据挖掘云平台的实现机制
如图1所示,通过DNS超级代理、CDN云计算化、访问记录与日志分析、用户数据动态分发网络等实现数据挖掘与智能调度[2]。
3.1 DNS超级代理
对门户网站而言,数据挖掘的主要内容是对于用户浏览行为和点击数据的分析。在用户对门户网站进行访问之后,通过网址和域名进行用户行为的采集,获取用户的地理位置、连接入口、设备等相关数据。通过DNS(域名系统)超级代理能够将域名系统与云平台进行有效对接,从而迅速完成对门户网站相关数据的采集和存储。在部分云平台内部,还能够实现IP地址代理,更有利于加强对服务器和客户端的对接,实现更有效的云计算。
3.2 CDN云计算化
CDN是指内容分发网络(Content Delivery Network),其能够将运算的内容进行合理的分配,按照数据处理和计算的状态,将相关内容分发到更为空闲的网络通道,从而避免网络传输的拥堵,提高处理效率。CDN云计算化,能够通过云计算技术对网络资源和计算能力进行整合调配,从横向和纵向上对整个处理过程进行技术的扩展,从而提升系统运行效率[4]。
3.3 访问记录与日志分析
门户网站分布式数据挖掘云平台能够在资源对接的基础上,对用户的网站访问记录和后台日志进行一体化存储,相关数据全部收录到数据仓库中,以便于深度数据挖掘。在日志分析和数据预处理的基础上,云平台还能够进行分布式的数据挖掘,输出可提升门户网站传播效果和阐述用户行为规律的数据报告。
3.4 用户数据动态分发
CDN实现了站点的全网覆盖,网络内容分发的过程也是一个可以动态调整的过程。在门户网站传统的网络服务中,服务的范围集中于某一特定区域,当出现网络中断或网络拥堵等情况时,会出现该区域的网络瘫痪。在分布式数据挖掘云平台支撑下,CDN能够合理安排分发的网络通道,即使某一节点的网络出现故障,也能够通过其他可行网络的传输保障网站访问和数据采集的正常进行[5]。
由此可见,门户网站分布式数据挖掘云平台不仅能够在日常运行的基礎上完成数据采集、数据处理和数据挖掘的工作,还能够实现智能调度,极大程度的提高了门户网站的运行效率,优化了用户访问体验。
4 结语
在大数据、云计算、机器学习等众多信息科技不断创新和发展的背景下,门户网站分布式数据挖掘云平台技术能够实现数据挖掘、提升门户网站的运行效率。需要指出的是,由于数据就是资产,数据挖掘是创新和发展的重要工具,因此,门户网站在关注数据挖掘的技术与效果的同时,还要关注用户的隐私保护,力避数据安全风险。
参考文献
[1]王小妮,高学东,倪晓明.基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报(自然科学版),2011,(5):19-24.
[2]程发洲.基于云计算的大数据挖掘系统架构[J].东莞理工学院学报,2017,(3):39-43.
[3]陈志雄.基于hadoop平台的分布式数据挖掘系统的设计探讨[J].数字技术与应用,2017,(1):179.
[4]王微.一种基于云计算的数据挖掘平台架构设计研究[J].电子制作,2017,(15):82-83.
[5]江舞山.基于网格的分布式数据挖掘体系结构的研究[D].重庆大学,2006.