华 英
(苏州市职业大学 计算机工程学院,江苏 苏州 215014)
在互联网及物联网不断发展的过程中,我国已经处于信息及数据超量的信息时代中。如何对此产品产生的大量数据进行挖掘,是现代运营商需要解决的问题。自从云计算技术的出现,为数据挖掘技术提供了更好的发展方向。云计算可以实现资源动态分析、虚拟化功能,可以为应用程序高性能开发提供帮助。本文所设计的平台能够降低企业和运营商在数据挖掘方面的投入,还能够促进挖掘业务的推出,有效提高产品的收益。
数据挖掘技术就是利用识别技术、统计学、学习机器、人工智能等技术,采取聚类、分析预测、特征化、关联性数据等分类方法,从大量、随机、不完整、模糊、噪声数据中找出有价值的数据和信息[1]。
云计算是商业计算中使用比较多的技术,它就是将各种数据储存在计算机资源结构池中,这样才能满足系统自行建立信息储存空间和计算、服务空间等。一般云计算包括软件即服务(Software as a Service,SaaS)、基础设备服务(Infrastructure as a Service,IaaS)、平台服务(Platform as a Service,PaaS)等模块功能。
云计算的利用提高了数据挖掘技术的效率,同时也给数据挖掘技术带来了新挑战。很多行业的发展也开始利用云计算进行数据挖掘,传统的数据挖掘平台需要进一步完善[2]。
传统的数据挖掘分析的数据量比较少,而且都是从数据仓库中挖掘,数据类型较为单一。数据云化模型具有高速、高精度、大量数据处理功能,它能够利用数据挖掘算法,进行范围的数据挖掘分析,数据挖掘算法可以进行数据结构的优化,从而扩大数据挖掘的范围[3]。
云计算服务平台包括SaaS,IaaS,Paas等3个模块服务,主要是负责处理数据,同时能够实现储存和处理数据的功能。该平台可以和CPU、网络支持、储存等云服务硬件设备结合,利用分布式数据挖掘技术进行大量数据的处理和计算。
云计算平台具有数据接口开放服务,它的优势就是具有无态型功能,用户可以通过开放接口寻找自己需要的数据。在某个局域网中,可以重复进行缓冲装置的调用,从而保证服务器快速的吞吐量,进而减少服务器工作的负担[4]。
数据挖掘层具有多种封装结构形式,包括HTTP,XML,Restful等形式,而且可以实现结构化语言查询,通过引擎实现自动解析可以调动云服务。每个构建行业的系统都是根据需求进行自身业务数据调用,之后整合。数据挖掘第三方算法技术也可以利用工具,比如:Weka分布式和Mathout等算法库[5]。
分布式架构系统(Hadhoop)是一种软件框架,可以在更大的平台中进行分布式数据处理,同时能够数据提供引擎功能处理。下方HDFS文件框架结构是一种分布式系统,自身对外具有接口,能够促进程序自动向离数据最近的位置进行移动,分布式储存系统架构移动计算数据节点可以有效减少投入成本[6]。上方HDFS能够促进属于稀疏数据的有效解决,从而减少数据实际体量需求,达到节省效果成本。上方HBase是一种MapReduse引擎,它具有两种引擎方式,包括Trackers和Task,该功能的使用改变了传统执行任务单一的方式,而且能够实现多个任务进行拆分的功能,之后实现节点数据挖掘的有效分配,以此建立大量Reduse的任务,在数据库中进行但数据集加载,从而实现云计算数据挖掘和高效的大数据服务功能。但是该平台是一种流处理和批处理模式,无法进行数据复杂、小延迟处理数据,只能在较低的更新率大量数据静态中使用,不能有效地实现计算内存[7]。针对这种问题可以通过图片数据库处理工具来解决,同时结合分布式储存和计算机技术,实现快速的数据处理和查询,之后进行半结构和非结构化的图形数据和内存计算,从而提高处理复杂数据的效率[8]。
分布式架构系统可以实现访问日志、超级代理DNS、计算CDN云和数据动态分布功能,具体内容包括以下方面。
CDN的运行原理是规避有效网络环境给数据稳定性和传输的影响,在节点通畅网络下进行数据传输,从而使用户获得相应信息,来提高数据储存的效率和稳定性,同时能够快速保证高效的网站反应[9]。可以有效解决静态传输数据中扩展问题,云计算平台可以在短时间内解决网络静态数据储存和扩展动态内容的问题[10]。
DNS是一种域名系统,可以通过云计算平台进行数据的融合和扩展,从而实现客户和企业进行Laas和Paas全面服务。通过切换智能DNS,在云计算平台中进行网站大量IP地址的代理,通过服务器/客户端结构功能,进行云计算平台应用功能的优化。
CDN可以以较低的成本在网站中全面进行铺设。在结构设计中,入股出现节点问题可以实现网站的访问,普通网站用户服务都是聚集在特定的区域中,具有一定的地域性特点,通过地域性用户差异建立网站代理,在互联网环境下实现云计算的创建和部署,在最近用户位置进行平台访问,从而减少网站访问时间[11]。
用户进行数据通过网络的浏览时,实现网站可以日志的记录访问。在网络环境下实现日志信息访问,之后将数据保存在数据仓库中,然后实现数据信息的深度挖掘,通过整合的数据进行网络服务端的部署。然后根据访问用户网站进行的信息,建立反馈意见功能,为云计算的应用平台提供帮助[12]。
该系统可以有效解决知识组合问题,实现快速调度。通过超级代理DNS实现用户访问行为的索引,从而对用户数据进行深度挖掘,实现快速网站分发和智能系统调度创建,从而提高用户网站访问效率,提高网站的承载力,减少用户访问时间[13]。
以云计算为基础的数据挖掘结构在网络中是必不可少的,此框架能够有效解决互联网中数据挖掘遇到的全部问题,提高数据挖掘性能及效率。但是,本文分析的技术系统还存在一定的问题有待以后解决,比如:大数据在云设备中传输、程序结构的设计等问题需要加深研究。