摘 要:由于信息技术的快速发展,信息量在持续增多,借助数据挖掘可以从海量数据中挖掘出有价值的信息,信息资源实现了更有价值的应用。如何从海量数据中高效挖掘有价值的资源,属于信息技术要解决的关键问题。云计算技术支持下的数据挖掘实现了资源的优化配置,体现出实用性、虚拟性的特点,可以保证数据挖掘的高效、精准。因此,有必要构建云计算技术下的数据挖掘模式,保证数据挖掘具有更高的精准度,并实现挖掘成本的降低。
关键词:云计算技术;数据挖掘;技术实现
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2020)09-0091-03
Research on Implementation of Mass Data Mining Based on
Cloud Computing Technology
HE Xin
(Zhanjiang Health School of Guangdong,Zhanjiang 524037,China)
Abstract:Due to the rapid development of information technology,the amount of information continues to increase. With the help of data mining,valuable information can be mined from massive data,and information resources have realized more valuable applications. How to efficiently mine valuable resources from massive data is a key problem to be solved by information technology. Data mining supported by cloud computing technology realizes the optimal allocation of resources,reflects the characteristics of practicability and virtuality,and can ensure the efficiency and accuracy of data mining. Therefore,it is necessary to build a data mining model under cloud computing technology to ensure that data mining has higher accuracy and reduce mining costs.
Keywords:cloud computing technology;data mining;technology implementation
0 引 言
由于信息技術的发展,不仅生成的数据多,数据分析处理能力也迎来了挑战。面对海量的数据,数据挖掘显得更加重要。借助数据挖掘,可以从海量信息中获取到有价值的信息。依托云计算技术,可以为海量数据的挖掘创造有利条件,体现出高效、精准的特点。本文通过研究云计算与数据挖掘技术,让教师更好地理解信息化教学能力的内涵,提高信息化教学的意识,探索中职卫生学校教师信息化教学能力提升策略,提高本校教师信息化教学能力和学生信息化学习能力。
1 云计算与数据挖掘的引入
1.1 云计算技术
云计算是指客户端借助网络向服务器发送运算任务,服务器完成数据运算后将结果反馈给客户端。云计算的形式有软件即服务、平台即服务以及基础设施即服务。软件即服务模式覆盖到客户与服务供应商,服务供应商会在服务器部署应用软件,客户对于云计算有需求时,向供应商购买软件的使用权,借助终端接收,此形式的优势体现在客户如果对云计算有需求时,不需要资金的投入,不需要对软件和硬件进行维护、服务供应商可以提供的统一的维护管理;在平台即服务模式下,服务供应商提供平台,客户借助平台实现数据计算,服务包括提供服务器资源、硬件与开发环境,用户利用平台以满足计算需求,用户借助此模式方便实现软件、应用程序的开发;基础设施即服务采用了托管型的技术,用户可借助服务供应商提供的平台,利用虚拟服务器对数据资源加以计算。
1.2 数据挖掘技术
此技术的应用基于对海量数据的抽取分析。海量数据存在噪音,具有不完全性和随机性,表达模糊。数据挖掘技术是抽取分析不同数据之间的关联变化、数据的变化趋势、结构存在的异常等。随着技术的发展,数据挖掘技术的应用结合了人工智能、模糊计算、统计学、机器学习等。数据挖掘技术当前已应用于金融、科研等多个领域,比如应用于城市的规划、对消费行为的分析等。传统模式下的数据挖掘基于数据仓库,利用关系数据库完成数据的统计分析,分析内在的关系,以提升数据的利用价值。数据挖掘要占用大量的存储空间与计算资源,互联网的发展中,数据规模不断增大,传统的数据挖掘难以保证效果,表现为效率低下;软件硬件的应用成本较高,资源及空间占用高;体系架构薄弱,数据分析基于单一算法,难以保证普遍适用性。
2 云计算技术下的数据挖掘
2.1 云计算技术下的数据挖掘概述
大数据的应用需要利用数据处理技术,以挖掘不同的类型数据内在的价值。比如应用于金融业,借助大数据可以为商业银行的发展起到导向作用。在大数据挖掘的过程中,决策可以更加具有科学性与合理性。在信息技术快速发展并应用领域不断扩大的背景下,产生了多种数据,推动了大数据技术的应用,目前大数据技术已应用于多个领域。在大数据技术的应用与发展中,云计算技术得以发展。云计算技术的应用提升了数据信息的处理效果,数据分析可以更加高效与便利,数据挖掘保证了服务性和时效性,可以为社会发展提供多方面的数据支持。
要实现数据挖掘,先要处理数据,再进行数据挖掘,借助相应算法得到对结果的评价和表达,然后提取有价值的信息,如图1所示。
云计算可以实现海量存储,采用分布并行处理,数据挖掘的技术体现出多方面的特点:
(1)云计算技术提升了数据挖掘的效率,并行处理和海量数据挖掘得以实现,体现出优越性。云计算服务模式可以为不同规模的客户提供差异化服务,并且成本更低,数据处理快速,中小客户可以不必依赖于大型高端服务器。
(2)云计算技术针对数据挖掘采用了块划分,计算任务自动分配,节点加载更具有灵活性。
(3)云计算技术的准入门槛低,普通用户借助云服务平台可以结合自身需求完成数据挖掘,对于需求量大的用户可以提供个性化服务。
(4)云计算可以对结点进行动态增删,原本设备可随意添加结点,提升了海量数据处理速度,设备的使用率得以提高。
2.2 云计算技术下的数据挖掘过程
2.2.1 数据挖掘模型的建立
从客户的实际需求角度来说,数据挖掘基于数据库中的信息探索,需要借助对应的技术方案从海量数据获取到有应用价值的信息。针对客户而言,其更倾向于利用有效的模式从海量数据中挖掘具备应用价值的数据,以确保挖掘数据的真实性、合理性。面对海量数据的挖掘需要,云计算技术的引入,显示出云计算技术的优势,大容量存储得以实现,并行处理能力得以提升,有利于解决了传统数据挖掘存在的难点问题。数据挖掘模型的建立方式如图2所示。
圖2表明,基于云计算技术建立的海量数据挖掘模型包括了三个层次,分别为服务层、运算层、用户层。
模型中,服务层处于基础地位,其作用是对海量数据加以存储,对分布并行数据实现初步处理。由于云计算技术下的数据挖掘不仅要保证实用性,还考虑到数据的安全与可靠。云计算技术针对数据存储借助了分布存储,资源库中数据副本实现冗余存储,对数据加以备份,如果数据丢失,用户还可以找回。当前,云计算模式下的数据存储采用了开源HDFS。此外,云计算可以对数据挖掘加以进行并行处理,同时执行不同用户多种指令,实现对用户指令的及时回复,数据挖掘服务保证了及时性。MapReduce与hadoop作为分布式计算框,可以进行分布式的计算编程。
第二层为数据挖掘运算层,其功能是对数据加以预处理,然后实现并行处理挖掘。技术中的数据预处理是对缺少规则的数据进行提前处理,为后续处理创造条件。数据预处理的实现,保证了数据挖掘效果,使海量数据的处理实现高效实时。数据预处理的实现,保证了数据挖掘效果,使海量数据的处理实现高效实时。
最顶层为用户层,服务直接对接用户,对用户的请求加以回应,使数据可以向下层持续传递,数据被挖掘后将结果及时传递给用户。此外,数据用户还可以利用可视化界面监督数据挖掘的完成进度,实时看到任务执行的最后结果。
在云计算技术的支持下,数据挖掘可以实现流程设计:用户可以向模块发出挖掘指令,指令可以上传至系统服务器,服务器可以自动分析识别挖掘指令,随时调出数据库存储的数据,在算法库调出最优算法,数据完成预处理后,传递到运算模块,将结果用可视化界面加以反馈,用户查看更加方便。
云计算支持下的技术基础架构库要保证可靠性,需要安全可靠的服务流程,以提升服务的效果。服务支持要有利于规范对用户的数据挖掘流程中,服务流程要结合业务需求的差异化,服务交付要结合信息挖掘处理的目标,要发挥技术基础架构库作用,降低系统对人的依赖性。
2.2.2 算法的设计方式
应用云计算技术,海量数据挖掘可以采用SPRINT算法,依据设计的流程,先要将决策树创建起来,然后完成剪枝。针对决策树的创建,要多次对数据进行筛分,剪枝过程是去除无价值的数据。剪枝的时间占用较短,算法运行效率取决于决策树的创建。借助SPRINT算法,可以表明数据特征。属性表发生划分后,节点发生分裂,直方图的构建的基础是确定属性表。属性表体现了索引、类,停留于内存空间外,直方图体现了节点属性。在数据处理过程中,由于不间断的刷新获得了最佳的分裂点。属性值若设定为离散型,可以借助直方图表达体现属性值的分布信息。算法的设计采用了并行处理,提升了效率。借助哈希表的引入,在存储空间中不同节点分裂后可以体现出子节点的数据信息变化,节点并行处理有了直接的分割依据。哈希表的应用还体现出两种不同的信息,决策节点号码与树节点子信息。算法发生移植后,借助MapReduce算法可以加以优化,此算法的优势体现在可以快速创建出决策树,保证了算法执行效率。
2.2.3 增量数据挖掘实现
针对数据挖掘的技术应用,为了提升结果的时效性,要考虑到及时性。数据挖掘出的信息时间表明其应用价值,价值对于商业发挥着重要作用。Hadoop条件下如果借助MapReduce对海量数据加以处理要快速实现数据库的扫描,会占用计算资源,并导致等待时间延长。由于云计算技术的进步,为充分满足各类用户的差异化需求,需要开发可以实现数据实时处理的应用平台,以实现数据批量处理的需要。针对海量数据,传统的Hadoop难以保证效率,而Twitter公司针对数据挖掘推出了分布式处理系统,可以实现容错实时处理。大数据挖掘借助计算系统Storm可以实现数据的高效挖掘,当前有了许多新的算法,如K-means聚类、FP-growth增量,这些算法可以嵌入到系统中,为海量数据挖掘提供多种技术支持。
2.2.4 体现的效果
海量数据的挖掘,可以利用驾车风险来分析预测公用数据,以此数据基础进行样本训练验证集,数据体现了参保车主的信息,决策树中针对多个节点信息的创建。针对数据挖掘算法有效性的判定,对样本分组进行验证操作,分割成为5个不发生交集的组,以保证测试的精准性,如表1所示。
从表1的测算结果可以看出,算法精准率可以达到80.32%。结合表明挖掘算法精准性,可以保证挖掘分类效果。
3 结 论
综上所述,云计算技术应用于海量数据挖掘不仅可以保证准确率,还可以保证数据挖掘效率。用户不需要软硬件建设成本的资金投入,购买云计算服务后,就能获得数据挖掘操作服务,可以满足不同用户对海量数据的挖掘需求。
参考文献:
[1] 张菁.云计算技术下海量数据挖掘的实现机制 [J].安徽水利水电职业技术学院学报,2018,18(1):62-64.
[2] 苏彦舟.基于云计算的海量数据挖掘研究 [J].电脑迷,2018(3):196-197.
[3] 张捷,封俊红,朱晓姝.云计算环境下海量数据挖掘的优化方法研究 [J].玉林师范学院学报,2017,38(5):146-151.
[4] 邹燕飞.云计算技术在海量数据挖掘中的应用研究 [J].自动化与仪器仪表,2017(6):185-186+190.
作者简介:何欣(1985.11—),女,汉族,广东湛江人,讲师,本科,研究方向:计算机信息化教学。