关于大数据的数据挖掘中容错技术探究

2020-07-22 09:57贺颖
数字技术与应用 2020年6期
关键词:大数据时代数据挖掘

摘要:科技的进步带动了互联网行业的发展,信息化、数据化也逐渐走进了人们的视野,数据挖掘的容错技术的重要性得到了关注。本文对大数据的数据挖掘中容错技术进行探究,从数据挖掘的意义展开,提出了其容错技术的具体应用措施,旨在拓展技术研究范围,提升工作效率,从而为关注这一话题的人们提供参考。

关键词:大数据时代;数据挖掘;容错技术

中图分类号:TP311   文献标识码:A     文章编号:1007-9416(2020)06-0000-00

0引言

大数据时代改变了人们的生活方式,丰富了人们的精神生活。数据挖掘技术能够将用户的数据进行统计,整合用户信息,将信息数据转向网络化的方向。其中,数据容错技术可以实现规划系统数据、调整运行方向的目的,进而将数据更好地规划整合。因此,有必要对大数据的数据挖掘中容错技术展开探讨。

1 数据挖掘的意义

大数据是指数据含量大、数量多的数据信息,起初由金融、通讯及生物学等领域广泛传播,随着时间的发展被各领域所广泛地接受运用。大数据的信息数量多,无法被正常的软件工具所处理,因此,需要相关的技术手段对其进行弥补。大数据具有增长快、样式多的特点,有利于数据信息的高效化处理。随着计算机网络的运行发展,计算机的数据量也得到了一定程度上空间的拓宽与增加,进而形成空间大数据,将数据的储存及运算融为一体。

数据挖掘是一种新的技术,最早提出于上个世纪。数据挖掘又叫做数据勘探,能够将繁杂的数据进行整合分析,进而提取出相应有价值的数据信息。一般而言,数据挖掘技术多用于商业领域,通过对商业数据的分析及整合实现商业利益的最大化,进而将数据进行简化处理,提高商业发展的效率。

2 数据挖掘技术特征

2.1流行性高

数据挖掘技术具有较大的流动性,其信息处理的方式较为灵活,能更好地实现数据信息的分析及整合,进而提升数据挖掘的工作效率。在大数据发展的背景下,较大的数据信息量,也为数据挖掘提出了技术上的难题,促进数据挖掘的转型与发展。相对比于传统的数据运行模式,数据挖掘能够实现数据整理手段的现代化,提升数据信息的工作效率。

2.2种类多

数据种类的增加有利于对相关数据信息的整合,人们在使用现代化信息技术时,数据信息的种类随之增加。数据挖掘过程中,互联网信息与智慧设备的联通,也产生了大量的数据,丰富了数据信息,完善了数据整理体系。

2.3处理数据量大,价值度低

随着人们对新媒体技术使用的增加,数据信息也在不断地增长,进而增加数据挖掘的信息,形成其处理数据量大的特点。同时,数据信息总量的提升还增大了数据库的基数和密度,将其信息库的总值扩至最高,这就会导致数据信息中有价值的信息被降低,由此增加数据信息处理的难度,增大数据挖掘的工作量。

3 大数据的数据挖掘中容错技术的应用措施

3.1数据挖掘及处理

数据挖掘容错技术指数据系统运行过程中产生错误时,系统的算法能维护其正常运转,避免系统死机的情况,进而减少系统的内在差错,将其对系统的影响降至最低。容错技术能保障信息系统数据的完好性,对数据信息进行备份,减少相关信息的损失。例如,在航天、医疗、金融等行业领域中,其系统失误会造成不可估量的后果,而容错技术的运用,则会为相关的数据系统提供保障,维护数据信息的完整性[1]。

数据容错多会采用Python技术为根本运行依据,保障信息系统的运行。Python技术具有开源共享、函数式编程等特点,能将数据信息库进行整合及规范化处理。其中,Python包含jieba库、json库及numpy库等15万个第三方数据库,进而对于数据信息进行高效的处理。在进行数据挖掘时,Python技术能将数据进行清洗、探索及将其模型参数化处理,形成一系列数据环节的流程化实施。流程化的项目操作与实施有利于数据信息运行的高效化,多种信息能同时运行,将数据信息规范性整理,进而提升其数据储藏量及数据运算的速度。容错技术中Python技术的运用提高了计算机数据整理运行的效率,实现传统计算机数据管理技术向现代化的方向转变。

使用Python技术进行数据挖掘时,要先将其自身已有的数据进行处理,将其中无效化数据做出预判及分析,处理掉影响数据运算结果的脏数据,保障数据运行的基础效率。只有保障数据信息运行的准确性,才能实现数据系统的正确运算。数据预存中,多包含缺失值处理、异常处理等对于数据丢失预防处理的方法。其中,数据信息的异常处理是其运行的关键。例如,数据运行时,将采集数据由88误录为880,进行数据异常处理时,计算机系统会根据算法及图表进行核算,以此发现异常并进行改进,从而将数据进行修正,保证数据信息的准确性[2]。

3.2异常处理

数据的异常是指计算机程序运行的过程中存在着一些不正常的现象,数据采集及分析带来的失误及问题等,严重的甚至会造成系统数据的崩溃和数据丢失,进而造成无法预计的损失。在此基础上,数据容错技术利用对数据异常处理的手法进行分析,实现异常情况的分级化处理,对相关的损失及误差做出预判并加以解决。

Python系统能将数据异常信息进行规划整合,形成数据信息異常信息库,当数据信息系统出现其信息库中的异常情况时,系统就会做出相应的提示并给出解决信息。Python的运行中要将其运行代码做出合理化预判,通过对于运行代码的试运行寻找相应的问题,进而将数据系统进行规范化处理,降低信息系统数据漏洞带来的危害。Try…expect语句的使用为Python系统的运行提供了根本的保障,是数据异常处理的基本信息结构形式,其运行主要通过try字句中的代码来进行数据信息的分析,同时通过expect信息进行异常的捕捉,二者间相互配合,共同完成数据异常处理的检测。

进行数据容错异常处理时,还需将数据信息系统中出现的数据库进行词频统计,对于数据系统出现的词条进行归档及检索处理。大数据中数据库具有信息量大的特点,因而需将数据信息进行关键词的分类形成词频,来将数据库进行整合。

4结论

综上所述,大数据的数据挖掘中容错技术的使用有利于完善数据信息,进而实现数据信息的综合处理。其中,数据信息容错技术可以通过数据挖掘及处理来进行数据的整合,同时通过对于数据的异常处理实现容错技术的发展。由此保障计算机系统运行的安全性,提升数据系统的可靠性。

参考文献

[1]谢盛嘉.大数据时代背景下数据挖掘技术的应用研究[J].计算机产品与流通,2020(5):128.

[2]张红军,王豫鑫,杨万里.基于大数据的数据挖掘中容错技术研究[J].电脑知识与技术,2020,16(9):16-18.

收稿日期:2020-04-16

作者简介:贺颖(1982—),女,四川遂宁人,本科,讲师,研究方向:计算机应用。

猜你喜欢
大数据时代数据挖掘
基于并行计算的大数据挖掘在电网中的应用
从“数据新闻”看当前互联网新闻信息传播生态
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究