大数据时代的数据挖掘技术及应用研究

2018-05-22 11:13周力
中国科技纵横 2018年7期
关键词:数据挖掘技术大数据互联网

周力

摘 要:为了适应大数据时代的需求,拓展自身的专业知识,不断去学习一些先进的技术尤为重要。其中数据挖掘工作已经逐渐成为当前社会主要研究的课题,通过对数据更加深入的分析和研究就可以使数据得到更加充分的利用。本文针对大数据挖掘技术的基本方法及应用进行分析并提出了具体运用策略。

关键词:大数据;数据挖掘技术;互联网

中图分类号:TP311.13 文献标识码:A 文章编号:1671-2064(2018)07-0007-02

著名未来学家阿尔文·托夫勒早于1980年著书,把“大数据”激动地颂赞是“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国Internet数据研究中心指出,世界互联网上的数据以年50%增加,并且以两年翻番增加,目前世界上91%以上的大数据是最近几年才产生的。若是把“大数据”看作产业,那这份产业的价值关键是去提高对这些大数据的“加工能力”,通过“加工”完成数据的“增值”。从技术角度来看,我们必须学会从大量的不规则、复杂、模糊、随机的数据中获得人们事先没有觉察的、隐隐的、潜值的知识的过程。

1 大数据的表象

数据增长有四个方向的挑战和机遇:量(Volume)即数据多少、速(Velocity)即数据输入输出的速度、类(Variety)即多样性、真实性(Veracity)即高质量的数据。对大数据的定义各有不同,但都广泛提及这4V特征。

大量化(Volume)表征的是数据的量和数据的完整性。多样性(Variety)表现在数据格式和来源都变得越来越多样,而且非结构化的数据类型占3/4以上。快速度(Velocity)是指数据产生得快、处理得快,它满足人们对信息的实时性需求。真实性(Veracity)则是指数据的重要性在于对决策的支持,数据规模并不能决定其能否为决策提供帮助,真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。为此,我们需要筛选、挖掘并发现、理解海量数据信息的真实性及它们间的关系,让数据“说话”。

2 数据挖掘技术的基本概述

人工智能技术就是数据挖掘技术的体现,而人工智能技术的开发与运用就是与数据挖掘技术的应用相对应的,也就是说数据挖掘其实是依赖机器学习算法技术的提升来实现数据的整体创新的技术。其主要目的就是将一些规律之外的数据或者是相对于比较复杂的数据信息进行深入的挖掘,从而获取一些隐秘不容易被人知道的信息,并且还能够根据信息的具体形式从而判断其是否具有大量的潜在价值,通过对数据的深入调查分析并将其转换成对自身有意义的数据信息来制定公司企业的发展计划,从而使企业获得巨大的经济利润,保证公司的稳定发展。

3 数据挖掘技术的方法介绍

数据挖掘技术的核心就是数理分析,通过分析方法的不同来解决不同类别的问题,以实现数据挖掘的潜值。该技术主要就是对人工智能的利用,通过对人工智能技术大力的研究并逐渐利用从而实现技术的总体创新。而其分析手段也有很多种,第一是聚类分析法,这种方法主要就是对收集到的数据按照其共性进行相关的分组,逐渐以板块的形式呈现出来,把一些毫无相关的数据进行深入的研究和分析从而将其分成不同的组别,然后在这些组别中寻找到有一定价值的信息并充分的进行利用。但是这种分析方法也存在着明显的缺陷,由于数据信息的属性以及其类别很难保持联系就导致此方法只适用于一些统计学计算、数据的识别过程以及相关的心理学研究上。第二是人工神经网络,这种方法通过复杂的大批量数据进行分析,实现对于计算机或人脑而言非常复杂的模式抽取及趋势分析,它是建立在自学习的数学模型基础之上的,神经网络一般是有指导的学习,也能够无指导聚类,但输入神经网络中的值都是数值型的。所以就应该在收集到数据的同时就按照自身的实际需求来对数据进行有目的的分析。第三是关联性分析法,因为有时候收集到的数据并不能直接进行应用,所以需要去对具有隐蔽性的数据以关联性进行识别,完成数据显性,这种分析方法是带有一定精准目的性,因此这种分析方法主要就是应用在一些需要精准的数据分析上,例如一些非常精确的档案信息管理工作。第四是特征性数据分析法,网络上的数据信息随着互联网逐渐广泛的应用其数量呈现出疯涨的态势,导致数据的整理过程更加具有难度,对此,为了能够更好的解决这种情况,当前的数据整理工程师就应该对特征数据分析法进行应用。

在具体实施应用中,根据不同需求选择适合的分析法是数据挖掘技术的核心要素。目前,在诸多数据挖掘中典型的是决策树学习法。数据挖掘领域的编程算法很多,而且是实现数据挖掘的核心技术。结合“聚类分析法”以C4.5算法为例,此算法可以解决:用数据增益率来选择属性,它克服了用数据增益选择属性时偏向选择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;能够对不完整数据进行处理。其优点是:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。除了这些还有很多种数据分析方法是对计算机的应用来把大量的虚拟信息进行更好的分类分析,找到数据之间的共性以及不同的特征状态去进行更加深入的分析,从而为企业决策者提供更加准确的参考依据。

4 数据挖掘技术的应用举例

4.1 以大數据为创新方向的行业竞争力不断提升

数据挖掘技术的具体流程是先对海量数据进行保存、分析、整理、选择、转换等,然后才是对数据进行挖掘、评估、运用。

首先是在市场营销领域,该领域是最先应用的数据挖掘技术,并且也是运用最广的一个领域。依据政府2017年6月提供的数据,我国超过7.5亿网络用户。他们当中有96%都是智能手机一类移动设备的使用者,也就是说,他们每天都上网。有调查报告称,除网民的姓名、年龄、性别个人数据外,对于网民去何地、购买何物或在网上搜索什么、与谁联系等数据也都能够由人工智能采集并分析,帮助企业向消费者提供后期最适宜的产品和服务。其次是科学研究和实验往往产生巨大的数据。科学研究中一般是根据研究内容选择数据挖掘技术分析法去计算而找到数据中存在的规律,达成数据挖掘的价值,获得科学知识的新成果。据说,天文学和基因学是最早产生大数据变革的领域,现在的基因仪15分钟就可以完成过去需要10年才能完成的30亿对碱基对的排序工作量。接下来是制造业,随着人民日益增长的美好生活需要的不断提高,对于生活用品质量的要求也更高,所以就应该加大数据挖掘技术的应用。对产品的生产以及经济效益进行准确的预测,然后根据当前的实际状况对分析产品缺陷的原因,对其进行完善与修正,制造出更多高质量的产品,进而帮助企业获取更多的经济利润,还能够对我国制造业起到推动作用,所以就要求数据挖掘技术能够在制造行业中有更好的运用方式。

4.2 将数据挖掘技术运用到高校管理中

高校人员密集,伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。随着数据挖掘技术在高校教育教学管理中的大量运用,反映招生、就业、助困、教学评价、后勤服务、科研、学生思想政治工作等工作方面的相关数据一方面困惑我们,另一方面缺乏开发利用。所以数据挖掘尤其需要在高校管理中进一步开发。怎样做好高校管理工作,我们可以通过数据挖掘技术的合理运用来探讨。可以从强化大数据意识、提高利用大数据的能力、完善利用大数据技术体系及制度保障着手,不断提高工作的针对性、精准性,挖掘高校教育的管理运行的潜在规律,夯实高校管理基础。比如,通过对课堂教学、学生的心理和其生活中的一些数据进行分析就能够帮助老师在教学的过程中有所依据,并且制定合理的教学方案,然后对学生的学习成绩以及他们平时课堂上的表现来了解到学生在学习过程中难以接受的知识点,从而对教学方法进行调整,促进老师可以有针对性的教学;还可以将数据挖掘技术应用到教学方法中去,来优化学生的教学资源,使教学的相关资源发挥出更大的作用,从而使教学的方式和条件得到一定程度的提高。我们知道,数据挖掘技术在高校管理中的应用范围是比较广的,其内容比较复杂,但对每个小部分都能利用数据挖掘技术进行管理,比如招生就业评价,学生成绩管理,课堂教学评价系统等等。

4.3 帮助企业的管理者更好的做出决策

每一个企业的管理者在做出一些决策的时候都不是凭借个人的喜好和猜测进行制定,都是根据一些基础的数据进行提取和分析从而为决策者提高一些理论基础。每一个企业都有其相关的决策和管理系统,而这些个系统在运作的时候就需要对数据挖掘技术大力的应用,并最终为领导者提供一个系统化的数据仓库,这些仓库里面的信息保证了其内容的真实性、超前性和完整性。这个数据仓库的建立需要相关的工作人员将简单的数据进行查询并统计起来逐渐转变成业务洞察及管理的方式,然后由决策者对于一些项目进行完善和优化,保证其覆盖范围和一些系统的数据具有很好的质量,最终使集团能够将数据的收集工作更好的进行下去,提高企业的使用机制,并且有效的使企业决策者能够制定出更加符合公司发展的策略。每一个企业的决策系统都是经过一定时间的优化与提升最终逐步建立起来,在该系统的发展过程中,其主要的工作以及职责也变得更加重要,从而使得企业的整个管理系统有更大工作范圍,帮助决策者更好制定相关规定。从当前各个行业对数据挖掘技术的应用情况来看,该技术已经发挥出了更加重要的作用,并且根据当前的大体趋势来看,在未来的航空航天以及处理一些刑侦案件时都会对数据挖掘技术有更加深入的应用,要想实现这些就应该对当前的技术进行研究与创新然后逐渐完善企业的管理和决策系统。

5 结语

继实验科学、理论科学和计算科学之后,大数据已被定义为科学探索的第四范式。互联网的数据爆炸孕育了大数据学科,将理论、实验和计算仿真等范式统一起来。大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来。简言之,从各种各样类型的数据中,快速挖掘获得有价值信息的能力,就是大数据挖掘技术,懂得这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。通过各行各业的不断创新,大数据挖掘技术会逐步为人类创造更多的价值。

参考文献

[1]舒永芳.大数据时代下数据挖掘技术在电力企业中的应用研究[J].低碳世界,2016,(36):102-102.

[2]程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013,(3):43-45.

[3]凌小萍,邓伯军.大数据时代高校思想政治教育探究[J].广西师范大学学报,2015,(1):62-67.

猜你喜欢
数据挖掘技术大数据互联网
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施