大数据时代下的数据学习技术

2016-06-25 12:16李莎莎董思妤
科教导刊·电子版 2016年15期
关键词:数据挖掘大数据

李莎莎+董思妤

摘 要 大数据学习成为大数据领域的一个热点研究问题。本文从大数据时代背景出发,总结当前大数据分析所面临的机遇和挑战,阐述大数据学习系统相关的前沿技术,并就大数据分析的发展方向和未来前景进行讨论。

关键词 大数据 学习系统 数据挖掘

中图分类号:C829.29 文献标识码:A

当今社会,数据量正在以爆炸方式迅猛增长,数据表示形式千变万化,标志着我们已经进入了大数据时代。云计算、三网融合、物联网、移动互联网的出现,更加催生了大数据时代的产生。在大数据时代下,其所需存储、处理的数据量惊人,为大数据的分析和应用带来很多挑战。若想充分发挥大数据所赋予的机遇和优势,必须采取有效的数据学习与处理方法,从高质量的大规模数据中提取隐含的、有用的信息,才能做出更加精准、更加符合市场和客户需求的决策。本文就当前大数据分析技术面临的挑战和机遇,介绍大数据学习系统的关键技术,最后对大数据分析技术的未来发展进行讨论。

1大数据带来的机遇和挑战

大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命。大数据挖掘和应用可创造出超万亿美元的价值,使人们可以利用以前不能有效利用的多种数据潜在信息,抓住被忽略的机遇。随着数据存储技术的成熟,大数据的重心将从存储和传输,过渡到如何选择高效的数据学习形式对数据进行处理和利用,这需要根据大数据特点对传统的常规数据处理技术进行变革。此外,大数据的海量数据,通常采用云端存储,数据管理比较分散,如何保证大数据的安全以及学习结果的可靠性对大数据学习技术提出了更高的要求。

2大数据学习关键技术

伴随着需要处理的数据量多且增长速度迅速的特点,对数据学习的实时性、有效性提出了更高要求。大数据学习核心即为挖掘,从技术角度看,就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先未发觉的、有潜在价值的信息和知识的过程。有关智能计算中的大数据学习关键技术常见的有神经网络、数据挖掘和回归分析等。

(1)神经网络。受生物神经网络结构和运作的启发,模拟动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。应用实例包括识别高价值客户离开特定公司的风险,以及识别欺诈性的保险理赔行为等。

(2)数据挖掘。结合统计数据和机器学习、使用数据库管理技术从大型数据集中提取有用信息和知识的技术。根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测等,或寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模式挖掘等。

(3)回归分析。确定当一个或多个独立变量值被修改时相关变量如何变化的统计方法。通常用于预测或预报。应用实例如基于不同的市场和经济变量,或通过确定何种制造业参数对客户满意度影响最大来预测销售量等。

(4)分类分析。在训练集包含的数据点已经被归类的基础上,确定新的数据点所属类别的方法。典型应用是在明确假设或客观结果前提下,预测部分特定客户行为(例如,购买决策、流失率、消费率等)。因为使用训练集,属于监督学习,是无监督学习类型聚类分析的反面。

(5)聚类分析。一种多元化群体的分类统计方法。在事先不知道的前提下,将一个集合分成较小的对象组,组内对象具有相似特点。聚类分析的典型例子是将消费者分割成具有自相似性的群体做针对性营销。因为不使用训练数据,属于无监督学习类型,是监督学习类型分类分析的反面。

(6)关联规则学习。在大数据集变量中发现感兴趣关系(即“关联规则”)的方法,包括多种生成和测试可能规则的算法。典型应用是市场购物篮分析,其中零售商可以决定哪些产品经常一起购买和如何使用这种营销信息。

(7)数据融合与集成。集成和分析来自多个源的数据的方法。典型应用如,使用来自互联网的传感器数据综合分析如炼油厂这样的复杂分布式系统的性能。使用社会媒体数据,经过自然语言处理分析,并结合实时销售数据,确定营销活动如何影响顾客的情绪和购买行为等。

(8)机器学习。研究计算机怎样模拟或实现人类的学习行为,获取新的知识或技能,重新组织已有的知识结构并不断改善自身的性能,是人工智能的核心,是使计算机具有智能的根本途径。自然语言处理是机器学习的一个例子。

3大数据分析未来趋势

当前的数据分析技术的研究可以分为6个重要方向:结构化数据分析、文本数据分析、多媒体数据分析、Web数据分析、网络数据分析和移动数据分析。在今后大数据技术面临的主要发展趋势:大数据与人工智能的融合;跨学科领域交叉的数据分析应用;数据科学带动多学科融合。今后,深度学习成为大数据智能分析的核心技术,利用大数据学习技术构建大规模、有序化开放式的知识体系成为大数据处理的关键。大数据与云计算、移动互联网等的综合应用,大数据技术课程体系建设和人才培养快速发展都将成为未来趋势。

4总结

保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息成为摆在业界和学术界面前的重大难题。面对当前大数据来源众多、数据量大、数据增长速度快等特点,大数据学习面临着极大的挑战。阐述了大数据学习系统中的关键技术,对大数据分析的未来发展趋势进行了讨论,为选择数据学习方式提供依据。

参考文献

[1] 顾君忠.大数据与大数据分析[J].软件产业与工程,2013(4):17-21.

[2] 任磊,杜一,马帅,等.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936.

[3] 中国计算机学会大数据专家委员会.2015年中国大数据发展趋势预测[J].中国计算机学会通讯,2015,11(1):48-52.

猜你喜欢
数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
大数据环境下基于移动客户端的传统媒体转型思路
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究