基于大数据的分析与挖掘问题研究

2017-04-05 09:56管翔辉
数字通信世界 2017年5期
关键词:结构化数据库用户

管翔辉

(空军工程大学,西安 710077)

基于大数据的分析与挖掘问题研究

管翔辉

(空军工程大学,西安 710077)

由于信息时代互联网不断发展,数据信息量以指数增长,使得“大数据”是继“物联网”和“云计算”之后最流行的科技词汇。当无法用一台机器简单处理大量数据时,往往需要创新的方法来处理和存储大数据。而大数据处理核心是其挖掘和分析过程,因此,本文提供了一个大数据的概述,以便我们在生活中利用一些系统的思维来更好地对待和处理大数据。

大数据;大数据分析;大数据挖掘

1 引言

如今,社会正在迎来一个大规模产生、分享和应用数据的时代[1],数据正在成为巨大的信息资产。传统的数据分析方法认为:数据是结构化的形式,可以很容易地在一台机器上适应相关数据库及分析[2]。随着时代趋势的改变,产生数据的性质和类型也在不断变化。目前,最常见的数据类型是图像和文本,而这些类型的数据很难适应相关数据库,使得无法用传统的方法来分析。因此,需要一种超过传统数据库处理能力的数据——大数据。大数据能够依次处理结构化、半结构化及非结构化的数据[3]。其中,结构化数据能够很轻易地适应关系数据库,也可以使用简单或复杂的结构化查询语言(Structured Query Language,SQL)进行处理。半结构化数据虽然不适合于数据库,但具有一定的便于分析数据的组织特性,例如:可扩展标记语言(Extensible Markup Language,XML)和非SQL数据库。非结构化数据中,如视频,图像,文本,演示文稿,音频文件,网页等[4],这些不适合进入数据库[5]。

大数据不仅涉及结构化和非结构化数据,而且数据量十分“庞大”。其中的数据单位不仅仅局限在兆字节或百万兆字节,而是千兆字节甚至泽字节,并且未来还会逐步增大。大数据通过分布在多台机器上,从而能够分析许多复杂的数据结构。

然而,大数据发展的阻碍在于数据的流动性和可获取性。由于数据量大,如果没有行之有效的分析与挖掘方法,则会降低获取到数据的实用性。另一点就是社会中数据拥有权和隐私保护权问题,也使得大数据的建立平添了许多困难[6]。

综上所述,大数据是指数量巨大、类型多样、不够精炼、处理迅速的数据体系。而对其分析和挖掘,不仅仅是对数据简单地统计,更是从纷乱复杂的数据库中提炼高价值的数据内容,获取深层次的信息要素。

2 大数据目的与特征

2.1 目的

使用大数据的最终目标是根据数据分析得到的结论,提供一些能够解决复杂或是连锁问题的方案。例如,根据采集所有用户购买一种商品的颜色分布,反馈给供应商和厂家,便可以在之后的生产中为各个颜色的商品量增加“用户喜爱颜色”的权值,使得之后的生产出现更少的产品滞销和冗余,从而降低成本,增加利润;网站通过分析用户点击,可以向用户推荐用户可能感兴趣的内容,从而增加之后的网站访问量。因此,大数据能够通过分析数据,大幅降低成本,并大幅改善在执行计算任务所需的时间。

2.2 特征分类

在数字化时代,社会思维产生了转变,通过大数据,我们分析事物不再单纯依靠少量数据样本,而是需要与事物相关的所有数据;其次,由于信息产生途径急剧增多,我们能够接受数据来源复杂无序;而且我们能够关注对于事物发生,不仅探求因果关系,还有相关关系。

通过分析和总结,大数据的特征分为全体性、多样性、相关性、数据性及价值性。

2.2.1 数据全体性

在信息获取有限的时代,缺少数据分析的工具,因此需要用部分数据提炼更多的信息,即随机采样。然而,现在数据获取、存储和处理技术均已十分发达,因此采集的样本需要从个别转为总体。由于采样忽视细节上的考察,对突发的情况难以掌握,为分析数据带来了片面性,所以,尽可能收集更多的数据,组成大数据,才能更好的分析事物性质,让其为我们所用。

2.2.2 数据多样性

当收集到的数据少时,只有提高其精确性,才能一定程度上保证结果的正确性。相较于采样有限中细微差别放大直至影响整个结果,在大数据中,允许多种及不精确不再是个缺点。由于容错标准降低,每部分数据都有其本身的用途,不再是为归纳总结结果而使用的样本。通过这些个别数据,人们往往可以发现新的线索。

2.2.3 数据相关性

小数据时代,分析数据能力不强,数据间的关系往往限于单一线性关系,即有因有果。而大数据为我们带来的数据增多使我们发现在复杂的分析中往往有许多非线性关系,而且愈加混乱,因此大数据挖掘中也在寻求不同的方法分析这些非因果的数据关系。

实际中,大数据的相关关系能够为我们提供一些因果关系考虑不到的视角,通过这些独特开放的视角,我们能够更全面地解决非线性的事物关系,得到我们需要的答案,且不惟一。

2.2.4 数据性

数据性是指通过计量和记录来量化信息,将一切资源,如文字、图像、声音等信息数据化。在大数据中,数据化带来的优点是减少了分析数据的阻碍,增加了计算机阅读的效率,世界中的原本不可直接分析的事物因此变成了一系列的数据。

2.2.5 数据价值性

由于信息对于市场的重要性以及信息本身的成本,大数据分析拥有巨大的价值。随着获取和储存数据成本的降低,使得保存数据比丢失数据容易得多,因而不断扩充数据库,提高了其价值。

另外,数据不仅仅有其即时分析提炼出的价值,更有深层次的潜在价值。之前,即时用过的数据我们认为已经得到其价值,便会立即删除,但现在的大数据则会一直保留这些数据,使得在之后某个未知时刻发挥其剩余的价值。在大数据中利用“老”数据意为数据创新,分为数据再利用、数据再重组、数据扩展等。

3 大数据分析与挖掘技术

大数据分析与挖掘的过程分为采集、预处理、储存、实时处理和应用等。其中关键技术在于计算机如何处理大数据[7]。

3.1 数据采集

大数据的采集分为基础支撑和智能感知。其中,基础支撑是大数据平台所提供的服务器、数据库和信息源,而智能感知是指针对大数据感知、传输和识别等技术。

3.2 预处理

大数据能够对使用分析与挖掘技术前的数据集进行提前筛选,如数据的清除,集成,变换与归纳。虽然大数据具有包容性和多样性,但在具体分析与挖掘某样事物时,仍需要对数据集中包含的杂质进行清理,从而选择可用的类型。

3.3 数据存储

对于大数据,在计算机或者云端进行存储时,需要分门别类进行存储与管理,当数据改变类型时,需要及时挖掘出来,修改存储地址,尤其是非线性的数据关系。

3.4 实时处理与应用

实时处理要求大数据分析与挖掘方法的快速性,以保证更快地从分析中得到结果。

在处理大数据的过程中,有许多具体应用技术:

(1)并行计算。它涉及到在多台机器上同时处理数据,每个机器有自己的操作系统,内存,计算的速度和分区工作的数据。每个机器通过消息交换和传递使得最后的输出更有效,大大减少了分析大数据的时间。

(2)分布式文件系统。在网络中远程客户端能够受到适当的授权,访问任意数量在中央服务器中存储的文件。分布式系统能够使用统一的命名习惯以及映射方案来跟踪文件所在的位置。当客户端从服务器检索文件时,该文件作为客户机上的正常文件,用户能够以同样的方式使用,与本地存储文件的方法一样。当用户对该文件检索完成时,它会通过网络返回到服务器,并存储当前修改过的文件以便以后进行检索。

(3)Apache分布式计算。它是指一个开放式软件程序,能够使中央服务器通过分布式计算来处理大数据集群。它可以从一台服务器扩展到数千台,并具有非常高的容错能力。这种计算在并不依赖高端硬件的条件下,仍然能够检测和处理应用层的故障。

(4)数据密集型计算。它是一种使用数据并行方法来处理大数据的并行计算应用程序。基于数据搭配和用于执行计算的程序或算法原则,数据密集型计算通过并行和分布式系统互连的单一集成计算资源计算机来分析大数据。

4 基于MapReduce的大数据分析处理

在大数据分析与挖掘的具体应用中,MapReduce是一种用于处理大数据集的集群分布式并行程序模型[8],通常分为两个步骤:

(1)Map:映射器执行过滤和分类。

(2)Reduce:减速器执行之前分析出的结果,并且允许有多个减速器并行集成。

比如,在网络客户端使用MapReduce模型可以根据用户的需要自我调整。其中,映射器作为文件及对数据接收过滤的输入界面,可以保存其结果;而减速器作为映射器的输出,能够统计每个IP地址和页面的数量。这个输出能够显示每个用户使用最频繁的页面,从而推荐用户可能感兴趣的广告。

5 结束语

对比传统处理数据的方式,本文主要概述了大数据分析与挖掘及一些具体应用。通过大数据目的、分类与分析挖掘的技术,覆盖大数据的主要方面,说明了现代应用大数据的合理性和必然性,并且阐述了大数据可以利用一些并行运算应用于网络客户端,甚至延伸到广告领域。但同时,大数据分析中的许多技术还未成熟,还需要我们进一步的去研究。

[1] S Sagiroglu,D Sinanc. Big data: A review[C], International Conference on Collaboration Technologies & Systems,2013:42-47.

[2] M News. Making Sense of Big Data[J], Proceedings of the National Academy of Sciences of the United States of America,2013,110(45) :18031-2.

[3] 韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013

[4] 程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908

[5] 任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936

[6] R Gupta,S Gupta,A Singhal. Big Data: Overview[J], International Journal of Computer Trends & Technology,2014,9(5).

[7] 陈良辰.大数据挖掘与分析的关键技术研究[J].数字技术与应用,2015(11):93-93

[8] J Dean,S Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[C], Conference on Symposium on Opearting Systems Design & Implementation, 2004, 51(1):137-150.

Research on the Analysis and Mining of Big Data

Guan Xianghui
(Air Force Engineering University, Xi’an, 710077)

Due to the continuous development of the Internet in the information age, the amount of data to increase the index, making big data is the Internet of things and cloud computing, the most popular scientific and technical vocabulary. When a machine is not able to handle large amounts of data, it is often necessary to create new methods to process and store large data. The core of large data processing is the process of mining and analysis, so this paper provides an overview of large data, so that we use some of the system's thinking in life to better deal with and deal with big data.

Big Data; Big data analysis; Big data mining

10.3969/J.ISSN.1672-7274.2017.05.009

TP391

A文章编码:1672-7274(2017)05-0028-03

管翔辉,男,1991年生,西安人,空军工程大学在职硕士,研究方向为计算机技术与应用。

猜你喜欢
结构化数据库用户
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
数据库
关注用户
关注用户
数据库
关注用户
数据库
数据库