刘桂洋
摘要:由于IT技术的不断发展,导致不同行业都处于信息的转型的过程中,然而不同行业都在挖掘大数据的价值以及不择手段的让这些这些价值利益最大化。因此很多企业都紧紧的抓住了大数据带来的机遇,并巧妙的对待大数据带来的各种挑战,本文运用大数据的一些特点,具体的分析了科学数据分析工具主要面临的问题,,介绍了大数据分析工具的发展,与R语言的对比分析,以及Rapid Miner(数据挖掘解决方案)、Mahout 三个相对较受欢迎的大数据分析工具进行对比之后、从中发现R语言和Rapid Miner的功能相对齐全,Mahout的强大数据分析能力,发现了科学数据分析工具的主要发展趋势。
关键词:数据科学;R语言;大数据
一、数据科学分析工具面临的主要问题
大数据是数据科学的主要组成部分,其不仅为科教发展提供了巨大的机遇,同事也带来了较大的科学项目问题。就像j.Gray所说,在技术领域的数据洪流,对建立新的研究基础设施提出了挑战,而对数据科学分析工具也提出了三大问题。
(一)数据格式的多样性
目前在大数据时代,数据量正在快速增长,数据格式也变得形式多样。常见的就是银行和超市的数据采用的都是文本格式,YouTube的數据采用是图像或者视频的格式,数字手机的数据采用的是语音格式等等。除开传统的关系数据,它还包括来自web页面、互联网日志、E-mail 、媒体论坛、非结构化和半结构化的大数据。因此,面对如此庞大和种类繁多的数据量,需要使用数据分析工具将结构化数据处理与非结构化数据方法相结合。
(二)传统数据算法的失效
数据分析需要更好的算法来进行数据挖掘和分类聚类。而聚类算法并不是对数曲线(N log N)和线性的模式,而是特殊的N立方模式,当N非常大的时候,部分方法就会失败。从而针对处理大量的数据时,会有部分传统算法出现失败的现象。因此,要发明一种具有收缩性强的方法来处理PB级的数据。此外,大数据都具有实时性这一的特点。因此大数据指标不只是算法的精度还要与实时性取得平衡。
(三)大规模的数据存在可视化性
解释大量数据最主要的是可视化这一方法。根据对交互界面的支撑对可视化进行具体的分析,不仅可以对预测结果进行监控和验证,还可以发现意料之外的内容,使可视化工具与数据分析保持平衡。大量的数据给可视化带来了一些挑战性的问题,可视化技术如今主要面临可视化融合不同的多个异构的数据规模,和任务复杂的可伸缩性等问题。还有一些现场数据分析、算法、数据移动、不定性的数据量化、输送和网络构架等问题。对此,需要加大可视化技术的发展脚步,以支撑数据的集中和提取意义。
二、主要数据分析工具
由于数据科学分析工具的不断发展,它们成功地解决了数据科学中的一系列问题,如算法失败和大规模的数据可视化问题等但仍然存在一些优缺点。例如,Mahout拥有出色的大数据处理作用。它不仅处理的数据量大而且速度也相对较快,但是其可视化能力就相对较差了。对此,运用R语言、Rapid Miner和Mahout这三种数据科学分析工具,以概述的方式对它们的主要特点进行分析,具体如下。
(一)R语言是一种统计计算和绘图的编程语言。其主要是运用命令式的工作形式,在GNU协议的源代码帮助下免费下载和使用。R网站,提供的第三方数据程序包,其牵涉到经济、社会、统计、生物信息等学科,这是其备受人们喜爱的原因之一,同时由于R的传统分析软件的可扩展性差、Hadoop的分析功能弱,相关人员也在全力的整合R语言和Hadoop。作为开源统计分析软件,将R与Hadoop相结合,将数据计算进处理,Hadoop就可以具有深度分析的能力。
(二)Rapid Miner也叫数据挖掘解决方案。它可以运用简便的脚本语言和JavaAPI与GUI模式进行大规模的操作。由于其GUI特性,使得初学者很容易上手。Rapid Miner 6有一个友好而强大的工具包,其能快速而稳定的对数据进行分析,并且还可以在短时间内设计出一个原型,以便快速的实现在数据挖掘过程中的关键决策。以降低客户的流失,情绪分析,和帮助预测维护和营销等。
(三)Apache Mahout创建于2008年,主要是为了提出精准的机器算法和创建一个具有收缩性是算法资源库,其目的是为了协助研究人员方便快捷地创建出相关的智能程序。至今为止,Mahout的项目牵扯了频繁是子项挖掘、归类、收集和收搜引擎(协同过滤)。Mahout主要根据贝氏统计的两种归类方法。第一个是一个简便的map-reduce归类器。其主要是以精度和速度闻名,但其创建的数据都独立存在的。第二种是朴素贝叶斯法,在保持朴素贝叶斯的简单性和速度的同时,还修正了朴素贝叶斯一些不足的地方。
三、发展趋势
基于以上对数据科学分析工具的详细解说,以及其工具特性的要求得出数据科学分析工具主要有以下几种发展趋势:
(一)大数据的集体分析。数据科学分析工具的诞生是为了在大数据中能够赶超海量数据的分析。然而,数据容量的价值以及其种类之的关系是密不可分的。通常来说,其数据量越多,数据种类就越多,其中的信息也随之变多,同时其潜在价值也就越高。为达到全面的数据分析,发现新的、有价值的见解,需要数据科学的分析工具来全面分析庞大且种类繁多的数据格式。
(二)具有良好的可视化性。数据处理的主要问题是针对数据的分析,同时就算分析出结果是正确的,只有没有进行准确的解释,也会导致用户很难理解其中的涵义。而可视化则可以全面的展现出分析结果,更方便接收关键的数据分析工具所输送的信息。面对如今的大数据时代,数据量不仅大且还单调乏味,而可视化最好的方法就是帮助人们全面的挖掘数据中潜在的信息和知识。
(三)数据分析主要是以分布式为主的。以往的数据分析工具是无法超越海量数据分析的,因此为了提升系统的扩展性需要采用分布式的方法。然而,Hadoop已经成为当今大数据之王。分布式处理技术在一定程度上增加了数据分析的频率和速度。在不久的将来,传统的工具将被Mahout等分布式大数据处理工具取而代之,并成为主导地位。
四、结束语
在大数据时代,人们可以全力发挥科学技术的作用并对社会发展具有重要的作用。因此,需要不断开发数据分析工具。高效、精准地挖掘数据中存在的有利价值,是数据分析工具的主要价值之一,也是其关键所在。随着时间的推移,数据科学将成为一门具有完善的理论基础和学科技术的专业,并得到群众的认可。同时大部分高校也会设立指定的专业,创造大量与之相关的新的就业岗位。在不久的将来,相关人才肯定会供不应求。
参考文献
[1]朝乐门[1,2],邢春晓[3,4,5],张勇[3,4,5].数据科学研究的现状与趋势[J].计算机科学,2018,45(1):1-13.
[2]曹瑞雪,马英红,李海洋,等.基于SCOPUS的数据科学发展现状与趋势分析[J].计算机与数字工程,2019,47(4).