大数据背景下数据科学分析工具现状及发展趋势

2019-07-24 10:33周琪栋薛冰洁
智富时代 2019年6期
关键词:大数据背景发展趋势

周琪栋 薛冰洁

【摘 要】在大数据背景下,利用云计算等智能型平台对大数据进行相应的分析,已经成为一种必然的趋势,而开放式共享与个性化定制也逐渐成为软件发展的一种主流途径。本文基于大数据背景下,首先介绍了数据科学分析工具的发展现状,接着探讨了数据分析工具在未来的发展趋势,以期为相关人员提供一定的参考。

【关键词】大数据背景;数据科学;发展趋势

大数据的出现,也衍生出一门全新的科学——“数据科学”,其作用则是利用自动化的方式去分析大量的数据,然后从中得到一些有用的信息。但是从现阶段的发展现状来看,数据分析工具在实际应用的时候,还面临着一些难题,基于此,相关人员就应该强化对这些数据分析工具的研究工作,着重突显出大数据的分析能力。

一、数据科学分析工具的现状

大数据正改变着人们的生活方式和思维模式,对于文化和一些学术研究也产生了一定的影响。一方面,大数据时代给各个学科领域都带来了一些机遇,将“知识范式”逐渐的转变成为“数据范式”。但是另一方面,也增加了数据获得与储存的难度性,各个学科领域中的传统知识与新兴数据之间的矛盾也愈加突出,当传统知识已经无法有效的适应现阶段的新型知识时,就会促使传统理论和方式发生一些革命性的变化。同时,从现阶段的发展情况来看,大数据已经受到了各个领域的高度重视,也成为计算机学和统计学等多个科学领域研究的重点内容,这也表示当前不同领域中数据研究开始向着一个高度融合的趋势发展。

二、现阶段数据科学分析工具面临的挑战

(一)数据的多样性

大数据可以看作是数据科学的一部分,无论是在科学领域,还是在教學范畴中,都为这些行业的发展提供了巨大的机会,但是在发展的过程中,也存在着诸多的挑战。首先就是数据格式的多样化,当我们开始进入大数据时代的时候,数据量也会有所上升,数据的格式也开始向着一个多样化的方向发展。如企业、银行的数据一般是以文本的形式存在的,而YouTube中的数据则是以视频或者是语音的方式出现。这些数据形式除了传统的关系数据之外,还包含了一些网页搜索、电子邮件和社交媒体软件等,这些实际上就是属于一种非结构和半结构的数据。因此,在面对数据量如此庞大的情况下,就要求在应用数据分析工具的时候,最好是可以将结构与非结构的数据有效的联系在一起。

(二)传统数据算法的失效

现阶段,数据科学还没有一个比较明确的基础理论,所以人们对于它的定义也各不相同。而在进行数据分析的时候,就需要选择一个有效的数据算法,传统的数据算法是聚类算法,这是一种非常典型的N立方规模,当N变大的时候,一些方式就会实效。因此,在如此庞大的数据背景下,就必须要选择一些适合时代发展的数据算法,这样才能更好的应对PB级别的数据。此外大数据还具备实时性的特点,这种情况下,就需要在准确性与实时性之间选择一个比较平衡的方式。

三、数据科学分析工具的发展趋势

(一)一体化和可视化的发展趋势

科学大数据智能分析中包含了数据处理、分析,而现有的大数据框架和平台中,也存在着曲线高、开发代价大的问题。因此,在传统化的“编程式”的开发模式中,还需要为该领域的科学家们提供一些简单而且方便的“拼装式”发展环境。最好是利用一些高质量以及可重复的模型与算法,这样在进行大数据分析的时候,就可以实现数据集中、流程设计等一体化的支撑体系。例如Data Analytics,这是一种轻量级的业务数据可视化分析平台,可以将各种数据源类型和海量的数据集合在一起,然后接入Excel等数据文件和服务平台等,这样便能轻松的整合相关业务。数据分析实际上就是数据处理的重点内容,但是如果最后分析的结果是正确的,但是缺乏一个合适的方式来解释它的结构,这就会让用户难以理解。而直观有效的展示出整体的分析结果,往往更容易让人接受数据分析所传递的信息。尤其是在大数据背景下,庞大而且繁琐的数据量,能够帮助人们更为直观的去发现数据中潜在的信息与知识,而可视化的发展则是最为有效的方式之一。

(二)云服务的发展趋势

云服务的科学大数据智能分析软件,不需要在本地进行数据的安装和维护,一方面,浏览器逐渐成为数据挖掘与分析的一种工具,另一方面,模型和数据源则是以在线API的形式进行共享与复用,这一种形式也可以被称之为“功能性的服务”。同时,大数据时代下,则是要求数据科学分析工具可以更好的适应海量数据的分析工作,其次,数据的价值同数据的种类之间也有着一定的联系,通常情况下,数据种类越多,那么包含的信息量也就越大,挖掘的潜在信息也越多。因此,为了实现全数据分析的发展,就要求数据分析工具应该具备一些格式多样化的分析模式。无论是直接统计分析,还是可视化分析,数据科学工具对于数据的建设都具有积极的作用,例如Keras数据分析工具,这是使用Python编写的开源神经网络库,通过深度神经网络来进行实验,就可以直接运行微软Cognitive,它的优势点在于高位模式匹配。同时,在图像和自然语言的处理中,也支持一些完善的深度学习分析模式,在实际应用的时候,可以节省掉大量的时间。而在添加这项新工具时的主要标志则是让数据科学家的工作变得更加的简单。

(三)开放共享的发展趋势

交叉科学在发展的过程中,包含了多领域的分析模型与算法,汇聚跨领域的共性模型,实际上可以形成一种类型丰富而且性能优异的算法库,这极大的降低了该领域交叉综合分析模型的开发难度,提高了整体的开发效率。同时,各个领域科学团队也通过共享的模型和算法,让软件系统得以继续的演练,系统更具备吸引力。例如R语言算法库,这就是CRAN交叉领域算法的一种典型,而且从现阶段的发展情况来看,这种算法在未来也会有非常广的应用空间。除此之外,在数据时代下,如果仅仅是依靠单一的数据分析工具,这是无法满足现阶段的发展需求的,而采用开放共享的模式,用于提高系统的扩展性已经成为一种必然。在这种情况下,R语言则受到了很多数据科学专业人员的喜爱,它能帮助科研人员更加简单和专注的进行数据科学研究。具有非常复杂的机器学习和统计作用,可以快速的查看平均值、中位数,还能创建图表,以及创建测试数据集,轻松的共享并导出CSV格式。

四、结束语

在传统的数据研究中,主要是强调将一些复杂的数据转变成为简单的数据。而在大数据背景下,如果可以更加有效的组织和使用这些数据,人们才能更好的利用科学技术来推动现代社会的发展。因此,在数据分析工具不断发展的过程中,准确、高效的利用数据中的潜在价值,实际上就是衡量数据分析工具的关键所在。当数据科学逐渐成为一门独立性学科的时候,相关的研究人员也应该完善相应的理论技术和学科技术,这样才能被更多的人所理解与认同。

【参考文献】

[1]徐礼文. 大数据背景下工科院校理学院数据科学创新团队与平台建设[J].教育教学论坛, 2017(22):95-96.

[2]佚名. 数据科学与大数据人才专业课程体系分析[J].计算机工程与科学, 2018, 40(z1).

[3]数据科学研究的现状与趋势[J].计算机科学, 2018, 45(1):1-13.

猜你喜欢
大数据背景发展趋势
浅析大数据背景下财务工作问题与创新
大数据背景下企业绩效管理的探讨