龙草芳
摘要:随着大数据及人工智能时代的到来,数据分析逐渐成为数据科学研究中的一个重要领域。本文主要介绍了数据分析的概念、数据分析方法、常用分析工具。
关键词:大数据;人工智能;数据分析
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)14-0226-02
1数据分析
20世纪初期如果要对一问题进行分析,需要人们手工计算,这导致运算速度非常慢,随着时间的流逝,现在的数据量远远超过以前的运算规模,传统手工的计算手段更加满足不了现在的需求。
为了解决运算的问题,人们一直在致力这方面的研发,用电子代替人工。随着计算机的出现和发展,这一问题被有效地解决了,人们进入了自动化时代。移动互联网时代的来临直接推进了大数据时代的到来。如何处理分析这些数据得到有效的信息,这是个巨大的挑战,人们不断地在寻求合适的解决方案。
众所周知,大数据不单是数据量大的事情,最重要的是怎么利用好这些大数据,也就是对大数据进行分析,通过分析得到有价值的信息,并将这些信息加工成人们可快速、准确理解的知识。现在越来越多的行业应用涉及了大数据,例如金融、零售业、医疗、电信、航空等。这些行业应用不断地产生大量数据,而这些数据的属性,包括数量,速度,多样性,复杂性等都在呈现不断增长的复杂性,这些都要通过合适的分析方法来处理,所以说大数据的分析方法起到决定性作用。
数据分析是指用适当的分析方法和工具对准备好的数据进行分析和解释,提取出有用的信息,以得到有效的结论并通过可视化技术展现出来的过程。因此,要学习数据分析首先需清楚数据分析与数据展现的方法以及对数据分析工具的使用。
2 数据分析方法
目前,数据分析方法中常见的基本分析方法包括对比分析、趋势分析、差异显著性检验、分组分析法、结构分析、因素分析法、交叉分析法、综合评价分析法等。
2.1对比分析
对比分析也称为比较分析,该方法通过对客观事物进行对比,从而认识事物的本质以及挖掘事物的规律并给出准确的评价。对比分析的分析对象一般为相互联系的两个指标数据,它主要展示与说明研究对象水平的高低、速度的快慢、规模的大小以及各关系之间是否协调。
2.2趋势分析
趨势分析是指将实际达到的结果,通过比较同类指标不同时期的数据,继而明确该指标的变化趋势以及变化规律的一种分析方法。趋势分析主要是运用在财务分析方面,具体的分析方法包括定比和环比两种方法。定比分析是报告分析期的水笔比上某一特定时期的水平,它阐释的是该现象在不短的一段时期内总的变化水平。环比分析指的是报告分析期水平比上前一时段水平,表示是逐期变化趋势的现象,然后通过本期数据与上期数据的对比,形成时间序列图。
2.3显著性检验
“显著性检验”是Significance Test翻译过来的,在统计学中,显著性检验属于“统计假设检验”(Statistical hypothesis testing)一类,显著性检验是用于检测科学实验中实验组对照组之间是否有差异及差异是否显著的办法。事先要设立一个假设,然后判断该假设是否合理,即判断假设与真实情况是否存在显著性差异。或者说,显著性检验是判断样本与对总体所做的假设之间的差异是属于机会变异,还是由所做的假设与总体真实情况之间不一致而产生的差异。
2.4分组分析
分组分析法是将总体数据按照某一特征划分成若干个部分再加以分析的一种方法。是根据目标数据的性质、特征,按照一定指标,将数据总体划分成几个部分,来认识所要分析对象的不同特征,不同性质以及相互关系的方法。
分组时需要遵循穷尽原则和相互独立原则。穷尽原则:即分组中要包含所有数据,不能遗漏,各组的空间能容纳所有的数据。相互独立原则:即分组之间不能交叉,组别之间差异明显,一个数据只能归属于某一个组。
2.5结构分析
结构分析是建立在对比分析的基础上,扩大对比范用,然后运用结构分析进行一一比较,通过结构指标来解释企业资源结构分布、生产布局的状况,便于经营者进行调整,投资者长期决策。
结构指标(%)=(总体中某一部分总体总量) X 100%
结构指标是指总体某一部分占总体总量的比重,总体中各个部分的结构相对数的和等于100%。
结构分析广泛应用于财政收支领域,它能够从不同的维度展开结构分析,如科目结构、区域结构等。同时饼图、圆锥图和金字塔图等都是开展结构分析的有效工具。根据关注的时间,可分成静态结构分析和动态结构分析;根据关注的对象,结构分析可分成增量结构分析、元素的比重分析以及总量结构分析。
2.6因素分析
因素分析法是斯皮尔曼( C.Spearman )在1904年提出的,根据分析指标与其影响因素的关系,从而确定不同因素对分析指标影响程度以及影响方向的一种方法。因素分析法既能够独立分析某个因素对经济指标的影响,又能够全面分析各因素对某一经济指标的影响,因素分析法实际就是相关性概念,是在心理学领域中发展起来的一种多变量解析手段。
2.7交叉分析法
交叉分析法是指将有一定联系的两个变量及其值交叉排列在一张表内,使各变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系,也叫交叉表分析法。它是从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。虽然复杂,但这种方法弥补了“各自为政”分析方法所带来的偏差。常用的是二维交叉表分析法,也有二维以上的交叉表,当然维度越多表就越复杂,这需要根据分析目的来确定。
2.8综合评价分析方法
使用多个指标对多个参评对象评价的方法一般称为综合评价分析,其核心思想是利用一定的指标体系,采用特定的评价方法,将参评对象多个方面的特征转化为一个综合指标,从而确定参评对象的优劣、类型或进行排序等。综合评价分析方法可以用在不同社会发展水平的地区或者对不同企业的经济效益进行评价。
3 常用分析工具
3.1 Excel
Excel是微软公司研发的办公软件Microsoft office的组件之一,是由微软为Windows和MAC操作系统的计算机编写和运行的一款表格计算软件。Excel是Office中的一个常用软件,它可以用于数据处理与统计分析,并可以将结果以图形方式呈现,Excel是一个非常容易入门的软件。使用Excel进行数据分析,简单的分析运用里面最基础的运算和图表的制作就可以了,稍微复杂一点的分析工作可能用到函数和数据透视表,VBA和宏是其数据分析的高级应用。或者可以下载XLstat插件(一个统计分析插件),可以完成大部分SPSS数据分析功能。
3.2 SPSS
SPSS(Statistical Product and Serivice Solutions,统计产品和服务解决方案),是世界著名的商用统计分析软件之一,它的数据管理和输入方法与Excel很相似,数据接口基本通用,可以很方便地从数据库中读取数据。其内含模型包括常用的、较为成熟的统计分析模型,完全可以满足非统计专业人士的工作需要。另外,SPSS的输出结果十分直观、漂亮,很多都是以图表的形式输出,存储时则使用SPO格式,且可以转存为HTML格式和文本格式。对于熟悉编程运行方式的用户,可直接使用语句生成窗口,只需要在菜单中选择好各个选项,然后粘贴就可以自动生成标准的SPSS程序。SPSS可以直接读取Excel及DBF数据文件,且它的分析结果直观、清晰、易学易用。现已推广到多种操作系统的计算机上,极大地方便了中、高级用户。
3. 3 SAS
SAS(Statistical Analysis System)于1976年正式推出。SAS主要用于大型集成信息系统的决策支持,最初它的功能仅限于统计分析,至今,它的重要组成部分和核心功能也仍然是统计分析功能。SAS對于处理大数据具有很大优势,在金融领域SAS使用非常广泛。相对于SPSS来说,SAS有更加强大的绘图工具,而且可以编程,但是也更难掌握。
3.4 Stata
Stata是Statacorp于1985年开发的一套软件,可以为使用者提供数据分析、数据管理以及绘制专业图表等服务。它提供了一系列的功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。
Stata的统计功能强大,不但有传统的统计分析方法,还收集了近些年发展的新方法,在许多方面远远超过了SPSS和SAS。Stata在分析时是将数据全部读入内存,分析完成后才和磁盘交换数据,从而运算速度极快。Stata具有很强的程序语言功能,但使用比SAS简单。其生存数据分析、纵向数据分析等模块的功能很出色,大大超过了SAS。另外,Stata作图功能方面,它提供八种基本图形的制作,基本满足大部分用户的作图要求。Stata在全球范围内被广泛应用于企业和学术机构中,许多使用者是工作在特定研究领域一线的人员,比如经济学、社会学、政治学及流行病学等领域。
3.5 MATLAB
MATLAB是由美国MathWorks公司出品的商业数学软件,主要包括MATLAB和Simulink两大部分,MATLAB一词来源于matrix和laboratory两个词的组合,即矩阵实验室。MATLAB用于科学计算、可视化以及交互式程序设计的高科技计算环境,被用于算法开发、数据可视化、数据分析以及数值计算等场合。
3.6 R语言
R诞生于1980年左右的S语言的一个分支,在统计领域广泛使用,可以认为R是S语言的一种实现,而S语言是由AT&T贝尔实验室开发的一种用来进行数据检索、统计分析和作图的解释型语言。
R语言拥有一套完整的数据处理、计算和制图软件,其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言既可以操纵数据的输入和输出,也可以实现分支和循环结构。而最重要的是R语言是完全免费开源的,所以对于很多中小型公司来说,R语言是数据分析的首选工具。
4 小结
大数据的关注点已经不再仅仅是数据量大,而最重要的是对大数据进行分析和挖掘,只有通过智能分析才能获取深入的、有价值的信息,并将这些信息加工成人们可快速、准确理解的知识。
参考文献:
[1] 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.
[2] 刘鹏,张燕,张重生,张志立.大数据[M].北京:电子工业出版社,2017.
[3] 王国胤,刘群,于洪,曾宪华.大数据挖掘及应用[M].北京:清华大学出版社,2017.
[4] 大数据战略重点实验室.大数据概念与发展[J].中国科技术语,2017(4):43-50.
【通联编辑:光文玲】