大数据时代的统计学应用

2016-12-01 00:35张泽圣
中国科技纵横 2016年18期
关键词:整体时代统计学

张泽圣

(云南大学数学与统计学院,云南昆明 650000)

大数据时代的统计学应用

张泽圣

(云南大学数学与统计学院,云南昆明650000)

随着信息技术的不断发展,大数据的时代已然来临,大数据对人们的生活生产都产生了巨大的影响。大数据给统计学的发展也带来了许多挑战与机遇,基于大数据背景下的统计学在当前不断地发展。本文对大数据和统计学的概念进行了分析,对大数据时代下的统计学进行了详细的介绍,并提出了一些大数据时代下的统计学的未来的展望。

大数据统计学应用

大数据,主要是指庞大的数据资讯,由于其数据之庞大,人们不能利用当下主流的软件在一定时间内对其进行提取、分析从而帮助决策者决策的资讯;统计学,主要是对数据进行分析、整理,再以较为直观的方式呈现出数据的特征,以供人们、参考、决策。随着信息技术的不断发展,当今时代已是大数据的时代,大数据在全世界范围内都得到了不同程度的发展,传统统计学由于自身具有的单调性,被人们将其与大数据紧密结合,并且在各个领域中加以利用。大数据时代下的统计学应用已经成为了一种发展的潮流。社会在不断发展着,信息也在不断地进步,许多人都开始注意到数据的重要性。就目前的情况而言,实用的数据很多,我们可以对其进行利用,从而提高生产力的发展水平,并且解决一些民生方面的问题。因此大数据时代的统计学应用十分重要。

1 统计学与大数据的简单概述

1.1统计学概述及其性质

统计学是一门主要对数据进行收集并通过直观的方式将其表现出来的一门科学。在传统的统计学中有两种主要的统计方法,即推断统计和描述统计法。在推断统计中,主要是通过对已知样本进行推断,推断出总体参数,将推断出的数据用概率的方式表示出来。描述统计则是对所收集的数据进行处理,将其结果用统计图等图表形式直观地表现出来。

统计学有包含如下几个基本性质:

统计学的主要目的是对数据进行研究。统计学所研究的数据并不是抽象的,而是客观真实存在的数据。这些数据有大有小,可以是微观的粒子,也可是广阔无垠的宇宙;甚至可以追溯至远古时期的人类发展以及未来的发展。

统计学的主要研究方法是归纳与推断。统计学主要通过对样本数据进行延伸,将其上升至整体,从而得出一般结论。也就是我们所说的通过现象对其本质进行研究。这个方法主要是有小到大,由个体到整体。

统计学的研究结论往往是不确定的。在统计学中对数据的提取主要是通过抽样进行的,抽样数据并不是整体数据,它只能代表整体数据的一部分。因此,不可避免的,统计学研究结论会带有不确定性,这也是传统统计学中不可避免的缺点。

统计学最重要的特点是其联系范围的广阔性。在大部分学科中,以及人们的生产生活中,脱离不了数据,而数据必须要通过统计才能发挥其作用,因此,统计学与各个学科联系紧密,也与人们生产生活息息相关。

1.2大数据的产生与发展

当今时代是互联网高速发展的时代,也属于信息发展的时代。由于信息量的庞大,不可避免地会出现各种各样的数据。大数据就是信息高速发展的产物,它包括了各种各样数据的交汇,它不是传统意义上单一的数据。我们可以将大数据看成是各种数据的集合,通过对各类数据进行整合、交叉运用,在云计算基础上对数据进行处理和运用,并且形成一种可供我们利用的智力资源和强大的知识服务能力。

大数据虽然数据量大,但是价值密度低,数据类型多且复杂,但是处理的速度快,这也是大数据的四大特点。从中我们不难看出大数据十分注重对海量数据的处理,在预测方面具有十分的优势。与目前拥有的其他技术相比,大数据所具有的“速度”“廉价”“优化”这三个方面所综合起来的成本是最低的。在我们的生产生活中,大数据给我们提供的可量化维度是以前所不具有的,它对我们的生活生产带来了许多方便,在新发明和新服务方面起到了不可替代的作用。

大数据不仅给我们带来了机遇也带来了挑战。大数据的数据量之庞大,有更多的数据需要我们分析,传统的抽样方法已不再适用。在大数据面前,对数据精度的要求有所减少,进而更加注重对整体信息的获取;我们也由之前注重事务之间的因果关系转而注重事务之间的相互联系,从中获取对我们更具价值的信息。

目前,在我国许多企业中对大数据利用的能力还不足,产生了效率低、成本高、耗能高等问题。如何对大数据进行利用并推动企业发展是我们当下所面临的问题,在大数据背景下,对海量数据进行高效合理的利用对未来大数据的发展十分重要。

1.3大数据的研究动向与信息问题

1.3.1大数据的研究动向

当前,国外一些机构对大数据环境下的发展提出了一些极具挑战性的问题。比如如何对高度分布的数据资源进行处理,对数据来源的追踪,对样本的核实等等。他们在大数据的处理方法上进行了改进,开发了一系列的算法。在我国,也十分重视对大数据的研究。对大数据的研究还专门召开了会议进行讨论,国家设立了专项的研究计划,设立了专项的研究基金。而大数据最终的服务对象是广大的企业,因此,在企业方面也开展了合作计划。大数据的研究并不能只依靠单一的统计学,其他学科也应该重视大数据对自身学科发展的影响。在计算机领域,相关的计算机人才除了掌握扎实计算机技能,也应该对大数据有所掌握。计算机与统计学关系紧密,因此,计算机领域在大数据与统计学中也扮演了重要的角色。

1.3.2大数据的信息问题

当今时代是数据信息的时代,大数据所包含的数据量十分庞大,人们需要对这些数据研究就必须将这些数据相互融合起来。将数据融合就需要清楚数据的来源以及如何对这些数据进行获取的。在获取数据的过程中,数据的来源复杂并且数量庞大,不可避免地就会出现一些问题。比如原始数据遭到破坏,因为大数据主要注重对数据整体的获取,因此,在某些数据上出现问题在所难免,甚至所取得的数据不是原始数据,而是经过分析推断后的预测数据。因此,我们要引起足够的重视,重视数据的获取,避免取得一些遭到破坏的数据。

另一方面,在大数据的获取过程中也很容易造成数据的缺失。而数据缺失的最直接的结果就是影响数据的分析。有些不同领域的研究却需要相同的数据,这就造成了数据的重叠,比如经济和保险,两者分属于不同的领域,但是在具体的研究过程中某些数据的利用是相同的。在我们对数据进行分析时,要特别注意两个方面的数据。一方面是观察得到的数据,另一方面是实验得到的数据。这两个数据所包含的具体信息是不同的,但是却仍然会使得一些人对数据产生错误的认知。这是因为数据本身是具有特定的范围的,我们对数据进行收集的同时,实际上也就确定了这一属性,所以当我们需要一些超出这个范围的含义就需要我们对这些数据进行推断。

2 大数据时代的统计学的具体应用

2.1大数据时代的统计学在企业中的应用

在企业的生产、经济活动中,统计学都占据着十分重要的地位。企业通过对统计方法的利用,建立了风险监测体系。但是单纯运用传统的统计方法是远远不够的,企业往往会将大数据与统计学相互结合,从而对公司进行实时的监管。在企业的生产活动中,涉及了许多方面的数据,包括各个月份、各个季度的总体收入,各个具体项的收入情况,整体支出情况、具体项的支出情况等等,这就包含了十分庞大的数据量。因此,在企业中往往利用大数据对整体的数据进行把握,在根据统计方法进行分析、总结,以此对企业进行实时的监管,并建立了相对完整的风险监测体系。

2.2大数据时代的统计学在农业中的应用

农业的生产与我们息息相关,我们可以以水稻为例,对其进行具体的分析。影响水稻产量的原因有许多,气候、土壤、环境、营养等都是影响水稻产量的重要因素。但是由于技术的发展,水稻在全国范围内十分广阔地种植,利用传统的统计学方法势必不能对影响水稻产量的因素进行很好的分析。但是将统计学与大数据相结合,却能够对影响其产量的原因进行很好的把握。当前,由于科学技术的发展,我们可以对水稻的种植环境进行各个方面的监测,比如土壤、水分、养料等,从而得到一系列的数据,这些数据数量庞大并且数据种类繁多,传统的抽样方法不能够对其进行整体的把握,只有对整体数据进行分析,将其原因进行统计才能真正得出影响水稻产量的因素。这是大数据时代的统计学在农业方面的典型应用,通过对整体数据的把握,并对其进行统计分析,从而得出我们想要的结果。

2.3大数据时代的统计学在其他学科方面的应用

大数据给人们的生产生活都带来了影响,各行各业的劳动者也纷纷通过对数据的利用来带动行业的发展,通过对数据的利用达到解决问题的目的。随着科技的发展,我们在出行之前会习惯性地对交通、天气等状况进行查询。事实上,我们所利用的这些软件都与大数据和统计学息息相关。交通状况主要是对该路况进行实时的监测,比如人流量、车流量等,通过对这些数据的实时监测,再将其进行统计分析,得到具体的交通状况,并且以直观的图表方式呈现给我们。还有我们都十分熟悉的翻译软件,我们日常的学习中,会使用到一些翻译软件,实际上这些翻译软件也和大数据、统计学息息相关。在这些软件当中,储存了十分庞大的词汇量,当我们使用翻译功能是,会统计出最常用的句子,并且按检索次数呈现出来。这些都是大数据下背景下的统计学的应用,这些应用都给我们的生活带来了便利。

3 统计学在大数据时代下的机遇与挑战

3.1统计学与大数据的联系十分紧密

统计学主要是对数据进行研究,通过对数据的研究分析进而得出结论。在统计学中,研究的数据范畴十分广,包括定量数据、定性数据、截面数据、实验数据等等,都是统计学所要研究的数据对象。而大数据就是各种数据的集合,它包含了各式各样的数据类型,简单的、复杂的。统计学与大数据都主要是围绕数据进行展开的,这是统计学与大数据之间的一种内在联系。因此,我们可以将统计学与大数据相结合,改变传统统计学中对数据抽样研究的方法,转变成对整体的数据进行研究,从而得出更能为我们所利用的研究结果。

3.2大数据使传统统计学得到改进和补充

传统的统计学中,在对数据量大的数据处理中存在着明显的不足,其数据处理过程中,往往存在滞后性和低频性等问题。我们以经济学里的消费物价指数,也就是CPI为例。我们所得到的CPI报表中,往往在时间上存在着一定的滞后性,本月的CPI数据只能在下个月才能得到相关的数据报表。由于时间上存在着滞后性,许多政策的制定都会受到影响,不能根据情况及时的做出调整。而大数据就随时提供当前阶段的“价格指数”,对市场进行实时的监测,它的时间频率甚至甚至可以小到以天为单位,提供每天的价格指数。借助大数据,可以对市场价格进行实时的监测,我们可以对市场价格作出合理的调节,从而减少出现通货膨胀和通货紧缩的情况发生。我们可以利用大数据对信息全面掌控和对总体覆盖的优势,对数据进行全面地分析,从而补充传统统计学中的不足。

3.3统计学思想在大数据时代中的转变

在当前的统计学中,由于整体数据量庞大,我们往往会通过样本对整体进行分析。在这一过程中,往往十分重视样本数据的精确程度,传统统计学重视样本的数据的精确程度。而大数据往往相反,大数据呈现的是一个整体,由于整体数据十分庞大,对于其数据的精确程度势必不能很好的把握,因此,大数据重视整体数据的情况,对于其样本精确程度并没有做很高的要求。在大数据中,我们的立足点是整体数据而不拘泥于某个样本,看中的也是整体数据所呈现出来的价值,大数据中“样本即是整体”的概念与传统统计学重视样本的概念不同,大数据的这一整体概念对统计学的思想有着十分重要的影响。

3.4统计学与大数据互相促进,共同发展

当前所处的时代是大数据发展的时代,大数据的发展十分迅猛,这给统计学的发展带来重大的影响,使统计学的发展具有划时代的意义。传统的统计学通过样本对整体进行把握,大数据对其进行突破,通过对整体数据的把握,得出一系列更具效益的结论。而在统计学中,其对数据的细致分析,准确推断,对统计理论的应用和掌握也十分值得借鉴。只有将二者进行结合,才能发挥更大的作用。我们应该充分利用大数据所带来的巨大信息量,运用统计的方法对其进行整体感知,在大数据时代的发展中,迎接它所带来的机遇和挑战。只有将大数据和统计学进行有效的结合,才能给我们的生活生产的发展做出贡献。

4 结语

一个新事物的到来,必然会对传统的事物产生影响。大数据时代的到来也对统计学产生了深刻的影响,大数据给统计学带来了新的生命力。目前很多学科的发展都融入了大数据的潮流之中,作为与大数据联系紧密的统计学如果不进行改革创新,那么终将会被边缘化,阻碍自身的发展。大数据给统计学带来了挑战,但是不可否认的是大数据也给统计学的发展带来了机遇,我们在抓住机遇的同时还应该意识到传统的统计学中,一些方法已经不能满足当今数据的分析。基于这一现状,统计学家不能盲目将传统的数据环境当成研究的目的,而是应该积极融入到新事物当中,迎接挑战,使大数据时代下的统计学能够得到更好的应用和发展。

[1]田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究,2015,05:3-12.

[2]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,01:5-9.

[3]邱东.大数据时代对统计学的挑战[J].统计研究,2014,01:16-22.

[4]朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究(成都),2014,03:35-37.

猜你喜欢
整体时代统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
设而不求整体代换
改革需要整体推进