李增
慈溪市观海卫镇人民政府 浙江慈溪 315300
大数据是互联网时代快速发展下的阶段性成果之一,大到国家战略、小到民间商业,尤其是电子商务等领域早已率先应用大数据技术。鉴于此,以数据为研究对象、具有专业严谨特点的统计学,应该积极面对大数据潮流,促进其长足发展。
大数据的内涵不仅包含在数据内容上,还体现在大上面,因此大数据的内涵与传统的数据不同,不仅在数据的记录和存储比以往的数据空间大,同时也是运用现代信息技术,促使记录数据的手段不断更新,能记录更多的数据,帮助企业或者有需要的人们,在社会不断发展的今天,人们需要的则是随时可以记录、记录类型多样的数据体系,因此在统计分析的层面看,大数据就比以往的传统数据的利用价值更多,更大,因为传统的数据属于样本数据,记录的方式和容量是有限的,而大数据不同,它是可以多角度,全方位的记录的数据,而大数据对于做数据研究还能够提供依据,具有动态性,因此大数据是一切人们可以利用记录的符号的组合,也是具有无限的空间的,满足多种记录的要求的数据库。
大数据相比于传统数据,在类型、量化方式和数据来源上都发成了巨大变化。传统数据收集目的性强,可以确定数据来源,即数据提供者的信息和身份,在数据分析后还可以进行修改校对。而大数据很难从微观层面追溯来源,因为大数据基本来源于互联网,数据产生并不以收集为目的。传统数据的数据类型具有一定的结构性,基本上是定量和定性数据,标准和格式也是固定的,最终通过统计图标等方式呈现出来。而大数据没有结构性或者具有半结构性特点,包括一切可以记录的符号。传统数据在数据量化方面来说是非常成熟的。量化之后,数据可以直接用来做分析和计算。而大数据在数据量化方面则面临一个巨大的挑战。因为大数据背景下,不同系统对数据的分析都是不同的。因此,大数据的非结构性特征改变了传统的数据结构和数据量化方式[1]。
传统思维下的收集数据是以目的为导向进行针对性的收集,但大数据的到来使得数据来源和体量无限扩大,因此在收集数据前不需要进行专门调查。但是,由于大数据的丰富性和无限扩充性,导致必须考虑如何进行数据甄别、提炼、利用,以及如何加大数据的存储。因此,新的思维应该是把收集数据看作一个识别、整理、提炼、汲取、分配和存储数据的过程。
信息时代,计算机技术的储存和分析技术不断提升。统计工作可以利用现代信息技术或者各种软件,主动从大数据中发掘有用的信息。传统的定量分析慢慢变得简单化,而统计工作仅仅需要从定量回应中挖出数量关系,为最终决策提供数据依据和支撑。传统统计是根据样本的特征推断出总体特征,这就决定了样本的质量决定结论质量。大数据的统计分析是针对总体数据进行的,将不再受分布理论的制约。大数据下的统计遵循着严格的思维逻辑,即,从实际分布到总体特征再到概率判断。
正确认识统计新思维,必须主动转变观念,达到思想和行动的统一。传统数据首先有总体,然后是样本和数据。对大数据来说,数据在前,总体在后,归根结底是因为大数据的个体处在不断变化中,很难用传统的名录库做归纳和总结。大数据具有变动流通性,一个个体有多个表达方式,不同网络体系中同样的表达方式代表的却不是同一个个体[2]。
传统数据分析可以按照预定方案进行,而对于大数据而言,受到大数据先有个体后有总体的影响,传统的数据分析方法将不再适用。大数据中存在的各种信息内容、网络流行语等,我们很难对各种信息进行有效地分类,也很难对信息个体的对应关系加以划分和控制,我们只能从超大容量数据本身入手,观察数据的分布特征,加强非结构化数据的研究。
在自然现象和社会生活中,个体存在差异,可以通过目标对象的不确定性发现其中规律。而要研究不确定性时,首要就是收集数据。因此大数据的不确定性不再是传统的获取样本,推断总体,而是来源于数据多样性,数据来源混杂性。改变对不确定性的认识,有助于我们适应统计的新思维,新常态。
传统的统计技术在数据的收集和分析过程中发挥出了既定的价值,但大数据的到来使得原本的统计技术显得单一和过时,不能有效解决计算能力上的不足,因此需要及时做出改变,最可取的方法是依靠现代信息技术的协助,比如:云计算。云计算是指将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。借助云计算技术的强大计算处理能力,可以弥补传统统计技术的缺陷,从而在数据分析中体现统计思想以应对大数据。
传统思维下的数据收集极其依赖抽样调查,其功能就是通过样本来推断总体特征。尽管抽样调查存在数据信息有限、抽样范围封闭、前期准备工作难等问题,但大数据的到来可以将样本数据无限扩充到整体,从而有效掩盖这些问题。可即便如此,考虑到成本、效率、大数据覆盖不全面等因素,在很多时候仍需要通过抽样调查来获取信息并进行分析。这样一来,抽样调查的功能就变为:作为大数据分析的验证依据并用于对照,以及快速从混杂的数据中进行挖掘和探测分析[3]。
总之,大数据时代,信息化技术的冲击,需要我们用新思维引领统计,主动构建数据化大格局。在正确认识大数据的前提下,转变观念,主动去适应和改变统计思维。