郭鑫雨
(山西大同大学数学与计算机科学学院,大同 037009)
随着互联网的逐步普及,现在大数据成为了焦点话题。最初大数据概念源于IT行业中数据库,通常表示数据量很大或数据表示形式多样,这种情形下就需要更强的决策力和数据优化能力。从数据方面看,“大数据”是指无法采用传统工具搜集、处理和分析的信息。具体什么是大数据,现在还没有较为权威的定义,但随着大数据信息的普及应用,其必将对社会带来巨大变革。本文中对统计学进行研究分析,提出如何转变统计思维才能够更加契合当今时代的发展,增强对数据处理能力,使得数据统计在当前得到更好的应用。
大数据时代是建立在互联网和多种新技术的广泛发展应用之上。数字媒体、网络媒体及多种新媒体逐步打破了传统认知范围,逐渐将认知转变成为一种来源日益丰富、分工逐步细致的社会自主互助的学习认识过程。
各种新媒体技术的出现和广泛应用逐渐丰富了网络资源,将世界各地的人土风情、经济实时新闻和生活娱乐等带入人们视线中,每个人都成为了海量信息的制造者和使用者。但是,海量的数据信息也增加了数据辨识、选择、采集和利用难度,从而有时会大大影响工作效率。
互联网技术,微电子技术以及qq、微信、微博、公众账号等平台的广泛应用拓宽了获取知识的手段,并且拉近了世界范围内的各种信息和认知者的距离。尤其是现在智能手机、平板电脑、iPad及各种云存储空间使认知者接触所学信息形式更加多样化,随时随地都可进行学习。大数据时代的到来带来的是认知方式的空前多样化,已经从根本上改变了传统教学时间及地点的限制。
从对数据的收集来看,传统数据的收集目的性较强,基本能够确定所需要的信息和信息的提供者,多数信息还能支持采集后的核对。但在大数据时代,多数信息都来自互联网并且多是匿名信息,信息最初产生就不是为了后期的应用采集,所以对数据的提供者确认较困难,更无从谈起信息的核对。
从数据类型上来说,传统数据的结构稳定性较强,通常为一定形式的定量数据和定性数据构成,格式性较强,并且传统数据常以统计图表形式展现出来。大数据时代数据非结构性、半结构性和异结构性的特点突出,具体表现就是所有的符号或信息都被统计起来,并且展现形式也无固定标准。此外,数据之间多无关联,所以在包含多样的大量数据时不用对数据结构进行预先设置。
从对数量量化来看,传统数据的统计分析已经形成了较为完备的量化方式,数量量化过后多可直接分析运用。但大数据时代数据的非结构性使得数据的量化成为了一个全新的课题,通过量化非结构性数据得到正确结论十分困难。大数据时代信息的统计时也发生了改变,数据量化呈现的形式不再固定,所以,当前非结构化数据不再适用传统数据的量化方式。
数据分析的前提是数据收集,传统数据统计中的数据收集首先要确认数据分析目标,并对数据收集的方案精细化设计,此过程通常占用较多精力。大数据时代,可选取的数据量大大提升,数据分析中工作的重要部分变为选择和分析比较,而数据收集过程的重点也转变为如何利用海量数据,而没有必要对大数据中的部分数据进行专门的收集分析调查。
但是,由于海量数据的来源多样化且种类结构不固定,数据量的增长速度同样十分迅速,因此数据的统计分析中除了有大数据带来的数据丰富的优点外,还要面对这样的难题:存储内存不足、对海量数据分析能力差、数据真伪难以鉴别及数据的关联物选择不够好等。
当前数据存储中采用TB级别的数据库已屡见不鲜,PB级别的数据量也逐步流行起来,可预见以后可能会收集存储EB、ZB和YB级的数据量。因此,对于当前设备存储能力的提升已需要提上日程。设备存储能力不足可能会影响系统对大数据的应用,另外,还可能会因数据库的更新造成一定的数据丢失问题。因为数据量如果较大,当数据库存储达到一定数量级别后进行存储量的扩充或拷贝都会成为非常严重的问题,代价十分惨重。所以,在一定状况下需要对数据进行筛选和分类,实时有目的的删除或备份一些数据。传统上针对性的收集数据到当前大数据时代下有目的的删除部分数据都是实现数据收集。大数据时代的数据手机已经改变为从海量数据中过滤和筛选,所以势必会放弃部分不重要数据。
传统上的数据分析是从对数据的定性分析开始,然后对数据进行定量分析,最后再回归到对数据的定性分析。开始对数据的定性分析是为实现找到主要数据,所以此时数据分析者的实际经验和个人能量成为数据分析的主要因素。因为在数据量小或数据部分缺失情形下,高质量的定性分析往往能够决定最终统计分析的好坏。而当前大数据时代可以依据海量的数据来做决策,当下最新的计算机技术、分析技术以及设备的存储能量都得到了较大提升,所以定量分析势必会走向简单化。而统计分析工作的重点就是要在定量的回应中深层次挖掘分析初一些数量关系或数量特征,从而实现为后续科学的决策提供理论支持。综上,大数据时代的统计分析往往只经过定量到定性的过程,且其得出的结论更具加科学合理,具有更高的准确性。
传统上的数据统计工作是因为数据结构的稳定性、数据量小而得到准确的数据结果,多数情形中都避免了不确定性的出现。而在当前的大数据时代,海量的数据且形式的多样性直接造成了数据分析的不确定性,且不确定性主要来自数据的多样性以及数据中个体差异,所以数据分析中对数据的精确性可以不作过多要求。
大数据存在的最大的特点就是其种类多且互相交错,另外大数据还是先有数据再有整体分布。传统对数据进行处理的方法大都是采用预定的方案,该方案中所用到的分类标记和分组方法也都是固定不变的,另外其处理的数据也需要是一些获取的确定数据。因此这种方法对目前的大数据而言并不是一种有效的处理方法。具体表现在:大数据由于其涉猎较广而杂,随着信息化社会发展,会不断涌现新的信息,信息的表现方式也会不断变化。数据的分类标志很难固定,不同类之间的界限也逐渐减弱。如果依然采用固定的分类标志,那么随着数据的更新,会增加后续工作量,如果数据量较大,那么对数据有效的梳理和分类就很难实现。基于以上问题并结合大数据特点,开发出一种新的大数据梳理与分类方法是非常有必要的,只有对收集到的数据进行合理的分类和处理才能对数据进行更好的分析。这里指的考虑的问题是,该过程是否可以通过相关的大数据迭代建模算法进行自动的处理,这将是未来的研究方向。
对数据进行预处理之后就是对其进行分析,从而可以得出一定的结论并进行应用。数据统计对专业比较敏感,专业不同,其所采用的数学模型也有很大差别,因此需要针对不同的专业特点建立最优的数据分析模式,从多角度、多方位对数据作深入的剖析,利用非线性和线性回归参数来检验与估计实现对数据的多层次的精确分析。例如在分析设备的实际结构与模型结构的相似度时可以采用两者的欧氏距离大小来衡量,通过数据的大小,精确清楚地对产业化的结构层次作出定量分析。
大数据时代是统计学发展的契机,可能会削弱传统数据统计功能。所以,本文对统计思维进行研究,希望通过大数据时代数据的新特点帮助统计思维的改进,使其更加合理和科学地进行数据处理,使商业及学术等领域逐步迈入量化进程,为经济发展等社会各个方面的统计工作带来创新与机遇。
[1] 韩莉莉.大数据时代下统计思维变革综述[J].现代商业,2017(05):191-192.