大数据背景下的统计学发展方向探究

2021-11-29 14:26杜旭阳
山西青年 2021年16期
关键词:预处理样本统计学

杜旭阳

(河南信息统计职业学院,河南 郑州 450000)

在数据量爆炸性增长的今天,传统统计学方法已经不能满足数据处理和分析的需求。大数据技术的普及与应用,为统计学的发展带来了一定冲击和机遇。现代化信息技术的发展推动了大数据技术的发展和应用,网络爬虫技术解决了统计学中的数据收集难题,云计算技术使得大规模的数据处理成为现实。由此可见,大数据技术的应用,对统计学中的数据处理、抽样以及分析工作带来了巨大变革。

一、大数据技术的发展现状、内涵与作用

(一)大数据技术的发展现状

根据近年来大数据技术的发展情况,目前与发达国家相比,我国大数据技术的相关研究还存在一定距离。根据大数据技术的研究方向,大数据技术的应用功能要能够追踪数据样本,广泛包容各种数据类型,实施正确算法对分布资源进行处理。从我国大数据技术需求和应用领域来看,涉及的范围十分广泛,有物联网应用领域、分布式计算领域、语音识别领域、机器学习领域等。

(二)大数据的内涵

根据近年来我国大数据技术的发展情况来看,国内外对于大数据技术的研究已经趋于统一,我国目前与发达国家相比,有关大数据技术的研究还存在一定距离。根据大数据技术的研究方向来看,大数据技术的应用功能不仅要包含追踪数据样本,还需要有实施正确算法对分布资源进行处理的功能。此外,对数据类型包容量一定要大,以便能够为研究者与决策者提供可靠的依据。根据我国大数据发展情况来看,涉及的学科范围十分广泛,集合了各个领域的数据信息,需要利用大数据技术对某一领域数据信息进行分析,只需要在信息量较大的数据库中对相关内容挑选便可。最后,在应用大数据技术的过程中,一定要将数据资源与决策有效融合,这样才能使得大数据技术在各个行业中得到充分应用。

(三)大数据技术的作用

根据大数据的应用情况来看,它能够使得高维变量与相关数据信息进行整合。统计学作为一门数据分析学科,常用的分析方法为抽样调查法。主要采用这一方法的原因是因为应用统计学无法将所有相关数据信息作为参考依据进行计算,否则将会导致整个数据分析工作量巨大,并且还会耗费大量的分析时间。大数据在统计学中的应用,解决了这一问题。应用大数据技术能够将人文领域、经济领域、网络领域等方面的数据信息全面整合,使得各个领域之间得以实现互通互融。大数据技术本身就拥有着较为先进的处理机制,因此该技术不仅能够解决诸多与数据相关的问题,还能够将无法解决的数据信息问题进行保存,作为大数据技术日后发展的使用储备。

二、大数据对统计工作带来的变革

统计学理论指导统计工作的进行,根据统计学的发展应用情况,大数据技术对统计工作中传统统计方法的影响主要在于数据抽样方法、数据预处理方法、模型构建以及数据分析方法四部分。笔者根据自身多年工作经验,通过以下内容详细论述了有关大数据对统计工作带来的变革。

(一)抽样方法的变革

统计抽样方法是在一定的条件下,从所有研究对象中随机挑选部分对象,并获取其相关数据。而大数据技术中的抽样方法是在诸多流动的数据中,挑选其中典型的数据或者直接获取全部数据进行分析。采用大数据抽样技术能够自动筛选出在庞大的数据中有着内在联系的某些信息,并能实时更新数据,有助于研究数据之间的连贯性以及动态关系。在传统的统计学中,如果想要通过人工开展典型数据的筛选工作,具有较大的局限性。而在大数据技术下,可以通过不断采集样本累积数据信息的方式获得真实可靠的结果。

(二)数据预处理方法的变革

在对数据进行分析前,首先需要根据数据的实际情况,对其开展清洗、纠正以及调补等相关预处理工作。在传统统计预处理中,如果要检查数据的预处理工作是否完成,需要对数据使用合理的抽样方法,抽取一定的数据进行检查,探究其中是否仍旧存在需要纠正的数据。此种对数据进行预处理的方法,工作量大,而且不一定能够对所有数据都进行了有效清洗。并且在数据量少的情况下,对缺失值的处理是否恰当会影响整个数据的分析结果。大数据技术的预处理方法和传统统计预处理方法没有实质区别,但是大数据技术的优点在于能够及时对数据预处理中的错误信息进行纠正,统筹整个数据资源,最终实现统计目标[1]。

(三)模型构建方法的变革

根据大数据时代的发展情况来看,该时代的另一特征便是网络平台的发展与建设。根据传统会计学的应用情况来看,无论是统计计算还是数据采集工作,都是线下开展。工作方式有问卷调查、任务布置以及学校课题研究等。在大数据技术不断发展的过程中,网络平台的搭建可以使得用户将该平台作为基础数据依据。在现代化信息技术不断发展的过程中,有关数据处理模型系统软件正在被逐渐开发,目前常用的数据处理模型软件有MSBN、BN、MIM等,这些高维数据处理工具不仅能够计算时间概率,还能够根据数据信息的统计结果构建数据因果关系图,有助于数据信息的传播与流转。

(四)数据分析方法的变革

在传统的统计学分析工作中,想要研究不直接联系但是具有一定相关性的变量之间的关系较为繁琐,因为要从较为庞大的信息资源中挑选出具有代表性的样本数据,还要对各个不同变量之间的关系进行研究[2]。在应用大数据技术进行分析时,该技术分析力强、包容力大的数据统筹能力,能够使得各种环境下的信息资源被有效整合,最终得出一个准确性较高的结果。在这一过程中,尽可能地减少了变量的参与,我们经常将这一分析法称为荟萃分析法。

三、大数据背景下的统计学发展方向以及发展策略

(一)不断健全有关统计学总体、个体、样本的定义

根据传统统计学的应用情况,在对数据信息开展分析工作时,首先需要搜集相关信息数据,从已经搜集到的数据信息中抽取样本,随后根据样本的性质来对调查对象的总体特点进行确定。具体而言,就是在应用传统统计学方法筛选数据时,需要在确定总体之后再抽取相关样本进行分析[3],而应用大数据技术则方法截然不同。大数据技术首先需要搜集个体数据样本,其次根据个体数据样本确定数据整体,最后按照相关要求对数据信息进行筛选,最终得出的统计结果是基于总体得到的结果,因此可信度与说服度更高。在当前,大多数情况下数据信息都是以信息流的形式出现,也就是说数据信息的样本是流动的、累积的。在此情况下,传统统计学最终分析出的结果不能与时俱进,具有一定滞后性。在利用大数据技术对相关信息进行搜集、监控时,因为对已经确定的数据信息没有依赖性,在开展后续计算工作时准确度更高,分析出来的数据结果更有实际应用性,能够为后续工作提供依据,提高统计工作可靠性。

(二)拓宽了统计学的研究体系

无论是什么领域实现可持续发展都是不变的宗旨,在当前我国社会快速发展过程中,统计学想要实现持续发展,就需要运用辩证、发展的眼光看待统计学。根据大数据的发展情况来看,它是一个框架体系巨大、统一性较强的综合性内容,统计学作为大数据中的一个分支,在未来发展过程中一定要积极融入大数据的思想、内涵[4]。在传统的统计学分析计算工作中具有较大的局限性,为了确保最终的统计结果公平、公正,工作人员通常情况下只能够通过在总体数据中挑选数据样本进行相关计算,在此过程中主张以小见大的分析统计方式。大数据时代的来临改变了这一问题,数据内容过大不再是难题,并且不断优化了数据整理过程。统计学在发展过程中要积极引进新技术与新理念,不断拓宽自己的研究体系,以便能够建立更多的分析研究方式,促使我国大数据时代稳定发展[5]。

(三)新的分类与梳理方法

根据传统统计学的应用情况来看,有关数据信息的分类方式首先是要对分类进行定义与区分,根据定义好的便签有针对性地搜寻相关数据信息。在对数据信息进行统计时会发现,这些信息通常情况下都会被囊括到一个已经明确的结构中,整个数据信息的梳理过程十分单一[6]。信息梳理作为信息预处理的关键环节,直接会影响到最终分析结果。但是在大数据背景下,所有数据信息的来源都属于开放式,因此只要设定好需要的信息类型,按照信息分类标识对信息类别进行判断,最终能够从不同的信息数据中筛选出需要的数据内容[7]。

综上所述,根据当前大数据背景下统计学的发展方向,大数据技术的广泛普及对统计学的数据抽样、数据预处理、模型构建以及数据分析带来了积极影响。统计学想要实现持续发展,就需要融合大数据技术,不断拓展统计学的研究领域,不断创新数据的分类与梳理方法,只有这样才能为统计学可持续发展提供保障。

猜你喜欢
预处理样本统计学
关于投稿的统计学要求
KR预处理工艺参数对脱硫剂分散行为的影响
预处理对医用外科口罩用熔喷布颗粒过滤性能的影响
手术器械预处理在手术室的应用
统计学符号书写要求
统计学符号使用的说明
污泥预处理及其在硅酸盐制品中的运用
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计