孙雪琴
摘要:从学科层面来看,大数据作为一种新的数据分析方案,其基于数据关系的内在本质直接决定了大数据与统计学之间所存在必然联系,对统计学来说,大数据不仅是一种挑战,同时也是良好的机遇,深入探讨大数据背景下统计学的发展趋势就成为社会各界共同关注的焦点。
关键词:大数据;统计学;发展
大数据背景下,信息化技术、定位系统以及传感器等各类技术不断发展,使得许多曾经难以收集的数据能够进行大规模收集,云计算则使得大规模数据处理得以实现。基于大规模数据分析能够让我们获取传统只使用样本时不能达成的全新视野,其为统计学未来发展提供了良好的机遇。与此同时,基于样本的传统统计理论及方法显然已经无法适应大数据背景下相关需求,这就需要我们充分结合大数据需求与特征针对统计学进行改进,从大数据当中挖掘更多信息,促进统计学更好的发展。
1健全总体、个体以及样本的定义
传统统计分析需要从总体当中进行抽样,再针对抽样样本性质来决定总体特点。由于其需要从总体当中获取数据,即应当明确整体范围来当作研究目标,然后利用抽样样本分析来针对总体进行分析。大数据环境则是完全相反,其需要先有数据,然后后总体,并不需要定义目标,只包含某一段时间点的所有数据对应的整体概念。由于个体所具有的不确定性,数据本身是一个动态的进程,不能事前依靠数据库当中的单位实施编制,这个时间段与下一个时间段的数据是存在差异性的,所以也难以在事后进行个体识别。互联网中,相同个体可以存在多个符号与称谓,相同符号或者称谓则能够代表多个个体,并且个体以为的现象也非常多,所以大数据通常能够看到整体数据的外形,难以针对个体进行考究。然而对于大数据分析而言,针对个体实施身份识别仍旧是至关重要的,这就需要我们针对传统意义层面中个体与总体的定义方式进行改革,而传统意义层面上的样本定义方式无法从大数据当中提取样本数据。当然,因为大数据动态性,在任意时间段的整体,其都能够作为界面样本。
2积极拓展统计学体系
大数据背景下需要我们采用辩证、发展眼光来对待统计学的发展,统计学要想有效适应大数据的相关需求,应当积极构建基于大数据框架的学科体系。统计学必须要把大数据整体统计的方法与思想归纳到学科体系当中,统计学相关的内容则应当从传统样本统计逐步过渡到样本统计与总体统计的整合。样本统计主要是利用带有随即性质的观测数据来针对整体进行推断,样本的生成存在随机性,采用样本去进行整体推断会出现代表性误差,而基于大数据的整体统计则能够有效弥补上述不足。通过大数据的引入,统计学科能够划分为总体统计与样本统计,样本统计的作用在于“以小见大”,而总体统计则在于“由繁入简”,两者的有效整合能够更好的适应大数据的相关需求。
3研发新的分类与梳理方法
传统统计学主要是根据预先设置的方案实施数据分类与梳理,所参考的指标与最终获得的分类都属于结构化的,针对数据实施分类与梳理属于数据预处理的必要步骤,属于统计分析的重要部分。但针对大数据来说,因为数据的来源、形式以及表现方式等都是多元化的,如果还根据传统统计学方式在研究以前针对信息的类型、分类依据标识、标示之间的关系以及类与类之间区别度等实施更为严格的设定,显然是不现实的,只可以在针对数据实施预处理以后,依照数据自身的特征来实施完善与补充。显然,传统的数据分类与梳理已经不适用于大数据要求,应当积极研发适用于大数据环境下的数据分类与梳理方法,并在此基础上研发新的数据分析方法。
4整合多种统计学方法
传统统计分析中,归纳推断法属于最为主要的研究方法,通过分析样本数据的主要特征,然后在这个基础上进行总体特征的推断。针对大数据,归纳法依据能够作为大数据分析的主要方法,依据需要利用具体个体的特征来进行总体特征的推断,依然需要从个体信息当中去不断发现新的知识。然而针对大数据而言,如果仅仅只是注重一般或者总体特征的归纳,则会造成严重的浪费。部分类别甚至是个体,或者某些异常值,都能够据此推断出全新的预测或者结论。所以,还必须要针对个体的信息实施更为深入的挖掘,同时需要根据现有的相关经验知识与分布特征去针对其他更为具体的规律实施推理分析,能够更为深入的挖掘事物之间存在的联系,并据此来针对新事物实施判断,即演绎推理法。演绎法能够帮助我们基于现有知识经验基础,实施进一步的研究挖掘,避免研究进程中忽略一些细小、关键的特点。通过归纳法与演绎法的有效整合,能够从大数据当中的偶然性中发现必然性,并通过全面数据当中的必然性去观察偶然性、认知偶然性、利用偶然性,以此来全面提升偶然性的驾驭水平。
综上所述,大数据在为传统统计学带来严峻挑战的同时,也能够为传统统计学创造发展提供良好的机遇。处在大数据快速发展的时代中,我们必须要意识到大数据对传统统计学来说是一种补充而并非替代,传统统计学仍旧会在经济分析、社会统计领域发挥至关重要的作用。