张景晨 中国人民大学
统计学作为一门综合性比较强的学科,拥有极大的应用价值,在经济生产生活中得到广泛的应用。统计学的发展还给实际的生活提供了便利,具体表现为对生活数据的处理,统计学随着历史的发展而不断更新,在生活中的具体应用也在不断地优化和升级。目前随着互联网时代的到来,每天都会有大量的数据产生被存储下来,开始全面进入到海量数据的信息化时代,传统的统计学方法无法应对大数据的要求,因此需要根据时代进行更新,才能进一步促进统计学理论与实践的创新,传统统计学的变革成为目前社会关注的热点也是当前迫切需要解决的问题。
21世纪网络技术不断的发展,现代社会逐渐步入网络信息化的社会,大数据的时代也随之到来。大数据具有四个主要的维度,即数量大,速度快,数据多样性大,数据价值高。具体来说,网络信息技术得到了飞速的发展,导致过程中产生的数据量呈现指数增长的趋势,数据信息数据库存储容量的增加以及数据信息的内容也不断地丰富起来,预计在近期,全球所产生的数据量将超过50万亿GB。大数据的高速化意味着数据的生成速度很快,因此是对于数据分析能力的考验以及数据存储技术具体速度的考验,从而提高了困难和复杂大数据的处理质量。目前数据可以产生于多种不同的环境当中,也可以产生于不同的设备,具有复杂和多样性,数据中携带者鲜明的特征,数据的产生可以源于文本,图片,音频,视频,地理信息以及其他材料,例如微信,计算机平台和移动客户端;数据信息在当今时代所携带的应用价值非常大,存在着较高的信息量,当前网络信息技术正在不断地发展来应对这一点,网络信息技术得到了深层次的发展,对于业务发展等方面都有者比较大的应用价值。但是,当前对于数据挖掘工作的开展还存在着问题,挖掘的密度较低,并且随着大数据时代的激增,会产生大量的数据,进一步加大了数据挖掘的难度。
在大数据时代的背景带来的机遇和挑战之下,统计获得了新的发展空间和发展方向,统计学的重要性和应用价值越来越突出。我国教育部将统计学定为大学教学的一级学科后,开设了经济统计学,应用统计学和统计学三个二级学科。鉴于大数据时代的发展特点,西方国家已经建立了统计指导教学和教育纲要,并从统计软件编程,统计基础理论知识,实际应用和数值挖掘等方面提出了统计人才培养标准。我国国务院于2015年指出,教育部门需要将工作重点放在大数据方面,对数据应用技术和数据等高端技术人才进行培训和教育。对此应该加强数据分析和挖掘,以从大数据时代的发展浪潮中获得知识并且进行广泛的创新应用。
大数据既是机遇又是挑战,对社会发展和进步具有推动作用。大数据可以带动目前关于统计学的教育与培训的改革,使得统计学的教育能够适合当前大数据时代背景之下的要求,为社会培养具有综合应用能力的人才,也为具体理论知识的应用具有明显的帮助。此外大数据还可以推动相关理论知识和技术手段的创新,海量数据的处理模式相比于传统的处理模式而言有很大的不同,因此会带动包括复杂数据建模方法在内的诸多方面的变革与创新。
目前伴随着大数据时代的到来,统计学的进一步发展面临着机遇和挑战。传统的统计学方法在进行数理统计方面的应用时,通常是用随机抽样的方式进行,从而得到简单随机样本,在对样本进行简化的模型基础上展开统计量分布绘图以及统计量的分析计算,来得出不同统计量之间的关系以及相关性分析等等。传统的统计学是根据抽样分析来展开的,建立在样本分析的基础上的,从而在小容量的样本上,对总体数据的特点和分布进行估计。大数据时代的背景之下,数据的获取渠道合方式逐渐增多了,因此数据分析的模式应当发生一定程度的转变,对于数据整体中发现重点并分析的方式可以逐渐过渡到对于整体的分析。随着数据范围的增加,统计难度也变得越来越大,所以需要从统计思维方式上进行改变来应对。传统统计学中常常采用的技术手段和相应的理论方法,海量数据的到来带来了不小的挑战,已经很难将传统统计学思维和相应的方法应用其中,因此对于数据整体来讲,应当对总体数据进行拆分和清晰化处理,对于不同难度的数据进行分别处理,也可以针对不同分类下的问题进行分别处理和分析研究。
传统统计学中的研究重点通常是放在数据之间因果关系的推理,例如在传统的计量经济学研究中,通常是采用回归模型进行分析,其中研究的重点是自变量和因变量的关系递进分析。统计的分析中常常带有验证的成分,运用了很多的数学前提,包括正态分布前提等等,首先需要提出假设,并根据假设和数据的分布来得到最终结果是否符合假设。大数据时代之下,数据之间的关联性不断加大,并且数据之间的因果关系变得更加模糊化,在网络层面的研究当中,相关性的分析变得更加重要。
传统统计学在实际应用的过程当中仅仅是对少量信息进行分析的,这些信息由于量比较小,所以常常是作为标准化的存储方式保存的,具有少量的文本信息和数字信息,常见的方式便是通过电子表格的形式进行保存。目前随着网络层面的科学技术不断地发展,传统小规模的数据形式得到了进一步的变化,出现了越来越多的非结构化的储存方式,包括图片、音频视频、地理位置等等方式,数据形式越来越丰富。因此利用传统的处理软件很难对海量数据进行相应的处理,并且处理速度也是比较缓慢。对此统计软件需要对新的数据形式进行相应的改革和创新,出现对于不同形式数据进行分析的功能,快速识别非结构化的数据形式,将非格式化的数据形式进行转化,实现此类统计学的软件对于提升数据分析的效率提升具有很大帮助。
在大数据的时代背景和要求之下,数据处理的多种方式和环节都将会发生改变,具体体现在数据的挖掘和数据建模的方面,因此对于传统统计学的方法不能够完全的抛弃,应当针对原有的统计学理论和处理方法进行升级和拓展,针对现有的海量数据特征来进行复杂数据模型的建模和分析方法实现,进一步扩充统计学的知识体系和应用方法。此外还应当针对数据质量进行评估,数据随着规模的不断提高,对于数据质量的判断也越来越困难,数据中通常携带着大量的噪音,因此需要对数据中存在的噪声信息进行剔除,这也是统计学变革和创新发展的着力点。
对于目前教育和培训而言,应当大力推进教育教学的改革,尝试将统计学和其他学科的相关技术和知识进行融合,形成交叉学科的培养教育模式,统计学中涉及理论和实践方面的能力,在具体的应用中也具有其工具方法,因此本身就具有一定的交叉属性。目前无论是科研还是企业应用方面都需要大数据人才,同时也需要大量的数据分析方面的专家,因此教育教学当中需要针对社会中对于人才的需要进行相应的培养,跟进时代潮流,例如将统计学和管理经济类的学科进行交叉培养,来满足目前大数据行业对于人才背景的要求。企业可以组织培训内容,聘请行业内专家对员工数据分析理论和当前先进的统计工具进行教授。
传统统计学中对于数据的处理方式通常是按照一定的方法流程,进而进行数据的统一汇总,基本上过程中数据都是具有结构化的特点,诸如保存在电子表格中的数据。对于数据的分类和预处理是数据处理过程应当最先进行的事情,也是统计分析中最重要的一个步骤,预处理的质量直接影响统计分析的最终质量。大数据的来源通常都比较的广泛,具有多种的形式,因此不能够简单的按照传统统计学的处理办法对数据进行处理,否则将无法发挥出大数据多样性带来的优势,数据的完整性也会受到损害。因此对于数据信息的完善,就需要研究和创新数据处理分析方法,从而对数据进行有效地预处理。
大数据的背景之下,数据可以是非结构化的数据类型,运用运用某些特定的技术手段就可以实现结构化数据和非结构化数据之间的相互转化,对于两种数据形式的转化问题也是目前关注度较高的问题。目前现代社会中,每天都会有各种形式的数据产生,不同的数据加起来便构成了海量数据,因此需要提高海量数据的表达方式和水平。在传统统计学当中,数据的推断更加重要,但是大数据的处理框架中,更加偏向数据的描述,这一主要特征由大数据的多样性决定。大数据通常对于数据整体和部分具有比较完整的描述,应当加强对于结构化数据的收集,而对于非结构化数据将着重放在对于其中有效信息的挖掘上面。通常非结构数据具有一定的抽象性,后期对数据进行分析的过程当中,需要将非结构化的数据根据某种形式转化为结构化的数据,在后续分析的过程中便可以简洁。
根据以上的讨论,可以得出大数据时代背景下给予了统计学机遇和挑战,大数据相对于以往的数据特点,除了数据量大之外还有多样性的特点。统计学对于大数据时代下的挑战,应该从多个角度寻求创新和变革,来适应大数据时代背景下各个产业的要求和整体的发展,使得大数据可以和统计学产生有机的融合,促进两门学科的发展。需要在大数据时代背景下充分把握机遇,促进统计学的改革,适应当前形势下海量数据的处理要求,才能全面推进理论和科学手段的双方面共同发展。