张程
山西大同大学(大同 037009)
数据科学的统计学内涵探究
张程
山西大同大学(大同 037009)
大数据做为数据科学的主要研究方向,其主要分析在于数据的收集方式,数据分析统计学方向的内容也逐渐丰富。数据在时代中的发展逐渐多样化,本文就统计学视角详细研究数据科学的内涵,发现统计学在数据科学中的机遇和挑战。
数据科学;统计学;内涵
在大数据洪流的推动下,很多信息从传统的传播方式逐渐转变为信息化形式,如今社会需要解决的问题是,如何通过信息资源将劳动生产率进行有效提升。通过基于统计学知识探讨数据科学的基本含义,并经过数据科学范式的研究去更深的了解统计学的内涵。
数据就是统计学主要研究的方向,而数据科学自然也是以数据作为研究的对象。在名义上,数据科学似乎与统计学之间有着与生俱来的联系。实际上,二者的“数据”在概念上是并不相同,数据本身概念指向是非常宽泛的,例如数字、音频、文字等等,只要是能够对客观事物进行记录的,能够鉴别的符号都可将其称为数据。虽然统计学所研究的数据方向是多样的、丰富的的,却都属于结构化数据,就像定距数据、定比数据等定量数据。相比之下,数据科学的研究范围则会更加广泛、丰富,除了传统结构的数据类型外,还有对非结构型和半结构型数据的研究,这就是“大数据”。
大数据对于传统数据库的分析与储存过程是非常复杂的,在管理分析数据的过程中需要一种新的范式,也就是数据科学来实现管理。现代统计学的意义,是从处理小数据和一些不完整实验等实际性问题中,逐渐发展而来的。数据科学的兴起,实际上主要是通过处理大数据,现实中的问题处理逐渐实现的。这样看来,大数据就是数据科学的研究对象,结构型数据是统计学主要的研究方向。这之间存在着质变,就结构化研究中,大部分数据都是传统的理论方法,所以要求在实践中不断不断完善和改进相关理论,同时加强技术处理等信息化的有效发展。
2.1 理论基础
对于数据的处理分析,在各个领域逐渐发展起来,数据科学被相关学者认为是一门交叉学科,其包括数学与统计学知识、计算机科学技术和专业应用知识三类。然而这只是将某种现实活动拆分为不同的学科,却没有一个统一性的定义。有学者提出,数据科学是计算机科学另外一种代称,实际上这只是字面是上的转换,不具备学科独立性。统计学加上它在计算技术方面的扩展,这样的表述使得数据科学可以具有学科独立性。也是在证明统计学是数据科学的理论基础,数据科学也就是统计学在研究上的不断扩展。
统计学在随着社会需求不断地扩展,刚开始统计学的活动只是应用在一些征兵或征税的管理上,现在逐渐扩大范围至更多的层面。从小数据研究,逐渐走向对大数据的探索。这中间对于数据统计的发展,是伴随着整个大数据的社会性而转变的,另外,从参数分析方法,到非参数方法。这些转变因着数据的开发进步而有所变化,推动着整个数据科学的有效前进。
2.2 技术维度
对于数据科学而言,技术并不是数据分析的主导,数据的分析主要是对于数据的“理解”和“阅读”。技术知识为数据分析中的辅助工具,非相关学者或其他人士也可通过统计软件得到统计结果,所以对统计结果的解释也无法令人信服。如今统计分析很明显的依赖于技术的发展,这也是因为数据量逐渐复杂而多样化,使得统计分析更需要开发出高效率的数据管理工具。所以数据科学对于技术的需求也是很清晰的,大数据不只是需要利用统计软件协助基本统计的相关计算,主要是因为大数据不能直接用于统计分析中。大数据需要借助相关技术,实现数据的分析和研究,
技术水平及使用价值有待发展和提高。
在面对如今巨大的数据时,数据统计的方法在本质上并没有变化,只是现实中改变了它的算法。大数据在一定程度上,体现了计算机科学技术和其算法的实行能力,大数据的分析储存,都是技术方面的相关应用。在数据分析中如何变革升级技术方面的水平,是当今统计分析实际性发展的重点。
2.3 应用维度
将数据转化为有价值的商业信息整个完整的过程,就是在商业应用领域中对数据科学的定义。在实际要求中,需要数据科学家对数据的来源及类型等等都了解透彻,另外还要了解选择分析方法的要义,充分发挥数据在相关领域中的应用价值。
很多学者都认为实际应用,可以体现数据科学与统计学、数学等其他学科的区别。就商业而言,强调数据科学多角度的理解,对应用的维度要求是多方向的。要求数据科学家具备很好的表达能力,可以将一些数据反映出来的事实,清晰地讲解给大家,增进商业理解是数据分析一项重要的目的,包括数据科学家、首席信息官的提法都始于实务部门。数据的科学统计在各个领域的应用,是当下能够体现其价值的重要表现,将数据化的信息反馈与社会,将实际状态表现出来对于社会的进步和完善有很大意义。
大规模数据在刚开始体现为一个封闭机构内,数据集间的关联关系是大数据的重点。现实中,孤立的大数据价值是有限的,针对传统的数据进行新的变革,就是当今大数据的主导任务,结合传统数据以及线上和线下模式,最终使得大数据环境更具价值。
3.1 数据收集方面
统计学家在独立统计学科定义之前,就开始对大规模的数据进行相应的处理了,但当时更多的数据统计是一些简单的汇总和比较。1920年以后,统计将重点放在小规模数据、统计调查上,使得统计方法在社会快速发展。
数据收集方式的转变,也意味着数据统计的再次变革。将传统的统计调查方法转变为大数据统计方法,数据每时每刻都在增加,其数据来源和类型也非常丰富。随着电话和网络的普及,在数据调查统计中,对于实效性的要求也逐渐提高。迫切需要相关部门于搜索引擎服务商进行有效合作,整理商业记录数据、行政记录数据、个人行为记录数据等多渠道数据源来进行数据有效分析。
3.2 数据分析方面
样本的意义在现代统计分析中逐渐被淡化,提高数据分析的方法就是抽样推断。对于算法的改善,可以达到更好的分析结果。增加数据可以提高推断整体效果,抽样在某些场合来说是很困难的,计算机时代的统计分析主要基于数据的算法。大数据的分析主要包括大数据的管理存储、传输。面对海量的数据,我们发现,开采有用的知识等价于抛弃无用的数据。但是大数据时代中又有新的问题,再怎么抛弃数据,其还是会逐日增长。必须提高处理海量数据的能力。
由于数据量的巨大,计算方法十分复杂,大数据面临计算有效性的控制。对于有效性采用并行处理的方法,如今高性能计算和网格计算也是并行处理,大数据中的大部分节点,都需要访问大量的数据,所以有不少计算节点因为网络带宽的限制,不得不处于空闲等待的状态。对于这一问题,MapReduce可以尽量在计算节点上存储数据,实现数据的本地快速访问,MapReduce的核心特征就是,数据本地化。如今更多的数据软件,可以方便处理一些数据问题,减轻数据计算负担,提高数据统计研究效率。
基于大数据急速的发展,数据统计科学发挥其最大力量,促进整个数据时代的进步。数据科学范式下的各个挑战,使得数据科学在大数据中接受挑战,完成数据统计分析研究,促进数据科学领域统计分析的顺利进行。通过研究分析统计学在数据科学中的应用是必然的,统计学是数据中的一部分,数据是通过统计分析进行最终呈现的。
[1]张文燕.浅谈统计科学的发展及其作用分析[J].中国市场.2010,(52).
[2]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究.2014,(01).
[3]刘红,胡新和.数据革命:从数到大数据的历史考察[J].自然辩证法通讯.2013,(06).
[4]王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报.2011,(10).
(责任编辑:文婷)
F222
A
1003-3319(2016)04-00041-02
10.19469/j.cnki.1003-3319.2016.04.0041