关 鹏 赵开斌 侯勇超
(巢湖学院,安徽 巢湖 238000)
在大数据热潮的推动下,数据已经成为资产[1],并成为优化配置土地、人力、技术、资本等传统生产要素的催化剂,甚至成为某些产业兴衰的决定性因素。大数据的兴起一方面对产业和商业模式进行了重塑,一方面对科学研究的范式提出了新的要求。学术界和产业界对大数据的研究正方兴未艾,大数据的理论、方法、技术及应用方面的研究成果层出不穷。特别是2012年“大数据元年”以来,相关学术文献量呈指数增长。而伴随着大数据的浪潮,由统计学、计算机科学、人工智能、数学等学科共同支撑的“数据科学”开始形成[2],同时关于大数据的学科建设及人才培养问题也逐渐引起重视。作为传统的“数据的科学”的统计学,与数据科学具有怎样的关系?应用型统计人才在数据科学范式下应该具有怎样的数据素养?为了适用数据科学范式,统计学专业应用型人才培养模式应该做出怎样的调整与优化?这些是本文将要探讨的主要问题。
数据科学(Data science)的来源最早可追溯自1960年,最初的用语是datalogy[3],由图林奖获得者 Naur提出。Naur提出datalogy这个术语,为了强调计算机科学是“数据处理的科学”的理论和原则[4]。数据科学作为术语第一次被提及是在1992年于法国Montpellier University II召开的日本-法国科学家第二次研讨会上[5]。1993年日本学者Chikio Hayashi教授在第四届国际分类学会联合会(IFCS)大会上提出,并简要地回答了什么是数据科学的问题。数据、数据的表示和数据的处理构成了数据科学的基本概念。第一次明确以“数据科学”为大会主题的国际学术会议是1996年在日本神户召开的第五届IFCS大会,大会以“数据科学、分类学及相关方法”为主题[6]。第一本以数据科学命名的期刊是在2002年由国际科学技术数据委员会(CODATA)创办的[7]。2001 年,时在贝尔实验室的Cleveland发表了题为“Data science:An Action Plan for Expanding the Technical Areas of the Field of Statistics” 的 学 术 论 文[8]。Cleveland在论文中对数据科学的学科起源与内涵进行了界定,并提出数据科学应作为统计学理论与方法的扩展。在此之后,关于数据科学的研究逐步展开。
经过1960年到2002年40多年的发展,数据科学的理念虽然逐渐清晰,但未能引起广泛的关注。直到2012年大数据研究的热潮开启,数据科学才逐渐吸引了人们的眼球。可见,数据科学与大数据的处理和应用息息相关。数据科学的研究对象就是来源于各种不同载体与形式的数据,以及对这些数据的采集、分析、应用等的相关理论与方法。关于数据科学的理论基础,学者更是百家争鸣。早在1998年美国佐治亚理工学院的J.Wu教授发表了题为 “Statistics=Data Science(统计学=数据科学)?”的演讲,提出了统计学应该致力于数据收集、建模、数据分析、问题解决、决策等一系列过程,应向数据科学转换,作为数据科学来发展[9]。2011年,贝尔统计研究实验室的统计学教授Cleveland指出,数据科学应该由统计学和先端计算技术相融合后成为独立的学科。Myers等认为数据科学就是统计学扩大出的一个新的领域,属于统计学的范畴[10]。而有些学者提出了不同的观点,认为数据科学作为“以数据为中心的科学”涉及的不仅仅是统计学的理论与方法,具有跨学科和多学科交叉融合的特点。2013年5月,第462次香山科学会议以“数据科学与大数据的科学原理与发展前景”为主题,展开了对数据科学前沿问题的思考与探索,涉及经济、管理、数学、信息、社会、生物、国防、航空航天等众多领域。可见,数据科学已经远远超出了统计学的研究范畴。邱东教授认为无论是从属关系还是交叉关系,统计学只是数据科学体系中的一个组成部分或构件[11]。Vander Aalst等认为数据科学已成为一个围绕着广泛的可用性数据,交叉着统计数据、数据挖掘、机器学习、数据库、可视化、伦理学和高性能计算等方法的一个新兴学科,并提出数据科学是一个关联着过程挖掘、推测学、数据库、算法、大规模分布式计算、可视化和可视化分析、行为(社会)科学、工业工程、隐私和安全、伦理学等不同分支学科的融合[12]。
从以上论述可以看出,统计学与数据科学之间不是简单的等价或者从属关系,二者之间存在明显的差异,但是也有显著的交叉,都以数据的处理和分析为核心课题。目前来说,将数据科学作为一门学科还为时尚早,数据科学尚未形成完整统一的学科框架理论体系。但是,数据科学作为一种大数据分析与应用的范式已经得到了产业界和学术界的广泛认可。同时,统计学的理论与方法在这个范式中具有不可替代的地位。
数据科学范式的兴起给统计学带来了机遇与挑战。Cleveland认为促使统计学领域主要技术工作发生实质性改变的领域就是数据科学,作为新范式,数据科学的最大刺激就是分析数据以解决学科领域潜藏在调查背景下问题[8]。在数据分析的人才培养方面,统计学专业有着得天独厚的优势,数据分析人才的核心专业就是统计学[13]。由此,统计学专业在人才培养中,需思考由传统数据向大数据转变中,数据分析人才在数据的采集、存储、管理、分析及应用方面的能力优化和升级,统计学专业所培养的应用型统计人才应该具有与数据科学范式相匹配的数据素养(data literacy)。
数据素养起源于计量素养(quantitative literacy)[14]和统计素养(statistical literacy)[15],三者之间存在密切关系。Carlson等从能力角度将数据素养具备的要素分为分为数据发现与采集、数据管理、数据处理、元数据、数据监管、数据存储、数据分析、数据可视化以及数据伦理[16]。郝媛玲等将数据素养分为数据态度、数据意识、数据知识、数据技能和数据伦理五个方面的基本要素[17]。基于以上数据素养的内涵,结合应用型人才培养的目标,从以下六个方面阐述数据科学范式下应用型统计人才应该具有的数据素养。
大数据是指难以用常规的软件工具在容许的时间内对其内容进行抓取、管理和处理的数据集合[18],一般使用“6V+C”来刻画其特点,即海量(Volume)、瞬刻(Velocity)、全息(Variety)、价值低密(Value)、虚实莫辨(Veracity)、动态性(Variability)和复杂性(Complexity)。大数据思维的本质在于大数据不仅仅是一种资源,更重要的是它引起了分析问题和解决问题的一种新范式[19],该范式提出由数据驱动的科学研究和知识发现,不同于统计学问题导向型研究范式,不仅适用于科学研究,而且在产业和商业领域大放异彩。
统计学专业的学生具备大数据思维很重要的一点是对“数据”的再认识。传统统计学研究的数据类型主要有分类数据、定比数据和定距数据等。虽然类型各异、来源广泛(社会、政府及物理空间:人口统计、财务报表、天气预报等),但是都属于结构化数据,存储在关系型数据库中。随着大数据时代的到来,除了来自社会、政府及物理空间中的数据量暴增之外,来自网络空间中的海量数据才是大数据真正的挑战。网络空间数据包括自媒体数据(社交媒体、微博、论坛、微信等)、日志数据(互联网用户行为数据、网络交易数据等日志)、富媒体数据(文本、图片、音视频等)[18]。这些数据的典型特征是半结构化或非结构化,需要扩展统计学的数据分析方法才能对其进行分析和处理。作为统计学专业的学生应该将数据的概念定格在大数据上,而不是常见的结构化数据。网络空间数据带来了社会、经济、管理等领域的“全息数据”,由数据驱动的数据科学范式将成为主流,这种思维的转变是应用型统计人才所必须具备的。
数据的变革来自方方面面,多源异构、海量动态是数据采集面临的最大问题。统计学对于统计数据的收集大多采用问题导向的数据设计方案(基于统计推断和抽样调查)。这种数据采集方案在数据匮乏时代,对社会、经济、管理等领域的治理和决策发挥了重要的作用,使统计分析方法发扬光大。而大数据时代的到来,使“数据之树”,忽如一夜春风来,千树万树梨花开。各行各业的数据在人们意识懵懂之时迅猛袭来,关系型数据库和与之相适应的统计分析方法迷失在数据分析的源头-数据采集阶段。作为统计学专业的学生来说,应该具备采集非结构化数据的能力,如社交媒体的用户生成内容、电商平台的用户评论数据、收索引擎的图片、音视频等。一般来说,对于非结构化数据的采集需要借助网络爬虫的技术。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,需要使用计算机程序语言编写。目前,已经有很多成熟的网络爬虫开源软件提供大数据采集功能,如用C++编写的Larbin、用Java编写的分布式爬虫Nutch、用Python编写的scrapy爬虫等。
大数据具有碎片化、多源异构、噪声大的特点,这给数据的处理带来一定的挑战。统计学对于数据的处理主要指数据抽样、去除异常值、降维等,这是结构型数据的典型处理方法。大数据的海量数据接近于 “全样本数据”,按照大数定理,样本数据越是接近整体统计推断越是精确。大数据的样本量如此之大,是不是分析起来越精确呢?其实不然,大数据处理面临三大问题:一是存储问题,常用的关系型数据库已经不能适应大数据的存储,文本、图片、音视频等非结构化数据需要新型的数据库,如NoSQL数据库;二是不同数据来源之间的数据融合问题,同一事件由于数据来源不同,结构也有可能不同,如何融合是值得研究的问题;三是大数据降维和去噪问题,海量数据中有价值的信息少,即大数据的高维度和稀疏性,只有对数据进行清洗和降维、降噪后,才能从数据矿藏挖掘出金子来。所以,大数据时代的应用型统计人才要想分析好大数据,必须具备解决这三个问题的能力。
对大数据价值的挖掘实际上是“数据(Data)→信息(Information)→知识(Knowledge)→智慧(Wisdom)”的转化过程,即“DIKW 价值链”[20]。 数据分析的方法是大数据挖掘的核心,与传统统计学的数据分析侧重于“验证性数据分析”不同,大数据分析方法更加侧重于“探索性数据分析”,如基于数据挖掘、机器学习、深度学习的方法。验证性的数据分析方法重因果关系,通过理论假设和统计推断分析变量之间的因果关系,进而达到预测的目的。而大数据在分析之前,往往不知道变量之间的因果联系,从而无法做出理论假设,统计推断的方法往往无从下手。这时,探索性的数据分析方法就体现出优势来。基于数据挖掘和知识发现的一系列算法致力于从混杂的数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式,这种模式不一定是具有因果关系的,更多是相关关系。但只要能从数据中提取有用的知识用以解决问题,这就足够了,这就是大数据分析的思维。这就要求统计学专业的应用型人才必须拓展自己的数据分析理论与方法,而不能局限于统计学的理论与方法。
大数据对决策的影响是深刻的。在数据匮乏时代,很多社会、经济、管理领域的问题都缺少有效的数据支撑,在决策时基于专家经验知识的定性决策占主导定位。随着互联网、物联网、WEB2.0/3.0的兴起,大众成为数据的生产者、使用者和传播者,大众成为政治事件、民生治理、政府决策、经济热点等的直接参与者,有时甚至主导事件的发展和结果。大数据的兴起使用户参与的过程数据、行为数据、内容数据全部记录下来,这对于管理问题来说是一笔宝贵的财富。过去,人文社会学科的很多问题是无法用数据去测度的,比如说政治领域。现在,使用大数据的方法甚至可以预测美国总统大选。2012年的美国总统大选,统计学家内特·希尔沃(Nate Silver)通过贝叶斯方法建立统计模型,基于数据分析,断言奥巴马有超过九成概率获胜,50个州的投票结果中全部预测正确。希尔沃从事新闻工作,但他推崇大数据和建模分析,不屑于传统的民调或是各种基于偏见、人云亦云的预判。正如他在《The Signal and the Noise:Why Most Predictions Fail-but Some Don′t》中所讲,大数据是非常重要的工具而不是游戏,大数据革命将改变了我们的生活、工作和思维模式,未来它将会成为影响我们决策的重要因素。所以说,作为一个统计学专业的学生来说,基于数据分析的决策能力是基本的数据素养。
大数据分析涉及到由数据到知识转化流程中的众多理论与方法。在数据采集与处理阶段,需要具备网络爬虫、自然语言处理、数据清洗、数据转换等知识;在数据存储阶段,需要具备数据库基础与技术、非结构化数据库(NoSQL)等知识;在数据分析阶段,除了传统的统计学方法(如统计推断、回归、结构方程等),还需要具备数据挖掘、机器学习、大数据分析技术(MapReduce/Hadoop等)、数据可视化技术等。当然,有些方法和技术需要计算机编程语言的支撑,如R、PYTHON、C++、JAVA等。另外,解读数据分析的结果还需要结合行业/领域的专业知识。而具备所以这些能力是相当困难的,一般来说,只要与自己弱项互补的数据科学家协作,组成一个团队发挥巨大的力量就可以了[9]。所以,对于应用型统计人才来说,团队协作能力尤为重要,你可以专注于数据分析流程中的某一项任务,但要融入到整个数据分析的流程中,明确分析目标和任务,做到及时有效的沟通交流。
原教育部副部长周远清对“人才培养模式”作过阐述,他认为人才培养模式实际上是人才的培养目标和培养规格以及实现这些培养目标的方法或手段[21]。具体来讲,这些方法或手段涉及到培养目标、培养方案、课程体系、教学内容与教学方法、评价方法、人才队伍等。而反映到应用型人才培养模式上,则更多的强调教育的做人造士功能、注重实践与应用、适应国民的全面发展和终生需要、为了学生的升学和更好的生活与工作等。也就是强调做人与做事的统一、理论与实践的统一[22]。大数据时代,在数据科学范式下,对照人才应该具备的数据素养,统计学人才培养模式应该做出怎样的调整与适应是值得重视的问题。下面就人才培养模式做以下几点思考,并提出相应的对策。
数据科学范式下的统计学人才培养,应该强调应用型的人才培养理念,以培养具备良好的数据素养、具备大数据分析和决策能力的统计学人才为目标。传统的统计学人才培养目标还定位在掌握统计学基本理论与方法,应用相关统计分析软件进行数据分析上,明显缺乏对大数据分析理论与方法的培养。大数据时代,数据已发生质的变化,作为“数据的科学”的统计学,应该适应新的变化,适时调整培养目标。著名统计学家袁卫认为面对的大数据的挑战,现代人才需求是交叉的、综合的素质。这就要求我们统计专业应该拓宽视野和能力,培养能够跨学科的、有多方面能力的人才[13]。跨学科、方面能力实际上就是指的大数据分析能力所要求的统计学、数学、计算机科学、信息科学等多学科知识。国内统计学专业大多数设置在数学学院,统计学的学生具有良好的数学背景,在扩展计算机、信息科学等多学科知识方面具有优势。
教材是大学生学习的第一手资料,是陪伴他们终身的教师。然而,经典统计学教材在改革开放的三十年里变化很少,相对于人才培养的定位来说,仍然不加区别的以重视理论以及阐述理论背后的数学方法为主。理论与方法固然重要,但是如何使用这些理论和使用这些理论以及解决哪些实际问题,以及在解决问题时需要注意哪些环节,教材中鲜有讨论,教师上课时也鲜有论及。其实,这才是学生更加关心的问题。在教材编写的问题上,实际上可以体现教学内容的多元化设计。一部分教材以统计理论与方法为主,主要面向培养统计学理论研究的学生为主;一部分以方法和应用为主,主要面向培养具备数据分析实践能力的学生为主。另外,教材中加入大数据分析理论与方法也是势在必行的。很多学科都引入了大数据分析理论与方法,计算机科学在这方面走在前面。统计学专业在数据分析方面具有天然的优势,在大数据教学方面也应该迎头赶上。
数据科学范式对统计分析过程的各个环节都提出了挑战,集中表现在数据收集和数据分析这两个方面[23]。统计学专业在课程体系设计方面同样存在这两个方面的问题,在数据收集方面主要开设 《抽样调查》《市场调查》《数据库原理》等课程,在数据分析方面主要开设 《数据库应用》《回归分析》《多元统计分析》《非参数统计》《时间序列分析》《金融统计分析》《经济预测与决策》《数据建模与数学软件》等,在计算机语言方面主要开设《计算机程序设计基础》《Matlab语言与数学实验》等,在统计软件方面主要有SPSS、MATLAB、Eviews等。从目前的课程设置来看,数据收集仍然偏重于市场调查和抽样技术,对于文本、图片、音视频等非结构化数据的采集方法没有涉及;在数据分析方面,主要还是传统统计学的统计推断方法,探索性的数据分析方法并没有太多的涉及;而在计算语言和计算能力方面,偏向于不用编程的统计软件,而这些软件所能处理的数据量和数据类型有限。这些课程设置的缺陷导致目前统计学专业的大学生对于大数据处理力不从心,从而限制了人才能力的发挥。
基于前面所述的课程设置缺陷以及应用型统计人才所需的数据素养,可以在原有课程体系的基础上增设计算机、数据挖掘和大数据技术相关课程。考虑到本科教学的实际情况,相关课程可以设置为专业选修课或者系列讲座的形式,如计算机相关课程《R语言》《Python语言》《数据库开发与设计》可以开设为专业选修课,同时这些课程的网络资源比较丰富,学生也可以在MOOC上学习。《数据挖掘》和《机器学习》对于统计学专业的学生来说至关重要,这两门课程在内容上有所重叠,均是利用算法进行大数据挖掘,在课程设置上进行合并或者理论集合实战。与大数据分析相关的一些课程开始开设成为系列讲座,如MapReduce/Hadoop等。当然,这些课程只靠统计学的教师是无法完成教学任务的,有些需要计算机、数学、或信息学科专业的教师,所以建立院系之间的联动授课机制也很重要。
在现有人才培养方案中,实践教学环节还比较薄弱,仅仅体现在课堂实验教学和专业实习上面,而课堂实验教学多是对统计语言和统计软件的应用。也就是说除了专业实习以外,在当前的人才培养模式下学生很少接触到真正的数据分析实务,更不用说大数据分析方法和技术的实战训练。建议充分利用寒暑假大学生社会调查和社会实践活动,通过学校积极搭建实践活动平台,让学生有机会到大数据商业、产业的企事业单位和政府部门进行调查和实践,锻炼学生收集数据、分析数据的能力。实践活动可以采取调查、项目等多种形式,比如帮助互联网销售公司分析客户行为数据、分析产品营销数据、分析公司财务数据等,并提出相关建议和对策;帮助政府相关部门采集社会舆情大数据,分析舆情热点事件、跟踪舆情事件发展脉络,通过舆情数据处理和分析支撑相关部分作出科学合理决策;分析交通部门大数据,辅助优化道路交通规划设计等等。通过这些实践教学与活动,让大学生将所学专业知识,切实应用到大数据分析中,切实体会统计分析的作用,做到理论与实践相结合。唯有如此,才能提高应用型统计人才培养的效能,发挥应用型统计人才在大数据分析中的优势。
[1]赵国栋,易欢欢,糜万军,等.大数据时代的历史机遇[M].北京:清华大学出版社,2013.
[2]李金昌.统计测度:统计学迈向数据科学的基础[J].统计研究,2015,(8):3-9.
[3]Data Science:history[EB/OL].[2016-07-10].https://en.wikipedia.org/wiki/Data_science
[4]SVEINSDOTTIR E,Fr kj r E.Datalogy—the Copenhagen tradition of computer science[J].BIT Numerical Mathematics,1988,(3):450-472.
[5]OHSUMI N.From data analysis to data science[C].7th Conference of the International-Federation-of-Classification-Societies,University Namur,Namur, Belgium,2000.
[6]刘磊.从数据科学到第四范式:大数据研究的科学渊源[J].广告大观(理论版),2016,(4):44-52.
[7]GU J,ZHANG L.Data,DIKW,big data and data science[J].Procedia Computer Science,2014,(31):814-821.
[8]CLEVELAND W S.Data science:an action plan for expanding the technical areas of the field of statistics[J].International statistical review,2001,(1):21-26.
[9]刘大北,贾一苇.日本《大数据时代的人才培养》倡议:制定背景、研究方向、计划及举措[J].电子政务,2015,(10):85-95.
[10]MYERS K,WIEL S V.Discussion of"data science:an action plan for expanding the technical areas of the field of statistics"[J].Statistical Analysis and Data Mining,2014,(6):420-422.
[11]邱东.大数据时代对统计学的挑战[J].统计研究,2014,(1):16-22.
[12]VANDER AALST W, DAMIANI E.Processes meet big data:connecting data science with process science[J].IEEE Transactions on Services Computing,2015,(6): 810-819.
[13]韩际平.大数据时代的统计人才培养——对话著名统计学家袁卫[J].中国统计,2014,(10):5-8.
[14]STEELE B,Kili-Bahi S.Quantitative literacy across the curriculum:a case study[J].Numeracy,2008,(2):3.
[15]WALLMAN K K.Enhancing statistical literacy:enriching our society[J].Journal of the American Statistical Association,1993,(421):1-8.
[16]CARLSON J,FOSMIRE M,MILLER C C,et al.Determining data information literacy needs:a study of students and research faculty[J].portal:Libraries and the Academy,2011,(2): 629-657.
[17]郝媛玲,沈婷婷.数据素养及其培养机制的构建与策略思考[J].情报理论与实践,2016,(1):58-63.
[18]邬贺铨.大数据思维[J].科学与社会,2014,(1):1-13.
[19]HEY T.The Fourth Paradigm—Data-Intensive Scientific Discovery[M].E-Science and Information Management,Springer Berlin Heidelberg,2012:1.
[20]Omegapowers,own work.This is from my own knowledge and understanding of DIKW model,May 2008[EB/OL].http://en.wikipedia.org/wiki/File:DIKW.png
[21]人才培养模式[EB/OL].http://baike.baidu.com/link?url=I07amqM8lcDCM3cjgffuTBoFHXOr58qAvXXO_zkEUM4ox4kZrtHdz AMg2Nd5tUbOS6IKK5bloYzhy6K.
[22]关仲和.关于应用型人才培养模式的思考[J].中国大学教学,2010,(6):7-11.
[23]魏瑾瑞,蒋萍.数据科学的统计学内涵[J].统计研究,2014,(5):3-9.