姚力 朱龙飞 崔晨
摘 要: 随着信息技术与人类生产生活的交汇融合,数据迅猛增长,数据已成为国家基础性战略资源。大数据给科学研究带来了巨大变化,数据驱动的研究范式在各学科领域兴起,数据科学人才培养成了应对大数据时代所面临挑战的关键。文章从数据科学人才培育的机遇与现状出发,调研了国内外高校在数据科学专业建設方面的案例。在此基础上,探索并提出数据科学教育体系中可采用的具体策略和方法,为高等院校数据科学与大数据技术相关专业的发展提供了思路。
关键词: 大数据; 数据科学; 人才培养; 专业建设
中图分类号:TP309 文献标志码:A 文章编号:1006-8228(2018)11-87-04
Abstract: The convergence of information technology and human life has led to the rapid growth of data, which becomes the basic strategic resource of the country. Big data brings great changes to scientific research, and data driven research paradigms are rising in various disciplines. Data science education is the key to success in coping with the challenges in the era of big data. This paper reviews the opportunity and current situation in data science education, and investigates on the cases of data science specialty construction in colleges and universities. Specific strategies and methods that can be used in the data science education system are proposed, which provides a way for the development of data science and big data specialties in universities.
Key words: big data; data science; talent cultivation; specialty construction
0 引言
数据科学在20世纪60年代被提出,在当时并未获得学术界的注意和认可。1974年,计算机科学家、图灵奖获得者Peter Naur在其著作《计算机方法的简明调研》的前言中首次明确提出了数据科学(Data Science)的概念,“数据科学是一门基于数据处理的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。2001年美国统计学教授William Cleveland发表了《数据科学:拓展统计学的技术领域的行动计划》,首次将数据科学作为一个单独学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础[1]。数据科学作为一门较为新兴的学科,所关注的正是在大数据时代的背景下,如何应用和数据相关的技术和理论来服务社会。
在数据科学课程理论的研究中,经常会提及数据、信息和知识这三个概念。一个称为“知识金字塔”(图1)的模型被广泛用于表示三者之间的关系。如今,由于大量的数据正在以前所未有的速度产生,而这些数据没有被有效地处理转化成信息,从而延误了知识的提取和产生。从原始数据中提取价值需要一种明确的系统和方法,数据科学代表了解决大数据挑战所必需的一门学科。教育应发挥其作用,培养具备适应数据科学领域知识,能批判性地思考并正确利用相应技术来解决大数据问题的人才[2]。
1 大数据、数据科学和数据科学家的概念
1.1 大数据
大数据描述了我们正面临的数据挑战。一家产业咨询服务机构的研究报告称,2016年,全球大数据产业市场规模为1403亿美元,预计到2020年将达到10270亿美元。促成大数据时代出现的两个主要因素是计算技术的快速发展和由此产生的数据爆炸。前者包括硬件技术,如CPU速度和网络带宽,以及软件技术,如分布式并行处理框架的出现;后者包括基于网络的软件的日益普及以及各种传感器的广泛使用。
如何定义大数据?Gartner将其定义为3V特征,即“高容量,高速度和高多样性的信息资产,这些资产具有成本效益,创新形式的信息处理形式,以增强洞察力和决策能力”[3]。在此定义的基础上,IBM提出了大数据5V特点。①Volume:数据量大,包括采集、存储和计算的量都非常大。②Variety:数据类型、来源和处理方式的多样性。③Value:数据价值密度相对较低。随着互联网及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,价值是迄今为止最具挑战性的维度。④Velocity:数据增长速度快,处理速度也快,时效性要求高。⑤Veracity:数据的准确性是指数据的质量、可靠性和不确定性。
1.2 数据科学
数据科学是门包罗万象的学科涉及很多方面的内容,涵盖数学、统计学、计算机科学、人工智能、模式识别、分布式计算、图形学等多个领域的技术和理论。我们可以这样定义数据科学:数据科学是一门通过系统性研究来获取与数据相关的知识体系的科学[4]。这里有两个层面的含义:一是研究数据本身,数据的各种类型、结构、状态、属性、变化形式和变化规律;二是通过对数据的研究,为自然科学和社会科学的研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为的现象和规律。
2010年,Drew Conway提出了第一张揭示数据科学的学科地位的维恩图(图2),首次明确探讨了数据科学的学科定位问题。从数据科学维恩图的中心部分可看出,数据科学位于统计学、机器学和某一领域知识的交叉之处,具备较为显著的交叉型学科的特点,即数据科学是一门以统计学、机器学习和领域知識为理论基础的新兴学科。同时,从该图的外围可看出,数据科学家需要具备数学与统计学知识、领域实战和黑客精神,即数据科学具有三个基本要素:理论知识(数学与统计学)、实践经验(领域实务)和精神(黑客精神)。
1.3 数据科学家
“数据科学家”是在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家通过精深的专业知识,包括数学,统计学和计算机科学,在某具体学科解决复杂的数据问题。
数据科学家专注于从数据中提取可操作的知识,以解决业务问题。他们在一定的期限内,完成假设驱动的分析,深入持续的对那些容量大,且结构错综复杂的数据进行探索和挖掘。他们利用简单的方法,并通过简单明了的可视化操作,把科学家的复杂的想法传达到人们手中,从而领导一个团队进行方法选择、评估结果以实施效果[5]。
数据科学家所需硬件技能主要包括计算机科学、统计数学、数据挖掘、数据可视化、领导力和软技能。目前,许多数据科学家在接受正规数据科学学位课程的教育,国内外一些大学也正在或计划提供这类课程。
2 数据科学教育的现状
在国外,数据科学专业是以数据分析学专业为基础发展而来的,可追溯至2007年北卡罗来纳州立大学率先设立的数据分析硕士学位。之后,美国诸多高校也都陆续开始在计算机、管理、金融等专业中开设数据科学的系列课程。其中,数据科学概论课程起到一个统领的作用。以美国哈佛大学“数据科学”课程为例,其内容全面广泛,强调学生动手实践能力的培养。华盛顿大学开设的“数据科学导论”课程同样表现出内容的丰富性。麻省理工学院开设了“计算思维和数据科学导论”课程,介绍如何利用计算机来理解真实世界的现象。该课程为学生提供许多主题的浅显介绍, 让学生知道在他们的职业生涯中可以用计算机完成什么样的任务。华盛顿大学开设了“数据科学简介”,介绍了关系型数据库、MapReduce、NoSQL、基础数据分析、机器学习、可视化、图论等。
通过这些知名高校的网站上的数据统计发现,“概率统计”和“数据挖掘”是最受欢迎的课程。在数据科学中,概率和统计是最基本和必要的知识。数据挖掘在数据科学出现之前便是一门受欢迎的课程,其在数据科学课程中仍然很重要。进一步调研了硕士的数据科学课程发现,在硕士课程中教授许多不同的高级课程,如“信息检索”、“信息和社会网络分析”、“文本挖掘”。 一些课程则同时出现在学士课程和硕士课程中,包括“数据挖掘”、“数据库”、“机器学习”、“数据可视化”、“统计建模”、“算法”和“数据科学导论”。 最普遍开设的课程是统计学相关的如“探索性数据分析”和“数据库”,这表明,统计学是数据科学教育和计算机科学的另一个核心组成部分。
相比而言,国内数据科学专业起步较晚,2015年,教育部首次设立了数据科学与大数据技术专业。包括清华大学、北京大学、中国科学院大学等开设了大数据和数据科学相关课程。其中,中国人民大学信息资源管理学院朝乐门老师编写的《数据科学》,是国内较早的关于数据科学的教材。清华大学成立了“数据科学研究院”,是国内首批培养数据科学人才的研究院,目的是培养更多有跨界意识和跨界实践的人才。
基于上述调研,我们观察到:数据科学学士课程还处于起步阶段,数据挖掘、机器学习和数据可视化是最受欢迎的核心课程,而统计学和数据库是学士和硕士课程的两个基础通识课程。
3 数据科学教育的途径
根据前文对数据科学教育的调查和学科研究,我们提出以下数据科学教育实现的途径。
3.1 开设CDO相关技能课程
首席数据官(Chief Data Officer,简称CDO)是以数据为中心的组织高层管理角色,是大数据战略的制定者和推动者,负责数据资产的管理和开发利用,通过数据推动业务的创新和发展。我们将CDO定义为一位高级数据科学家,他们有很强的领导能力、沟通能力、项目管理技能、系统思考能力和数据方面的技术知识。他们还需要对大数据技术和解决方案、大数据分析生命周期、数据管理有很好的理解。虽然要同时具备上述全部知识和技能并不容易,然而一个大数据项目的领导者应该在这些领域拥有尽可能多的知识。
3.2 在教学中牢记数据分析生命周期
数据分析生命周期是专门为大数据问题和数据科学项目而设计的。它定义了从项目开始到项目结束整个分析流程的最佳实践,脱胎于数据分析和决策科学领域中的成熟方法,并建立在广泛收集了数据科学家的反馈并参考了其他成熟的流程的基础上。
最著名和最广泛使用的数据挖掘过程模型是CRISP-DM,即“跨行业数据挖掘标准流程”[6]。该框架提供了一种用于数据分析项目的方法,其中涉及组织技能、数据集以及领导者的参与。在此基础上,我们重新完善了数据分析生命周期的6个阶段。如图3所示,这6个阶段形成一个循环。
下面概述数据分析生命周期主要阶段的任务。第1阶段:发现。在这个阶段,成员需要学习业务领域的相关知识,重点把业务问题转化为分析挑战以待在后续解决。第2阶段:数据准备。团队需要执行提取、加载和转换,将数据导入准备好的分析沙盘中,以便在项目过程中进行数据和进行数据分析。第3阶段:规划模型。在该阶段,团队需要确定在后续模型构建阶段所采用的方法、技术和工作流程,挑选最合适的模型。第4阶段:建立模型。团队在这个阶段构建并运行由上阶段确定的模型,创建用于测试、培训和生产的数据集。第5阶段:沟通结果。团队需要与主要利益相关人进行合作,以第1阶段所制定的标准来判断项目结果是成功还是失败。第6阶段:实施。团队应该提交最终报告、简报、代码和技术文档。
每个学院可以在不同的阶段中找到自己的优势。例如,商学院在商业理解方面有优势,信息学院在数据理解方面有优势,统计学系在模型规划方面有优势,计算机科学系则在建模方面有优势。
3.3 传授大数据技术和建模技术
大数据技术和模型建立技术是数据科学的两个最技术性的组成部分,应在教学方案中作为重点。重要的大数据技术包括Hadoop及其生态系统和分布式并行处理框架[7]。这两类技术被广泛应用于处理社交网络数据、传感器位置流数据和Web日志数据。其他重要的大数据技术包括NoSQL数据库、内存计算、云计算、大数据仓库和数据虚拟化。
在模型构建方面的挑战主要包括处理实时流数据、可伸缩的机器学习算法。机器学习允许数据学习的范式,并提供了从大数据集中发现知识的有效方法,是数据科学教育的重要组成部分。在数据科学教育中,应有效地将机器学习和大数据分析结合起来,以应对大数据时代不断发展的挑战。
3.4 将研究方法纳入数据分析的教学
数据科学学生应接受科学思维、推理和分析方法的培训。尽管大数据问题本质上是基于发现和学习的,但学生应该学会如何提出一个研究问题,如何处理这个问题,以及如何验证结果。学生应该能够区分基于发现的研究问题和传统的假设驱动的研究问题。研究方法相关的课程可以帮助学生提高批判性思维的能力,吸收来自各个学科的知识,用科学的方法解决问题,并评估结果,因此建议将研究方法纳入数据分析课程。
3.5 为学生提供真实的工程项目
数据科学通过使用真实数据来解决现实世界的问题,这意味着传统的以教科书为基础的教育方式不适合数据科学教育。通过参与现实世界的实际项目或案例研究来学习是数据科学教育的重要组成部分。也就是说,学生应该在一个通过实践学习的环境中学习,在这个环境中,学生可以获得关于数据科学如何使用大数据技术来解决现实世界问题的经验。这是数据科学教育的一个必修课。
3.6 与多个教学部门协作
数据科学是一门多学科的研究,其课程通常是在大学内联合各系部级提供的。例如,数据科学课程可以由计算机科学系、统计学系或商学院联合提供,也可以通过共享教师资源来实现协作。又或者,由计算机科学系提供数据科学教育方案,而其他院系负责讲授一些相关课程。
3.7 与产业界和政府部门合作
产业界和政府是真实世界数据的良好来源,不仅是针对数据的教学资源,也包括其他教学外的组成部分,如计算资源、培训、证书、学生实习和工作。产学研合作研究是推动教育向前发展的既定模式,公司会很乐意招聘这些曾实习过的学生,因为这些学生已经参与了这些项目,并且很清楚他们的业务问题。大学也可以通过与产业界和政府的合作获得资金,以促进数据科学教育。
4 结束语
大数据改变了人们的工作、生活与思维模式,已成为包括计算机科学和统计学在内的多个学科领域的新研究方向。现代社会需要一门新学科来系统研究大数据时代的新现象、理念、理论、方法、技术、工具和实践,即数据科学。
本文探讨了数据科学的发展、学科地位、知识体系等基本问题,并提出了数据科学专业建设的核心内容,即对数据进行管理和分析,从而提取其价值,获得对事物洞察的各种技术手段,把学生引进数据科学的大门。
与传统科学不同,数据科学人才培养既要有传统科学中的理论与实践,还需要有数据科学家的精神素质,即原创性设计、批判性思考、好奇心等。未来数据科学专业的建设应围绕数据科学的三个基本要素,加强数学、统计学和计算机科学等学科之间的合作,调动社会、产业界的数据资源,更好的培养“理论、实践和精神为一体”的综合性人才。
参考文献(References):
[1] Data science: history [EB /OL]. https://en.wikipedia.org/wiki/Data_science.
[2] 甘容辉,何高大.大数据时代高等教育改革的价值取向及实现路径[J].中国电化教育,2015.11:70-76
[3] 王新才,丁家友.大数据知识图谱:概念、特征、应用与影响[J].情报科学,2013.9:10-14
[4] 朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014.31(2):10-19
[5] 秦小燕,初景利.国外数據科学家能力体系研究现状与启示[J].图书情报工作,2017.61(23):40-50
[6] CRISP-DM [EB /OL].https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining.
[7] 陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013.35(10):25-35