聂淑媛
(洛阳师范学院 数学科学学院,河南 洛阳 471934)
2016年2月,教育部批准北京大学、对外经济贸易大学与中南大学3所高等学校新增“数据科学与大数据技术”本科专业,时隔一年,2017年3月,教育部又批准了中国人民大学、复旦大学等32所高校增设该专业。数据科学的发展已引起上至国家教育部、下至社会大众的高度关注,其人才定位和培养模式更是普通高等院校教育教学改革的关键点之一,本文首先回顾数据科学的诞生历程,概述国内外对数据科学人才的需求态势和人才培养现状,在借鉴已有经验的基础上,进一步提出具体的人才培养策略。
21世纪的大数据热潮引发了社会各界对数据科学的高度重视,人们普遍认为,正是由于纷至沓来、铺天盖地的大数据,才催生了数据科学的形成和发展,其实这完全是一个认知误区,“数据科学”一词起源于20世纪60年代,历经正式诞生、涵义演变、专业发展、广泛应用四个阶段,其理论体系和技术变革是大数据分析的基础。
1966年,丹麦计算机科学家、图灵奖获得者彼得·诺尔(Peter Naur,1928-2016)创造性地提出,用数据科学(datalogy)取代计算机科学(computer science),datalogy意指研究数据使用和本质的科学;1968年,在国际信息处理联合会(International Federation for Information Processing,简记为IFIP)上,彼得·诺尔做了主题为《数据科学:数据和数据处理的科学及其在教育中的地位》的大会报告,并将该内容收录于会议论文集,此后,彼得·诺尔在学术活动和研究文献中开始频繁使用datalogy一词。同时,也是在1966年,全球首个以数据为研究对象的科学委员会——国际科技数据委员会(Committee on Data for Science and Technology,缩写为CODATA)宣告成立[1],作为国际性跨学科的数据科学共同体,其主旨是对全球科技数据进行评价、汇编和传播,以推动数据共享、提高数据质量,从而实现科学国际化。因此,学术用语datalogy和数据研究机构的同期而至,宣告了数据科学的正式诞生。
把数据科学和统计学密切联系在一起的是日本统计数学家林知己夫(Chikio Hayashi,1918—2002),1993年,在第四届国际分类学会联合会(International Federation of Classification Societies,简记为IFCS)的圆桌会议上,林知己夫首次提出了数据科学—data science的概念。三年后,在日本神户进一步召开了以data science为主题的第五届IFCS大会,这是数据科学第一次正式出现于国际会议的题目中,大会明确了数据科学(data science)的涵义,认为数据科学应该是统计学、数据、计算机及其相关方法的综合交叉,通过数据收集、数据存储、数据处理和数据应用等过程与环节,最终达成利用海量数据揭示自然现象和社会本质的终极目标。
专业术语data science对datalogy的取而代之,不仅拓延了数据科学的内涵建设,而且引发了学界对数据科学和统计学关系的深入思考,有学者甚至提出,把统计学重新命名为数据科学,统计学家改称为数据科学家。直到2001年,美国计算机科学家、统计学家威廉·克利夫兰(William S.Cleveland,1943- )首次指出,数据科学是一门独立的学科,它与统计学深度融合,但又不完全相同,数据科学是统计学在多学科、数据模型、教育、工具评估和理论研究等技术领域的拓展[2] 8-12。数据科学的概念内涵和学科定位确立之时,恰逢21世纪初计算机的技术革命和互联网的迅猛发展,数据科学逐步拥有了系统、专业、丰硕的研究成果。
2002年,国际科技数据委员会CODATA 首创了第一本专门研究数据科学的学术期刊Data Science Journal,此后,一批关于数据科学的专业杂志逐渐涌现,2003年,美国和中国统计学学者联合创办了期刊Journal of Data Science,并由哥伦比亚大学出版发行;2007年,国际分类学会联合会IFCS创设了杂志Advances in Data Analysis and Classification;2012年和2016年,著名的Springer出版集团相继推出了期刊EPJ Data Science和International Journal of Data Science and Analytics;一些国际顶级学术期刊,如Nature和Science等,也分别于2008年和2011年开设了大数据研究的专版专辑[3]。与此同时,自2001年起,日本共立出版社陆续出版了一套数据科学专著Data Science Series,研究主题涵盖了数据的素养、采样和挖掘、模型验证和算法、空间数据建模,以及关于地球环境、环境和健康、临床、运动、金融等领域的数据分析等,研究内容连贯、形成了一个完整的体系。这些主题为数据科学的杂志和著作,研究与任何领域的数据相关的一切问题,不管是社会领域的数据,还是经济范畴的指标体系,无论是数据的收集和分析,还是创建数学模型,都是其研究对象。它们长期致力于挖掘统计方法的应用,其先进的技术工具、详实的数据资料和广阔的研究范围,不仅为数据科学的学科地位奠定了坚实基础,而且引发了统计学、计算机科学等相关学科开始高度关注并系统研究数据科学理论,促进了科学研究范式的转变。
2007年,美国数据库专家吉姆·格雷(Jim Gray,1944-2007)指出,面对互联网时代以“太子节”作量级的爆发式增长数据,最大的挑战是科学研究范式的转变。无论是传统的经验范式和理论范式,还是近几十年的计算范式,都已无法应对这类密集型数据的挖掘和整合。为此,吉姆·格雷提出了eScience是科学方法的一次革命,即科学研究的第四范式。目前,第四范式作为“大数据范式”被学界普遍认可,逐渐成为分析洪流数据、国际协作和处理超大计算资源的一种新范式。
在科技界、产业界、学术界和政府部门掀起数据科学研究热潮的另一个核心因素是政界的行政主导行为,2012年,联合国发布了《大数据促发展:挑战与机遇》政务白皮书,旨在利用互联网数据推动全球发展;同年,白宫科技政策办公室代表美国政府发布《大数据研究和发展计划》,基于国家层面设置“大数据高级指导小组”,以迎接大数据技术革命的挑战。随着世界各国对数字化时代基础性战略资源——大数据的高度重视,智慧国家、智慧政府、智慧企业等建设行动风起云涌,2015年,中国国务院发布了《促进大数据发展行动纲要》,力图构建国家政府数据平台,开启大众创业、万众创新的新格局,同时特别鼓励高等院校、职业院校和企业协同育人,跨校跨界联合培养具有统计分析、计算机技术、经济管理等多学科知识的大数据综合型专业人才。
随着数据驱动科学创新、数据驱动有效决策的研究氛围日趋浓厚,社会和市场面临着数据科学人才严重匮乏的态势。早在2011年,世界顶尖管理咨询公司麦肯锡公司曾调研预测:仅仅是美国本地市场,到2018年,深层次数据分析的人才缺口是14万~19万,而对于具备数据分析能力且能够高效决策的数据分析师,其需求量将超过150万人,到2020年,该缺口将高达272万;另一著名的跨国咨询公司埃森哲公司也曾预计,对于扎实掌握科学技术知识和数据分析能力的人才需求,其增长速度将是其它职业的五倍左右;2016年7月,中国人力资源的大数据领导者“数联寻英”发布了国内首份《大数据人才报告》,报告显示,全国大数据专业人才目前只有46万,未来3至5年的大数据人才需求量将超过150万。国内外的人才招聘信息也凸显了数据科学人才的紧缺状况,以美国和国内规模相对较大的工业界在线招聘平台Career Builder和拉勾网为例,分别统计两平台在2017年12月25日这一天投放的招聘材料,关于数据科学人才的广告数量都超过了1 000条,尤其是美国的广告数更是高达近2 600条。概览整个2017年度的招聘信息,两地对于数据科学专业人才的渴求始终居高不下,其中有几乎40%的广告明确指出急需数据科学家和数据分析师,招聘领域涉及互联网、产业数据、电子商务、金融和教育等诸多行业。
面对庞大的行业人才缺口和燃眉的市场需求困境,作为向各产业培养和输送创新型人才的主要基地,国内外的各一流大学早已顺势而动,整合优势学科资源,开启了数据科学方向的人才培养工作。
国外高等院校对数据科学人才的培养可大致分为两个层面,第一层面主要是面向本科生或硕士生,率先开设数据科学的相关课程,其中比较有代表性的著名学府是哈佛大学、麻省理工学院、加州大学伯克利分校、牛津大学、哥伦比亚大学、纽约大学、华盛顿大学、斯坦福大学、佛罗里达大学、谢菲尔德大学、约翰·霍普金斯大学、伦敦大学等,开课时间集中于2011年后。由于授课教师自身的学术背景和研究方向不同,对于各学校所开设的数据科学课程,尽管课程名称中都包含有关键词“data science”,核心思想也都是围绕数据科学技术展开,但课程结构和内容体系差异显著[4],有些课程主要讲授数据科学的理论基础,如统计学、计算机系统和机器学习的相关知识等,有些课程则旨在诠释数据科学本身的理念方法和技术工具,还有一些课程重在强调数据科学在某个领域或某些学科中的实践和应用。授课方式灵活,可分为在校面授、网络授课、面授和网授相结合三种方式,斯坦福大学和约翰·霍普金斯大学还开设了免费网络课程,学生通过网络视频和在线交流进行学习,考核合格即可获得该校的数据科学课程结业证书。
随着数据科学相关课程的建设,各大学逐步进入到专业人才培养阶段,此乃数据科学人才培养的第二个层面。由于数据科学跨学科、多样化的特点极其鲜明,知识体系交叉性、综合性、系统性非常强,产学研结合度高,需要及时跟踪前沿理论,对学生的实战技能要求特别高,而且整体而言,相关课程开课时间短、教学难度系数大,故绝大多数高校并未首先在本科教育中设置独立的数据科学学科,而是选择在研究方向更精细化和基础知识更扎实的全日制硕士教育中开设数据科学人才培养计划。如美国的哥伦比亚大学分别于2011年、2013年陆续开设了Introduction to Data Science、Applied Data Science课程,开展了数据科学专业成就认证的培训项目,在课程和项目驱动下,2014年起设立数据科学专业硕士学位培养计划,并于2015年进一步设立了博士学位培养计划,是国外较早的数据科学博士学位授予点。类似的还有加州大学伯克利分校、纽约大学、南加州大学,以及英国的邓迪大学,也陆续在2012年和2013年较早地成功设立了数据科学硕士学位培养计划。
陈振冲和贺田田对QS排名前50的大学进行了深入调研[5],结果表明,在2015-2016年度,有17所学校设有数据科学专业全日制硕士培养计划,其中美国占了10所,分别是哈佛大学、斯坦福大学、芝加哥大学、约翰霍普金斯大学、康奈尔大学、哥伦比亚大学、加州大学伯克利分校、密歇根大学、美国西北大学和加州大学圣地亚哥分校。英国有6所,分别是伦敦大学学院、爱丁堡大学、曼彻斯特大学、布里斯托大学、华威大学、伦敦帝国学院,新加坡的唯一一所是新加坡国立大学。上述学校的分布态势不仅凸显了美国较强的高等教育实力,而且显著表明了其对数据科学人才的重视程度。除此之外,美国的弗吉尼亚大学、普渡大学、圣徒彼得大学、纽约市立大学专业进修学院和艾姆赫斯特学院,苏格兰的赫瑞瓦特大学、新西兰的奥克兰大学等高校目前也开设了数据科学的硕士培养。
国内最早的数据科学人才培养始于2008年,是香港中文大学设立的数据科学商业统计硕士学位。2010年后,各类大数据研究院(所)相继成立,并开始招收数据科学的硕士和博士研究生,比较有代表性的是,2010年,北京大学成立了北京大学统计科学中心;2012年,华东师范大学成立了云计算与大数据研究中心,并于2013年成立了数据科学与工程研究院;复旦大学和北京航空航天大学自2013年起在研究生层面开设《数据科学》等课程,并逐步实施数据科学专业硕士学位培养,其中复旦大学2010年开始招收博士研究生,2015年筹建了大数据科学与技术学院,同时招收本科的第二专业学位;2014年,清华大学接连成立了数据科学研究院和清华大学统计学研究中心,同年开始招收数据科学硕士研究生,并推出跨学科大数据硕士项目;2014年,中国科学院大学联合IBM等开设了大数据研究生班;2015年,中国人民大学成立了统计与大数据研究院,中山大学成立了数据科学与计算机学院,这一阶段对数据科学的积极探索为全面建设其本科专业铺垫了坚实的基础。截止2017年9月,国内共有35所高校开设了数据科学与大数据技术本科专业,开始系统培养大数据专业人才。
陈振冲和贺田田与朝乐门等实证分析了国内外不同大学数据科学课程的建设现状、设置特点和目的要求[5-6];贺文武和刘国买对北京大学、中南大学、福建工程学院的数据科学本科人才培养方案进行了对比研究[7],本文不再具体剖析各学校的人才培养方案,概述而言,国内外各大学关于数据科学专业的课程设置,大致上都可分成统计学和数学基础、计算机基础、数据科学与大数据技术、实践实训四大模块,前三个模块又各自具体包括3~5门核心课程,比如,统计学模块主要开设概率论和随机过程、统计学基础和统计推理、统计学方法(多元统计、回归分析、时间序列分析、非参数分析等各类方法的综合);计算机基础主要包括计算机系统理论、程序设计、数据结构与算法设计、数据库管理等;大数据技术模块主要开设数据科学导论、数据科学方法(如机器学习、数据挖掘、数据智能等)、大数据平台与计算(如数据分析、高性能计算、大数据、云计算)等;实践实训模块主要根据各学校的实际情况,选择合适的应用案例和实践平台,引导学生参与大数据领域的实训项目。
需要说明的是,国内外各学校开设数据科学专业的院系互不相同,有些由计算机学院或工程学院开设,有些则由统计学院或数据科学研究所开设,有些由商学院或管理学院发起,也有一些是由运筹学或社会学类院系开设,故其培养计划的名称和偏重方向不尽相同。比如,设在计算机、统计学和数据科学院系的人才培养,比较侧重于对所有领域不同类型数据的挖掘和处理,商学院、管理学院的人才培养,则加强了企业管理、金融管理等方面的知识,更倾向于分析金融和商业等特定数据,注重研究数据科学理论在金融和商业领域的应用价值[8]。总体来看,以理学为背景的学校,理论特征相对浓厚,其数学、统计学和数据分析的基础知识更扎实,理学特色突出;而以工科为主的院校,更倾向于强调以原有优势工科专业为实践基地的大数据技术开发及其应用,数据科学自身的理论和技术发展是其主导方向。
概言之,作为一门新兴学科和专业,数据科学的人才培养受到国内外各大学的高度重视,其培养目标已然明确——重视学生掌握数据挖掘的原理和方法,开发其数据存储、处理的技术和能力,但对其人才培养模式和培养策略的研究还比较薄弱,需要深入思索和探究。
近年来,关于数据科学的研究机构和学位培养单位发展迅速,但对其概念的认知尚未完全统一,有学者基于问题驱动、创新驱动层面界定数据科学的应用性,认为数据科学是结合应用数学、模式识别、机器学习、统计、数据可视化、高性能计算等诸多理论与技术,是利用数据学习知识的学科,其最终目标是提炼有价值的数据产品;有学者立足于科学理论基础、计算机技术和实践应用三个维度重点剖析数据科学的统计学本质和特征[9];也有学者指出,数据科学是指综合运用统计学、计算机科学和人工智能理论,探讨从数据到有用信息、从信息到专业知识、从知识到有效决策完整转换过程中的科学技术问题。虽然关于数据科学的定义略有偏差,但都特别强调了数据科学是一门交叉学科,毋庸置疑,学界已普遍认可数据科学的多学科交叉融合特征[10]。主要问题是各学科的叠加方式和侧重程度目前并未得到细致划分,换言之,数据科学与统计学、数据科学与计算机科学等专业的深层关系尚不清晰,数据科学的学科体系有待于确立,亦需要进一步明确数据科学专业人才应具备的知识结构框架,以确保人才培养的实效性。
同时,纵向对比数据科学的本科和硕士培养计划,除了在硕士培养计划中增设了前沿理论讲座、学术论文写作等课程,硕士和本科培养的知识模块和结构体系则较为相似。究其原因,数据科学是一门新兴学科和专业,目前还少有本科毕业生,更缺少本硕连贯化的人才培养,故本科和硕士人才知识结构的衔接点、区分度、关联性等都需要在实践中提炼总结。
教材是课程建设的实物支撑体,完善教材体系是构建课程群的首要前提。国外关于数据科学的著作相对丰富,大致可归纳为四类:第一类旨在全面介绍数据科学的理论基础和技术方法,如哥伦比亚大学、华盛顿大学和谢菲尔德大学分别出版了名称相同的Introduction to Data Science一书,哈佛大学、约翰·霍普金斯大学、伦敦大学和法国圣艾蒂安大学也相继出版了名称相同的教材Data Science,纽约大学的Intro to Data Science,麻省理工学院的Introduction to Computational Thinking and Data Science、哈佛大学的A Practical Approach to Data Science、麻省理工学院的Introduction to Computational Thinking and Data Science、牛津大学的Fundamentals of Data Science、加州大学伯克利分校的Foundations of Data Science、华盛顿大学的Methods for Data Analysis、Deriving Knowledge from Data at Scale等,都属于这个体系的经典之作。第二类重点讲授数据科学使用的计算机语言以及数据可视化的相关理论,如Practical Data Science with R、Mastering Python for Data Science、Machine Learning for Data Science、Building Machine Learning Systems with Python、The Visual Display of Quantitative Information、Visualize This:The Flowing Data Guide to Design,Visualization,and Statistics等。第三类侧重于数据科学技术的实践应用,如Data Science for Business、Data Science:Large-scale Advanced Data Analysis、Doing Data Science:Straight Talk from the Frontline、Process Mining:The Practice of Data Science、Data Science Capstone等。第四类则聚焦于专门为数据科学服务的统计理论,如Statistics and Bayesian Data Analysis、Statistical Inference for Data Science、Think Stats等。
国内较早的数据科学教材主要有中国人民大学朝乐门博士的《数据科学》、北京理工大学杨旭博士的《数据科学导论》,这两年陆续出版了《数据科学导引》、《数据科学家养成手册》、《大数据离线分析》、《中国大数据应用发展报告》、《数据科学中的R语言》、《Python与机器学习实战》、《Python大战机器学习》、《Python数据科学实践指南》等数据科学专著,也有学者翻译了一批国外的相关著作,涉猎面广、内容详实。
面对国内外已出版的上述优秀著作,现行的首要任务是每个学校根据自身的实际需求,通过选取或编译等方式,组建一批针对性、系统性、实践性强的主干课程教材,打造数据科学专业的课程群。随着课程、专业的建设与完善,逐步在技术实现、工具应用等方面体现校本特色,编写相应的学习指导书和上机指导书,旨在分解教材难点、解答课后练习、解析技术细节、清晰实践过程[11],以降低理论知识和综合项目的学习难度,提升课堂效率和学生的实践能力。
中国数据科学人才培养的主战场当前仍是课堂教学,资源相对短缺,形式较为单一。在慕课和网络资源极其丰富的大数据时代,各高校应充分利用现代信息手段和网络技术,开展线上和网络课程教学[12],引导学生分享全球著名学府提供的慕课资源,如约翰·霍普金斯大学的Data Science和Executive Data Science,华盛顿大学的Data Science at Scale,埃因霍芬理工大学的Process Mining:The Practice of Data Science,以及清华大学的大数据科学与应用系列讲座等,鼓励学生通过考核获取课程证书,高校给予相应的学分,以提高学生的学习积极性和主动性。
同时,强化高校、政府和企业三位一体的人才培养模式,高校具有研究大数据理论和技术的优势,却无法掌握数据科学的研究主体——大数据,高校只有把政府和企业作为实践基地,才能真正调用大数据实际案例,切实培养能够熟练掌握大数据分析工具和技能的数据科学家和数据分析家。而且,高校、政府和企业的协同育人,有助于及时发现社会真正需求的人才类型,并适时地调整人才培养目标,如设置数据科学的科研型人才和实用型人才等,前者不仅要经过数据科学学位培养的专业理论训练,更要注重提升其创新能力和研究能力;后者则重在提高其对专业领域知识的掌握,提升其数据分析能力。
数据科学的实战特征极其鲜明,为实现其技术化的呈现方式,各院校应积极开发硬件和软件的平台建设。当前使用较为广泛的是R语言和Python语言,这两类语言能整合C语言、C++、Java等,编程简单、容易被初学者接受,可直接以单机作为实验环境,也可以构建集群实验平台,通过接口链接各类数据库,实行跨平台兼容操作,其论著和研究成果丰富、理论体系成熟。
Hadoop也是数据科学的一个主要开源工具,可以很好地解决大数据的存储和分析两大问题,其研发力度还有待于进一步挖掘。高等院校可联合知名企业共同搭建面向大数据的实践平台,如当前的顶尖大数据分析教学平台TipDM-H8,不仅能整合云存储、服务器和广阔的网络资源,还能通过虚拟化搭建私有云平台,学生可基于Hadoop实战项目,通过动手操作和实训,尽快掌握使用平台开发Hadoop程序的技术细节,并高效完成大数据的挖掘、存储、清洗和分析。
在大数据井喷状呈现于经济社会的实际背景下,数据科学时代业已来临,但数据科学的内涵、方法论与发展规律、课程设置与优化、人才培养模式及教育教学改革、专业建设和完善、学科体系构建等诸多问题尚处于讨论和发展阶段,尤其是数据科学与统计学、信息与计算科学专业的联系和区别,都是值得关注和思考的问题。这不仅关系到数据科学自身的持续性发展,更涉及到数据科学时代统计学等传统专业的发展方向。