闫秋玲+司海芳
摘 要:在大数据时代,数据已成为一种新的“石油”,爆炸式增长的海量数据驱动着行业的转型和升级。以数据为驱动,挖掘其中的价值以揭示自然、社会现象的特征和规律,则是数据科学人才的使命。然而,数据科学人才储备在目前远远不能满足社会需求。作为培养人才的主力军,高校应积极响应国家对复合型人才的需求,着手培养满足社会发展需求的数据科学人才。从高校角度出发,分析了数据科学人才培养的先决条件、课程体系的设置以及相应的授课模式,以期抛砖引玉。
关键词:数据科学;人才;课程
一、数据科学人才需求
数据科学强调以数据为导向,是一门交叉学科,结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算、社会科学等,目标是用数据揭示复杂的自然、人类和社会现象的特征或规律。具体而言,数据科学主要有两个内涵:一是研究数据本身,研究数据的各种类型、状态、属性以及变化形式和变化规律;二是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界、社会的现象和规律[1]。
正是数据科学的提出与发展,为目前火热的大数据的发展与应用提供了理论支撑[2],以致形成了科学研究的第四范式——数据密集型科学研究。与主张模拟仿真的第三范式相比,第四范式则是以数据为导向,主张从数据出发,通过观察、分析数据,提炼出信息、知识、理论,发现规律。无论是大数据技术还是第四范式,均需依托于数据科学。与计算机科学相比,数据科学的内涵和外延更加宽泛[3]。
在我国,未来3~5年需要180万数据科学人才,但目前只有约30万人。面对此缺口,高校应尽快制订培养方案,设置课程体系,投入师资,以培养出满足社会发展需求的数据科学人才。
二、国内外培养现状
在美国,很多知名大学都已设立了数据科学专业硕士学位,如纽约大学、哥伦比亚大学、伍斯特理工学院、弗吉尼亚大学、北卡罗来纳州立大学、东北大学、德州农工大学、路易斯安那州立大学、加州大学伯克利分校等。纽约大学和哥伦比亚大学还设置了博士学位。在英国,邓迪大学、谢菲尔德大学和爱丁堡大学设立了硕士学位。
在我国,复旦大学、清华大学、香港中文大学都设置了硕士学位。中国科学院、中山大学、华东师范大学等成立了数据科学研究机构。2015年,阿里云、慧科教育启动了“阿里云大学合作计划AUCP”,已与多所高校联合,拟培养和认证一批云计算和数据科学人才。
虽然数据科学方向的人才培养在国内高校中受到了重视,但学科体系并没有建立起来,人才的培养缺乏系统性。
三、人才培养思路
与传统学科不同,对数据科学方向的人才需求是市场驱动的。因此,数据科学的学科体系构建的原则应是针对各种应用,所培养的人才能够理解应用需求,根据需求设计算法级别(或系统级别)求解框架,具备较强的数学建模能力,能够使用合适的工具进行数据分析,搭建计算平台,并能够通过提供一定的算法将数据的价值挖掘出来。
1.先决条件
为了开设数据科学专业,高校需满足一些先决条件。第一,计算条件。第二,数据资源。高校应建立实验场,提供足够的多样数据或数据源。充足的数据资源有助于学生实践操作,有助于学生的学以致用。第三,师资条件。这是人才培养的关键因素。目前,这方面的师资力量比较匮乏,为了培养数据科学人才,需要不同专业背景的教师协同合作。第四,如果有条件,高校应与政府、企业合作。高校的优势在于理论和技术研究,但并没有数据应用场景,通过与企业、政府合作,可以弥补这一点,并且更易获得充足的数据资源,同时可以从政府、企业吸取具有一线工作经验的人才,以补充师资。
2. 课程设置
具备先决条件后,我们来分析怎样为数据科学专业配置课程。要想做一位完美的数据科学家,至少需要具备统计学、编程功底,同时需要具备一定的领域知识和良好的沟通能力。只有具备统计学和编程能力还不够,处理数据不仅需要理论和技巧,更需要领域知识的支持,并以此获得对数据的敏感度和洞察力。完美的数据科学家需要能够处理好关于数据的方方面面:不仅能从理论角度进行分析建模,还能够运用技术手段进行分析、描述、预测,并能让结论落地,服务于现实中的行业,让数据的价值得以变现。
因此,在设置课程时,四类课程不可少。一是统计学。许多知识挖掘方法都源于统计学的模型。二是数据分析。培养学生建模的能力,并能使用工具进行数据分析。三是分布式计算、并行计算。大数据时代,数据规模往往很大,非单机环境能够承受,这就需要面向集群环境进行系统架构,编写高效的分布式或并行计算算法。四是机器学习、数据挖掘。除此之外,还应学习一定的领域知识,如财务分析、服务业中的分析、健康医疗、供应链管理、综合营销沟通中的概率模型等,这样才能够将知识转换为生产力,能够真正服务于业务。
由于数据科学方向的人才需求是多类型的,数据科学人才的培养也应多类型,如科研人才和应用人才的培养侧重点各有不同。对于科研人才,需要注重理论能力和创新能力的培养,以及科研方法的培养,使他们善于从各种类型的数据中揭示模式,发现规律。这类人才需要具备深厚的数学功底、良好的计算机编程能力。对于应用型人才,则应注重技能的训练,比如,熟练使用大数据工具,如Hadoop,Spark等,具备分析特定类型数据的能力。无论培养科研人才还是应用型人才,都需要进行大量的实践,通过操作真实数据,培养他们对数据的分析能力和洞察力。
3.授课模式
授课模式可分为认证课程、本科课程、硕士课程以及博士课程四个层次。
认证课程可采取线上方式进行,课程结束授予证书。
在当前大数据时代,培养信息素养是至关重要的。培养信息素养,应该从本科生抓起,而数据科学则为信息素养的培养提供了一个很好的切入点。对于本科生,无论学生的专业背景是什么,都应学习数据科学概论等基础课程。
对于普通高校而言,在本科阶段设置数据科学学士学位并不明智,原因在于,数据科学需要足够的计算机基础和数学理论功底,而本科阶段的学生在四年学制下难以达到这种要求。因此,设置相应的硕士、博士学位比较合理。正如第三节所介绍的国内外现状,知名大学大多在研究生阶段开设相关学位,而非在本科阶段。在硕士、博士阶段,有了本科阶段的理论基础,校方应帮助学生建立明确的学科规划,配置科学、合理的课程体系,搭建真正的业务平台,培养学生的数据建模能力、数据计算能力、跨领域数据分析能力,等等。
数据科学人才的培养,不仅是各行各业的需要,也关系着国家发展的核心竞争力。培养数据科学人才,高校应首当其冲。高校需结合自身情况,选择相应的授课模式,进行合理的课程配置,构建师资团队,并通过与企业、政府合作,搭建真正的业务平台,强化数据科学人才培养能力,不断为国家、社会输送时代需要的人才。
参考文献:
[1]朱扬勇,熊 贇.大数据时代的数据科学家培养[J].大数据,2016(3).
[2]刘 磊.从数据科学到第四范式:大数据研究的科学渊源[J].广告大观(理论版), 2016(2).
[3]周傲英,钱卫宁,王长波.数据科学与工程:大数据时代的新兴交叉学科[J].大数据,2015(2).