迪莉娅
[摘 要] 随着大数据的兴起,数据科学家的短缺受到普遍的关注。高校承担着培养数据科学人才的使命。探讨了数据科学家的含义和所具备的素质,分析了国内外高校数据科学专业硕士课程设置的内容和特点,提出了完善我国高校数据科学专业硕士课程建设的策略。
[关键词] 高校;数据科学;硕士;课程
[中图分类号] G642.0 [文献标志码] A [文章编号] 1005-4634(2014)06-0039-05
数据科学这个词早在20世纪60年代就已经出现,但直到今天,数据科学才开始在统计学和数据挖掘社区的应用中实现。数据科学是通过数据推理和探索发现深层次知识的科学。这一学科通过使用数学和算法技术来解决一些最复杂的商业分析问题,利用原始信息数据找出隐藏在表面之下的洞见。它严格地以基于证据的分析和建立强大的决策能力为中心[1]。在数据科学出现之前,高校设置的商业智能课程受到普遍欢迎。虽然数据科学是商业智能的进一步发展,但二者在内容、工具、应用的方法上有很大差异,对企业的运营模式产生了重要的影响(见表1[2])。
因为数据科学的兴起,数据科学家也同样成为炙手可热的词汇。2009年,数据科学家这个词由 DJ Patil 和 Jeff Hammerbacker第一次使用并引起热议。引起热议的原因之一是其稀缺性。从全球范围来看,数据科学家的短缺成为普遍现象。根据麦肯锡预计,到2018年,仅在美国市场,数据科学家人才短缺将达到14万至19万,而相关方面的管理人才短缺将达到150万[3]。同样,著名的咨询公司埃森哲在《数据分析在行动:通向高投资回报率之路的突破与壁垒》报告中也预计,到2018年,仅美国和英国,需要具备高深科学、技术、工程和数学知识的职位,其增长速度将是其他职业的五倍,是金融服务等信息密集型行业职位的四倍[4]。
1 何为数据科学家
虽然学术界和实践领域对于何为数据科学家尚无定论。但从对数据科学家的描述和具备的素养方面能够更好地认识数据科学家的内涵。
1.1 数据科学家是什么
《哈佛商业评论》认为数据科学家是集“数据黑客、分析师、沟通大师和受信任的顾问”于一身的职业[5]。IBM大数据产品副总裁Anjul Bhambhri认为,数据科学家是“半个分析家,半个艺术家”。因为数据科学家具有好奇心,他们审视着数据和寻找事物发展的趋势,就像文艺复兴时期的人们想真正地学习和带来组织机构的变化[6]。LinkedIn首席科学家DJ Patil认为最好的数据科学家往往是“硬的科学家”,更像是物理学家,而不是计算机科学专业的学生。因为物理学家有很强的数学背景,计算机技能,并且这个学科发展主要来自于数据[7]。
1.2 数据科学家应具有的素养
目前,数据科学家应具备的条件和背景也众说不一。Kaggle总裁兼首席科学家Jeremy Howard认为,一个伟大的数据科学家应具备创新、坚韧、好奇、技术功底深厚这四项素质。一方面数据科学家要具有科学家的基本素质,比如客观、诚实、严谨;另一方面,数据科学家主要是用数据说话,应具备数据收集、数据改写、可视化、机器学习、计算机编程等能力,能使数据驱动决策并主导产品的开发[8]。
学者Chris Wiggins认为数据科学家应该具备三大能力:分析能力、技术能力、沟通合作能力。分析能力主要指能够灵活应用统计工具和数学工具进行数据分析和可视化的能力;技术能力又包括五种能力,具体表现为:(1)处理分布式文件系统工具的能力,如Hadoop、MapReduce等;(2)掌握Python、Java、 Pig与Hive等编程语言的能力;(3)机器学习能力;(4)掌握非传统型数据库工具的能力,如Vertica及MongoDB等;(5)掌握自然语言处理的能力;数据科学家还应该具备良好的与同事、客户沟通的技巧和合作的精神和能力[9]。
人人游戏高级数据科学家陈弢认为数据科学家除了具备科学家的基本素养和技术能力之外,在理念上的突破显得更为重要。因为很多数据科学家都具有深厚的统计学背景,而统计学的目标是从各种类型的数据中提取有价值的信息,但不强调对事物的洞察力和深度的知识。所以,如何实现从固有的统计思维到数据思维的突破是一大挑战[8]。
综上所述,数据科学家是高端复合型的人才,融数据分析家、科学家、物理学家、艺术家的基本素质于一身。其具备的能力主要体现在以下几个方面:(1)科学家的基本素质:好奇、创新性、客观、诚实、严谨;(2)掌握数据科学领域的各种技术能力;(3)一定的沟通、合作和管理能力。具体见表2[2]。
2 国外高校数据科学硕士课程设置情况分析
随着大数据的应用和研究的兴起,为更好地满足社会需求,2009年后,世界许多著名大学都设置了数据科学专业硕士学位课程,其目标是培养具备像数据科学家一样的基本素质和能力的复合型人才。根据EMC的调查显示,目前数据科学比商业智能在学位教育中尤其在研究生和博士学位教育中所含的比例越来越高。由此可见,数据科学家的培养在高等教育中的地位越来越高(见图1[10])。
目前,世界各国名校的数据科学研究生课程设置具有以下特点:(1)数据科学专业硕士的培养机构主要由高校计算机科学学院或信息科学的学院承担;(2)授课方式分为网络授课和在校授课两种方式;(3)授课内容除了增加大数据、云计算等方面的内容,有的学校增加了管理学方面的课程,如企业管理、金融管理等,但核心课程主要围绕数据技术方面展开。同时,还有些高校,如邓迪大学、圣徒彼得大学还开设了学生实践课,让学生参与大数据领域的项目,培养学生的实践能力(见表3)。
除了采用实地授课的方式外,在美国的纽约市立大学专业进修学院、艾姆赫斯特学院、美国西北大学等高校为数据科学专业硕士的培养还开设了网络课程(见表4)。
另外,还有一些大学,例如美国的约翰霍普金斯大学、斯坦福大学开设了数据科学的网上免费课程,采用视频和网络交流的方式学习,学生通过考核可以获得约翰霍普金斯大学、斯坦福大学颁发的所学数据科学相关课程的证书(见图2[11])。
3 我国高校数据科学硕士课程设置情况分析
随着大数据理念和技术的深入发展,为满足数据科学家人才的需求,我国一些高校以所在的信息学院、计算机学院和研究生院为主,采用大学+政府+企业联合培养的模式,开设了与数据科学相关的专业硕士课程。
最早开始我国数据科学硕士培养的高校是北京航空航天大学,于2013年设立了数据科学专业硕士课程。2014年,清华大学宣布成立数据科学研究院,并推出多学科交叉培养的大数据硕士项目。同年,中国科学院大学研究生院与中国科技服务企业文思海辉和IBM三方联合开设大数据研究生班(见表5)。
从课程设置来说,我国的数据科学专业硕士的培养重点也放在技术能力的培养上,例如,北京航空航天大学数据科学专业硕士课程分为专业核心课程、专业基础课程和学位基础课程,课程上除开设大数据技术方面的内容外,还融入了数学、统计方面的教学内容,但对管理学方面的内容却甚少涉及(见图3[13])。
总体来讲,我国高校非常重视数据科学人才复合型特点的培养,在课程教学方面,将理论和实践紧密结合,加强与企业的紧密合作,有些采取联合办学的方式,这为数据科学人才的培养提供了重要的实践场所,但还需要进一步增强管理和专业方面的课程内容。
4 完善我国高校数据科学硕士课程设置的 策略
1)加强高校+政府+企业数据科学人才的培养模式。政府、大学、企业合作,是培养大数据人才的重要途径。因为在大数据理论和技术研究领域,大学具有一定的优势,但是大学不生产大数据,政府和企业的大数据为人才培养提供了重要的实践场所。比较而言,虽然我国高校数据科学硕士培养建立较晚,但是在数据人才的培养上,依托所在高校的综合力量联合办学,加强与企业与政府的合作成为我国数据科学人才培养的重要特点。但目前我国只有为数不多的学校开设数据科学相关的学位课程,很难满足当前数据人才的需求,这就需要更多的高校加强数据科学专业方面的学科建设,与企业、政府紧密合作,不断提升我国数据科学人才在理论和实践方面的培养水平。
2)建立专业+大数据人才的培养方向。目前我国数据科学课程设置多注重大数据技术应用课程,融入专业内容较少。数据科学家不仅需要懂技术,还需要懂专业和管理。因此,未来高校能否具备培养专业大数据人才的条件和能力将更具挑战。
2014年,美国政府就如何充分利用生物医学大数据而启动Big Data to Knowledge计划,这是继2012年美国国家大数据计划实施后新一轮面向生物大数据的基础研究计划[13]。为此,美国设立专门的生物大数据人才培养计划和专业。我国的生物大数据技术发展和应用还处于起步阶段,人才缺乏是重要的制约因素。生物大数据人才需要既懂生物专业又要懂大数据技术方面的人才,目前我国大数据人才培养的专业设置状况很难满足这方面的需求。因此,高校需要承担起这方面的使命,专业+大数据人才的培养才能更好地应对我国众多专业领域数据的利用和挖掘方面的需求。
3)建立线下+线上+免费的多样化授课方式。目前我国高校数据科学专业硕士的培养主要以线下课堂教学为主,形式比较单一。在大数据时代,充分利用现代信息技术,丰富授课的方式和内容是未来教学的趋势,当下兴起的慕课通过平台发布和分享全球各大高校课程的教学内容就是很好的说明。例如在Coursera慕课平台可以搜索到大量的数据科学课程资源,学生可以在不同的大学享受全球最优秀的课程资源,并通过学习和相应的考核获得课程的学习证书(见表6[14])。
在数据科学领域,慕课平台上英文的课程资源比较丰富,中文的课程比较缺乏。这就需要我国高校通过网络技术不断加强和丰富数据科学线上和网络课程内容,增加授课方式和内容的灵活度,更好地普及大数据的知识,提高学生数据利用方面的素养。
参考文献
[1]Frank L.What is Data Science?What is analytics? What is a data scientist?[EB/OL].(2014-07-25)[2014-09-23].https://datajobs.com/what-is-data-science.
[2]Damian R M.What Is Data Science Anyway? [EB/OL].(2014-07-26)[2014-9-23].http://www.linkedin.com/today/post/article/20140416153636-24302729-what-is-data-science-anyway.
[3]James M,Michael C,Brad B.Big Data:the Next Frontier for Innovation,Competition and Productivity[R].Mckinsey Global Institute,2011:1-156.
[4]保罗索尔曼.数据科学家炙手可热[N/OL].(2013-04-02)[2014-09-23].http://www.ftchinese.com/story/001049735.
[5]哈佛商业评论.数据科学家,21 世纪最性感的职业[J].21 世纪商业评论,2012,(10):2.
[6]IBM.what is a data scientist[EB/OL].[2014-09-23].http://www-01.ibm.com/software/data/infosphere/data-scientist/.
[7]Mike L.what is data science? [EB/OL].(2010-06-02][2014-09-23].http://radar.oreilly.com/2010/06/what-is-data-science.html.
[8]赛迪网.揭密数据科学家[EB/OL].(2013-10-21)[2014-09-23]. http://tech.cnr.cn/techgd/201310/t20131021_513890666.shtml.
[9]Chris W.The Data Science Revolution[EB/OL].[2014-09-23].http://www.mathaware.org/mam/2012/pdfs/DataScienceRevolution.pdf.
[10]EMC2.Career of the Future: Data Scientist Study Results Infographic[EB/OL].[2014-09-23].http://www.emc.com/microsites/bigdata/infographic.htm.
[11]Paul M.The Johns Hopkins Data Science Specialization[EB/OL].[2014-09-23]. http://jhudatascience.org/.
[12]2013年北航大数据硕士高端班9月招生简章[EB/OL].[2014-09-23].http://bigdata.beihangsoft.cn/news.asp?id=77.
[13]李勤.生物大数据“行路难”[N/OL].(2014-08-12)[2014-09-23].http://www.cas.cn/xw/cmsm/201408/t20140812_4183586.shtml.
[14]Coursera慕课网站[EB/OL].[2014-09-23].https://www.coursera.org/#courses?search=data science.