陈瑛, 章鸣嬛, 郭欣, 吴婷婷
(上海杉达学院 信息科学与技术学院 大数据分析与处理研究中心, 上海 201209)
人类社会正经历着一场由大数据引发的社会革命。人类日常的一切活动都可成为信息收集、存储、分析和使用的对象。巨大的数据量、多样化的数据形式及其潜在的商业价值已开始对社会经济和国民生活带来深远的影响。
发达国家已认识到“大数据”的重要意义,纷纷将以开发、运用“大数据”作为夺取新一轮竞争制高点的重要抓手。我国也同步积极发展“大数据”相关技术。2015年8月,国务院发布了《关于促进大数据发展的行动纲要》[1];同年11月,五中全会上,提出了国家大数据战略,将“大数据”的开发运用上升为国家战略。在“十三五(2016-2020年)”规划中明确提出,“实施国家大数据战略,推进数据资源开放共享。”
然而,就目前看来,大数据行业尚存在着巨大的人才缺口,难以满足日益增长的社会需求。因此,弥补大数据行业的人才缺口,是国家和高校面临的重要挑战和机遇。
上海杉达学院(以下简称“杉达”)在上海市教委项目资助下,迅速成立了项目组,在信息科学与技术学院筹建“数据工程”专业方向。并在学校“十三五规划”中明确提出,“数据工程”将是杉达重点建设的专业方向之一。
基于此,项目组成员开展了大量前期调研工作,对所收集的数据进行了深入分析和总结。提出了“专业基础+行业应用+技术发展”的办学思想,对数据工程类应用技术型本科人才培养模式展开了初步探索。
数据工程可视为面向数据的全流程处理的体系工程,可简略描述如图1所示。
对图1的说明如下:
1) “数据可视化”可置于该流程链的多处位置。比如,在进行数据预处理、数据分布状态分析以及数据建模、挖掘之后,均可利用数据可视化技术进行展示。
图1 数据工程流程链
2) 从流程链位置及技术深度的角度来考虑,可将其分解为前端和后端。前端包括数据采集、数据存储及管理、数据预处理、数据分布状态分析等;后端包括数据建模、挖掘、分析、人工智能及应用。(同样,数据可视化技术可视为该流程链的一个旁支。)
3) 可以看出,流程链各环节所需的能力涉及到多个学科的交叉,如计算机科学、统计理论、应用数学及各应用领域等,每一学科都可提供“数据工程”人才所需的部分能力。因此,我们提出培养“数据工程”应用技术型人才培养的理念,并非否定已有学科对人才的培养,而是力求在大数据背景下,对已有学科的知识能力进行整合重构,制定出一套适应“数据工程”应用技术型本科人才培养的方案和措施。
经分析大量前期调研数据后发现,国内外不同高校对于流程链环节的重点把握各异,故对于“面向数据的全流程处理”的名称提法也不尽相同。有[2]称“数据工程”;有[3,4]称“数据科学”;还有的提法比较笼统[5],称之为“大数据”。本文根据杉达的实际情况,使用“数据工程”的提法。
根据2016年IDG[6](美国国际数据集团,International Data Group)发布的官方数据可知,全球IT业薪资上涨排名前15的岗位中,数据工程类占了7个,如表1所示。
表1 全球IT业薪资上涨排名前15的数据工程类岗位(2016)
根据2015年Gartner公司[7]提供的数据可知,截止到2015年全球将有440万的IT工作是直接支持大数据岗位的,仅美国就会有190万IT工作产生。该公司给出了综合排名为前20位的大数据岗位,如表2所示。
我国教育部学校规划建设发展中心[8]和曙光信息产业股份有限公司在2016年5月发布的“数据中国百校工程项目试点方案”中也指出,未来10年大数据处理和应用需求与能提供的技术人才数量之间将存在一个巨大的差距,目前已开设有相关专业和方向的普通高校或高职院校尚不到需求总量的10%。面对如此巨大的大数据行业人才需求缺口,配套人才的培养压力已经迫在眉睫。
表2 综合排名为前20位的大数据岗位(2015)
美国北卡罗纳州立大学[9]早于2005年就成立了高级数据分析研究院,培养学生在数据库管理、数据安全、数据挖掘等领域的技能;加州大学伯克利分校[10]也致力于数据科学工程硕士的人才培养;斯坦福大学、约翰霍普金斯大学[12]、哥伦比亚大学[13]等高校也均开设了与数据科学或数据工程相关的硕士/本科专业。
2017年3月,教育部批准全国35所高校获批开设数据科学与大数据技术专业[14]。35所院校包括北京大学、中国人民大学、复旦大学、北京邮电大学等重点高校,也包括上海工程技术大学、福建工程学院、宿州学院、广西科技大学、广州白云学院(民办)、黄河科技学院(民办)等普通高校。在这35所高校中,除北京大学、复旦大学、浙江财经大学及云南财经大学授予理学学位之外,其余31所高校均授予工学学位。
对35所学校数据科学与大数据技术专业的课程进行分析比对后可知,除北京大学和复旦大学尤其强调加强学生的数学基础、计算机基础和统计基础之外,其余33所高校相对而言更偏重于培养学生的实践能力,更强调数据科学在国民行业中的具体应用。
此外,未列入35校名单中的各类高校,也纷纷设立了与大数据技术相关的专业方向或研究机构。比如,上海交通大学电子信息与电气工程学院于2015年成立了大数据工程技术研究中心[15],致力于大数据智能电网应用、大数据遥感应用等领域。
由前期调研结果可知,社会各行业的发展需要依托大数据技术的支撑,而当前大数据技术人才无法满足巨大的市场需求。因此,国家大力倡导大数据产、教、学一体化发展。上海杉达学院积极响应国家大数据战略方针,在新的历史背景下结合自身实际,对应用技术型高校数据工程专业方向的人才培养模式进行了探索。
杉达是应用技术型高校,注重培养学生的实践动手能力、在真实场景中解决实际问题的能力。就学校定位而言,与研究型高校存在着较大的差异。因此,只有结合我校师生的实际情况,才可培养出更具就业竞争力的人才。
培养的学生应具备良好的职业道德,知识结构较合理,综合素质较全面,专业技能较高,实践能力较强,能够直接适应相关领域的一线生产需要。
从数据工程流程链及技术深度的角度来划分,数据处理技术可分为前端和后端。杉达数据工程专业方向着力于培养前端技术人才,兼顾后端技术。即,学生主要从事数据采集、预处理、数据可视化等工作;并对后端的机器学习、数据挖掘等技术有一定了解。
就人才的就业岗位而言,可将其粗略划分为数据分析师和大数据技术工程师,等。前者主要偏向数据分析和处理,注重针对于具体领域(如商业数据、医疗业数据等)的技术应用;后者则主要偏向平台运维技术。杉达学生侧重前者能力培养。
项目组结合市场调研和学生实际情况后,对培养目标进行了精准定位——主要培养数据工程流程链的前端人才(中级数据分析师);同时兼顾流程链后端技术和平台运维技术。
就杉达师资的学术背景而言,数据工程流程链所涉及的技术相对较新。这也是很多高校存在的共性问题。因此,如何解决师资问题,以适应新专业方向的教学及科研需求,就显得迫在眉睫。针对该问题,项目组采用的解决方案有:
1) 杉达于2016年成功入选教育部-曙光信息产业股份有限公司(以下简称“中科曙光”)联合开展的“数据中国-产教融合促进”计划(以下简称“数据百校”),成为第一批入选“数据中国百校工程”项目的高校之一。
杉达将于2017年9月正式成立曙光大数据学院,招收计算机专业(数据工程方向)本科生,与中科曙光等知名企业开展深度合作,联手培养大数据应用领域的中级技术人才。同时,与其它企业或培训机构开展友好合作,取长补短,包容并蓄,以市场需求为导向,制定更完善的教学培养方案。
2) 项目组明确若干专任教师全程跟进大数据学院项目进程。一方面做好校企对接工作,保证正常教学活动的开展;另一方面则是通过与企业紧密接触,学习企业提供的先进技术,促进自身快速转型,提升师资队伍的教学和科研能力,为数据工程专业方向的良性发展奠定坚实的基础。
根据专业方向定位以及校企合作规划,项目组制定了较完善的教学计划。我们查阅并参照了相关文献及兄弟院校的课程设置情况[16-21],遵循“岗位→能力→课程”的指导思想,从“岗位”中抽取出相应的“能力”,再由“能力”对应到具体课程,制定了较为完善的教学培养计划。
杉达数据工程专业方向的教学计划中,各类课程的比例,如表3所示。
表3 各类课程所占比重
从表3中可以看,通识教育类课程比重最大,占比34.5%,体现了杉达“宽口径”“厚基础”的办学理念。其次是实践实训课程,占比约为25.5%。该类课程是对学生进行专业课的集中实训,比如Hadoop部署实践、数据预处理实践、数据可视化实践等。除了在该类课程中完全采用动手实践的形式之外,在学科基础课、专业核心课及专业选修课中也包含了较丰富的实践内容。
数据工程流程链的课程均分布在后四类课程中。如学科基础课中包括:云计算与大数据概论、统计分析方法与应用等;专业核心课中包括:分布式数据库、数据采集技术、数据导入与预处理应用、数据仓库技术、数据可视化技术、数据挖掘概论等。为体现杉达以“培养数据工程流程链的前端人才为主、兼顾后端及平台运维技术”的设计思路,我们将大数据技术及内存计算、机器学习、人工智能及应用等课程均安排在选修课程中。
在制定教学计划前,我们充分听取了来自高校和企业的专家意见。企业专家认为,必须要带给学生大量的实践案例,让学生通过对真实案例的分析,快速学会解决实际问题的方法。高校专家则认为,实践教学固然重要,但“实践”背后的理论基础更为关键。不但要让学生懂得“如何去做”,还要让学生懂得“为什么要这样做”,以确保学生的可持续发展。故此,我们在制定教学计划时也充分考虑了该问题,设置课程时做到理论与实践相结合,建设校企混合师资团队,达到优势互补。
因杉达数据工程专业方向将于2017年9月第一次招生,故目前尚未能对数据工程教学培养计划作大规模的效果验证。因此,项目组采用了随机抽样的方式,在计算机科学与技术专业的大二至大四学生中进行了小样本、单环节的测试研究。具体形式为:
1) 随机抽取大四毕业生开展数据工程领域的毕业设计课题研究。学生毕业设计选题汇总表如表4所示。
表4 2015-2017届学生毕业选题汇总
2) 在学生中成立“数据工程”兴趣小组,利用寒暑假期间开展该领域的应用课题研究。
3) 指导学生开展“数据工程”领域的创新创业(双创)等实践活动。2016-2017市级项目汇总如表5所示。
表5 2016-2017市级双创项目汇总
以上几种验证模式的结果显示,计算机科学与技术专业的学生对数据工程应用领域具有较浓厚的学习兴趣,或是毕业设计成绩为优秀,或是在“双创”活动中表现突出。
本项目在进行了大量前期调研的基础上,结合项目组所承担的2016年上海市民办高校重点科研项目,对数据工程类应用技术型本科人才的培养模式进行了初探。确立了人才培养目标,制定了相应的培养方案和教学计划。在学生中进行小样本、单环节的测试后表明,项目组有理由相信,我们所做的工作不仅对杉达数据工程专业的发展有着重要的指导意义,对同等类型、同等定位的高校也具有一定的借鉴和参照价值。
参考文献
[1] 卢涵宇,张达敏,杨平.大数据科学与工程专业设置探索[J].电脑知识与技术.2014,10(24):5715-5716.
[2] 迪莉娅.高校数据科学专业硕士课程设置研究[J].教学研究.2014,37(6):39-43.
[3] 徐昊,秦玥,黄岚. 面向通识教育的数据科学课程建设[J].计算机教育2016,8(8).158-162.
[4] 陈振冲,贺田田.数据科学人才的需求与培养[J].大数据.2016,58(11):95-106.
[5] 周傲英,钱卫宁,王长波.数据科学与工程:大数据时代的新兴交叉学科[J].大数据.2015,22(1):1-10.
[6] 郝水侠,郭云霞.大数据时代下信息与计算科学专业恩彩培养模式新探索[J].江苏师范大学学报(自然版).2016,34(2):72-75.