邓一星,王 芳,杨荣领
(华南理工大学广州学院 计算机工程学院,广东 广州 510800)
随着我国信息化发展水平日益提高,数据资源的采集、挖掘和应用水平不断深化。政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源。我国已成为产生和积累数据量最大、数据类型最丰富的国家之一,大数据产业迅速成为了塑造我国竞争力的战略产业[1]。2016年,工信部正式发布了《大数据产业发展规划(2016—2020年)》,提出到2020年,我国要基本形成技术先进、应用繁荣、保障有力的大数据产业体系。大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。随着大数据产业的爆炸式发展,对数据处理的专业技能需求也随之激增。除此之外,更精细的分工也产生了对以统计分析、数据挖掘为主要知识背景的大数据分析师,以及以计算机技术为主要知识背景、面向大数据技术应用的大数据工程师的需求[2]。
从2017年开始,陆续有高校开设大数据技术的相关专业,同时,更多的高校也在各自的计算机相关专业中设置了大数据技术相关的方向。对于应用型本科高校而言,总体上还是能明确自己的培养目标,即以向社会培养从事大数据技术相关应用的数据工程师为主。
大数据产业属于新兴产业,大规模发展也就是不到四五年的时间,从事大数据相关工作的人才学科背景种类繁多,掌握的技能也是五花八门,很难总结归纳出究竟哪些才是作为面向应用的大数据工程师首先需要掌握的知识。这给高校在设置大数据技术相关课程时带来了不小的难题,在实践的过程中,确实也产生了不少的问题。
(1)课程设置简单粗放。新兴学科在课程设置上,很容易犯课程体系臃肿的毛病。以前些年非常热门的物联网专业(方向)为例,目前该专业(方向)在很多应用型二本、三本院校却受到了冷遇。原因在于,作为跨通信、计算机、网络等技术的交叉学科,物联网专业课程体系往往同时包含了以上几个专业的核心课程(特别是一些理论课程),不开设说不过去,但全开起来,本科层次的学生苦不堪言。学生进入社会从事具体应用的工作,又不需要掌握那么多知识。大数据技术方向的课程建设,也很容易出现这样的问题,很多高校在计算机科学(软件工程)专业上,加入部分数理统计类的课程,以及分布式集群框架和数据挖掘、分析的课程。但实际上,这样的课程体系往往缺乏可操作性,也超过了本科生的承受能力。
(2)实验教学难开展。大数据工程师能力的培养非常强调对相关平台、工具的掌握和在平台进行项目实操的经验。客观地说,许多高校的大数据实验课,还停留在开设一些Python的编程实验和教学生安装和配置Hadoop平台的阶段,很难再深入组织实验。
(3)学生课外项目实践机会少。校内的工作室或技术团队,主要还是以软件开发类项目为主,学生在校内很难找到一个完整的大数据项目进行实践,只能靠网上的一些视频和公开数据集来简单练习,缺乏结合企业实际业务的数据处理过程,能力提高比较慢,在实习毕业的时候,大多还是走回进行普通软件开发的老路子。
应用型本科高校应着眼于服务区域经济发展,培养能在生产第一线从事工程实施和管理的、能解决企业实际问题的应用型人才。大数据工程师的能力培养,不能脱离“技术+业务”这条主线,应着眼于培养掌握大数据应用系统设计、开发、调优以及运营维护的人才。这是一个系统的工程,需要从课程方案设计、实验(实践)教学组织乃至个性化学习和项目实践等方面综合考虑。
(1)课程体系要精简,主次分明,有所取舍。不建议过多开设偏数学类的统计分析课程,开设了的课程内容也不易过深。实际上,数据工程师并不需要在数学理论和算法上进行非常深入的研究,他们更多是作为一个算法的使用者,而绝大多数的数据分析算法,都已经有了成熟的算法包可供各种开发工具调用。对于数据工程师来说,明白一个业务场景需要用什么算法,比了解算法的内涵更为重要,有些算法甚至可以在实践中现学现用。以华南理工大学广州学院软件工程专业(以下简称本专业)大数据技术方向为例,在保留原有的高等数学、线性代数等课程的基础之上,再把概率论和数理统计分成两门课程,这相当于增加了统计学教学内容的学时;同时开设一门数学模型课程,让学生掌握基本的数学建模能力。这已可保证学生具有足够的数学基础。对于部分传统软件工程和软件开发类的课程,可以适当地剔除或转为选修课程,为后期的大数据课程腾出学分空间,而这部分课程可供学有余力的学生选修。
(2)加强学生对数据的认识。涉及数据组织、管理和处理的课程可适当强化。除了传统的数据库原理课程外,增加数据导入与预处理、数据仓库、数据挖掘以及数据可视化等课程。
(3)要求学生掌握在分布式平台和并行计算框架上进行基本的数据分析的能力。目前本方向这方面的课程主要采用Hadoop生态圈下的产品和工具来开展教学,开设Hadoop大数据技术和大数据分析与内存计算、机器学习3门课程。
(4)保证学生对云计算有足够的理解和应用能力,开设云计算基础、架构等课程。云计算与大数据的关系如同手心手背,二者缺一不可。大数据需要云计算的支持才能具有更强的决策力、洞察发现力和流程优化能力,以此来适应海量、高增长率和多样化的信息资产。从应用的角度看,一方面,随着企业不断把业务迁移到云端,数据基本上也都存在于云端;另一方面,利用云计算可以灵活快速地完成分布式计算框架的构建;除此之外,几乎所有的机器学习算法或深度学习的模型,都可以很轻易在云端找到实现的工具,甚至一些常见的应用场景,都可以在云端直接进行分析。简单地说,云计算成就了大数据,有了云计算,大数据的应用才能展开,技术门槛才能降低。
完整的大数据方向课程体系如图1所示。
大数据实验教学目前存在的最大问题在于,从基础的Python编程、Linux操作系统,到Hadoop平台,乃至Spark计算框架,似乎涉及大数据技术的每门课程都安排了相应的实验,但各项实验之间内容没能形成呼应关系,不能从整体上培养学生解决实际问题的能力。本专业在软件工程类课程的实验教学上,已经做了比较好的尝试。采用打通实验课教学内容的方式,即从一个需求开始,依次展开UML建模、Java EE框架开发、软件测试和软件项目管理等实验内容,取得了比较好的教学效果。相关经验可以引用到大数据实验教学中,从一些简单、典型的数据集开始,展开数据预处理、大数据平台搭建、数据分析乃至数据可视化的实验。一个流程下来,学生对大数据处理的内容、步骤就会有一个比较完整的认识,接下去再设计1~2门集中实践式的综合实验(或课程设计),让学生独立完成一个大数据应用项目。
图1 大数据方向课程体系
此外,正如前面所述,云计算为大数据提供了强有力的支撑,云计算的实验教学也不可忽视。很多学校会采用类似OpenStack这样的开源云平台来开展实验,但这样做缺点也很明显。首先加大了实验教学的难度,在开源平台的实验中,若配置稍微出点问题,纠错改正的过程往往让教师苦不堪言,这违背了云计算方便易用的初衷;其次,在实验室搭建的云平台,也很难提供足够强大的计算能力来实现大数据实战的需求。在大数据应用领域,企业更倾向于采用商业云平台,按需获得足够强大的计算能力。本专业在独立学院中率先建立了AWS Academy,与AWS展开了实验课程的合作,由AWS来协助设计云计算基础、架构和开发的实验教学内容,提供真实的AWS云环境进行实验,并鼓励学生参与到后续的大数据项目中,使用AWS Segmaker等机器学习或深度学习工具。
实践是检验真理的唯一标准,教学之外,还应为学生创造更多的课外项目实践机会。通过鼓励教师参与大数据相关研发项目并吸收学生参与具体工作,是一个不错的手段。为此,华南理工大学广州学院由计算机工程学院和管理学院共同组建了智能商务研究所,为珠三角企业提供大数据相关的技术服务。参与研究所项目的老师近10人,并在此基础上组建了大数据学生团队,每届学生总数为30~40人,学生中的一部分参与研究所的具体项目研发,一部分在老师指导下进行大学生创新创业实验项目,还有一部分通过参加Kaggle比赛或天池比赛,不断累积项目经验。
方案提出并在华南理工大学广州学院软件工程专业实施以来,取得了比较好的效果。首先改变了学生扎堆往Web开发方向上挤的局面,学生的就业面得到了拓宽,已有相当一部分学生能够在云计算、数据分析相关的公司和岗位实习或就业,就业质量也得到了显著提高;其次,学生有了一定的大数据应用的知识基础后,便可以积极参与大数据相关的应用研究工作,近两年来,计算机工程学院和智能商务研究所已开展“独立学院学生多维兴趣数据的挖掘与分析”“AI智能制单”“海关通关信息自动分类”等6项课题,此外还有国家级大创项目1项,省级大创项目1项。
在此方案基础上,华南理工大学广州学院与教育部学校规划建设发展中心以及中科曙光集团于2018年7月成功签约数据中国“百校工程”产教融合创新项目,校企政三方共建大数据应用创新中心,打造兼具人才培养、科研创新和服务行业与地方发展功能的大数据应用协同创新网络。
在大数据从理论研究转向大规模应用实践的今天,各行业对大数据工程师的需求量激增,如何开展大数据工程师的培养工作,是摆在应用型本科院校面前的一个现实问题。本文针对高校中比较常见的在软件工程专业下设置大数据方向这种方式,对其课程设置、实验教学和实践环节进行分析,试图找出一条有效的大数据工程师培养方案,为其他高校提供一些可供参考和借鉴的经验。