孔 超,张丽平,刘 涛
(安徽工程大学 计算机与信息学院,安徽 芜湖 241000)
当前,为主动应对新一轮科技革命与产业变革,支撑服务创新驱动发展、“中国制造2025”等一系列国家战略,2017年2月以来,教育部积极推进了新工科建设[1]。新工科建设必须从技术范式、科学范式、工程范式走向新工科范式,着重要培养学生的工程创新能力和适应变化能力。对高校而言,新工科首先是指新兴工科专业,如数据科学与大数据技术(以下简称大数据专业)、人工智能、智能制造、机器人等原来没有的专业,也包括传统工科专业的升级改造;对社会而言,新工科强调结构要与产业发展相匹配,既面向当前急需,又考虑未来发展[2]。
在此背景下,安徽工程大学计算机与信息学院把握“大数据与人工智能”这一重大发展机遇,响应教育部“高等学校人工智能创新行动计划”,积极筹建大数据特色实验室。通过实验室建设把大数据技术与学院专业改造和新专业建设结合起来,为学校新工科建设注入数据化、智能化的新动力,促成新工科专业的深度融合发展,提升学校在大数据领域科技创新、人才培养和服务国家需求的能力。面向新工科的大数据专业要求紧密结合地方特色,注重学生工程实践能力培养,以应用驱动创新,多学科交叉融合的方式,加强数理统计和矩阵计算等建模和算法训练,培养“系统架构师”和“数据科学家”,而这正是当前社会最需要的两类人才。
应用驱动创新,创新驱动发展。其落脚点在于如何基于落地的应用,培养学生利用统计模型和编程技术解决现实问题的能力。实践教学正是高校培养学生工程实践能力、科研能力等综合素质的重要环节,是新工科背景下实施素质教育不可分割的重要内容[3]。
随着我国大数据相关政策的不断出台和深入实施,大数据产业应用与布局不断深化,大数据产业特色化集聚发展格局逐步形成,数据时代的新模式、新业态不断涌现。大数据产业的蓬勃发展催生出从数据科学家、数据建模师、数据分析员、数据处理员到数据运维人员的岗位体系,给教育事业带来了新的机遇和挑战。
1.人才紧缺。近十年来,以BAT(指百度(B),阿里巴巴(A),腾讯(T))为代表的中国互联网企业在商业上取得令世界瞩目的巨大成就。创新型商业模式的开发依赖于“数据科学家”,企业IT能力的建设依赖于“系统架构师”[4]。不论是拓展大数据业务的百度、阿里、奇虎360 等互联网公司,还是专业提供数据服务的大数据服务商,以及拥有大量数据的传统行业,对专业大数据人才都有着迫切的需求。市场上对IT 人才的需求与高校能够培养和提供的人才相比还有很大差距,主要表现为企业所需的合格的“系统架构师”和“数据科学家”很难直接从高校毕业生中招聘到[5]。这一点在高校的人才培养中尤为明显,课堂和实验室学的东西与市场脱节,导致学生厌学。
2.工程实践教学体系不够完善。大数据研究的生命周期从数据源到基础设施,再到模型和算法,支持上层应用,如电子商务、搜索引擎、社会网络分析、智慧城市等,每一个环节都需要实践教学的支撑。学生需通过实践,掌握开放数据源的获取方式,采用广度优先、深度优先或二者并重的方式编写爬虫,智能、自主地解析HTML 文件,从中抽取文本、图像、视频等结构化、半结构化、非结构化数据,并能以文件系统或数据库等工具进行有效地数据管理;再如模型和算法,需要学生通过不断地实践理解模型优化中的参数调节、性能测试、鲁棒性及可扩展性验证等。此外,通过实验测试算法的收敛效率与收敛性能,可以辅助学生理解算法理论层面的优化、时间复杂度等。然而,众多高校实践环节不够重视,学生动手能力明显不足,而大数据专业又是交叉综合的新兴学科,要求线性代数、概率论与数理统计、离散数学、高级程序设计、云计算等理论知识支撑实践教学。学生光学不练,很难掌握枯燥的理论知识,更无法将优化的算法落地为现实的应用,无法满足用人单位的需求。
虽然部分高校针对大数据专业开设了专业基础教学、专业课程教学、专业综合等实践环节,但是工程实践教学体系不完善、实践教学平台不足、教学手段缺乏创新等典型问题也日益凸显[6]。因此,文章结合安徽工程大学计算机与信息学院大数据专业建设的探索,主要从已建立的大数据实验室和教务处大力推行的“金课”教学手段,从硬件支撑和创新教学手段两个方面阐述面向新工科的大数据专业工程实践教学体系。
大数据专业工程实践教学体系的主要硬件支撑平台是已建立的安徽工程大学新工科大数据特色实验室。实验室占地约200 平方米,涵盖中心机房和学生机房两个区域。其中,中心机房配备25台高性能服务器,涵盖大数据、分布式数据库和深度学习,满足HPDA和深度学习教学及科研需求;现有的集群具备强大的计算能力:628 个 CPU 核,16 块P40GPU,GPU单精度浮点运算能力达到192TFlops;Hadoop 提供336TB,共享存储提供11.52TB 高速固态盘和48T NLSA;使用业内最主流的管理调度平台,管理方便,hadoop 集群使用ambari,深度学习调度使用slurm;采用人工智能技术的存储阵列,智能分析数据热度,冷数据自动流动到大容量SAS,热数据保存在固态盘,提供最高性能和最优的性价比,供整个集群共享使用。自带持续数据保护,用于保存关键数据。此外,计算、存储、网络支持弹性扩展。实验室支持大数据及相关专业的工程实验、实训。此外,单独装备的16块P40GPU,其单精度浮点运算能力足可支持主流的图像处理、特征抽取等深度学习任务,供师生学习及科研。
图1 实验室中心机房硬件架构
如图1 所示,实验室中心机房主要由大数据平台区、存储区和管理服务器区组成。基础资源包括高性能服务器、网络设备与存储等硬件,打造成熟可靠的实验室硬件环境。大数据平台区主要包含AI 服务器、大数据实验平台资源服务器、Hadoop 服务器等组成,构成大数据实验室的硬件基础计算资源。存储区由一台高性能存储阵列组成,通过光纤交换机组成FC SAN 网络,为平台计算资源提供高可靠的数据存储。管理服务器区包含大数据实验平台资源平台管理服务器、AI 管理服务器等,为平台服务器工作运行、处理操作、操作系统及应用提供不同层级的资源管理、性能维护和监控配置。
图2 大数据专业工程实践教育体系总体架构
如图2 所示,安徽工程大学工程实践教育体系主要由大数据基础平台和大数据实训教学平台作为支撑。大数据基础平台提供从数据治理、数据查询和分析处理等不同应用场景大数据处理的能力,为平台构建数据采集、数据存储、数据处理、数据应用开发等整个生命周期管理体系。大数据实训教学平台包含功能丰富的应用教学模板和资源,教师和学生提供全流程的教学服务。采用OpenStack 技术,实现了硬件资源集中调度和管理。通过对硬件设施进行虚拟化处理,形成虚拟层面的资源池系统,该资源池系统可按需为每一套应用系统提供基础IT 资源——计算能力、存储能力和网络功能,快速适应不断变化的业务需求,实现“弹性”资源分配能力。客户通过统一的Web界面,可实现对整个数据中心集中管理,包括虚拟机、资源池、数据中心等,从而为用户提供可靠、优质的计算服务。
此外,依托此平台,大数据专业重新规划了课程体系,基础课程、核心课程、实训实习皆可通过此平台进行实操实训。尤其在实训实习阶段,要求学生根据真实案例和需求,掌握数据采集,数据预处理,数据分析,算法设计和建模,模型学习,模型评价,可视化展示等技能,如图3所示。
图3 大数据专业课程体系规划
一个完整的大数据专业工程实践教学体系除了硬件平台的支撑,还需采用创新教学手段,如翻转课堂,打造“金课”。学科竞赛作为实践教学中的一个有效拓展,极大地锻炼了学生的思考及动手能力。本节以项目组成员的真实授课案例为例,阐述翻转课堂创新教学手段对工程实践教学体系的支撑作用。
课程以程序设计类常见的基础算法作为主体内容,是学科竞赛与课堂教学的有机契合,明确了课程内容组织形式为专题制、课堂学生组织形式为分组制、授课模式为翻转课堂模式、评价机制为两级评价体系的基本课程框架。翻转课堂授课模式主要分为课内和课外两部分。学生课外自学的学习资源,包括教师录制的授课视频、微课、教学资料、网络公开课等。课内学生分组进行讨论和作业题。讨论是令学生形成观点的重要方式,由教师指定主题的讨论分为基础、进阶和巅峰3个难度级别,另有他山之石环节支持无指定主题的学生间、师生间的讨论。作业是对学生自学效果的检验以及学生进行知识内化的重要渠道,由学生经过充分讨论共同完成。讨论与作业题结束后,每组学生提交1份报告,记录讨论结果与作业题的解题过程,以及互评组内学生对报告的贡献度。由教师对每组的报告进行评价并结合组内互评给出每个学生的当次成绩。整个专题包括专题引入、预留基础讨论主题、基础题目预测试、阅读材料观看视频初步交流、讨论、作业题目、评价、总结、扩展与归纳等诸多环节。以学生课后阅读材料观看视频初步交流为分割,前一部分环节设置在上一堂课后期,后一部分环节设置在下一堂课的前期,最后的扩展与归纳也是由学生课后完成。专题与课时进行穿插,保证了专题环节完整,课堂内容连贯。
综上,构建完善的大数据专业工程实践教学体系需从硬件平台支撑和创新教学手段两个方面入手,二者相辅相成,缺一不可。此外,安徽工程大学计算机与信息学院为适应新工科建设需要,将计算机科学与技术、软件工程、数据科学与大数据技术、物联网专业结合一体。以特色实验室建设为契机,进一步调整好各个实验室功能,打破原来的设置局限,本着提高计算资源共享,减少重复投资,加强整体协作的宗旨,对人员、设备、实验用房等资源实现统一管理、统一调配、重新整合,为面向新工科的大数据专业工程实践教学体系的改革和创新提供保障。
文章总结了大数据专业建设现状,详细介绍了大数据专业的工程实践教学体系,以期为新增设的人工智能专业提供参照性建设意见。构建完善的面向新工科的大数据专业工程实践教学体系需从硬件支撑平台和创新教学手段两个方面入手,二者相辅相成,缺一不可。