王国卿,吴慧欣,韩珂
(华北水利水电大学信息工程学院,河南郑州 450046)
随着云计算、物联网等技术的普及,中国大数据产业技术发展迅速,广泛运用在金融、农业、水利、教育、管理、医疗等各个领域,大数据产业发展造成了人才需求的急剧上升。
高等院校承担着大数据人才培养的重任,因此,各高等院校非常重视大数据课程的开设,大数据课程已经成为信息相关专业的重要核心课程[1]。大数据系列课程以计算机业界需求与发展态势映射为教学内容,以数学、统计学原理为基础,以Java等编程语言为工具,以企业实际案例为导向,旨在让学生了解和掌握大数据及其相关技术的基本概念、关键技术和典型应用,提升其对大数据行业的总体认知能力和分析复杂工程问题的综合能力。
通过中国信息通讯研究院的大数据白皮书(2020年)了解到,我国目前大数据领域的企业超3000余家。大数据企业主要分布在北京、广东、上海、浙江等经济发达地区[2]。
但是,在产教融合中,存在企业和高校目标不一致、学生基础参差不齐、课程内容涉及面广、双方一线教师合作交流少等问题,本文旨在分析这些问题的关键,探求通过设计合理的课程内容、改革传统教学模式,将教育链、人才链和产业链、创新链有机衔接。为企事业单位、高校科研院所输送学以致用、具有探索精神和创新意识的复合型人才。
华北水利水电大学信息工程学院秉承学校办学理念,于2020年获批成立示范性软件学院,设立了计算机科学技术、软件工程与人工智能三个专业,面向三个专业开设大数据系列选修课程,旨在拓宽学生专业范围,深化学生的专业知识应用,探索大数据专业的课程体系建设。当前在以鲲鹏应用技术与实践课程为产教融合契合点的背景下,我院设置大数据系列课程主要存在的问题如下:
首先,企业与高校培养目标不协调的问题。
企业运维成本比较高,安排入校的教师在时间上没有高校专职教师时间宽裕,因此,往往课程安排紧凑,一般集中在一至三周完成授课[3]。学生缺少消化吸收知识的缓冲时间,一个环节没有跟上,后续就难以继续保持学习的热情。例如大数据环境搭建复杂,配置烦琐,而这又是学习大数据的必要实验平台。大数据环境搭建失败,将导致实验无法进行,应用课程变成理论课程,学生学习兴趣下降、疲惫倦怠。无法领会课程精髓,最终与高校期望学生达到的目标相违背。
其次,企业提供的大数据课程面向学院的三个专业培养方案不一致,在OBE 产出导向下,大数据系列课程与毕业指标的映射关系问题。
遵循OBE理念,反向设计,正向实施,三个专业细化的毕业要求和毕业指标点也略有差别。从而导致各专业课程设置有所区分,学生对鲲鹏应用技术与实践课程的基础知识储备不一致。例如计算机科学技术和人工智能专业没有先修Java 和Linux 相关课程,而软件工程专业学生已经系统学过Java和Linux操作系统;人工智能专业学生系统学过Python和机器学习等。学生没有系统学习过数据采集、数据可视化、Scala、R语言等相关课程。还有些学生虽然修过这些基础课程,但是知识掌握不扎实。
大数据是一门综合交叉性学科,要求学生具备较强的数学(高等数学、线性代数、离散数学、数学建模等)、统计学(概率论与数理统计、多元统计分析等)基础,扎实的计算机编程(高级编程语言、算法、数据结构、程序设计、数据库、操作系统、数据挖掘等)能力,同时还应具备各相关领域知识[1]。这就要求学院提供既有扎实的理论储备、又拥有丰富的实践经验的双师型教师,才能解答学生在理论学习和不同软硬件条件下遇到的各种问题。
但是,学院缺乏双师型教师。企业教师具有一线开发经验,但对学生接受能力和动手能力等情况不够了解、对学生的课程体系及培养目标也没有宏观认识。目前的校企合作模式往往以课程为单位,在高校和企业之间以课程为单位划清界限,高校教师与企业教师交流不够深入,相互的优势难以在学生个体上体现。
依据现有的培养方案,在鲲鹏应用技术与实践课程开设之前,开设32课时的《大数据技术基础》课程,该课程内容的选择可以解决上述学生学习基础不一致的问题,对后续大数据课程能否顺利进行起着至关重要的作用。在鲲鹏应用技术与实践课程开设之后,开设了结合学校特色的水利大数据分析课程,深化校企合作,加强知识技能的应用。本节就这三门课程内容的选择提出如下建议,探求解决上述问题的方案。
在大数据的研究和应用中,数学是其坚实的理论基础,在数据预处理、数据分析与建模、模型评价预优化等过程中,数学方法扮演着至关重要的角色[4]。该部分包含如下内容:微积分基础、线性代数基础、概率论与数理统计基础、数值计算基础、多元统计分析和运筹学等。
这些数学基础的大部分内容学生已经在低年级学习过,如微积分、线性代数、概率论和数理统计等,但是这些课程往往是由数学科学学院开设,更注重数学理论的严谨性,从理论的层面来研究大数据相关的基础和技术。因此,在大数据技术基础课程中应当注重理论与应用的联系。
在微观方面将理论知识点用Python 或R 语言实现出来,例如用计算机计算函数的导数、积分和拐点,求解线性方程组等;
从宏观上串联这些理论知识点与大数据技术之间的关系。例如极限论是微积分的基础,微积分是概率论的基础,微积分和概率论又应用到机器学习中的优化算法;用矩阵表示大数据中数据与数据之间的关系,矩阵的运算用于分析大数据中对象的特征;统计工作本身就是对数据进行搜集、整理、分析和解释,统计方法是大数据常用到的算法如朴素贝叶斯、Apriori关联规则等的基础等。
大数据技术之所以受到热捧,主要在于以Hadoop和Spark为代表的分布式框架解决了以较低的成本实现海量数据的存储和计算的问题[1]。考虑到Linux 系统的便捷性和稳定性,Hadoop 集群一般搭建在Linux系统上,并且使用虚拟机软件,构建多台机器的虚拟环境,由于Hadoop 由Java 开发,其关键的分布式计算框架MapReduce均由Java语言编写。据此,学生需要先修Linux操作系统和Java编程语言。
Spark 作为大数据计算平台的后起之秀,在2014年打破了Hadoop 保持的基准排序记录,使用约十分之一的计算资源,获得了比Hadoop 快约3 倍的速度。Spark 的主要编程语言是Scala,也支持Java、Python 和R 作为编程语言。其生态系统中的Spark SQL 组件,使得开发人员可以使用SQL 命令进行查询及更复杂的数据分析。因此,学生需要先修Scala 语言和数据库系统相关课程。
此外,还有其他方面的基础,如数据预处理方面:获取网络数据的Python 爬虫技术和建立数据仓库的Kettle工具等。
大数据的核心技术主要包括存储、处理、分析,在本科高年级开设的鲲鹏应用技术与实践课程中,注重技术与应用的交叉结合,增强学生学习兴趣和动手能力,将理论与实验穿插进行,相互巩固。以Hadoop 和Spark 生态系统为核心,选取以下知识点作为教学内容:鲲鹏云与Hadoop 集群搭建,HDFS 分布式文件系统,MapReduce 分布式计算框架,Zookeeper 分布式协调服务,HBase分布式数据库,Hive数据仓库;Spark集群部署,Spark Core 处理引擎,Spark SQL 数据管理与查询,Spark Streaming实时流数据处理等。
在相应知识点理论讲解结束之后,及时安排如下实验(如表1所示),巩固学习内容,锻炼学生实际操作能力:
大数据技术是一个完整的体系或生态,高校开设的各门大数据课程的实验教学往往是松散的、各自为政,缺少从技术体系角度设置的综合性实验[5]。大数据综合实训案例建设涉及知识面广,数据获取困难等问题,目前存在数据分析处理算法(如机器学习、数据挖掘、统计分析、模糊集理论、神经网络等)与传统理解的大数据框架Hadoop 和Spark 分离的情形,不能很好地将算法与大数据平台的优势有机融合。应用案例的开发应当结合高校和企业优势,将算法理论有机融入结合新需求如智慧水利等场景,形成完整的综合案例,贯穿大数据知识点,锻炼学生知识的综合运用能力和解决复杂工程问题的能力。
目前已有许多高校建立了大数据专业,但是本学院拟在已有的3个专业的基础上拓展大数据方向,即将大数据融入已有专业中,这与建设完整的大数据专业有较大区别。因此需要探求合适的教学模式,才能让学生在有限的课时内,达到教学目标,获得相应的能力。
大数据技术基础课程的开设,不只是单纯地按专业给学生分班,而是设计一套基础知识和技能的问卷调查。该套问卷针对上文阐述的数学理论基础和计算机基础进行调查,使用线上教学平台统计功能,按学生知识短板分类,分出2~4 类学生,有针对性地制定授课内容。
该课程主要讲授的基础性知识,已经有很多优质的线上资源,教师筛选出合适的无版权纠纷的教学视频放置在一个教学平台上,并配套相应的练习题。学生可以自主调整播放速度及播放次数,完成习题巩固和检验所学知识,过关斩将,环环相扣,增加了学习的趣味性。学生把握了学习的主动性,真正实现“以学生为中心”的教学方式。
该课程关于基础理论知识与大数据技术衔接的内容,需要教师线下讲解,翻转课堂,课题研讨的形式完成。
如此线上线下结合,既减少了课时,锻炼了学生的自学能力,丰富了课程内容,又增强了师生互动,教师减少了知识的重复传输,有更多时间和精力投入课程建设和新知识新方法的研究之中。
课程建设采用校企合作的方式,双方自顶向下增强沟通交流。从校领导到一线教师,从学生学习基础调查、课程内容的制定、教学模式的选择到学生的考核评价方式,双方都进行深入沟通交流。交流方式采取会议、备课及听课等多种形式,深度融合。
例如鲲鹏应用技术与实践课程,将企业真实案例引入课堂。以一个大型应用案例为主线,从案例概述开始,分析案例多种可能的解决方案,选取大数据技术解决的必要性;然后搭建大数据实验环境、安装相关工具和数据库等;讲解案例涉及的关键理论知识及相应的大数据算法的实现;最后讲解与实践数据可视化的多种方法及选取适合本案例的可视化方法。
全程企业教师、高校教师和学生三者一起参与线下课堂,企业教师主讲,高校教师辅导补充,学生动手操作。高校教师学习和累计一线案例教学经验,企业教师了解学情和深入理解教学目标,学生在两类各有所长的教师引领下,扎实地学会大数据技术的整个应用过程,达到相应能力。
在水利大数据分析课程中,高校教师提供水利大数据及需求分析,企业教师研究使用大数据技术的解决方案,共同备课,探讨并实现水利大数据方面的真实案例,鼓励学生挖掘数据中的有价值的信息。
在大学生创新项目、计算机设计大赛和数字科技节等活动中,鼓励学生运用大数据技术处理和分析数据,并得出有价值的结论。数据的来源可以选择学生成绩数据、体测数据、统计调查数据、社区服务数据、网络爬虫数据、政务网或统计局网站的数据等提供的公开数据,倡导一切与数据有关的组织观念与行为方式,并将数据分析应用于生活、学习和一切实践中。例如大学生成绩与身体健康大数据分析、热门品类分析、气象大数据分析等。学生通过比赛解决实际问题,不断学习成长,加强与兄弟院校及企业交流,更新专业方向的知识库,如前沿的数据挖掘、深度学习理论、神经网络知识等,不断提升从数据中提取有价值信息的思维能力同时,让学生的技能素养更贴近企业需求。
教师在带领学生参加项目和比赛过程中,加强高校与企业之间的交流,并将前沿热门技术平移到教学中,更新教学内容,丰富教学案例。
本文以原有专业基础上拓展大数据方向为例,从分析产教融合的必要性及问题出发,到探求教学内容和教学模式两方面的解决方案,提出了一些思路,希望有志研究、教授或学习大数据相关内容的教师或学生通过阅读此文能有所启发,并提出宝贵建议。后续将进一步探究大数据课程体系基础知识点与应用之间的衔接、案例驱动的混合教学设计方法,期望能让课程形成体系,环环相扣,减少教师重复的工作量,增强学生学习的信心和兴趣。