Spark实时大数据处理技术在线开放课程建设与实践

2021-01-14 00:45朱常鹏刘元超李刚
现代信息科技 2021年12期
关键词:在线开放课程

朱常鹏 刘元超 李刚

摘  要:随着移动互联网的发展,大数据相关技术的广泛应用成为未来发展的必然趋势,推动社会对大数据人才需求的快速增长。文章通过对重庆理工大学数据科学与大数据技术专业“Spark实时大数据处理技术”在线开放课程的建设,从课程开设背景出发,对课程建设基础、课程设计情况以及课程建设措施三个方面进行详细阐述。在线开放课程的建设与实践进一步深化了教育教学改革,提高了教学与人才培养质量。

关键词:Spark;实时大数据处理;在线开放课程

中图分类号:TP311;G434   文献标识码:A 文章编号:2096-4706(2021)12-0195-04

Abstract: With the development of mobile internet, the wide application of big data related technologies has become an inevitable trend of future development, promoting the rapid growth of social demand for big data talents. Based on the construction of the online open course "Spark real-time big data processing technology" for the major of data science and big data technology of Chongqing University of Technology, this paper expounds it in detail from three aspects of the course construction basis, course design and course construction measures under the background of the course offering. The construction and practice of online open courses have further deepened the education and teaching reform and improved the quality of teaching and talent training.

Keywords: Spark; real-time big data processing; online open course

0  引  言

移動互联网的日益发展产生了海量数据,大数据处理技术在此情境下应运而生。大数据处理技术与实体经济的深度融合,使得大数据处理技术不仅在互联网领域的应用越来越广泛,也进一步推动了产业互联网的发展,助力产业转型升级。社会对大数据技术人才的需求越来越迫切。数据科学与大数据技术专业作为新兴专业,我校旨在籍此培养满足社会需求的各类大数据专业人才。在这一背景下,我校针对大数据专业核心课程“Spark实时大数据处理技术”进行在线开放课程建设。希望通过在线课程的建设与实践,进一步提高大数据专业中教师“教”与学生“学”的质量,为社会培养高质量大数据人才提供坚实后盾。

1  课程开设背景

数据科学与大数据技术专业,是我校为顺应信息技术发展潮流而于2017年开设的新专业,隶属两江人工智能学院。2018年,该专业成为首批重庆市高校大数据智能化类特色专业,成为重庆市教委重点建设的专业。“Spark实时大数据处理技术”是数据科学与大数据技术专业的核心课程,开设于2019—2020学年。2019年,“Spark实时大数据处理技术”在线开放课程获批我校校级在线开放课程。本课程前期面向本专业的所有学生和学院其他专业的部分学生,随后逐渐向全校在读学生开放。初期授课对象约为120人。随着社会对大数据与人工智能人才需求的快速增长,预计全校范围内的授课对象规模将大幅增加。作为数据科学与大数据技术专业的核心课程,核心与基础是“Spark实时大数据处理技术”的主要特色,它为大数据开发与智能分析等后续课程提供基础性支撑。

随着新兴信息技术对大数据与人工智能依赖程度的提高,社会对大数据人才的需求将快速增加。本课程不仅仅是数据科学与大数据技术专业的核心课程,将来也会成为整个信息技术专业的核心课程。为进一步深化教育教学改革,提高教学质量,进行“Spark实时大数据处理技术”在线开放课程建设研究与实践具有重要意义,可推进基于信息化技术教学模式优化和优质资源共享,实现网络环境下的人才培养新模式。[1-3]

目前较有影响力的同类课程来自厦门大学与电子科技大学。但作为新兴专业,大多数国内高校的课程建设尚处于起步阶段。希望通过对该课程在线开放课程的建设,使其既能满足专业、学院与学校的教学要求,又能达到国内同类课程的顶尖水平。

2  课程建设基础

目前,“Spark实时大数据处理技术”在线开放课程已具备以下基础:

(1)符合本校2019版人才培养计划的教学大纲。

(2)覆盖本课程所有知识点的教案与课件。

(3)经典的大数据使用案例。

(4)自主构建的大数据实验环境。

数据科学与大数据技术作为一门新兴学科,目前可供借鉴与参考的教学资料较为匮乏。课程已具备的主要教学资源为课件与经典大数据应用案例,具体为:

(1)“Spark实时大数据处理技术”课件。

(2)基于Spark的交通大数据处理与智能分析案例。

(3)基于Spark的车辆轨迹分析案例。

(4)基于Spark的朋友圈分析案例。

3  课程设计情况

针对“Spark实时大数据处理技术”在线开放课程的设计情况,下文从课程具体设计及课程视频资源情况两个方面进行介绍。

3.1  课程具体设计

课程具体设计涉及课程每章节教学目标、教学设计与方法、教学活动与评价等方面。

3.1.1  第一章Spark架构介绍与RDD

本章的教学目标:讲授Spark的基本架构、工作流程与其核心——RDD。通过第一章的学习,学生应该熟悉掌握Spark的基本知识,为后续开展基于Spark的编程奠定基础。

教学设计:以Spark架构图为基础,重点介绍Spark大数据处理的工作流程,以及Spark大数据处理的核心——RDD。

教学活动:本章包含10学时的理论教学与6学时的实验教学,通过理论与实验相结合的教学方法,提高学生对Spark架构的理解及其实际动手能力。

3.1.2  第二章Spark SQL

本章的教学目标:讲授Spark SQL的编程技巧与实际应用。

教学设计:以传统的SQL语言为比较对象,首先重点讲授基于RDD的datasets和data frame概念,然后讲授Spark SQL如何处理结构化的数据。

教学活动:本章包含6学时的理论教学与4学时的实验教学,通过理论与实验相结合的教学方法,提高学生对datasets、data frames和Spark SQL的理解与实际动手能力。

3.1.3  第三章Spark MLlib

本章的教学目标:讲授基于Spark的人工智能技术——Spark MLlib。

教学设计:以传统的机器学习算法为比较对象,讲授如何使用Spark MLlib提供的经典机器学习算法——回归、分类算法与聚类算法进行基于大数据的机器学习。

教学活动:本章包含8学时的理论教学与4学时的实验教学,通过理论与实验相结合的教学方法,提高学生对机器学习和Spark MLlib的理解与实际动手能力。

3.1.4  第四章Spark Graphx

本章的教学目标:讲授基于Spark的图计算技术——Spark Graphx。

教学设计:首先通过社交网络的案例,讲授图的概念以及需要图计算的原因。然后讲授如何使用Spark Graphx进行图计算的编程。

教学活动:本章包含6学时的理论教学与4学时的实验教学,通过理论与实验相结合的教学方法,提高学生对社交网络、图计算和Spark Graphx的理解与实际动手能力。

3.2  课程视频资源情况

本课程视频资源情况如表1所示。

4  课程建设措施

为保障“Spark实时大数据处理技术”在线开放课程建设的质量及可持续性发展,采取以下课程建设措施,包括课程建设与维护计划及措施、预期效果等方面:

(1)深入研究现代教育理论在“Spark实时大数据处理技术”在线开放课程中的体现方式,树立先进的教学理念,加强基础,重视课程教学过程中对学生的素质培养,提高学生的动手实践能力。图1、图2、图3、图4展示了一个使用贝叶斯分类算法进行学生性别识别的实际案例。图1两个关键特征,列出学生的两个关键特征声音和头发,用于判别学生的性别。图2判别树的构造,展示了在判别过程中,不断地通过同学的性别构建出二叉树来学习这两个特征对性别的影响程度,从而构建出一个识别器模型。在模型构建中,通过头发或声音的构建思路或策略分别如图3、图4所示。通过采用经典信息熵的方式得出,先通过声音这一特征,然后再通过头发这一特征进行判别树的构造具有更好的准确性。

(2)完善现有的“Spark实时大数据处理技术”在线开放课程电子教案,增加多媒体动画演示及扩展知识面的素材,提高电子资源的数量和质量。通过网上教学和辅导,提高教学效果和教学质量。图5、图6录课视频展示本课程核心内容RDD的部分内容。通过具体例子Filter闡述转化操作的含义及作用。图5Filter操作的作用,讲述了Filter函数的具体作用。图6Fliter函数的计算过程与返回结果,讲述了该函数的执行过程与返回结果。

(3)基于自主构建的云平台,利用已有的技术[4,5],建立并完善开放的Spark运行环境,为全校师生提供免费的基于Spark的大数据处理服务。图7为云平台登录界面,展示了该平台的登录界面。学生通过输入学号和密码可以登入该平台,进行Spark程序的执行与学习。图8为Spark程序上传界面,展示学生登入云平台之后,可以上传待运行的Spark代码,同时可以修改或删除已上传的代码。在此之后,通过图9 Spark运行环境配置界面,进行Spark运行环境的设置,比如设置执行器的数量和内存大小。最后点击图9中的运行按钮就可以在云平台上运行自己的Spark程序。

(4)开发基于Web的交互教学平台,综合多种电化教学手段,构建网络信息环境下的教学平台,让网络资源成为理论教学的一种拓展,改变教师的教学观念、教学方法以及学生的学习方式、思维方式。

(5)积极开展“Spark实时大数据处理技术”在线开放课程的教学改革和教学创新等方面的研究,积极吸取国内外先进的教学理念,使“Spark实时大数据处理技术”的教学体现出一流的水平和鲜明的特色,并积极推广教学研究成果,发表高水平的教研论文。

(6)不断加强与国内外高校的教学交流和研讨,加强“Spark实时大数据处理技术”在线开放课程多媒体资源的推广和交流,加强实验室的建设与管理,搭建共享实验平台,使该课程具有示范和辐射作用。

5  结  论

随着大数据技术企业应用的不断创新发展,社会对大数据人才的需求量日益增长,大数据人才培养问题显得愈发重要。我校开设的数据科学与大数据技术专业已成为重庆市高校大数据智能化类特色专业。“Spark实时大数据处理技术”课程作为该专业的核心课程,其重要性显而易见。“Spark实时大数据处理技术”在线开放课程已立项为我校校级在线开放课程。本文从课程开设背景、建设基础、课程设计情况、建设措施四个方面阐述了“Spark实时大数据处理技术”在线开放课程建设研究与实践过程。进行该课程在线开放课程建设研究与实践具有重要意义,进一步深入优化课程教学,助推教育教学改革和教育制度创新,提高了教育教学质量。

参考文献:

[1] 李晓锋.从精品开放课程到在线开放课程:精品课程建设理念与实践的转型 [J].中国教育信息化,2021(1):15-18.

[2] 杨文武,张海防.共享理念下高校继续教育信息化建设研究——以江苏省为例 [J].中国成人教育,2021(9):61-65.

[3] 刘允,王友国,罗先辉.地方高校在线开放课程建设实践与探索——以南京邮电大学为例 [J].教育与教学研究,2016,30(8):69-73.

[4] ZHU C P,HAN B,ZHAO Y L. A bi-metric autoscaling approach for n-tier web applications on kubernetes [J/OL]. Front. Comput. Sci.,2022,16(3):163101.https://doi.org/10.1007/s11704-021-0118-1.

[5] ZHU C P,HAN B,ZHAO Y L. A Comparative Study of Spark in the bare metal and kubernetes [C]//2020 6th International Conference On Big Data and Information Analytics,2020.

作者簡介:朱常鹏(1981—),男,汉族,湖北仙桃人,讲师,博士研究生,主要研究方向:大数据、云计算;刘元超(1979—),女,汉族,山东德州人,讲师,硕士研究生,主要研究方向:教学管理;李刚(1968—),男,汉族,四川泸州人,教授,博士研究生,主要研究方向:软件工程、人工智能。

猜你喜欢
在线开放课程
影响大学生在线开放课程学习成功的因素分析
高等院校在线开放课程建设研究与思考
《桥梁工程试验与检测》在线开放课程建设初探
《职场口才》在线开放课程建设与实践
浅谈互联网+时代将微课、慕课、优课与传统课堂教学相结合的方法
关于高等职业院校建设在线开放课程的思考
“互联网+教育”背景下高校在线开放课程建设的制约因素与发展对策
基于CRP平台的在线开放课程建设与应用研究
新大学英语课程体系下“跨文化交际”在线开放课程建设探索
从“3号文件”看我国在线开放课程发展趋势