赵向兵 张景安 山西大同大学计算机与网络工程学院
随着信息技术的迅猛发展,大数据、云计算、人工智能、物联网、智慧制造、虚拟现实等不断渗透并重塑传统产业[1-2],大数据成为新的产业革命的核心,产业的迅速发展使高校大数据专业发展面临着新的要求与考验。目前,高校大数据专业人才培养和教学课程体系配置存在一些突出问题,如人才培养和行业需求脱节,课程设置与行业企业实际应用契合度不高;课程体系重理论轻实践,实践课程资源不足,实践案例不成体系,尤其是缺乏综合性工程实践案例,造成学生很难把理论知识转化为实践应用技能,更谈不上开发实际的工程项目。
针对以上存在的问题,笔者认为,大数据专业课程体系建设应注意以下几个方面:首先,落实“新工科”[3]工程教育理念和“产教融合,协同创新”[4]新模式,课程体系制订应面向行业需求,充分了解各领域行业知识业务流及项目需求点。例如,对于应用型本科大数据课程体系,主要是培养大数据平台的开发和设计人才,培养大数据开发项目经理和产品经理,以及大数据开发工程师和架构师;对于高职应用型大数据课程体系,主要是培养大数据运维和应用工程师。其次,在大数据专业知识体系[5]的基础上,优化课程体系内容和结构,加强实践教学资源建设,通过科学有效的案例教学将理论知识进一步深化,从而提高学生的实践能力和解决复杂问题的能力。最后,加强教师实践教学设计能力的培养,改革实验教学的形式和内容,鼓励开展综合性、创新性实验教学设计。
Hadoop[6]与Spark[7]是大数据技术的基础,Hadoop应用开发课程是大数据课程体系的核心课程,在学习理论知识和技术的基础上,实践教学是提高学生动手能力的关键环节。可是,目前实践教学的实验案例以基础技术应用案例为主,缺乏综合性的实践案例,造成学生缺乏综合应用技术能力和工程实践能力。笔者认为,对于广大应用型本科院校来说,可以依托“产教融合”发展模式,在教学实践过程中,以行业项目案例为导向设计实验案例,分析职业岗位模型,结合典型的工作场景,提取出专业技能和项目经验,最后形成完整的行业项目案例,完善大数据课程体系,提高学生综合应用大数据技术的能力和解决复杂问题的能力,使学生所学和企业需求无缝对接,从而取得较好的学习效果,转化过程如图1所示。
行业案例对应表
针对各典型行业的具体特性,转化成具有行业特征大数据技术应用的行业案例,丰富综合应用项目的实验教学内容,对应关系如上表所示。
运营商行业[8]是大数据应用技术的典型行业,随着通信行业的普及,以及人们对网络的需求越来越大,运营商的在线服务需求也来越大。对于客户,借助在线服务能更加便捷地了解产品和业务办理;对于运营商,在线服务在降低成本的同时也缓解了线下业务办理的压力。下面,以运营商行业为例,设计实验案例,其中主要包括实验解决方案、技术选型、实验环境部署、实验过程和实验结果展示等内容。
本实验案例架构采用模块化设计,分为数据预处理、数据存储模块、数据处理模块、数据ETL模块、结果展现模块,如图2所示。
图2
数据预处理模块将运营商提供的历史数据进行格式转换,数据存储模块将清洗后的数据存储到HDFS[9]上,数据处理模块通过Spark-SQL将存储在HDFS上的数据进行处理,再通过Spark和MapReduce[10]对具体的需求进行实现,数据ETL模块通过Shell脚本实现数据的获取及入库MySQL等操作,结果展示模块通过Java Web技术实现展示。
数据预处理的方法主要是数据清理、数据集成、数据变换和数据归约,这些预处理技术提高了数据挖掘模式的质量,减少了数据挖掘的时间。实验案例中数据预处理模块采用Java实现,Java面向对象编程,有丰富的接口,可以实现Excel表格的操作,将Excel数据转换成TXT文件。Spark-SQL底层依托于SparkCore,并支持大多数的HQL语句,可以快速方便地对数据进行预处理操作。
数据存储模块采用HDFS架构,HDFS是一个具有高容错性分布式存储系统,提供高吞吐量的数据访问,适合大规模数据集上的应用。实验案例中将已经清洗后的数据以TXT文件的形式存储到HDFS上对应的外部表指定目录下。
数据处理模块采用MapReduce/Scala/Spark-SQL实现,MapReduce是一种编程模型框架,它方便程序员在不了解分布式并行编程的情况下,将程序运行在分布式系统上。Scala是一种函数式的面向对象的编程语言,集成了函数式编程、面向对象、异步编程、类型安全、基于JVM等特点。Spark-SQL是Spark中处理结构化数据的模块,可用于做优化信息操作,Spark-SQL支持大多数的HQL语句,可以快速、方便地对数据进行统计分析。
数据ETL模块采用Shell处理,Shell语法和结构简单,学习时可以轻松掌握,使用起来方便快捷。遇到不解问题,通过Man命令可以快速找到相关命令和参数的使用方法说明。在文本处理方面,主要采用AWK和SED两种技术,轻松实现对文本的复杂处理。在这个模块中,主要运用功能强大的命令,快速高效地完成程序开发任务。
结果展示模块采用Java Web实现,学生能随意更换可视化主题,并且可以根据定制化的产品需求,自定义展示平台的结构、布局、配色和数据图表。实验案例是大数据技术案例,专注大数据处理流程,数据可视化部分只提供数据展示的方式、方法,不再对Java Web的工程做详细介绍。
实验平台运用普开数据“产、学、研、用”一体化平台,平台由教学模块、实验模块和科研模块组成,平台基于Docker技术[11-12],提供了丰富的实验镜像资源,能灵活实现Hadoop、Spark、Hive、Hbase、TensorFlow等不同的大数据实验环境,使用者也可以根据基础镜像自由搭建满足实验要求的实验环境。目前,Hadoop环境搭建已经可以轻松实现,所以,本实验案例选择三节点的Hadoop集群为基础实验环境进行环境部署,环境部署步骤包括安装MySQL、安装部署Hive数据仓库、安装部署Spark,详细步骤如图3所示。
图3
实验案例环境主要包括集群(包括3个节点:Master、Slave01、Slave02),CentOS7.5、Hadoop2.7.3、Eclipse4.7、Java1.8.1、Spark2.1.1、MySQL5.7.17、Hive1.2.1等。
实验目的:学生通过这个综合性实验案例的练习,掌握大数据处理流程和综合应用大数据相关技术的能力。
任务要求:实验对服务商给出的历史数据进行分析,以图形化的方式直观展现各服务区域服务指标达标情况,以及展现各服务区域的累积服务量。通过数据分析,对各类用户做多维画像,降低用户的投诉和流失。
数据是运营商提供的历史数据,由工单历史数据和专席通话记录数据两部分组成。工单历史数据包含省份、单号、账号等16个字段,专席通话记录数据包含主叫号码、被叫号码、呼叫类型和呼叫时间4个字段。
实验步骤如上页图2所示,具体如下。
步骤一:使用Java POI对源文件进行格式的转换,将Excel表格中的工单数据、话单数据内容解析后,写到TXT文本文件中;
步骤二:使用Spark-SQL对第一步处理后的文件进行清洗;
步骤三:将预处理后的数据存储到HDFS上的指定位置;
步骤四:使用Spark-SQL创建外部表,然后将数据加载到外部表的指定位置,完成数据的存储,作为下一模块数据分析处理的数据源;
步骤五:在Spark-SQL中创建库文件,在库中创建投诉风险表、投诉风险展示数据表、不同类用户指标表、全区域服务统计表、服务效能表、故障区域分布表、各省工单量表、风险投诉各类用户数量表、累计工单量表,并按需求对各表进行分布式统计;
步骤六:利用MapReduce编程实现全区域服务统计表的数据分析;
步骤七:通过Bash脚本将之前数据处理模块的需求分析结果导出,再在关系型数据库中建库建表,最后以加载本地数据的方式向数据库中加载数据,完成数据的ETL;
步骤八:使用Java Web实现结果数据可视化。
实验通过大数据解决方案,从客户提供的数据中分析得出有效的信息,并以丰富直观的图表形式进行展示,为决策机构提供有效的支撑。
大数据课程体系在大数据人才培养中起着重要作用,决定着人才培养的质量。以Hadoop、Spark为基础的大数据技术错综复杂,学生学习时困难重重,因此在教学的过程中,在学生理论知识学习的基础上,应加强实验练习,通过实验案例的学习,逐步由基础实验案例过渡到综合性实验案例,真正做到理论和实践相结合。综合性实验案例有着最强的实践应用特性,通过本实验案例的学习,学生在大数据技术的理解和应用会有更大的提升,同时深化了产教融合,促进人才链、产业链和创新链有机衔接,形成产教良性互动、校企优势互补的良好氛围,从而达到大数据专业人才的培养目标。