基于大数据技术的课程相关性分析研究

2019-09-10 07:22:44周永塔

现代信息科技 2019年3期

摘要：根据教育部十三五规划纲要文件，各高校需要重新制定未来五年发展计划以适应高校信息化的要求。因此，需要利用大数据手段，深入探讨高校教学方法，提高教学质量。当前，大数据技术的应用场景逐渐运用在教学管理中，其中，全面调整课程结构，优化各专业当前教学课程的设定，分析课程相关性和联系性是高校提高教学质量，实现教学课程层次化中最为迫切需要解决的问题。为了解高校开设课程的相关性，改进教学质量，拟利用Apriori优化算法和大规模并行处理技术对学生成绩进行课程相关性分析。

关键词：大规模并行处理；Apriori优化算法；学生成绩；课程相关性

中图分类号：G642；TP311.13-4 文献标识码：A 文章编号：2096-4706（2019）03-0076-03

Research on Curriculum Relevance Analysis Based on Big Data Technology

ZHOU Yongta

（Guangdong Nanhua Vocational College of Industry and Commerence，Educational Technology and Information Center，

Guangzhou 510507，China）

Abstract：According to the 13th Five-Year Plan outline document of the Ministry of Education，colleges and universities need to redesign their development plans for the next five years to meet the requirements of University informatization. Therefore，it is necessary to make use of big data to probe into the teaching methods in Colleges and universities in order to improve the teaching quality. At present，the application scenario of big data technology is gradually applied in teaching management. Among them，adjusting the curriculum structure comprehensively，optimizing the current curriculum settings of various specialties，and analyzing the relevance of the curriculum are the most urgent problems to be solved in order to improve the teaching quality and realize the hierarchy of the teaching curriculum in colleges and universities. In order to understand the relevance of courses offered in colleges and universities and improve the quality of teaching，this paper intends to use Apriori optimization algorithm and large-scale parallel processing technology to analyze the curriculum relevance of students’achievements.

Keywords：large-scale parallel processing；Apriori optimization algorithm；student performance；curriculum relevance

0 引言

隨着大规模并行计算技术的不断发展，使用数据库进行数据分析已不能适应数据规模的要求，需要使用新一代企业级数据仓库开展更为复杂的数据分析工作。随着机器学习等技术的不断发展，大量优秀的机器学习算法会应用到教学管理上。当前，学校对学生学习情况的分析仅限于基本统计上，他们会使用传统的数据统计方法，如平均分、方差、标准差等衡量一个学生的学习情况，这种基本的统计方法仅仅能了解学生总体水平，不能针对某一个学生，做出详细的分析，这对高校的教育改革来说，是一个前所未有的挑战[1]。本研究将详细探讨如何利用ETL工具Kettle将存储在Oracle数据库的学生成绩数据导入到大规模并行数据仓库Greenplum中，并利用大规模并行处理技术，将学生成绩数据进行分布式计算，最后利用数据挖掘工具Madlib，结合数据挖掘Apriori优化算法，研究如何实现对学生各门课的成绩进行分析，实现公共课成绩对专业基础课成绩的影响、专业基础课成绩对专业核心课成绩的影响、专业核心课成绩对专业核心课成绩的影响三个业务场景的分析。

1 解决关键问题

在传统的方法中，学校仅能够评估学生在各个科目中的掌握情况，但在上某一门课的时候，缺乏对学生前导课程掌握情况的了解，因此，不便做出合理的教学计划，导致基础较为薄弱的学生无法跟上课堂的节奏，优秀学生的知识量不够饱满，导致后进生越来越弱，优秀生无法得到更大的提高[2]。为了解决这个问题，各高校利用大数据的手段，深入探讨高校的教学方法，提高教学质量。当前，大数据技术的应用场景逐渐运用在教学管理中，其中，全面调整课程结构，优化各专业当前教学课程的设定，分析出课程的相关性和联系性，是高校提高教学质量，实现教学课程层次化中最为迫切需要解决的问题。针对高校的人才培养体系，人才培养方案主要分为公共课、专业基础课、专业核心课、专业实践课等四种不同的课程，为了了解各课程在教学中的相关度，了解学生前导课程的学习质量，需要对这几种课程进行相关性分析，从而进一步提高教学质量，帮助教师改进教学内容和方法。在并行化后采取不包含任何候选k项集的事务不可能包含任何k项频繁集方法，在数据库扫描过程中可以将这些事务进行标记，从而减少需要扫描的事务数目，提高挖掘效率。

本研究主要利用大规模并行处理技术进行复杂数据查询，通过优化后的Apriori算法了解公共课成绩对专业基础课成绩的影响、专业基础课成绩对专业核心课成绩的影响、专业核心课成绩对专业核心课成绩的影响，让教师在基础课、专业基础课、专业核心课等课程的设定上进行合理评估，并得到课程与课程间的联系，从而调整教学方法和内容。

2 关键技术实现

利用ETL工具Kettle将存储在Oracle数据库的学生成绩数据导入到大规模并行数据仓库Greenplum中，并利用大规模并行处理技术，将学生成绩数据进行分布式计算，最后利用数据挖掘工具Madlib，结合优化后的Apriori算法，研究如何实现学生各门课的成绩进行分析，实现公共课成绩对专业基础课成绩的影响、专业基础课成绩对专业核心课成绩的影响、专业核心课成绩对专业核心课成绩的影响三个业务场景的分析。

大数据智能分析会创建多个DB进程来处理学生成绩数据的查询。在Master上的称为执行分发器，执行分发器负责创建、分发查询计划，汇总呈现最终结果。在Instance上，处理进程被称为查询执行器，查询执行器负责完成自身部分的处理工作以及与其他处理进程之间交换中间结果。在进行课程相关性分析的时候，查询计划的每个处理部分都至少涉及一个处理工作，执行进程只处理属于自己部分的工作。在查询执行期间，每个Instance会并行地执行一系列的处理工作。同一部分相关的处理工作称为簇。在一部分处理完成后，数据将从当前处理向上传递，直到查询计划完成。图1显示查询处理如何在Master和2个Instance之间被逐步执行的。这真正做到数据的分布式查询，提高了复杂查询的查询时间。

使用ETL工具Kettle将Oracle的学生成绩数据导入到大规模并行仓库中，在導入过程中，可以通过改变开始复制的数量、缓存利用、添加数据库索引、修改JVM参数等方式改进Kettle的性能，并通过实时计算系统实施将数据导入大规模并行处理仓库。恒华数据实时采集系统是一个面向流的、实时的数据ETL平台；通过设计和实现一个类SQL、可扩展的流运算系统，能为实时数据处理提供基础设施和数据供给。它由实时导入模块、实时处理模块、实时探索模块三个模块组成，实时导入模块数据清洗、归并、结构化从pipe系统导入的数据并映射成流。实时处理模块负责执行流算子，通过应用流类SQL算子，可以生成一个或多个逻辑流；每个逻辑流都可被下游零个或多个数据使用方订阅。实时探索模块用于进行数据消费，通过改进ETL工具的使用，能迅速将基于Oracle数据库的OLTP数据转换成基于大规模并行处理技术的OLAP数据，提升了学生成绩数据的分析能力。

数据导入到大规模并行仓库后，需要对学生成绩进行课程相关性分析。关联性分析所需用到的算法是Apriori。Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。在高校管理中，根据挖掘规则可以有效地辅助学校管理学生成绩，并对成绩进行相关性分析。将数据库的扫描过程实现并行化后，而数据库扫描是Apriori算法的主要瓶颈之一。在主程序产生候选项集的过程中应用先验剪枝，对候选项集的数量产生限制作用。此外进一步采用事务缩减的思想来减少数据库事务的扫描次数。事务缩减思想同样基于频繁项集的一种性质即：不包含任何k-1项频繁集的事务不可能包含k项频繁集，因此在数据库扫描过程中可以将这些事务进行标记，从而减少需要扫描的事务数目，提高挖掘效率。而文中利用了与此相似的另外一种性质即：不包含任何候选k项集的事务不可能包含任何k项频繁集。

基于事务缩减的算法改进策略需要解决的第一个问题就是如何唯一地标识每一条事务记录。在HDFS中，每个文件都会以64MB的块为单位进行存储，每个块都有一个唯一的URL。此外，在MapReduce执行过程中，每个Mapper都需要单独处理一个split（split与HDFS中的block是相对应的），采用按行读入事务记录的方式时，key值为该行记录在文件中的偏移字节数，对于该记录而言，此key值可以作为其在该split中的唯一标识。这样，由split的URL加该事务记录的key值便可以将其唯一地标识出来。按照该策略，改进的重点就在Mapper的执行逻辑中。即Mapper首先需要获取split的URL，存入Mapper中的一个成员变量。同时根据split的URL，根据约定的路径找到存储其剔除列表的文件，并将剔除列表读入一个HashSet中。map函数对候选项集计数时，如果发现该条事务不包含任何候选项集，则将其加入最新的剔除列表。最后在Mapper的cleanup函数中将新的剔除列表附加到剔除文件中，以供下一次扫描时使用。随着挖掘的不断进行，剔除的事务量会不断增多，挖掘效率的提升也更加明显。

4 结论

使用优化之后的Apriori算法对公共课成绩对专业基础课成绩的影响、专业基础课成绩对专业核心课成绩的影响、专业核心课成绩对专业核心课成绩的影响这三个专题进行分析，摆脱传统成绩分析中只有平均分、方差、标准差等统计方式，深入洞悉课程间的关系，为高校提供更细化的教学数据，让教师更好地调整教学方法，实现教学质量的提高。

参考文献：

[1] 廖大强，邹杜，印鉴.一种基于优先级的网格调度算法 [J].计算机工程，2014，40（10）：11-16.

[2] 廖大强.面向多目标的云计算资源调度算法 [J].计算机系统应用，2016，25（2）：180-189.

作者简介：周永塔（1981.12-），男，汉族，广东汕尾人，本科，硕士，信息系统项目管理师，研究方向：大数据分析。