大数据科研成果支撑教学研究

2020-12-29 11:58赵旭俊蔡江辉马洋杨海峰赵志诚
高教学刊 2020年27期
关键词:科研成果课程建设大数据

赵旭俊 蔡江辉 马洋 杨海峰 赵志诚

摘  要:随着大数据时代的来临,《数据挖掘与智能决策》课程面临着如何适应时代需求的任务,将大数据相关的科研成果融于《数据挖掘与智能决策》课程的教学中,不仅能激发学生的积极性,更能提高学生的创造性和应用能力。在分析当前《数据挖掘与智能决策》课程存在的问题之后,分别从离群数据挖掘和关联规则挖掘两方面结合大数据科研成果,讨论了融合之后的课程教学,从而为《数据挖掘与智能决策》课程的建设提供一种新思路。

关键词:大数据;科研成果;教学模式;课程建设

中图分类号:G640       文献标志码:A         文章编号:2096-000X(2020)27-0093-04

Abstract: With the advent of the Big Data era, the course of "Data Processing and Intelligent Decision" is faced with the task of how to adapt to the needs of the times. The achievements of scientific research are integrated into the teaching of the course of "Data Processing and Intelligent Decision", which can not only stimulate students' enthusiasm, but also improve their creativity and application ability. In this paper, we first analyze some problems faced by the course of "Data Processing and Intelligent Decision", and then propose the integration with the course teaching from the outlier data detection and association rule mining method. Our research can provide a novel idea for the construction of the course of "Data Processing and Intelligent Decision".

Keywords: Big Data; achievements of scientific research; teaching model; course construction

隨着移动设备、物联网、电子商务、云计算等技术的飞速发展,无论是数据规模还是数据种类都在以前所未有的速度爆炸式增长,这些先进的技术和海量的数据促使人类社会进入了大数据(Big Data)时代[1]。大数据在世界范围内的高速发展,已经引起国内外学术界及许多国家政府层面的高度关注。伴随着大数据的蓬勃发展,传统的数据处理技术已经不能适应大数据的要求,遭遇了许多技术难题,急需寻找一种有效、可扩展和灵活的数据分析技术来实现大数据的处理。《数据挖掘与智能决策》[2]是专门针对海量数据提出的一种知识发现技术,它可以被看作是信息技术的自然进化产物,实现了相关学科同应用领域的融合,能较好地适应大数据的发展。

《数据挖掘与智能决策》作为计算机、物联网工程、软件工程专业大学本科生的专业必修课,具有很强的实际应用背景,是理论与实际应用紧密结合的课程。该课程涉及到信息科学的众多学科,是信号处理、数据挖掘、模糊系统理论、进化计算、信息融合等理论和方法的综合应用。《数据挖掘与智能决策》是一门综合性很强的课程,不仅涉及到信息科学众多学科的理论和方法,而且密切联系应用学科,根据应用领域中具体的问题,选择信息科学中适当的方法进行处理,从而将不完全、不精确的数据和信息逐步提取、抽象为有价值的知识,从而为相关领域专家提供决策支持和服务。《数据挖掘与智能决策》不仅与实际应用背景紧密结合,而且同先进的数据处理技术密不可分,如果将数据处理及分析的最新科研成果融合在本课程的教学过程中,必然能提高课程的教学质量[3]。

太原科技大学数据挖掘与并行计算研究所,依托海量数据分析与并行计算山西省科技创新重点团队,主要从事数据挖掘与并行计算、机器学习及应用、天体光谱数据分析等领域的研究工作。近年来,该研究所在大数据挖掘领域的国际领先刊物上发表了许多科研成果。本文针对《数据挖掘与智能决策》课程的教学,将该研究所的最新科研成果融合在课程的教学内容中,旨在学生掌握基本理论的同时,了解并掌握国际、国内的领先技术,拓宽学生思路,顺应社会发展。

一、大数据及《数据挖掘与智能决策》

(一)大数据

大数据的蓬勃兴起已经引起国内外学术界、全球工业界以及许多国家政府层面的高度关注。在国际学术界,世界顶级期刊Nature在2008年举办“Big Data”的专刊,从经济学、医疗学、环境安全以及物联网等多个方面讨论、分析大数据的来源、用途、前景。在2011年,另一国际顶级期刊Science,利用“大数据处理”的专刊,进一步讨论分析了大数据时代各个领域所面临的机遇与挑战。此外,国际著名出版社IEEE针对大数据新增

“IEEE Transactions on Big Data”的期刊,主要刊登与大数据相关的科研成果。在国内,清华大学围绕云计算、大数据分析和高性能计算框架等相关课题,成功举办了科研论坛,深入讨论了学术难题及未来面临的科学问题。

大数据本身没有准确定义,一般应该符合以下四个特征,数量巨大(Volume),数据量上的要求,是大数据的首要特征[4];种类繁多(Variety),大数据在结构、格式、形态等方面多种多样;处理神速(Velocity),对速度提出的要求是大数据的又一特征;数据真实(Veracity),建立在真实、准确数据之上的决策,才更有价值。

(二)数据挖掘与智能决策

数据挖掘与智能决策就是从海量、高维、复杂甚至是带噪声上的数据中提取有趣的知识、潜在的未被人类掌握的规律,其挖掘结果可用于智能决策、生产控制、过程分析、信息管理等方面。数据挖掘与智能决策通常涉及数据清理、数据集成、数据选择、数据转换、模式发现、模式评估和知识表示等方面。传统数据处理的研究内容主要有以下几类:

第一类是分类,它是描述数据类别的一种数据分析模型。这样的模型,称为分类器,可以针对离散、无序的数据进行预测分类。第二类是关联规则挖掘,它是用于探索对象特征之间的相关性,可看成是属性与属性之间特定关系的检测,从而发现潜在的一些规律,用于指导生产或社会实践。第三类是离群数据检测,是寻找与一般对象显著不同的特殊数据对象的过程。这些特殊对象被称为离群数据或异常。离群数据检测在许多应用中是非常重要的,例如欺诈检测、医疗保健、公共安全、传感器/视频网络监视以及网络入侵检测等等。

二、当前课程存在的问题

由于《数据挖掘与智能决策》课程具有前瞻性、应用性的特点,无论从教材角度,还是从教学环境角度,都无法对该课程做到统一规划,使得学生对课程内容掌握效果难以达到课程的预期目标,主要有以下几个方面:

(一)教学内容与实际应用脱节

《数据挖掘与智能决策》内容非常丰富,不仅涉及到数据挖掘和机器学习的相关知识,而且还涉及当前流行的并行计算环境。随着计算机硬件、网络资源、大数据等的高速发展,对数据处理提出了更高、更专业的要求,传统的数据处理方法已经不能满足当今海量数据的需求[5]。如果学生依旧重点学习传统方法及算法,那么他们所掌握的相关技能无法应用在具体的实际场景中。在传统的教学中,《数据挖掘与智能决策》课程主要讲授常规的数

据处理方法及经典的数据处理平台,当学生完成本课程的学习后,他们仅仅是对老师所讲授的各知识点从理论上有一个大概的了解,而对《数据挖掘与智能决策》的应用环境、行业需求和最新的前沿技术基本不了解,更谈不上如何应用《数据挖掘与智能决策》的技术解决实际生

产、生活中的问题。

(二)教学方法陈旧

由于教学资源和教学环境的限制,《数据挖掘与智能决策》的教学在许多高校让然沿用传统的教室讲授模式,课后学生自己进行模拟练习。这种模式无法适应《数据挖掘与智能决策》课程的前瞻性、应用性特征,而且束缚了学生的创造性,不能真正调动学生的积极性和兴趣[6]。《数据挖掘与智能决策》课程的教学如果能和科研项目相结

合,让学生真正参与到科研项目中,充分体会课程内容的应用价值,这无疑能让学生对大数据及智能决策有一种直观的感受,更能明确本课程的相关技术如何为现实应用创造价值。因此,除了传统的课堂教学外,还需要大量的课外拓展和实战演练。

(三)考核方式死板

传统的考核只是针对学生对课本知识掌握情况的考评,具体通过期中、期末测试,平时作业和上机操作等方式进行。但对于《数据挖掘与智能决策》这类操作性、應用性非常强的课程,基础知识的考核似乎更像是鸡肋,因为该类课程更注重学生的应用能力和创造能力,需要将课程所学内容完全应用在具体的实际问题中。将学生的考核和具体的科研项目、科研成果相结合,除了能了解学生对基本知识的掌握情况之外,还能考察学生的应用能力、团队合作精神,甚至能发掘、激发学生的创造性,真正达到学以致用的目的。

基于上述现状的分析,为适应大数据时代的要求,培养更优秀的学生,提高教学质量,《数据挖掘与智能决策》课程建设需要新的探索。

三、科研成果融于离群挖掘教学中

离群数据挖掘作为《数据挖掘与智能决策》课程的一个重要内容,属于数据挖掘的一个分支,其理论理解相对简单,但是针对离群数据挖掘的度量及相应算法形形色色,五花八门。随着科研者的持续研究,许多算法由于其超高的时空复杂度已逐步退出历史舞台,但它们依旧出现在许多教材中,导致学生掌握的这些算法没有实际意义和价值。本节介绍的离群检测算法PLOMA[7],于2019年刊登在国际著名期刊《Expert System with Application》,属于该领域领先的技术。

PLOMA是一种MapReduce框架下的上下文离群数据并行检测算法,包括三个MapReduce作业,其工作流程见图1。这三个MapReduce作业对应三个模块,即并行化数据约减策略、稀疏子空间并行搜索技术、稀疏子空间验证及离群结果解释模块。并行化数据约减策略通过在集群各个节点并行地剪枝无关的属性和对象来加快PLOMA的整体效率。稀疏子空间并行搜索模块无缝集成了粒子群优化算法,并行地在集群上查找稀疏子空间。最后一个模块通过验证局部稀疏子空间的正确性,使其保持较高的离群检测精度,然后通过稀疏子空间提取每个离群数据的上下文信息,并为离群结果提供合理解释。

在《数据挖掘与智能决策》的离群挖掘教学中,基于子空间的离群数据检测成为离群挖掘的一个全新度量方式。学生在理解什么是离群之后,就需要掌握怎样才能从海量数据中找到离群数据。随着数据量的不断膨胀,什么样的方法才能适应大数据的需求,从大数据中找出与众不同的特异对象。本节所介绍的理论成果就是对这些教学内容的支撑,它不仅提供了适应大数据挖掘的最新技术,还引入了并行计算的理论,借助网络中的大量计算资源解决数据膨胀问题。在拓宽教学内容的同时,还可以督促学生掌握当前流行的一些新技术。

四、科研成果融于关联规则挖掘教学中

关联规则挖掘是《数据挖掘与智能决策》课程的另一个主要内容,用于探索对象特征之间的相关性,可看成是属性与属性之间特定关系的检测。其挖掘主要分成两步,第一步是频繁模式的挖掘,第二步是关联规则的产生,典型的挖掘算法主要有Apriori算法和FP-Growth算法。多数《数据挖掘与智能决策》教材中,主要介绍这两个算法,但是Apriori算法不可避免地多次扫描数据集,它不适用于高维数据,这是Apriori算法的瓶颈;FP-Growth算法需要将所有数据保存在内存中,当数据集特别大时,这将无法实现。因此,这些算法无法满足大数据的需求,已经落伍。本节介绍的频繁模式挖掘算法FiDoop[8],于2019年刊登在国际顶级期刊《IEEE Transactions on Parallel and Distributed Systems》,属于该领域领先的技术。

FiDoop算法是在Hadoop平台上设计的一种并行频繁模式挖掘算法,该算法由三个MapReduce任务构成。

第一个MapReduce任务是频繁1模式的检测,实验数据被Hadoop分割,并上传到集群的分布式文件系统(HDFS)上,各数据节点从HDFS上读取数据到本地磁盘,然后统计每个1-模式出现的次数,最终产生频繁的1-模式集;第二个MapReduce任务是构造频繁模式树,每个频繁模式由剪枝后的模式数量和模式列表构成,为了统计的需要,交易事务中的频繁模式按字母顺序进行排序;第三个MapReduce任务是从频繁模式树上提取频繁模式,并由频繁模式生成相应的关联规则。

在《数据挖掘与智能决策》的关联规则教学中,频繁模式的发现是关联规则挖掘的主要步骤,是学生需要重点掌握的内容,但传统的频繁模式挖掘算法Apriori和FP-growth都是极其耗时的算法,无法应用在实际的生产、生活领域。对学生而言,无实际应用价值的算法理论,是非常枯燥的。本节阐述的FiDoop算法,在结合大数据的特征基础上,采用MapReduce编程思想而设计的并行算法,不仅解决了传统算法的瓶颈问题,而且结合了先进的并行计算平台,使其能解决大数据领域的相关问题,从而调动了学生的学习兴趣,保证了教学内容的趣味性。

五、结束语

《数据挖掘与智能决策》课程的教学需要同具体的应用领域相结合,让学生在掌握基本知识的同时,积极学习最先进的相关技术,从而培养学生的创造性和实际应用能力。要培养具有创新精神和创新能力的人,就要加强科研成果、科研项目同具体课程教学之间的联系,将先进的科研内容融于《数据挖掘与智能决策》相关课程的教学中,从而促进学生个性的发展和创新意识、创新能力的培养。

參考文献:

[1]吴小同.大数据环境下隐私保护及其关键技术研究[D].南京:南京大学,2017:6.

[2]Jiawei Han, Micheline Kamber.数据挖掘概念与技术[M].

范明,孟小峰,译.北京:机械工业出版社,2001.

[3]毛琼.项目化教学导向的科研成果转化为教学资源的探索[J].佳木斯职业学院学报,2019(11):246-248.

[4]白洋.大数据在高校教学科研管理工作中的应用研究[J].教育现代化,2019,6(74):241-242.

[5]陈光宋,张弘钧.“双一流”背景下科研反哺教学的困境、对策与实践[J].南京理工大学学报(社会科学版),2019,32(05):67-71.

[6]张振花,李慧盈,杨瀛涛.以学生和科研项目为案例驱动的多媒体技术课程内容和教学方法研究[J].计算机教育,2019

(10):159-162.

[7]Xujun Zhao, Jifu Zhang, Xiao Qin.Parallel mining of contextual outlier using sparse subspace[J].Expert Systems

with Applications, 2019,126:158-170.

[8]Yaling Xun,Jifu Zhang,Xiao Qin,Xujun Zhao.FiDoop-DP: Data Partitioning in Frequent Itemset Mining on Hadoop Clusters[J].IEEE Transactions on Parallel and Distributed Systems, 2017,28(1):101-114.

猜你喜欢
科研成果课程建设大数据
高校科研项目管理业务流程重组研究
“误差理论与数据处理”课程建设的实践与思考
基于卓越计划的金属结构材料课程实践化改革与建设
资源、生态与环境学科群体系下普通地质学课程建设思考
中高职一体化课程体系建设的探索与实践
基于大数据背景下的智慧城市建设研究
高校科研成果转化问题与对策探究
吉林省高等教育学会第五次优秀高教科研成果评审揭晓