数据挖掘挑战赛驱动的本科生大数据分析能力培养
——以上海电机学院软件工程专业学生为例

2017-03-24 02:05于文兵王淮亭
计算机教育 2017年11期
关键词:挑战赛数据挖掘竞赛

吕 品,于文兵,汪 鑫,王淮亭

(1. 上海电机学院 电子信息学院,上海 201306;2. 上海电机学院 工业技术中心,上海 201306)

数据挖掘挑战赛驱动的本科生大数据分析能力培养
——以上海电机学院软件工程专业学生为例

吕 品1,于文兵2,汪 鑫1,王淮亭1

(1. 上海电机学院 电子信息学院,上海 201306;2. 上海电机学院 工业技术中心,上海 201306)

针对大数据时代应用型大数据人才大量短缺的问题,分析数据挖掘挑战赛对培养学生大数据分析能力的重要作用,以上海市教委大力倡导的本科院校激励计划为切入点,以数据挖掘挑战赛为驱动平台,围绕数据分析的核心知识,探讨如何通过数据挖掘挑战赛培养软件工程专业学生大数据分析能力的新型软件人才培养模式。

数据挖掘挑战赛;大数据分析;激励计划

0 引 言

自2015年国务院发布《促进大数据发展行动纲要》以来,随着大数据政策环境和技术手段的不断完善,大数据行业应用持续升温,国内企业大数据市场进入快速发展时期[12]。2016 年中国大数据核心产业的市场规模约为168 亿元,较2015 年增速达45%[3],并且随着国家政策激励以及大数据应用模式的逐步成熟,未来几年中国大数据市场仍将保持快速增长趋势。越来越多的企业已经从大数据技术应用中获得了更智能的决策、更高的运营效率、更有效的风险管理、更多的业务收入等诸多利益,尽管如此,几乎所有企业还是一致认为大数据的应用仍存在诸多障碍,如企业的隐私保护、数据权属、数据资源短缺以及大数据人才短缺,其中大数据人才短缺是公认的最主要问题[4]。因此,在大数据时代背景下,培养学生的大数据分析能力尤为重要。

1 数据分析能力的重要性

随着“互联网+”应用的普及,人们获取数据的途径变得更加方便,获得的数据量也呈爆炸性增长。如何从这些种类繁多、更新速度快的海量数据中挖掘出有价值的信息,是每一个把数据视为资产的企业的头等大事,因此在大数据时代,软件工程专业人才不仅需要有扎实的程序设计能力和计算机学科的基础知识,还需要具备大数据思维与分析能力。若能在软件人才培养过程中,有意识地注重培养学生以上两方面的能力,则这样的软件人才不仅能应对计算机技术在跨领域中的交叉应用,还能有效缓解当前大数据人才需求与供给极度不平衡的问题。

2 数据分析能力必备的核心知识

虽然大数据分析的理论内涵与外延以及应用层面的创新层出不穷,人工智能等炙手可热的技术成为大数据高端人才出奇制胜的“法宝”,但是在本科学习阶段培养软件工程专业学生的大数据分析能力,仍须制订核心课程和学生应了解的外围知识体系。针对软件工程专业目前实施的培养方案中并没有涉及培养学生大数据分析能力相关课程的问题,一方面,可以利用课外学时开设机器学习课程,让学生掌握数据分析的常用机器学习算法;另一方面,要求学生利用课余时间了解常用的大数据开发技术以及如何在大数据平台上对数据进行存储与处理,采用理论与应用相结合的方式,力图使应用型大数据人才在培养方案之外的学习中具有持续创新的基础。

3 方法调研

为适应大数据时代的需求,国内许多应用型本科院校纷纷启动大数据背景下相关专业的课程体系重构、教学方法与方式改革、数据科学或大数据专业培养计划制订等措施,以期培养应用型大数据人才,提高高校对相关人才的输出能力,解决大数据人才的需求瓶颈。例如,贵州师范学院领跑大数据人才培养,首届大数据专业本科毕业实习已经启动[4];重庆工程学院的应用型智能科学与技术专业根据大数据应用人才的岗位需求和其所必备的专门知识结构,提出基于岗位目标的大数据课程群建设,学生对该试点的开展产生浓厚兴趣[5];常州工学院、云南大学等高校的计算机专业为培养出符合企业单位需求的大数据设计与管理人才,在传统数据库的教学内容和实验设计中构建新的大数据知识结构体系、大数据的设计方法和开发工具[67];华南农业大学软件学院立足于大数据时代对计算机学科人才知识结构、能力结构以及整体素质的要求,密切加强校企在大数据方面的合作,力图通过教学团队、课程教材、教学方式、教学管理等环节的综合改革,实现培养具备坚实的数据科学基础、具有较强大数据处理实践应用能力的计算机科学与技术专门人才[8];西华师范大学、湖南商学院、广东第二师范学院等院校积极探索在大数据时代背景下,培养既具备前沿软件工程思想,又具备大数据分析与处理能力的软件人才的模式[911];湖南科技大学电气工程及自动化专业以智能电网为背景,从电气专业大数据人才需求特点出发,探讨智能电网应用型大数据人才的培养目标、课程体系和培养方案[12]。

以上各高校积极探索的应用型大数据人才培养模式虽然取得了一定的成果,但都忽视了大数据竞赛在人才培养过程中所发挥的重要作用,因此,在培养软件工程专业学生的大数据分析能力时,我们采用了大数据竞赛驱动的方法。近年来,许多著名机构和企业纷纷举办各种大数据竞赛,目的是发现和培养大数据技术人才,尝试创新大数据技术,改善大数据技术在产业化应用中的技术问题。大数据竞赛的最大特点:①题目均来自于实际应用;②竞赛规格越高,获奖参赛者的奖金越高。大数据竞赛可以激励和引导许多在校大学生组队参赛并协作创新,相应地促进其在参赛过程中利用大数据相关知识解决真实的业务和社会问题。

4 方法实施

4.1 激励计划与学科竞赛对接

针对软件工程专业学生的学业基础,结合对大数据相关竞赛官方网站的了解,我们以全国大学生数学建模竞赛委员会举办的全国“泰迪杯”数据挖掘挑战赛为大数据竞赛平台,拟通过激励计划与学科竞赛的对接,依托该竞赛培养学生利用机器学习算法对原始数据进行挖掘分析,积累数据分析的相关经验。

激励计划是上海市教委推出的一项旨在激发上海高校教师从事本科教育教学动力和能力的教学提升计划。激励计划主要通过开展坐班答疑和晚自习辅导两种形式,进一步促进学校进行教育教学改革,强化本科教学的中心地位,通过鼓励大学生参加各类学科竞赛和科学创新创业活动,最终全面提升本科教学质量,切实提高人才培养质量。机器学习课程常常是计算机相关专业研究生阶段学习的课程,由本科生自学具有一定难度。为了通过数据挖掘挑战赛平台培养学生的数据分析能力,在竞赛准备阶段与竞赛过程中,我们充分利用激励计划的时间组织学生学习机器学习课程。

4.2 数据分析基本功训练

以数据挖掘挑战赛为驱动的本科生数据分析基本功训练主要在没有竞赛任务的学习过程中开展。一方面,充分利用晚自习辅导时间,以教师讲解机器学习算法为主,学生听讲为辅;另一方面,通过每周布置一项实验任务,教师利用坐班答疑时间检查学生的任务完成情况和对算法的掌握情况。以朴素贝叶斯算法为例,训练学生实现非结构化数据分析的基本功的步骤如下。

1)获取数据源。

拥有真实的数据源,数据分析才具有实际意义,学生才能从自己分析的结果中真实地体会到数据背后隐藏的信息。针对朴素贝叶斯算法,可要求学生编写Python程序,从指定网站上抓取iPhone 7与华为荣耀V8系列两种品牌手机的消费者评论。布置这项实验任务的目的是要求学生:①掌握数据采集的技能;②掌握文本分词、向量空间模型的建立、文本的表示以及文本数据的预处理方法,为文本数据的挖掘分析奠定基础。

2) 指定具体数据分析任务。

针对学生在天猫商城品牌官方旗舰店爬取的10 000条文本数据,要求学生分析两种品牌手机的差异化和消费者的购买行为。布置这项实验任务的目的是要求学生:①掌握Python中用于数据分析的pandas包;②掌握Python中用于可视化分析结果的matplotlib包,为实现利用朴素贝叶斯算法对评论进行情感极性分析奠定基础。

3)用朴素贝叶斯算法预测评论的情感极性。

首先,要求学生仔细阅读获取的10 000条评论,并对每一篇评论进行情感极性(褒贬)标注。一方面,利用这项任务让学生掌握在训练一个机器学习算法时,什么是训练集;另一方面,让学生真正理解朴素贝叶斯算法为什么是一个监督学习算法。

其次,要求学生运用分词技术和向量空间模型对每一篇评论进行向量化,形成训练朴素贝叶斯算法的输入;再从10 000条评论中随机抽取80%的评论作为训练集,选择多项式模型或者伯努利模型实现朴素贝叶斯算法,并对朴素贝叶斯的参数进行估计。

第三,从20%的测试集中随机选择任意一篇评论作为预测文本,要求学生观察预测结果与标注的真实结果是否相同;以准确率、召回率以及F值作为评价指标,分析模型的预测准确率。

最后,学生以科技论文的形式,从数据采集、数据预处理、算法的原理、利用算法进行挖掘分析、分析结果的可视化等环节,展示完成的实验任务。这种以实验任务驱动数据分析基本功训练的方式,采用循序渐进的问题求解方法,教师的主要工作是向学生传授机器学习算法的原理,帮助学生定义问题,辅助学生完成数据分析任务和总结评价;学生则通过完成数据分析各阶段的教学活动,得到数据思维方法训练,培养大数据分析能力。

4.3 数据分析实战训练

数据分析实践训练是在竞赛举办方公布竞赛题目之后,教师利用晚自习辅导时间组织学生展开选题讨论、组长任命、任务安排、资料查阅、进度管理等多项工作,以3人团队合作的形式完成竞赛题目要求,实现数据分析的实战演练。以学生参加第五届全国“泰迪杯”数据挖掘挑战赛为例,通过实战训练学生数据分析能力的过程如下。

数据分析实战训练采取集中讨论、进度汇报与现学现用3个环节。其中,每周晚自习辅导是集中讨论时间,讨论内容由3部分构成:①每位学生讲解自己对赛题的理解,教师记录并听取学生的思路;②教师从学生的讲解中选定某一主题,由学生自由讨论,教师记录讨论情况;③针对讨论过程中形成的问题,教师发问、学生解答,最终形成对某一问题的解决方案。学生通过课外查阅相关资料,在集中讨论环节积极发表自己的观点,不仅可以有效培养查阅文献资料的能力,还能训练分析问题与解决问题的逻辑思维能力。

每周坐班答疑时间,由学生向教师汇报各自负责任务的完成情况,以便教师及时了解学生编写的程序是否真正反映学生对问题的正确理解。这一环节在数据分析实战训练中十分重要,如在今年的赛题B“中央空调系统的数据分析与控制策略”的挖掘与分析中,从讨论环节来看,似乎每位学生都掌握了k-means聚类算法的原理,但是在学生的汇报环节,通过程序的运行结果发现部分学生并没有真正理解如何通过正确的计算判断样本的相似性。因此,汇报环节能及时发现学生在实战训练环节中存在的问题,有效管理竞赛进度。

一般情况下,平时学习到的方法和技术有时并不能用于解决赛题的所有任务问题,因此,现学现用环节也是数据分析实战中一个重要组成部分。赛题B“中央空调系统的数据分析与控制策略”中涉及优化策略的分析,而平时的数据分析训练中,学生并没有学习优化算法,因此在竞赛过程中,由于竞赛时间有限,基于学生的数学基础以及各种不同优化算法的理解难易程度,本次竞赛的优化策略选用了遗传算法。在学习完遗传算法的思想并利用它解决竞赛任务之前,先要求学生利用遗传算法实现简单实例的优化,以正确理解遗传算法的实现原理,再分析赛题B的具体要求,选用合适的二进制编码方式、最佳适应度函数、变异概率等。现学现用环节要求学生在较短时间内运用某一算法解决实际应用,可以有效检验学生查阅文献资料的能力、熟练运用Python的编程能力以及灵活应变能力,对培养应用型创新人才具有极大的帮助。

4.4 基本功训练与实战训练比较

数据分析的基本功训练和实战训练既相互联系,又有所区别。相同点是基本功训练和实战训练都需要学生利用数据分析的知识完成数据分析任务;不同点是基本功训练过程中所使用的数据通常是已有的公开数据集,这些数据集都是经过预处理的“干净”数据,然而在实战训练中,学生接触的实际应用问题往往包含许多“噪音”的“脏”数据,需要学生根据实际问题的需要对数据进行清洗。另外,基本功训练通常是给定算法解决一个实际问题,而实战训练常常需要学生根据实际问题选择算法。因此,实践训练更能考查学生对每一种机器学习算法的特点以及应用场景是否深入了解,如在阅读完赛题B“中央空调系统的数据分析与控制策略”的数据集后,要求学生分析已学习过的几种机器学习算法特点与它们最适合的应用场景,然后结合赛题要求,采用排除法,找到合理解决方法。

在培养学生数据分析能力的过程中,数据分析的基本功训练和实战训练相辅相成,缺一不可。基本功训练能培养学生的自学能力;实战训练不仅能培养学生分析与解决问题的能力、竞争意识与合作精神,还能使学生增长见识、提高综合素质。

5 结 语

大数据的发展和应用催生了社会对应用型大数据人才的需求。在教学过程中,通过采用基于激励计划与学科竞赛对接的教学模式以及任务驱动的“基本功训练——实战训练”,促进学生对数据分析知识的融会贯通,潜移默化地推进学生数据思维的形成。学生通过数据挖掘挑战赛夯实了自己的专业功底,通过获奖成绩也证明了分析与解决问题的能力和创新能力,为将来就业和进一步深造奠定了坚实的基础。

[1] 朱扬勇, 熊贇. 大数据人才培养的基础条件初探[J]. 大数据, 2016(5): 107-114.

[2] 吴力波. 多“源”异“构”培养大数据创新型人才[J]. 大数据, 2016(5): 89-94.

[3] 朱扬勇, 熊贇. 大数据时代的数据科学家培养[J]. 大数据, 2016(3): 106-112.

[4] 张宇敬, 许美玲, 臧丽娜, 等. 京津冀协同发展背景下的大数据人才培养研究[J]. 经营管理者, 2016(12): 115-116.

[5] 曹耀钦, 李发陵, 周龙福. 应用型智能科学与技术专业大数据课程群建设研究[J]. 计算机教育, 2016(10): 22-25.

[6] 王树锋, 费贤举, 胡智喜. 基于大数据的数据库课程探究式教学方法研究[J]. 计算机教育, 2014(11): 99-102.

[7] 岳昆, 陈红梅, 王丽珍. 大数据时代本科数据库课程体系改革设想[J]. 计算机教育, 2015(11): 104-107.

[8] 田绪红, 肖磊, 黄琼, 等. 大数据时代的计算机科学与技术专业综合改革[J]. 计算机教育, 2015(19): 12-16.

[9] 沈海波, 周如旗, 朱雄泳. 大数据时代软件工程专业建设的思考[J]. 计算机教育, 2015(23): 98-100.

[10] 毛嘉莉, 刘敏, 董文, 等. 大数据时代软件人才培养新模式[J]. 计算机教育, 2016(5): 36-40.

[11] 佘亮, 曾阳艳, 陈荣元. 大数据时代下软件工程专业教学改革的探讨[J]. 计算机教育, 2016(2): 127-129.

[12] 刘朝华, 李小花, 肖小石, 等. 面向智能电网的电气专业大数据人才培养探究[J]. 当代教育理论与实践, 2016(7): 69-71.

1672-5913(2017)11-0036-04

G642

上海市教育科学研究项目“基于大数据技术的自适应学习研究”(C17014/17AR04);上海电机学院重点教研教改项目“大数据竞赛对应用型大数据人才培养作用的研究”(A1-0224-17-009-05)。

吕品,女,副教授,研究方向为数据挖掘、情感分析,lvp@sdju.edu.cn。

(编辑:宋文婷)

猜你喜欢
挑战赛数据挖掘竞赛
2020丝绸之路数学竞赛
探讨人工智能与数据挖掘发展趋势
Ps挑战赛
Ps挑战赛
Ps挑战赛
我看竞赛
创新思维竞赛(3)
基于并行计算的大数据挖掘在电网中的应用
Ps挑战赛
一种基于Hadoop的大数据挖掘云服务及应用