吕琼帅 杨雨 巩跃洪 褚龙现 高敬礼
摘 要:数据挖掘课程是大数据和人工智能方向重要的核心课程,主要培养学生在数据驱动的范式下结合问题场景和社会需求,具备利用数据挖掘方法和技术分析、解决实际问题的能力。针对数据挖掘课程教学过程中存在的“痛点”问题,以培养工程型创新性人才为导向,从课程内容体系、学科竞赛体系和课程队伍体系三个维度,探索并构建基于“教赛协同”的数据挖掘课程教学改革的策略和方法,为地方高等院校大数据和人工智能相关专业的发展提供思路。
关键词:教学改革;教赛协同;数据挖掘;课程内容;竞赛体系;课程队伍
中图分类号:G642 文献标志码:A 文章编号:2096-000X(2024)10-0136-04
Abstract: Data Mining is an important core course in the direction of big data and artificial intelligence, and this course mainly trains students to combine problem scenarios and social needs under the data-driven paradigm, and have the ability to use data mining methods and techniques to analyze and solve practical problems. In response to the "pain points" in the teaching process of data mining courses, to cultivate innovative talents with engineering skills, this article explores and constructs strategies and methods for teaching reform of data mining courses based on "teaching and competition collaboration" from three dimensions: curriculum content system, discipline competition system, and curriculum team system. This provides ideas for the development of big data and artificial intelligence-related majors in local universities.
Keywords: teaching reform; teaching and competition collaboration; data mining; course content; competition system; course team
2023年3月22日,由中國高等教育学会竞赛评估与管理体系研究专家工作组发布的《2022全国普通高校大学生竞赛分析报告》[1]中,与数据挖掘相关的比赛达到了将近20项,约占总比赛数量的25%。与其他学科竞赛相比,数据挖掘相关的学科竞赛对知识的广度和深度的要求更为具体,更加侧重新问题、新技术和新应用的引入,培养和塑造工程创新型人才导向的育人特征更加突出。为使教学与竞赛相辅相成,在制定数据挖掘课程的大纲时,可以对照学科竞赛涉及的知识分布归纳总结出该课程的培养目标与课程要求,使课程大纲与工程教育认证的目标更加契合,能够对毕业要求进行较好的支撑;反过来,也可以将课程内容与知识点延伸到竞赛的题目中,进一步加深学生对所学知识的理解和应用。因此,基于“教赛协同”的数据挖掘课程的教学改革探索与实践对于推动实践育人工作的深入,培养具有数据思维的应用型人才具有重要的意义。
一 教学现状
数据挖掘课程是一门多学科交叉课程,不仅涉及概率统计、数值优化、机器学习等理论较强的知识,也涉及数据采集、数据预处理、构建模型和模型评价等实践较强的技术,具有非常强的实用性,在医疗、教育、金融、气象和军工等多个领域均有实际应用[2]。考虑到数据挖掘课程的特点以及与其他学科的交叉融合,课题组通过实践教学与文献调研[3-6],归纳总结了数据挖掘课程教学过程中存在的主要问题。
(一) 课程内容涉及广、理论深
完整的数据挖掘课程内容应涉及到数据获取、分析和建模等各个环节,可细分为数据质量分析、数据特征工程、数据清洗、数据规约、数据集成、挖掘建模、模型优化和模型发布等。此外,在这些内容中,尤其是挖掘建模部分涉及到的分类模型、预测模型、聚类模型、关联规则模型和时序模型等又涉及到较深的数学理论知识。这些因素不但增加了教学的难度,也容易使学生产生畏难的情绪。
(二) 实验数据量少,数据简单
数据是数据挖掘课程实验的关键。当前,数据挖掘课程主要采用的数据都是公共的数据资源,例如:加州大学欧文分校开放的UCI(University Of California, Irvine)。公共的数据资源一般数据量较小,而且是比较“干净”的数据,稍作处理后就可以直接导入模型中进行分析。这样获取的数据直接省去了数据探索、数据预处理等环节涉及到的技术与方法,无法让学生了解到数据挖掘的完整过程,会让学生误以为学习数据挖掘就是在学习模型的使用。殊不知,构建模型之前的一系列数据处理工作要占到整个工作量的60%[2]。
(三) 教材内容过于同质化,且文字表述不易理解
数据挖掘课程的教材种类繁多,有外文翻译过来的教材,也有国内学者自己编写的教材。整体上内容过于同质化,有些翻译的教材文字表述生涩难懂,逻辑性欠佳。而且一些教材对原理的介绍过于偏重,缺少具有针对性的实例,使学生读起来云里雾里,不知所云。这导致学生逐渐失去了阅读教材的兴趣,也无法通过课下自学逐渐理清数据挖掘的整个知识脉络。
(四) 课程考核形式单一,缺少过程监督
试卷、期末大作业和课程设计是主要的课程考核形式。试卷侧重于考察概念性的知识,缺少对学生解决问题能力的考察;期末大作业和课程设计虽然可以较为全面地反映学生对知识的掌握情况,但过程的监控和指导不易操作。此外,这些课程考核结果都带有任课老师一定的主观判断,缺少第三方较为客观的评价。
上述问题既是课题组在以往讲授数据挖掘课程的教学过程中遇到的突出问题,也是文献调研过程中提到具有共性的问题。针对这些问题,在工程教育专业认证的背景下,课题组进行了基于“教赛协同”的数据挖掘课程教学改革探索。
二 “教赛协同”的数据挖掘课程改革与探索
结合教学过程中的经历与感悟,将具体的教学改革与实施方案进行了总结,主要分为“教赛协同”的课程内容体系构建,“教赛协同”的学科竞赛体系构建和“教赛协同”的课程团队体系构建。
(一) “教赛协同”的课程内容体系构建
“教赛协同”的数据挖掘课程教学体系的构建侧重于“教”,并以竞赛为导向进行教学实践。这里的“教”主要针对缓解数据挖掘课程内容涉及广,理论深和教材内容理论多、案例少的问题。由于与数据挖掘相关的竞赛题目多出自于大型的互联网公司及著名的科研机构,在很大程度上可以反映当前大数据方向应用的热点和研究方向[7]。课程团队在对中国人工智能大赛、阿里巴巴天池大数据竞赛、百度飞桨和Kaggle等大数据竞赛进行调研的基础上,构建出适用于本专业方向的竞赛池,并以此为切入点,依据应用方向和研究热点构建数据挖掘的课程内容,如图1所示。
在以竞赛为导向开展教学实践时,教师从竞赛池中选取具有代表性的题目,将竞赛的真实案例拆解为不同的知识模块,通过教学环节的有效联动将各个知识点无缝地串联起来。课程团队在现有数据挖掘课程教学大纲的基础上,依据侧重点不同将数据挖掘任务的过程分为四个模块,见表1。下面以Kaggle竞赛中共享单车需求预测为例,从数据探索、数据预处理、挖掘建模和模型优化与评价四个部分归纳梳理教学内容的安排与设计。
在城镇化进程中,为解决共享单车的供需失衡问题,Kaggle平台中的Bike sharing demand竞赛提供了10 886组数据,每组数据包含datetime,season,holiday等12个特征,最终目标是预测未来特定时间和地点共享单车的需求量。按照知识模块的划分,从数据探索、数据预处理、挖掘建模和模型优化与评价四个方面简要介绍教学内容设计的思路。
1 数据探索
这个阶段的主要工作是验证数据质量、数据可视化和特征工程,通过对数据集的结构和规律进行分析,从而形成较为全面的数据质量报告。数据质量分析[8]主要是检查数据中是否存在“脏”数据,即:异常值,缺失值,特殊符号等;数据可视化是数据规律及分布的一种更直观的呈现形式;特征工程获取数据的统计特征及属性间的相关性,直接影响到模型的性能。教师引导学生通过数据质量分析判断数据集是否满足模型构建的需求,选择合适的可视化工具了解数据规律及分布,熟悉特征工程的方法选取数据集中的关键属性。以共享单车需求预测为例,将count属性中不符合3?滓原则的点标记为离群点进行删除,以消除后面对统计推断和模型构建的干扰,通过相关性分析,可以得到气温、风速和湿度与组车数量的关系。
2 数据预处理
这个阶段的主要任务是经过数据清洗、数据集成和属性规约等相关工作后让数据更好地适配特定挖掘模型及算法。教师指导学生通过数据清洗,筛选掉与挖掘任务无关的数据,噪声数据和重复数据,根据问题场景利用数据集成将分散在不同数据源或属性中的数据经过转换、提炼后集成在一起,并选用合适的数据规约方法构造出较小且具有代表性的数据以缩减后续挖掘所需的时间,降低存储成本。在共享单车需求预测的问题中,通过对datetime属性的变化与提炼,获取到“年”“月”“日”“小时”等更易处理的细粒度的信息,更有益于后续模型对单车需求时间规律的分析。
3 模型构建
通过数据探索与预处理,获取到了可以直接建模的数据,依据不同的问题场景和数据形式,可以选择分类、预测、聚类、关联和时序等模型。就共享单车需求问题来讲,该问题是一个回归预测问题,常用的方法包括支持向量机回归模型、随机森林、XGBoost和GBDT等。教师可以引导学生结合前期处理过的数据,尝试用多种不同模型对数据进行挖掘,在此过程中讲解模型参数的作用及设置技巧,以帮助学生积累更多的模型选用经验。
4 模型优化与评价
模型的优化是学生在掌握了不同模型的优缺点之后,教师启发学生从提升模型性能与泛化能力的角度对现有的解决方案進行改进与升级。结合单车共享需求预测问题,可以引导学生从参数调优,优化策略的角度考虑模型改进方案。为了评价改进后方案的优劣,学生可以从模型预测的准确率方面与基础模型进行对比。此外,也可以将模型或结果提交到竞赛网站上进行评分和排名,通过参与竞赛社区的讨论,可以发现更多优秀的模型改进策略与技巧,既增强了灵活运用知识的能力,也拓展了与数据挖掘课程内容相关的前沿知识。
上述教学内容构建的方式,一方面,可以依托竞赛提供的真实数据进行教学内容的设计,以期通过真实的案例,实现知识点或模块的重组。同时,可以将竞赛中用到的新技术整合到教学内容中,使教学内容一直紧跟技术前沿。另一方面,可以依托竞赛的敏捷性和持续性,巩固教学内容和拓展新的教学案例,将课堂教学内容和实验内容与竞赛内容进行有机衔接。因此,以竞赛为导向的数据挖掘课程教学体系的构建,可以在一定程度上解决数据挖掘课程内容涉及广,理论深和教材内容理论多、案例少的问题。
(二) “教赛协同”的学科竞赛体系构建
“教赛协同”的数据挖掘竞赛体系的构建侧重于赛,并以教学为依托实现以教代培、以教促赛。为了缓解数据挖掘课程实验数据量少,数据简单和课程考核形式单一,缺少过程监督的问题,竞赛体系的构建既可以扩充课程实验案例,又可以实现对学生的过程监督。竞赛体系的构建以竞赛池为基础从教学的角度分为基础部分和强化部分,如图2所示。
基础部分包含招募成员、竞赛流程、基础竞赛题目和文献查阅方法等内容,作用是推广竞赛、引导学生入门、招募成员和激发学生兴趣。学生可以根据个人志趣和能力,针对遇到的问题以组为单位构建团队、查阅资料、检索文献,形成规范性的文档总结,初步积累竞赛经验。同时,为保证学生参与竞赛的可持续性,不但要注意团队成员能力分配上的布局,以避免打击学生参与竞赛的积极性,而且还要使团队成员年级构成上呈现阶梯分布,以防止老队员退役后出现断层现象。此外,以团队为主按照学期制定合理的任务目标,可以加速数据挖掘技术在团队成员中传承。
强化部分主要通过教师对竞赛题目的逆向拆解来帮助学生理解数据挖掘课程中涉及到的特征工程和构建模型算法,作用是教师将问题的解决方案拆解为知识模块以方便学生理清知识脉络。通过强化部分的培训,可以使学生接触到不同应用场景的真实数据与案例,让学生感受到数据挖掘的各个关节的知识点是如何在具体问题中应用的,教师可以根据学生设计的解决方案、竞赛排名和完成题目的数量实现对学生的过程监督。教师还要紧跟学术前沿[9],加强与企业间的沟通与合作,并将最新的技术与方案整合到强化部分的培训中,以最大限度地完善与更新培训内容。
总之,“教赛协同”的课程竞赛体系构建不但有助于学生了解数据挖掘过程中的各个环节、应用前沿和研究热点,还可以验证现有解决方案的优劣并激发学生对方法进行改进、创新的热情。
(三) “教赛协同”的课程团队体系构建
“教赛协同”的数据挖掘课程团队体系构建(图3),一方面,以比赛为契机,增强教师队伍的教育教学能力,打造结构化、层次化的数据挖掘教学团队;另一方面,以比赛为抓手,锻炼学生队伍,培养数据思维,增强学生团队的协作能力、团队荣誉感和归属感。
在课程体系和竞赛体系的框架下,首先,综合考虑职称、学历及竞赛经验等因素,组织与数据挖掘课程相关的教师,构建数据挖掘课程的教学团队,一方面,教学团队应帮助学生降低竞赛内容的高阶性,帮助学生梳理竞赛的知识要点,提升解决复杂应用场景问题的能力;另一方面,还应让学生感受到数据挖掘课程内容所具有的挑战性,对于一些重要的知识点让学生“跳一跳”“蹦一蹦”才能够得着[10]。其次,通过组织团队活动、营造良好的团队文化和奖惩机制,调动学生及团队的积极性。在团队活动中,赋予学生自主权,采用学生组织讨论,教师积极参与的模式,让学生自行设定相关知识模块选题的组会。通过学生查阅和收集与数据挖掘前沿技术发展相关的技术报告和视频,可以帮助学生团队形成创新、团结、实干、共享的团队文化。同时,制定合理的奖惩机制,打通课程考核与竞赛成绩的置换通道,为学生团队的发展提供制度保障。最后,鼓励教师团队与学生团队之间的资源共享和互促共进。利用教师团队学识优势与技术优势,将课程资源和竞赛资源充分与学生共享,并组织学生团队协助教师团队将竞赛资源转化为数据挖掘课程的教学资源和教学场景。利用学生团队的创新优势与组织优势,启发学生将已掌握的知识迁移到更多的与数据挖掘应用相关的应用场景中,通过教师的点拨和参与,既可以提升学生团队的自主创新意识,也激发了教师团队的教学热情。
通过“教赛协同”的数据挖掘课程团队体系的构建,可以有效推进课程教学改革的进度,保证教学改革的效果,提升创新型工程人才的培养质量。
三 结束语
秉承工程教育认证的培养目标,践行创新型工程人才的教学理念,实施“教赛协同”的数据挖掘课程教学改革,进行以竞赛为导向的教学实践,并以教学为依托实现以教代培、以教促赛,同时以竞赛为契机,锻造优秀的数据挖掘课程教学团队。通过“教赛协同”的数据挖掘课程教学改革的实施,本课程团队已初步完成了教学模块及内容的重构,教学案例及资源的积累和教学团队的整合。学生参与竞赛的热情高涨,部分学生及团队已获得多项竞赛荣誉,申请了软件著作权,撰写了大数据相关的论文准备发表。当然,随着数据挖掘技术的更新迭代及应用场景的不断复杂化,培养高素质的创新型工程应用人才需要长期坚持不懈的探索与实践,以培养出更多适合社会需求的应用技术型人才。
参考文献:
[1] 《2022全国普通高校大学生竞赛分析报告》发布[EB/OL]. (2023-03-21).https://cahe.edu.cn/site/content/16010.html.
[2] 杜欣然,杨厚群,符发.学科竞赛驱动的数据挖掘人才培养模式探索[J].计算机教育,2022(4):201-206.
[3] 刘波,蔡燕斯,钟少丹.大数据背景下数据挖掘课程实践教学的探索[J].高教学刊,2019(18):124-125,128.
[4] 姚力,朱龙飞,崔晨.大数据时代数据科学课程建设与人才培养的探索[J].计算机时代,2018(11):87-90,93.
[5] 丁毅濤.大数据时代下的数据挖掘课程改革探索[J].科技风,2021(27):27-29.
[6] 康雁,林英,朱燕萍,等.基于SE-CDIO的数据挖掘课程教学改革[J].云南大学学报(自然科学版),2020,42(S1):54-57.
[7] 大数据系统软件国家工程实验室,和鲸科技.数据竞赛白皮书·上篇[EB/OL].(2020-01-16).https://blog.heywhale.com/shu-ju-jin g-sai/.
[8] 张良均,谭立云,刘名军,等.Python数据分析与挖掘实战[M].北京:机械工业出版社,2019.
[9] 赵旭俊,蔡江辉,马洋,等.大数据科研成果支撑教学研究——以《数据挖掘与智能决策》为例[J].高教学刊,2020(27):93-96.
[10] 吴岩.建设中国“金课”[J].中国大学教学,2018(12):4-9.