米宝全
(甘肃机电职业技术学院,甘肃 天水 741001)
随着“中国制造2025”战略的提出,制造行业需要大量的高技能型人才。高职院校将发挥越来越重要的作用[1]。
第二课堂是指课堂教学以外的一切传授知识、塑造人格、培养综合素质和能力的实践性教育活动[2]。作为课堂教学活动的重要补充,第二课堂具有内容丰富、形式多样的特点,成为培养学生核心竞争力和全面发展的主要载体[3]。当前高职学生来源复杂,知识结构和基础参差不齐,更需要发挥第二课堂优势,根据不同学生的特点,促进学生的多元化发展。合理布局第二课堂教育,充分发挥第二课堂在教育教学过程中的良好作用,推进高职教育教学改革成为当务之急。
近年,第二课堂教育在高等院校越来越受到重视,也得到广大学者和教学管理部门的关注。文献[4]提出了在“互联网+”背景下大学生第二课堂创新发展思路,使“互联网+”与创业工作、校园文化活动、大学生能力培养相结合,以实现实现大学生第二课堂创新。文献[5]对第二课堂与大学生核心竞争力关系进行了研究,并提出发展第二课堂教育、延伸第二课堂教育范围的新思路。文献[6]研究了第二课堂对本科生创新能力培养的重要作用,对第二课堂内容组成、教学方式提出了建议。文献[7]分析了高校第二课堂建设存在问题,并提出了解决该问题的具体对策。文献[8]分析了第二课堂教育对大学生核心素养提高的重要作用。文献[9]以英语专业为例,第二课堂教育对提高学生就业竞争力的重要性。文献[10]提出基于科研第二课堂的应用型创新人才培养方法,对高校科研第二课堂培养创新人才的思路和具体措施进行了探讨。
随着高职院校校园数字化和信息化建设,大多院校都实现了网络和信息化的全覆盖。若能从这些大数据中挖掘出学生学习状态、日常行为和第二课堂的发展与个人发展、就业状况间的潜在关系,有针对性地加强引导、因材施教、加强实践技能培养和特长发挥、延伸教学过程,将会更加有效地提高职业教育教学水平,提高学生就业创业能力与核心竞争力。
在目前大多数高职院校里,数据处理和管理还停留在简单操作上,没有对数据间的关联关系进行更加深入地分析[11]。文献[12-14]应用数据挖掘技术对高职院校教学管理数据进行挖掘,分析了学生日常行为与成绩数据之间的关联关系。文献[15,16]通过对教学数据挖掘与分析,为促进教学改革提供理论指导。在学生的数据资源中,第二课堂、业余活动和毕业去向等之间存在着一定关联关系。通过深入分析这些数据中隐藏的关键信息,将会发现数据之间的规律性,为学生综合素质提高和多元化发展提供科学依据和有力指导。应用数据挖掘方法能够对获得的大量数据进行探索和分析,发现和揭示隐藏在数据中的规律性,为相关问题的管理和研究提供科学依据。
本文应用数据挖掘技术对某高职院校学生第二课堂数据进行挖掘,得到学生第二课堂发展状况与毕业去向之间的联系,并对有价值的结果进行分析与评估,为促进高职院校第二课堂发展,提高教育教学水平,培养学生创新创业能力和核心竞争力提供有力指导。
数据挖掘(Data Mining)是在庞大数据中找出有价值的隐藏事件,并加以分析,获取有意义的信息和模式,为决策提供依据。即应用某些算法将大量数据中隐藏的有关信息搜索出来。随着信息化程度不断提高,数据挖掘已广泛应用在电信、交通、医疗、社交、金融等领域。近年来,教育信息化的发展催生了大量的教育数据和教育数据库,从而使数据挖掘在教育领域也得到了广泛关注[17]。
利用数据挖掘进行数据分析常用方法主要有聚类、分类、关联规则、回归分析、特征、变化和偏差分析、Web页挖掘等[18]。以上方法都是从不同角度对数据进行挖掘,系统模型如图1所示。
图1 数据挖掘一般过程
关联规则(Association Rule),又称作购物篮分析,用来发现事物间的联系。通过从某一事情推测另一事情的发生,分析出事物发展规律或不同变量间关联程度[19]。
设I={i1,i2,…,im}为m个不同项的集合,简称为项集。给定一个交易数据库D,用T表示事务(transaction),则有。
若项集且,X∩Y=。在事务数据库中,关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率,记作support();置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率,记作confidence()。即
support()=P(X∪Y)
(1)
confidence()=P(Y|X)
(2)
关联规则挖掘过程主要包含两个阶段:①必须先从数据集合中找出所有所有频繁项集;②由这些频繁集中产生关联规则。在以上两个阶段中,挖掘频繁项集是最关键环节,通过计算产生强关联规则满足给定的最小支持度阈值和最小置信度阈值。
Apriori算法是一种挖掘关联规则的频繁项集算法,使用逐层搜索迭代方法,k-项集用于探索(k+1)-项集[20]。首先,用频繁1-项集的集合L1找频繁2-项集的集合L2,再用L2找频繁3-项集的集合L3,如此下去,直到不能找到k-项集,该算法终止执行。至此,找出所有的频繁项集。该文采用Apriori算法对高职学生第二课堂数据进行关联规则分析,应用算法挖掘分析学生毕业去向和第二课堂情况之间的关联关系。
通过对学校学生在图书馆的借阅次数、图书馆的进入频率、学生参加学生会、社团的数据和参加各类职业资格培训情况进行数据统计,并应用数据挖掘技术找到相关规律性。发现业余爱好和第二课堂对于学生毕业去向、就业状况的情况进行统计和经验推测,发现其中关联关系,有针对性地制定第二课堂发展规划,加强引导,促使学生充分利用在校时间的多元化健康发展。
统计每个学生在校期间图书馆借阅次数,参加学生会、社团数据,以及参加各类职业资格培训等情况。
得到学生的第二课堂数据后,对这些数据进行预处理。预处理的过程分为两个阶段:
(1)数据清理阶段。在该阶段,主要对源数据中存在的冗余数据进行消除,并且清理噪声和重复数据。例如,中途退学、休学、参军的学生数据会影响结果分析准确性,需要删除;在图书馆的志愿者或勤工俭学的学生,在统计图书馆进入次数时需要消除。
(2)数据变换。为了便于数据挖掘实施,需要对第二课堂和毕业去向数据使用统一格式表示。在应用关联规则进行数据挖掘时要使用逻辑性数据,因此,对获取的数据需要转换。高职学生的第二课堂数据,用A、B、C、D、E分别表示图书馆借阅次数、学生会参与情况、各种协会参与情况、社会兼职情况、参加各种培训的情况。其中,A后面数字为1,表示平均每周去过图书馆一次以上,低于该次数的都用0表示;B、C、D、E之后的数字0都表示没有参与过该项活动,数字1表示参与过该项活动。用H表示毕业去向,其中H1表示各种事业单位,H2表示企业,H3表示自主创业,H4表示专升本等继续学习,H5表示其他,如表1所示。
表1 第二课堂逻辑数据
对以上逻辑数据应用Apriori算法进行关联分析,为了搜索所有的频繁项集,对经过预处理的逻辑数据表进行多次扫描:①对频繁1-项集进行连接并处理,得到频繁2-项集;②对频繁2-项集连接处理、分析得到各候选3-项集的子集,判断子集中有无非频繁子项集,将非频繁子项集剪掉,剩下的均为频繁子项集的候选3-项集;③数据表进行扫描,删除小于最小支持度阈值计数的候选项集并得到频繁3-项集。反复扫描对逻辑数据表并进行处理;④得到频繁k-项集。算法执行结束后,得到学生的毕业去向与第二课堂之间的关联规则如图2(a)、(b)所示。
图2 学生毕业去向与第二课堂情况关联规则
设置100为事务数,将最小支持度和最小置信度的值分别取为40%和20%,分析以上挖掘结果,根据高职学生毕业去向和第二课堂之间的关联规则可得到以下结果。
由图2(a)可看出,学生毕业后,通过各种考试进入事业单位等就业的学生,其中90%学生在校期间参加过各种培训学习;且88.4%以上学生在校期间,平均每周在图书馆借阅资料次数在一次以上。同时,根据关联规则发现,毕业后通过专升本等考试,进入本科院校继续深造的学生,其中96.2%以上每周在图书馆学习并借阅资料。由图2(b)可以看出,毕业后自主创业的学生,其中84%以上在校期间参与过各种社团活动。
可见,学生毕业去向与第二课堂参与情况之间存在很大关联关系。高职学生在校学习期间,能扎实学习基本理论知识,在第二课堂时间能主动借阅资料,钻研学习的学生,毕业后进行学习延伸的可能性较大。在第二课堂时间能参加各种社团活动的学生,具有一定特长和业余爱好,并且具有一定独立思考能力,毕业后自主创业概率较高。
因此,通过对高职学生第二课堂的数据挖掘,能够发现隐藏在第二课堂活动与毕业就业去向之间的关联关系,给学校第二课堂的建设与发展提供科学依据。高职生源多样,学生知识水平和综合素质千差万别。在教学过程中,抓好教学管理这个基本环节的同时,需要加强第二课堂建设。利用第二课堂这个多样化平台,根据学生不同知识结构与特长爱好,做到因材施教、因势利导,培养学生多元化发展。高职院校第二课堂与学生综合素质、能力培养紧密相关,加强第二课堂建设,不仅能培养高素质劳动者,且能提高学生继续学习、不断接受新知识、新技术的能力。
因此,高职院校需要抓住这一重要平台,制定科学合理的第二课堂教育规划,培养出更具核心竞争力和创新创业能力的高素质技能型人才。
第二课堂教育作为课堂教学主要补充,是提高学生实践技能和就业创业能力的重要途径。本文在大数据背景下,以某高职院校为例,应用数据挖掘技术,对学生借阅记录、社团活动、培训情况、社会兼职等第二课堂数据与毕业去向之间的相关度进行了分析。通过对数据挖掘结果的分析与评估,发现学生毕业去向与在校期间第二课堂情况存在关联性。该结果可为高职院校有效开展第二课堂教育、提高学生就业创业能力、促进学生多元化发展提供指导。