董潇潇 胡 延 陈彦萍
大数据时代,高校有着丰富的数据来源。校园数据即来自于校园的学生行为数据,是指学生在学校进行学习、生活等活动时留下的数据,随着智慧校园的兴起,使得这些数据被存储在各种平台上。面对海量的校园数据,以及数据挖掘技术在各方面的广泛应用,教育数据挖掘逐渐成为各高校研究的重点,利用校园数据解决一些不可见问题,从中挖掘出学生的一些特征和共性,从而对推进教务和教学管理工作提供信息支持。
在2006年ITS会议的教育数据挖掘EDM工作组会议前言中,教育数据挖掘被定义为:“将教育系统中的原始数据转换成有用信息的过程,这个过程被用于提供设计决策和回答研究问题”[1]。教育数据挖掘研究从此得到开展,文献[2]介绍了美国教育数据分析公司自成立以来就为大学提供数据分析云平台和服务,以帮助高校提升学生学习效果和保有率;文献[3~5]详细介绍了关联规则挖掘算法学生成绩分析中的具体应用,得出课程设置与课程成绩之间存在着一定的联系;文献[6~9]通过将数据挖掘技术应用到大学生校园消费数据,挖掘出了对高校贫困生认定有辅助作用的信息;文献[10~11]提出了通过分析校园数据,预测学生成绩,发挂科预警,提高了教学质量;鉴于以上对校园数据的分析均是对单一行为数据的分析,很少涉及利用多种校园数据对学生的综合分析,大学生行为画像,借助大学生的各种校园数据信息,根据学生的基本属性、学习行为、消费行为等信息,为每个学生打标签,对学生行为进行客观综合的描述,抽象出一个标签化的学生模型。
大学生行为画像是利用校园数据将学生行为信息标签化。通过收集大学生相关信息数据,构建大学生行为画像,从而对大学生以综合全面的角度进行分析,进一步准确了解大学生学习和生活中存在的问题。对行为画像进行构建,主要流程有基础数据收集、行为数据处理、构建行为画像,如图1所示。
图1 行为画像构建流程
2.1.1 数据选择
大学生行为画像,是通过从海量大学生行为数据中挖掘隐藏信息,尽可能全面细致地勾画出一个学生的信息全貌。对大学生进行行为画像,涉及到各个方面的校园行为数据。然而,并不是所有的数据都适合于大学生行为画像,选择相关的行为信息,剔除不必要的信息,确定进行画像所包含的信息数据。
2.1.2 数据的处理
由于收集来的原始数据大都是杂乱的、不完整的、重复的,在进行画像之前,需对数据进行处理,大学生行为画像的数据处理包括数据的清洗、数据的重构、数据的整合等。
数据的清洗工作是对不符合实际情况的数据进行调整或者剔除。一般来说,收集的数据并非来自同一个系统,数据格式存在不一致性,需将所有数据统一格式并存储在同一个数据库或数据仓库中;另外,现实的数据库存储的数据中,经常存在空值,通常采用替换法,用“0”或者用该项的平均值进行替换。数据的重构工作即生成新的字段和记录。数据的整合是对相关的数据进行合并处理。
标签通常是人工定义的高度精炼的特征标识,语义化是标签呈现出的一个重要特征,它赋予标签一定的含义,使人们能够容易理解这些标签[12]。标签化是大学生行为画像的核心,标签化的大学生行为画像既方便人的理解,有方便计算机的处理。
就目前来说,给大学生添加标签仍以人工整理方式为主,一般通过综合整理大学生的基本信息和各种校园数据确定标签的定义及表示。根据大学生校园行为数据包括了学生的成绩数据信息、消费数据信息、借阅数据信息、门禁数据信息以及上课签到数据信息等,画像的标签可以基本确定,包括了大学生的基本属性标签和动态属性标签,如表1所示。
表1 大学生行为画像标签
在对大学生校园数据进行分析时,为了从综合的角度多方面分析一个学生的全貌,需要对大学生进行行为画像,从而对分析学生的学习成绩、消费能力等信息提供数据基础。行为画像是真实学生在校园活动中的形象勾勒,为学生打上一系列标签,实现学生校园行为信息标签化。
大学生行为画像建模的核心是根据学生的基础信息、成绩信息、消费流水等数据归纳出一种方便分析学生信息的模型,使学生信息标签化,以便后续对学生情况的分析,例如,可以使用“女,网络工程班,成绩优秀等”来描述学生行为画像。根据设计好的标签属性对大学生行为进行描述。
由于在对大学生行为画像聚类时,涉及到多个标签值,而不同标签数值的取值范围可能存在数量级级别的差异,比如,借阅册数:5,学期总消费额:5000,从而使得综合聚类过程中,有的标签贡献微乎其微。因此,在聚类钱,需将各标签值进行[0,1]归一化处理。
归一化是物理系统中一种无量纲处理手段,对大学生行为画像进行归一化处理旨在将不同取值范围的标签数据统一映射到[0,1]区间。常用的归一化处理方法有线性函数转换、数函数转换、反正切函数转换等。其中线性函数转换为
其中,U、V分别标识转换后、转换前的值,Vmax、Vmin分别表示带转换值的最大值和最小值。
数函数转换为
即以10为底的对数函数转换。
反正切函数转换为
对已经构建好的行为画像进行聚类,目的是根据大学生行为画像间相似程度,将相似的行为画像聚为一类,使得类别内部的差异尽可能小,而类别之间的差异尽可能大[16]。聚类是一个无监督的分类,没有任何先验知识可以利用。行为画像聚类的形式可以描述为
令 P={p1,p2,…,pm}表示行为画像集合,其中pi表示第 i个行为画像。Ci={pi1,pi2,…,pin}表示聚类后的第i个分类,其中pij表示Ci分类中的第j个元素。聚类结束后,各分类应满足以下三个条件:
式(4)指所有的聚类以后的画像类别之和构成全部的行为画像;式(5)指聚类后的两个不同类别之间的差异较大,几乎不存在任何交集;式(6)中指的是两个行为画像pi和pj的相似度,表示的是一种距离,整个公式表达的意思是同一个聚类类别中两个行为画像的最大相似度距离应小于不同聚类类别中两个行为画像的最小相似度距离。
通过聚类结果,可以发现各类行为画像间隐含的信息,提取各类行为画像的信息,为某一类具有相似度的大学生设计教学指导。以划分式聚类算法中经典的K-Means算法来描述群体大学生行为画像分析。K-Means算法是一种使用较广泛的聚类算法[17~19],实现过程比较直观,预先设置K的取值,其分析大学生行为画像的流程[20~21]如图2所示。
图2 基于K-Means算法的行为画像聚类流程
4.1.1 基础数据收集
确定为某高校计算机学院的全体学生构建行为画像,该行为画像基于学生基础信息、消费信息和借阅信息等,选取该院学生的基本属性数据、教务管理系统中的成绩数据以及校园一卡通中的消费数据和借阅数据。
4.1.2 行为数据处理
根据收集的基础数据有个人信息、成绩、消费以及借阅数据,可以确定大学生行为画像的标签为:(学号,姓名,班级,平均成绩,平均交易额,日均交易额,借书册数,还书册数)。到此,已经做好了对行为画像进行构建的准备工作。
4.1.3 构建行为画像
采用统计等方法,将处理好的行为数据利用SQL脚本语句综合到一个二维表中,得到该校计算机学院行为画像的原始数据为了构建的大学生行为画像更语义化,将平均成绩分为不及格、及格、良好、优秀四个等级;参考全校学生的学期交易金额、日均交易金额、学期借还书册数,将交易金额、日均交易金额、借书册数、还书册数四个行为标签划分为较多、一般、较少、无四个级别。在SPSS中利用将变量重新编码为相同变量功能进行语义化处理[13],得到大学生行为画像如图3所示。
图3 大学生行为画像
对已经构建好的画像进行群体分析,则要对行为画像聚类,考虑多个行为标签的取值范围差异较大,避免在综合聚类过程中有的标签贡献度较大而有的标签恭喜度较小,需将原始画像数据进行归一化[0,1]处理。此处,选取线性函数转换法,借用IBM SPSSStatistics工具的计算变量功能进行[0,1]归一化处理。
借用数据挖掘工具IBM SPSSModeler,采用K-Means均值算法,对归一化处理后的行为画像进行聚类,在此,设K=5,即将行为画像聚为5个类别,以成绩、学期交易金额、日均交易额、借书量和还书量为输入值,以基本信息学号、姓名、班级为目标值[14],聚类结果如图4所示。
图4 行为画像聚类结果
在将该校计算机学院的学生聚为5类,以对聚类-1中大学生行为画像的分析为例进行详细描述。结合图4和聚类-1各标签值的单元分布图5,容易看出该类学生包含了285名学生,占全院学生总数的25.6%,基本上所有的学生的借书册数量和还书册数量较多,个别学生的借书册数量和还书册数量一般,有一半的人交易金额较少、日均交易金额一般,从学习成绩上来看,该类学生学习成绩一般者较多,及格与优秀的也占一大部分,几乎没有不及格的学生。从这些量的数据来看,该类学生是该院较为优秀的学生,基本上不存在学习与生活上的困难或问题。
聚类-2中有184名学生,大多数借书册数较少,还书册数自然也较少,学习成绩上及格的学生占据小一半,不及格的人也较多,而生活上消费金额较少,应考虑该类学生是否存在生活困难等问题,并且对于该类学生,应提醒其增加学习的主动性,多借书,从而在学习成绩上也取得一定的进步。
聚类-3中有250名学生,在学习成绩、消费以及图书借阅上均是中等,需在各方面进行些许提高指导。
聚类-4中有90名学生,该类学生在消费水平上是中上等,在学习成绩提高以及借阅量上还需提高。
聚类-5中有304名学生,该类学生在生活上不存在问题,借书量以及学习成绩上有待提高。
通过聚类将大学生行为画像分类,从而为某一类群体进行分析,挖掘该类学生学习生活特征,进一步制定相应的教学指导[15]。
针对现阶段高校校园数据的海量积累,而教育数据挖掘在校园数据分析方面,很少有结合不同种类的数据加以综合分析,本文提出了大学生行为画像概念,分别用成绩、消费水平、借阅频率等属性标签对大学生进行行为画像,并用聚类算法对大学生行为画像做了分类,通过聚类结果,对学生在学习和生活上进行监督,使每位学生都能度过一个高质量的学校生活。
图5 聚类-1各标签值的单元分布
[1]Heiner,C.etl.Preface[C]//In:Work shop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems,Taiwan,2006.
[2]于娜.高校快被数据“淹死”了?快来看看大数据的正确使用姿势[J].麦可思研究,2016.
YU Na.Does Colleges“Drown”by Data?Come and Have a Look at the Correct Position of the Using on Big Data[J].MyCOS_Research,2016.
[3]崔学文.关联规则挖掘算法Apriori在学生成绩分析中的应用[J].河北北方学院学报(自然科学版),2011,27(1):44-47.
CUI Xuewen.Application of Association Rules for Mining Apriori Algorithm to Analysis of Students'Performance[J].Journal of Hebei North University(Natural Science Edition),2011,27(1):44-47.
[4]姚文迪.基于关联规则算法的数据挖掘在高校成绩中的研究与应用[D].成都:西南交通大学,2015.
YAO Wendi.Research of Data Mining by Association Rules and Its Application to the Analysis of Academic Achievements[D].Chengdu:Southwest Jiaotong University,2015.
[5]吴喜萍.基于关联规则数据挖掘技术的高校学生学习成绩分析[D].成都:西南交通大学,2010.
WU Xiping.The Analysis of College Student Achievement based on Association Rules Mining Technology[D].Chengdu:Southwest Jiaotong University,2010.
[6]王雪飞.数据挖掘在高校贫困生校园卡流水数据中的应用研究[D].长春:东北师范大学,2014.
WANG Xuefei.Application of College Students with Financial Difficulties on Campus Card Flow Data of Data Mining[D].Changchun:Northeast Normal University,2014.
[7]张冬冬,李玉龙,王玉鑫.数据挖掘技术在高校贫困生认定中的应用[J].西安文理学院学报(自然科学版),2013,16(4):90-94.
ZHANGDongdong,LIYulong,WANGYuxin.The Application of Data Miniing Technology in Identifying Needy College Students[J].Journal of Xi'an University of Arts&Science(Nat Sci Ed),2013,16(4):90-94.
[8]单菊芬.基于数据挖掘技术的高校贫困生管理系统设计和分析[D].南京:南京邮电大学,2012.
SHAN Jufen.Design and Analysis Based on the Data Mining Technology of Poverty Stricken Students'Management System in Colleges[D].Nanjing:Nanjing University of Posts and Telecommunications,2012.
[9]吴喜萍.基于关联规则数据挖掘技术的高校学生学习成绩分析[D].成都:西南交通大学,2010.
WU Xiping.The Analysis of College Student Achievement based on Association Rules Mining Technology[D].Chengdu:Southwest Jiaotong University,2010.
[10]唐雪.“学生画像”发挂科预警[J].大学生,2015(22):35-37.
TANG Xue.“Students Portrait”Can Predict a Failure in Subjects[J].China Campus,2015(22):35-37.
[11]吕红胤,连德富,聂敏,等.大数据引领教育未来:从成绩预测谈起[J].大数据,2015(4):118-121.
LV Hongyin,LIAN Defu,NIE Min,et al.Big Data Drives a New Epoch of Education:A Case Study of Academic Performance Prediction[J].Big Data Research,2015(4):118-121.
[12]牛温佳,刘吉强,石川,等.用户网络行为画像[M].北京:电子工业出版社,2016:3-49.
NIU Wenjia,LIU Jiqiang,SHI Chuan,et al.The User's Network Behavior Portrait[M].Beijing:Publishing House of Electronics Industry,2016:3-49.
[13]谢龙汉,尚涛.SPSS统计分析与数据挖掘[M].北京:电子工业出版社,2012:102-157.
XIE Longhan,SHANG Tao.SPSS Statistics and Data Mining[M].Beijing:Publishing House of Electronics Industry,2012:102-157.
[14]张文彤,钟云飞.IBM SPSS数据分析与挖掘实战案例精粹[M].北京:清华大学出版社,2013:358-369.
ZHANG Wentong,ZHONG Yunfei.The Mastery of Actual Cases on IBM SPSS Statistics and Mining[M].Beijing:Tsinghua University Press,2013:358-369.
[15]Kurniawan Y,Halim E.Use data warehouse and data mining to predict student academic performance in schools:A case study(perspective application and benefits)[C]//in Teaching,Assessment and Learning for Engineering(TALE),2013 IEEE International Conference on ,vol.,no.,pp.98-103,26-29 Aug.2013.
[16]柳玉巧.聚类分析和关联规则技术在成绩分析中的研究及应用[D].武汉:华中师范大学,2014.
LIU Yuqiao.The Research and Application of Clustering Analysis and Assocation Rules in the Achievement Analysis[D].Wuhan:Central China Normal University,2014.
[17]刘灵松.校园一卡通数据分析平台研究与设计[D].济南:山东师范大学,2015.
LIU Lingsong.Design and Implementation of Campus Smart Card Data Analysis Platform[D].Jinan:Shandong Normal University,2015.
[18]陈锋.基于校园一卡通系统的高校用户就餐消费行为分析与数据挖掘[J].中国教育信息化,2014(9):47-49.
CHEN Feng.Analysis and Data Mining on Dinner Consume Behavior of Campus Users based on Campus Smart Card System[J].The Chinese Journal of ICT in Education,2014(9):47-49.
[19]夷臻.学生事务数据分析系统的设计与实现[D].苏州:苏州大学,2015.
YI Zhen.Design and Implementation of Student Affairs Data Analysis System[D].Suzhou:Soochow University,2015.
[20]孟卓,袁梅宇.教育数据挖掘发展现状及研究规律的分析[J].教育导刊,2015(2):29-33.
MENG Zhuo,YUAN Meiyu.The Analysis on Development Situation and Research rules of Educational Data Mining[J].Journal of Educational Development,2015(2):29-33.
[21]马月.数据挖掘技术在教育信息化中的应用研究[D].西安:西安邮电大学,2014.
MA Yue.Research on Application of Data Mining Technology in Education Informationization[D].Xi'an:Xi'an University of Posts and Telecommunications,2014.