文/张海华 郭田友 张非
随着社会步入大数据时代,高校不可避免的需要在教学及管理方面进行一系列改革。这其中最大的变化在于,学生的一切行为在学校面前都将是“可视化”的,随着大数据技术的深入研究与应用,高校在教学及管理领域的专注点将聚焦于如何利用教育大数据为学生提供优质的课程设计、良好的学习环境、精准的生活服务。于是,“大学生画像”概念应运而生。
用户画像(persona)的概念最早由交互设计之父Alan Cooper在《About Face:交互设计精髓2》一书中提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列真实属性数据之上的目标用户模型。
大学生画像来自于用户画像,其定义目前尚无统一标准。[1]李光耀等描述为“基于大数据技术,通过整理搜集学生在网上的浏览、点击、留言、评论等碎片化的行为轨迹,研究学生言行,这些学生的言行轨迹直接或间接反映了用户的性格、习惯、态度等信息”。[2]董潇潇等描述“大学生行为画像是利用校园数据将学生行为信息标签化。”
本文将大学生画像描述成“基于以学生为中心的理念和校园大数据,根据其人口学特征、学习行为、社交活动、消费行为、思想动态、兴趣爱好等信息抽象出来并标签化的一系列学生模型集合。”
大学生画像对于高校的教学、管理和服务等方面均有着重要的指导意义和现实价值。
在课程设置方面,分析学生学业画像,可以帮助教学管理部门更加客观的了解学生对大学课程的真实需求,更加科学的设置课程体系,能够精准的评价每一名学生。成都电子科技大学通过构建“学生画像”成功实现大学生学习挂科预警机制。
在学生工作方面,分析学生消费画像,可以帮助学工部门了解学生的经济和消费状况,从而设计精准、科学的帮扶机制,帮助贫困生顺利完成学业。南京大学成功将大数据技术应用于贫困生帮扶。安徽师范大学利用大数据挖掘技术为科学资助和精准资助提供了决策支持。
在毕业指导方面,分析学生职业画像,根据学生的能力模型进行职业发展轨迹推荐和“学生-企业”双向推荐,实现毕业生个人素质、求职意愿和企业岗位需求信息的“人岗精准对接”。海南师范大学利用大数据技术实现学生精准就业,提升了聘效率,拓宽学生就业渠道,有效管控就业数据。
根据大学生在校期间各项活动和数据,我们可以构建学生基础画像、学业画像、消费画像、心理画像、思想政治画像、职业画像、人格画像、评优助困画像、健康画像等一系列大学生画像集合。
构建大学生画像主要包括数据采集、数据清洗、用户建模、标签挖掘、画像聚类、可视化等工作。
数据采集按实时性分为在线采集和离线采集,其中在线采集包含个人基础数据和使用智慧校园系统发生的行为数据(如学习、消费、交流、上网等)。离线采集包括对各类系统交互日志和网络爬虫数据按照一定的算法规则进行挖掘收集。
通过数据采集得到的原始数据源存在“脏数据”,为了保证后期标签挖掘的准确性,需要进行填空、去噪、删重、修正、规范化等预处理。通过文本挖掘算法得到标签元数据和标签数据集并使之标准化,基于前述画像维度进行用户建模,并通过聚类算法对学生画像分类。
在进行用户建模之前,需要进行数据采集和清洗,我们选择Python中的Sklearn和Pandas等模块作为数据清洗工具。
分析结构化数据的构成,我们做了如下清洗工作:通过使用常量替换、均值填充、回归预测等方法处理如考试成绩、三餐消费等缺失值、异常值问题;筛选并删除重复数据;利用分箱技术的箱体均值法处理图书借阅的噪音数据问题;通过格式转换处理数据编码和日期表示不一致问题;最后对清洗结果中同一维度的数据进行归一化和正则化处理,如家庭收入、学习成绩均处理成[0,1]之间的数字。
一个事件模型包括时间、地址、人物、内容四要素,每一次学生行为均是一次随机事件,可以描述为谁在何时何地址做何操作。因此数据模型概括为如下公式:学生标识+时间+行为类型+应用系统+内容。
学生标签的权重可能随时间增加而衰减,因此定义时间衰减因子为r,行为类型、应用系统决定权重,内容决定了标签,可转换为公式:标签权重=衰减因子×行为权重×应用权重。
如某学生上月10日在图书馆系统查询了主题为大数据研究的论文,假设时间衰减因子公式r=1-(m-m0)*0.05(即每隔一个月衰减0.05),图书馆系统的权重为0.8,则其数据模型为:
学生学术标签为:科研,大数据,权重为(1-0.05)*0.8=0.76。
通过定义各类行为的时间衰减因子和系统以及内容权重,就可以对学生的全部行为建模。
标签元数据是用于描述标签分类的数据,我们将标签元数据划分为基本标签、经济标签、成绩标签、知识标签、体育标签、消费标签、饮食标签、社交标签、性格标签、心理标签、学习标签、思想标签等。
从数据提取维度来看,标签分为事实标签、模型标签和策略标签。事实标签来源于真实数据,定性描述学生的基本属性等,如家庭好、消费高、学霸。模型标签是对学生属性及行为进行抽象和聚类概况出来的,如足球迷群体、电竞迷群体。策略标签是根据学生信息和行为配合一定的规则策略设定,如可能挂科、有自杀倾向等。
在实践中,通过抓取校园论坛挖掘思想动态标签,抓取百度贴吧挖掘社交标签,分析学习成绩设置成绩标签,分析图书借阅数据设置知识标签,分析消费行为和消费水平设置消费标签、饮食标签等。
通过挖掘标签以及设定权重,我们就可以用模型完整的表示一个大学生。
聚类,顾名思义就是“物以类聚,人以群分”,其主要思想是按照特定标准把数据集聚合成不同的簇,使同一簇内的数据对象的相似性尽可能大,同时,使不同簇内的数据对象的差异性尽可能大。就本文而言,聚类就是把相似的大学生分到同一组。
谱聚类(Spectral Clustering)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。
谱聚类的图模型可解释为:无向带权图模型G=
基于Python实现谱聚类算法流程如下:
(1)利用欧氏距离计算距离矩阵;
(2)利用kNN计算邻接矩阵A。
(3)由邻接矩阵A计算度矩阵D和拉普拉斯矩阵L,并标准化L→D-1/2LD-1/2。
(4)对L→D-1/2LD-1/2进行特征值分解,得到特征向量Hnn;
(5)将Hnn当作样本送入K-means进行聚类,获得聚类结果C=(C1, C2, ..., Cn)。
针对高校智慧校园系统产生的海量数据,探究大学生画像的应用具有重要的现实意义。本文通过描述数据采集、用户建模、标签挖掘、画像聚类等一系列流程构建大学生画像集合,可以为每一位大学生提供个性化、精准的学习规划和校园服务。