智慧校园学生数据画像生成方式研究

2019-04-12 00:00:00邓嘉明
现代电子技术 2019年21期

摘" 要: 大数据成为当下智慧校园建设的重点,目前的数字化校园拥有的数据量远远不足以实现大数据分析,厂商鼓吹的数据挖掘应用也存在各种问题,并且学生大数据并不是短时间能够建立完善的。文中研究学生数据画像生成方式,通过采集数据形成数据画像模型主框架,建立评估模型生成能力数据,利用数据表达生成雷达图,逐步建立“精英模型”等方式完善学生数据画像,并利用主动采集和人工智能辅助形式进行改进研究,探讨可行的智慧校园数据挖掘模式与应用。

关键词: 数据画像; 雷达图; 精英模型; 被动收集; 人工智能; 智慧校园

中图分类号: TN911.1⁃34" " " " " " " " " " " " 文献标识码: A" " " " " " " " " " " " "文章编号: 1004⁃373X(2019)21⁃0058⁃05

Abstract: Big data has become the key point to build intelligent campus at present. However, the data volume in the possession of the digitalized campus is far from enough required by big data analysis, and there are also many problems in the data mining applications promoted by various manufacturers. The perfection of big data for students is not a one⁃night work. The generating ways of students′ digital image are studied in this paper. By data collection, the main frame of data image model is formed and the evaluation model creating ability data is established. A radar map is generated from data expression and the “elite model” is built gradually to perfect data image of students. The improving study is made by active collection and artificial intelligence assistance to explore feasible data mining modes and applications of intelligent campus.

Keywords: digital portrait; radar map; elite model; passive collection; artificial intelligence; intelligent campus

0" 引" 言

目前,各高校基本完成了数字化校园中主要应用系统的建设,信息化系统涵盖了OA、教务、学工、后勤、科研、一卡通等多个方面。部分系统已经运行了将近10年,积累了超过二十万的数据样本,并且根据统一门户、统一身份认证、统一数据库建设思路,完成了初步的数据打通。在这些建设的基础上,各高校根据应用要求提出智慧校园规划方案,各大厂商根据大数据、人工智能等行业热点,推出了以学生大数据为核心的智慧校园建设方案[1]。但是经过实践探索,目前阶段提出的学生大数据还并不能实现,本文通过对现有应用数据分析,提出可行的智慧校园数据挖掘模式与应用。

1" 数字化校园建设情况

1.1" 数字化校园的应用系统建设与设计理念迭代

数字化校园中,各高校首先建立的大多都是教务系统,主要原因包括:一是学校是以教学为本,教务是整个学校的重中之重,教务系统是全校师生日常都必须使用的应用;二是教务系统使用的用户最多、使用频率较高,包括成绩、选课、评教等业务都在教务系统上完成。在数字化校园建设中,教务数据就成为了最基础的数据来源,较多高校都是在教务系统的基础上去拓展建设数字化校园。另一类的高校是先建立了校园卡系统,主要是因为校园卡是每个师生日常必须使用的卡,在校园卡系统成熟后,推出一卡通系统,并在此基础上拓展数字化校园。

此类以教务数据或一卡通数据为主的数字化校园建设在后期被全面推翻。各高校的信息主管部门、信息网络中心认识到数字化校园并不是简单的以某个系统为主将各系统完成数据集成,而应该是整个学生的数据呈现,数字化校园建设由此提出了“全生命周期学生管理”的概念,即从新生入学到毕业生离校,以时间主线串联的整个在校周期内所有业务建设[2]。此阶段数字化校园各应用系统中,事项必须依靠用户数据呈现业务处理的过程,从另一个角度看是在各个数据维度建立用户数据。在“全生命周期学生管理”的设计理念指导下,用户数据逐渐向能表达学生方方面面发展,由此组成了学生的“数据画像”[3]。

1.2" 数字化校园应用数据情况

数字化校园建设中,目前的应用数据情况有以下特点:

1) 针对从新生入学到毕业生离校的应用建设越来越多,应用数据种类越来越多;

2) 应用数据量越来越大。随着应用系统的不断建立,经过一定时期的运行积累,逐渐沉淀了大量的应用数据;

3) 利用三大平台进行数据打通,实现了“消除信息孤岛”的目标。而这些数据是否就组成了可以为智慧校园所用的“数据画像”,从目前来看并非如此。

2" 当前智慧校园数据挖掘与数据使用瓶颈

1) 现有数据量和数据类型有限

智慧校园的核心理念是利用数据挖掘实现智慧化的服务,这种数据挖掘必须建立在真实可用的数据中[4]。目前数字化校园数据中,数据量增加但多数为沉淀数据。沉淀数据主要是已毕业的学生数据,学生在校时间仅仅四年,而毕业以后的学生数据因为所在的时代背景、时代环境不同,沉淀数据挖掘对于当下的实用价值极其有限。在沉淀数据中,主要是教务、校园卡等已建立多年的数据较多,而真正可用的数据并不多。如2010年的学生每日饭堂消费数据由于当时的物价、当时并没有出现如此之多的外卖等原因,进行数据挖掘意义并不大。有数据挖掘价值的仅仅只是近年来按照第1节新的思路建设的各类管理系统数据。

2) 现有过程数据有限

前期建设的数字化校园系统中,多数为业务流程的数字化,仅仅是将纸质文档变成数字文档。以学工系统为例,此前的学生综合测评管理仅仅是将学生的期末排名记录在系统中,而学生综合测评评审过程中的学生文体表现、品德行为、实践创新的相关过程数据却没有保存。对仅有的结果数据进行挖掘,并不能很好地反映出实际问题。在后期系统建设中,反映学生日常行为的各类数据才是后期建设的关键。

3) 现有整合数据有限

在目前的数据打通过程中,还是简单地按照学号作为主键去匹配。这个思路在三大平台统一的原则上没有错误,而在实际使用中,由于大部分的沉淀数据没有进行合理的归档,匹配的工作量非常大。各类业务系统中的数据存在同一值的不同表示、数据格式、命名习惯、拼写错误、不合法值、空值等各种情况的脏数据,在多个系统数据匹配过程中出现各类问题,导致数据结果基本无用。必须通过建立清洗规则对脏数据进行清洗,建立数据中间件和数据仓库,实现数据整合,保证数据的一致性,解决数据冲突[5]。

4) 现有实质关联数据有限

学生大数据的理念是在全方位数据打通的基础上进行数据挖掘,生成数据画像,而在仅有打通整合后的数据中,实质关联的数据有限,进行数据挖掘并没有特别好的效果。如某厂商推荐的数据挖掘应用中,将一卡通饭堂消费数据和学业成绩数据进行挖掘,所产生的挖掘结果基本无实质价值,仅有“检验助学金学生确实是贫困生”的应用有实质意义,不过在使用中,因为外卖等各类不可控因素,导致实质效果微乎其微[6]。智慧校园建设需要对现有校园的业务进行梳理,寻找有实质关联的数据[7]。

3" 学生数据画像生成方式

学生数据画像生成分为如下部分:一是利用智慧校园数据中间件,通过数据共享交换搭建学生能力主框架数据;二是通过数据中间件实现初步数据表达;三是利用历史主框架数据作为训练数据确定强相关因子,生成评估模型;四是利用数据表达转化生成数据画像雷达图;五是利用爬虫模块获取招聘网站数据、岗位信息,通过提取岗位关键词生成精英模型,提供数据画像的比较标准。学生数据画像生成方式流程如图1所示。

3.1" 利用数据中间件采集建立模型主框架

智慧校园建设需要站在更高的角度进行顶层设计,围绕学生数据画像,对数据的采集、组织、分类、保存、发布和使用都有一个较好的规划,梳理每一个业务系统应用中对应数据的意义,建立以人为本的数据画像模型,建立以数据聚合为核心的数据交换过程,建立以服务提供为呈现的数据处理业务系统[8]。在规划整个数据画像后,构建“人—事件类别—数据”三元框架。以人为本的数据画像模型将数据根据不同维度进行划分,如日常学习、日常课外生活、日常消费数据,注重采集学业成绩、综测中记录的学生获奖、学生德育表现、学生创新创业表现、实习过程系统中的周报评价、总体评价等能直接描述学生各方面能力的数据,数据来源如图2所示[9]。通过建成各类信息子集形成数据集市,数据集市各维度数据来源于相关业务系统的过程数据[10],以此类“有用”的数据为主线,建立数据画像的模型主框架,即建立预处理字段库。

3.2" 利用数据中间件实现数据表达

数据表达是将数据画像模型主框架中的成绩数据、获奖数据、实习过程数据各类文本数据,通过清洗转化为数据化、具体化学生能力进行表述,用数据值指标来量化学生能力。具体实现是通过数据中间件获取实习过程管理系统中承担的实习项目评价数据,如在其中的职责和贡献,在达到或完成规定的工作任务之外,做出了哪些其他贡献;是否有建议曾被项目组采纳;在实施这项建议时的作用以及因此取得的业绩和资历;是否处理过紧急或危险情况等数据,通过中间件的清洗转换功能实现数据表达转换,数据采集、清洗、转换过程的中间件配置如图3所示,并将其数据化为各个字段细项数据存入已建立的预处理字段库。

3.3" 确定强相关因子建立评估模型

通过评估模型、自动评估预处理字段库中的数据,生成学生数据画像字段数据。评估生成的数据画像数据字段主要包括学习提炼能力、沟通谈判能力、承压能力、执行力、专业知识、关联知识、技术能力、业务能力、项目计划能力、项目跟踪和控制能力、风险识别与管控、度量及数据分析、敏捷项目管理能力、成本分析控制能力、团队影响力等。

在建立评估系统时,为提高系统评估的准确性,在预处理字段库中筛选了学生专业技能、沟通、文档读写、获得证书、实习经历等字段作为强相关因子,初步选定基于决策树、随机森林、提升树、线性回归等评估模型。通过人工评估验证的方式,验证评估模型的评估准确率。验证过程中,分别计算评估模型的均方误差(MSE)、均方根误差(RMSE)、平均误差(MAE):

式中[Mi]为样本人工评估平均值。通过比对人工评估值,分别计算五种模型的评估准确率[T],计算结果如表1所示。

通过比对初步选定的五种模型评估准确率,最终选定基于随机森林模型构建数据画像评估模型。与其他四种评估模型比较,具有抗噪声能力较强、可解释性较强、非线性关系问题处理较强和运行效率较高等优点,并且在评估过程中不会出现能力值为负分的情况,效果较好。

3.4" 利用数据表达转化生成数据画像雷达图

各类采集来源的数据进入预处理字段库,通过评估模型,转化为数据画像各字段中的数据,并将各字段数据以雷达图形式表达。通过雷达图学校、教师可以清楚地掌握学生从入学到毕业,各项能力提升了多少,并掌握学生的最新状态。通过分析计算机学院张某同学的学业成绩、参加专业技能比赛、参加见习实习的意见反馈等数据,通过评估模型系统评估后,生成的能力雷达图,如图4所示。

3.5" 根据数据画像雷达图逐步打造“精英模型”

在建立数据画像模型后,每一项数据的填充都是学生日常生活的体现,有利于将学生的各项能力数据化,这种数据化更加直观地可以让学生客观认知自己的能力水平。数据画像模型建立后,可对沉淀数据中的学生数据进行挖掘学习,逐步建立起“好学生”和“坏学生”的模型,通过智能网络爬虫工具自动爬取智联招聘、前程无忧等20多个主流招聘网站几千万条信息。并且利用分词解析技术将网络上大量的招聘信息自动爬取、自动解析成相应的技能,并转化为数据画像字段数值,逐步建立完善各专业各类型的“精英模型”。通过与社会所需要的能力数据画像“精英模型”对比,让学生全面了解自己的能力与社会要求能力的差距,学生可以知道自己跟什么样的岗位匹配度最高,适合寻找哪个岗位方向的工作。同时知道自己的哪部分能力与用人单位的需要有差距,可以针对性地去提高,逐步完善自身各方面能力。图5所示为通过系统生成的“项目经理精英模型”,张某同学如有意愿应聘“项目经理”岗位,能看到自身的优势,也知道自身的劣势,更好地提高自己的水平。

4" 学生数据画像生成方式改进研究

4.1" 在主动采集的基础上增加被动采集

目前的数据画像模型主要都是各业务系统的数据,属于主动采集的数据,而主动采集的数据量是非常有限的。随着目前物联网技术、人工智能技术的发展,在智慧校园中引入如各类传感器和人脸识别等技术,逐步实现全方位、无感知地提供各类智能化服务[11]。在课堂行为监控中,以前仅仅是通过学习成绩反映课堂效果,而利用人脸识别技术可以对学生学习过程行为进行采集,包括教师授课、课堂互动以及学生的听课状态(是否在睡觉、是否活跃)等,在过程数据采集后,将其与学习成绩相关联,可以更好地掌握学生学习的过程情况,也可以为教学改进提供反馈依据。在宿舍管理应用中,以前仅仅通过人工的方式去管理学生,而且最终导入的也是结果数据,而利用人脸识别技术可以实现对学生进出宿舍时间进行监控,除了可以获取“夜不归宿”的学生结果信息,更能通过被动采集知悉优秀学生的部分作息信息,由此去挖掘其延伸功能。

4.2" 引入人工智能辅助建立模型

在增加采集被动数据的基础上,当数据量积累到一定阶段,数据量将会非常庞大,2万学生每日上网行为数据约3 GB的文本数据。如此之多的数据单纯靠人工分析是很难发现相关关系的。建立半监督的机器学习,通过对各类数据清洗、提炼、聚类,分析从智慧校园海量数据中提取标签,建立个体标签体系[12]。通过不断优化学生标签的类别和内容,完善给学生打标签的规则,实现在智慧校园中学生画像的构建[13]。通过对大量数据学习,由人工智能去发掘一些隐性的关联形成新的关系模型[14]。

5" 结" 语

智慧校园建设的核心理念是建立一个了解师生、读懂数据、更智慧化的服务与决策的应用集群。探索智慧校园建设,从数据入手,通过以学生数据画像为主线,围绕所需数据采集过程完善业务应用建设,利用学生数据画像为智慧校园提供智慧化决策,从而在智慧校园的建设过程中找到全新的前进方向。

参考文献

[1] 余鹏,李艳.基于教育大数据生态体系的高校智慧校园建设研究[J].中国电化教育,2018(6):8⁃16.

YU Peng, LI Yan. Research on education big data ecosystem in the construction of smart campus [J]. China educational technology, 2018(6): 8⁃16.

[2] 宋文超.基于生命周期理论的高校学生档案管理:以北京外国语大学为例[J].兰台世界,2018(9):56⁃59.

SONG Wenchao. College students archives management based on life cycle theory: taking Beijing Foreign Studies University as an example [J]. Lantai world, 2018(9): 56⁃59.

[3] 王曦.“互联网+智慧校园”的立体架构及应用研究[J].中国电化教育,2016(10):107⁃111.

WANG Xi. Three⁃dimensional construction and application study on “Internet+ Smart Campus” [J]. China educational technology, 2016(10): 107⁃111.

[4] 李有增,曾浩.基于学生行为分析模型的高校智慧校园教育大数据应用研究[J].中国电化教育,2018(7):33⁃38.

LI Youzeng, ZENG Hao. Smart campus big data education application based on students′ behavior analysis model [J]. China educational technology, 2018(7): 33⁃38.

[5] 李青,韩俊红.数据治理:提升教育数据质量的方法和途径[J].中国远程教育,2018(8):45⁃53.

LI Qing, HAN Junhong. Data governance: means and methods to improve the quality of educational data [J]. Distance education in China, 2018(8): 45⁃53.

[6] 王华,李伶,杨帆.大数据时代校园一卡通数据分析与应用研究[J].现代电子技术,2018,41(4):56⁃59.

WANG Hua, LI Ling, YANG Fan. Research on campus card data analysis and application in big data era [J]. Modern electronics technique, 2018, 41(4): 56⁃59.

[7] 邓逢光,张子石.基于大数据的学生校园行为分析预警管理平台建构研究[J].中国电化教育,2017(11):60⁃64.

DENG Fengguang, ZHANG Zishi. Research on the construction of students′ campus behavior analysis and warning management platform based on big data [J]. China educational technology, 2017(11): 60⁃64.

[8] 王燕.智慧校园建设总体架构模型及典型应用分析[J].中国电化教育,2014(9):88⁃92.

WANG Yan. Smart campus construction overall architecture model and typical applications prospect [J]. China educational technology, 2014(9): 88⁃92.

[9] 马捷,蒲泓宇,张云开,等.基于关联数据的政府智慧服务框架与信息协同机制[J].情报理论与实践,2018(11):20⁃26.

MA Jie, PU Hongyu, ZHANG Yunkai, et al. Government smart service framework and information collaboration mechanism based on linked data [J]. Information theory amp; application, 2018(11): 20⁃26.

[10] 蒲芳,刘琳琅,徐萍,等.数字化校园中一卡通数据集成的研究与应用[J].华中师范大学学报(自然科学版),2017(z1):13⁃16.

PU Fang, LIU Linlang, XU Ping, et al. Research and application of campus card data integration in digital campus [J]. Journal of Central China Normal University (Natural scien⁃ces), 2017(S1): 13⁃16.

[11] 吕倩.基于云计算及物联网构建智慧校园[J].计算机科学,2011,38(z1):18⁃21.

LÜ Qian. Constructing smart campus based on the cloud computing and the internet of things [J]. Computer science, 2011, 38(S1): 18⁃21.

[12] 陈臣,马晓亭.基于小数据的图书馆用户精准画像研究[J].情报资料工作,2018(5):57⁃61.

CHEN Chen, MA Xiaoting. Research on accurate portraits of library users based on small data [J]. Information and documentation services, 2018(5): 57⁃61.

[13] 李光耀,宋文广,谢艳晴.智慧校园学生画像方法研究[J].现代电子技术,2018,41(12):161⁃163.

LI Guangyao, SONG Wenguang, Xie Yanqing. Research on student profiling method for smart campus [J]. Modern electronics technique, 2018, 41(12): 161⁃163.

[14] 熊甜,郑松,徐哲壮,等.基于Azure机器学习平台的大学校园用电分析与预测[J].电气技术,2018,19(5):5⁃9.

XIONG Tian, ZHENG Song, XU Zhezhuang, et al. The analysis and prediction of power consumption in university campus based on azure machine learning platform [J]. Electrical engineering, 2018, 19(5): 5⁃9.