谢韵佳
摘要:随着海量学籍数据的积累,运用数据挖掘等技术,发掘隐藏于学籍数据背后有价值的信息并以可视化方式呈现,对高校决策具有重要意义。借助CARD信息可视化模型,选取SQL Server和ECharts作为主要工具,提出学籍信息可视化的基本模式。以164783名在籍生学籍信息可视化实现为例,对研究成果加以验证,得到相关辅助决策信息。模式为高校实现直观可靠的决策数据支持提供了方法和路径,对高校提高管理水平、科学规划学科发展具有促进作用。
关键词:高校学籍管理;信息可视化;ECharts
DOI:10.11907/rjdk.191336
中图分类号:G434 文献标识码:A 文章编号:1672-7800(2019)012-0271-06
0引言
学籍信息管理是高校教务管理工作的重要内容。为实现学籍信息的高效管理,管理方式由纯手工记录逐步转变为运用学籍信息系统进行电子化记录,在提高效率的同时也积累了海量的电子学籍数据。运用数据挖掘技术,发掘隐藏于学籍数据背后有价值的信息并以可视化方式呈现,对高校提高管理水平、科学规划学科发展等都具有重要意义。
信息可视化是可视化技术在非空间数据领域的应用,可以增强数据呈现效果,让用户以直观交互的方式实现对数据的观察和浏览,从而发现数据中隐藏的特征、关系和模式。ECharts是一个纯Javascript的图表库,可以流畅运行在PC和移动设备上,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。
我国学籍信息相关的可视化研究主要在信息系统构建、可视化技术与方案选择领域。2012年数据可视化成为研究热点,主要研究成果有:陈小燕等对可视化分析常用的方法与工具进行分析与比较,形成了一套能对复杂数据进行处理的可视化方案;王龙等、范以定及陈凤构建高校信息可视化系统及辅助决策模块,形成了一套完整的辅助高校综合信息分析可视化决策系统;刘奇扉等将高校的图书馆信息在Web端实现可视化。但以上研究都未对可视化系统搭建之前的高校学籍信息提出可视化解决方案。
基于此,本文运用Card信息可视化模型,借助可视化图表库ECharts,阐述高校学籍信息可视化的基本思路,构建学籍信息可视化的基本框架模式,提出直观可靠的高校决策数据支持方法和实现路径,并以某成人高校F大学教务系统的学籍信息可视化实现为例,对研究成果加以验证。该学籍信息可视化系统运用的模式、方法和工具,可为高校其它信息可视化研究提供借鉴。
1学籍信息可视化特点
信息可视化囊括了数据可視化、信息图形、知识可视化、科学可视化以及视觉设计方面的所有发展与进步。大数据时代背景下,信息可视化通常与数据分析相组合,包括数据接人整合、数据处理等功能。与传统的学籍数据统计相比,信息可视化存在多方面特点和优势。
首先,信息可视化将学籍数据以更直观、丰富的方式展现,增强学籍数据的说服力。在可视化图表工具中,图表类型种类繁多,可以满足不同的展示和分析需求。
其次,信息可视化能够帮助学籍数据需求者更高效地理解学籍数据,提高工作场所或教育机构沟通交流效率,增强共享信息有效性,从而进行更高效的决策。人们可以快速地对数据形成全面认识,发现数据关键点。而传统形式的学籍分析可能需要数小时解析所有数据,且面对多维度和大数量的数据不可避免地产生混乱。
再者,能够展现巨量学籍数据是数据可视化的另一个优势。数据可视化被普遍认为是一种简单有效的数据概括方式。学籍分析者可以在图表中显示出大型数据集总体,而不是部分样本。用户可高效操作海量数据,发现隐含信息,从而产生新的预见。
最后,信息可视化适用于大规模非结构化的字符型数据展示,如地理信息数据帮助人们理解和分析数据。
2信息可视化研究现状
在中国知网(cNKI)检索关键词“信息可视化”,共有7445篇文章(截至2019年3月29日)。在CNKI中对全部检索结果进行计量可视化分析,得出总体趋势分析图和关键词共现网络,如图1、图2所示。
(1)信息可视化研究最早可追溯到1990年,Herr&Johnson等人在IEEE会议上首次将信息可视化概念及应用作了详细介绍。1994年郑飞等将信息可视化引入国内的学术研究。1994-2002年间的研究进展缓慢,将信息可视化初步应用于生产领域,如内燃机、三峡工程等。2002年之后相关研究成果数量有明显增长,信息可视化被应用于气象、地理、医疗、环境等多个领域。同时,随着Web技术的发展,实现了动态数据绘图,大大提高了用户对数据的控制和沟通能力。至2003年后更是呈爆发式增长,这基本和计算机软硬件技术尤其是可视化技术的发展阶段密切关联。
(2)信息可视化通常与地理信息系统、GIS、三维可视化、虚拟现实、知识图谱、数据挖掘、OpenGL和数据可视化等关键词共同出现。因此,从关键词共现网络分析,信息可视化研究主要集中于地理信息、数据挖掘和三维可视化等领域。
我国信息可视化研究近年蓬勃发展,研究主题从理论研究逐步过渡到与相关学科结合的实践研究,研究领域集中在地理数据、三维可视化和数据挖掘等方面,而信息可视化技术尚未进入学籍信息研究领域。在学籍信息领域引人信息可视化技术是开拓性举措,具有十分重要的现实意义。地理信息可视化等领域研究已较为成熟,为学籍信息可视化研究积累了诸多可供借鉴参考的经验。
至于学籍信息可视化,已有研究较少,从中国知网(cNKI)上检索关键词“学籍信息可视化”,得到文章数为24篇。从检索结果来看,文献的研究主题主要是关于学籍管理系统的设计与开发,学籍信息可视化研究文献较少,有必要加以探索。
3学籍信息可视化基本思路
3.1基本模式
1989年斯图尔特·卡德(stuart K.Card)、约克·麦金利(Jock D.Mackinlay)和乔治·罗伯逊(George G.RobeRson)首次提出,次年卡德等发布了信息可视化模型,是现阶段可视化模型的基础。该模型首次将线性可视化流程描述为一个循环过程,是后续其它可视化模型的基础。CARD信息可视化过程分为数据预处理、绘制及显示与交互3个阶段。
(1)数据预处理:将信息进行过滤与加工,使其易于输人可视化模块。预处理包括格式及标准化处理、异常值检出、数据压缩等。
(2)绘制:将数据转换为几何图形,按照用户需求应用多种可视化技术绘制图表。
(3)显示和交互:将几何图像数据按照用户指定条件渲染输出。除将图像信息输出外,还需把用户的反馈信息回传,实现良好的人机交互。
3.2可视化工具
可视化工具种类繁多,日新月异,选择一种或多种适合使用场景的工具显得尤为重要。由于研究的样本数据来自年份较早的教务系统,因此兼容性是首要考虑的因素,所用的相关工具须与教务管理系统高度集成、流畅运行。其次需要考虑运行的稳定性。所选用的软件应是大型软件公司开发的成熟度较高的正式版本,并考虑更新升级,保障软件稳定性。最后决定性因素是选用契合学籍可视化需求的工具。学籍可视化具有数据量大、图表呈现需精确等特点,可视化工具的选择需考虑学籍信息可视化特点,在满足需求的前提下,选择资源占用低、性能高的可视化工具。
综合上述因素,本研究选用SQL Server和EChaRs作为学籍可视化的实现工具。SQL Server(structured QueryLanguage Server)是微软公司推出的关系型数据库管理系统,具有良好的兼容性,可跨越从运行Microsoft Windows98到运行Microsoft Windows 2012的大型多处理器,为数据提供可靠的存储,且T-SQL查询语句为数据分析带来便捷。ECharts是一个运行于浏览器的纯Javascript图表库,可以流畅运行于PC和移动设备,兼容当前绝大部分浏览器。底层依赖轻量级的Canvas类库ZRender,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。ECharts提供大数据量的可视化,拥有丰富的图表类型,支持多个坐标系,并能够实现数据驱动下的动态可视化。在深度的数据交互方面,ECharts也有相应支持,基本满足“总览为先,缩放过滤按需查看细节”的需求。
3.3学籍信息可视化实现路径
依据卡德信息可视化模型,结合SQL Server和ECharts工具特性,将学籍信息可视化实现路径分为3个阶段。
(1)学籍数据预处理。对学籍数据进行检测、筛选和加工。学籍数据中发现部分异常值需予以剔除,并将数据转化成符合ECharts可视化模块可输入的標准格式。
(2)绘制可视化图表。按照可视化需求,设立筛选条件,通过SQL Server获得满足条件的数据,并将学籍数据输人ECharts可视化模块,应用多种可视化技术绘制图表。
(3)显示与交互学籍可视化图表。按照指定条件渲染输出图表,按照用户反馈信息加以显示并进行相应调整。例如,用户可根据需要,选择特定区域显示特定记录的单项数据或特定集合的细节数据。
4应用案例
本研究选用某成人高校F大学作为应用对象。该校在籍学生数量多达16万余人,且为非全日制学生,具有分布广、层次多、类型杂、学生差异性大等特点,适合开展全面的学籍数据分析。该校早自1995年起就逐步开展学籍数据信息化管理,积累了大量学籍信息,如加以深入分析能产生有价值的成果。
4.1数据来源
学籍数据来源于F大学教务管理系统,统计时间截至2017年4月10日,涵盖2007年春季至2016年秋季共164783名在籍学生,剔除其中553名无效身份证号的学生,实际取得164230名学生的学籍信息。统计的学籍数据涉及学生个人基本信息、专业信息和选课信息。
4.2生源分布情况
了解生源分布情况最直观的方式就是通过分布散点地图,为每个学生在地图上描点,最终得出总体分布地图,具体过程如下:
(1)截取所有学生的身份证号前6位,导入百度地图省市县经纬度数据,通过SQL Server筛选出所需数据,并将其转换为分布式地图所需格式。
(3)渲染生源分布情况图表,如图4所示。从地图上分析,F大学的学生来自于全国各地,东南部地区学生占主体地位,生源的主力军是福建地区学生。
4.3性别比例和入学年龄分布情况
4.3.1性别比例
通过身份证号码的性别标识位,标识出所有学生的性别。经统计,164230条数据中,女性占92832条,男性占71398条。男女性比例约为7:10,见图5。
4.3.2入学年龄分布情况
分别统计各性别的入学年龄分布情况。截取所有学生身份证号的出生年份,将学生的入学年份减去出生年份,得出每个学生的人学年龄标注于二维表。例如,筛选男性人学年龄数据的代码如下:
统合以上两张图表可以得出,从性别上分析,女性多于男性,比例达到10:7;从年龄上分析,最小年龄为14岁,最大年龄为69岁,主要分布于17-47岁。结合二者分析,女性的年龄跨度较小,集中于17-42岁;男性的年龄跨度较大,集中于17-47岁。
4.4专业人数分年度情况汇总
对学生的专业信息进行归类统计,得出人数排名前10位的专业,分别为行政管理、法学、会计学(财会方向)、会计学、学前教育、农村行政管理、建筑施工管理、工商管理、学前教育(教师方向)和小学教育。统计出排名前10的分专业人数后,引入“年份”维度,进行年份与专业人数的可视化分析。从图7可知:①行政管理是F大学拥有学生人数最多的专业,达26825人次;②专业人数分布落差较大,排名第2的法学专业(14680人)人数占行政管理专业人数的54%,排名第10的小学教育专业(1813人)人数只占行政管理专业人数的6%;③法学、学前教育、农村行政管理3个专业,在2018年达到本专业人数最高值,说明2017年这3个专业招生情况明显好转。
4.5课程与学生选课情况
福建广播电视大学课程按单位类型分为中央开设课程和省开设课程。根据学生选课情况表的归类汇总,排名前10位的都是公共必修課,非行政管理部门可利用的数据。而省开课的选课情况是行政管理部门进行课程资源分配和管理的重要依据。所以,本文对省开课的选课情况进行统计分析,筛选出选课前10位的课程名称为:地域文化(专)、地域文化(本)、社会调查、毕业作业、社IXq-作讲座、社会学概论、社会实践、信息管理概论、组织行为学、民族与宗教,对其进行总人数对比分析,如图8所示。从图8可知:①地域文化专科和本科课程占比最大,达到36%;②社区工作讲座、社会学概论、信息管理概论、组织行为学和民族与宗教这5门非公共必修课受学生欢迎程度较高,能够与其它3门公共必修课一同列人选课排名表前10的位置。
5可视化对政策影响
高校内涵建设的关键在于提高教育质量。通过数据挖掘技术对学生、教师、专业、课程的基本情况进行宏观数据分析,并用可视化方式呈现,为教育决策提供清晰可靠的依据,是数据挖掘技术服务于教育的有效手段。
学生基本信息数据的大规模描点是在校生基本情况的直观体现,是决策的信息基础。提高教育质量是教育决策的重要目标,专业建设是重中之重。通过学籍数据挖掘与可视化分析,将专业、课程信息进行精确的数据分析呈现,为决策提供宏观的学生专业人数与选课情况信息。学校专业数据的可视化结果直观反映了本校专业的强项与短板,为教育规划提供专业建设与人才培养决策的依据。
选课制借鉴“市场自由效应”对课程进行筛选,选课数据分析与可视化结果可以真实反映课程与任课教师受欢迎程度,可作为判断教学有效性的重要指标。其结果为教育决策者提供课程改革的数据支撑,并为教师队伍建设与合理配置提供有效依据。
6结语
本文利用Card信息可视化模型,对2007-2017年间164230名学生的学籍信息进行可视化分析研究,绘制出学生籍贯分布散点地图、性别占比饼状图、入学年龄一性别分布散点图、年份与专业人数堆叠条形图和选课次数组成瀑布图。通过分析,得到最受欢迎省开课前10名的学生分布比例,直观看出地域文化占比36%居首位等信息,为高校内涵建设相关决策提供依据。但此次研究对象集中于独立组或独立个体的大规模分析,例如大规模标注分析、聚类分析、占比分析等,存在以下不足:
(1)未涉及独立组及个体之间内在关系分析。学生籍贯地图、分性别年龄分布散点图是针对独立个体的大规模可视化分析,专业分年度人数柱状图和选课次数组成瀑布图,是对分组后的独立组进行个别研究,二者都未涉及关系网络可视化分析领域。
(2)未涉及大规模数据支持的趋势分析。趋势分析是大数据支持的可视化分析领域,例如谷歌通过用户检索的关键词预测某地区将爆发流感。
在后续研究中将应用更为复杂的统计学方法和可视化图表,对选课、转专业、转学等学籍信息进行分析,找寻合适的趋势分析研究方向。