钟志宏
摘 要:通过收集、整理和预处理,获得较为完整的计算机类毕业生信息数据;分析专业、性别、社会实践与政治理想、获取精准扶贫助学金、违规违纪处分、毕业情况等各种因素对学业的影响,进而得到地方本科高校计算机学科教学管理的若干有意义的指导与建议,为学生在校期间的学业做出预测性的评估与预警。
关键词:数据分析;学业预测;计算机教育;地方本科高校;SPSS
中图分类号:G640 文献标志码:A 文章编号:2096-000X(2021)19-0052-05
Abstract: By collecting, sorting and preprocessing, this paper obtains more complete information data of computer graduates. Then, the paper analyzes the influence of various factors on academic performance, such as major, gender, social practice and political ideal, targeted poverty alleviation grant, disciplinary punishment and graduation. In the end, some meaningful guidance and suggestions on the teaching management of computer discipline in local universities are put forward, and predictive evaluation and early warning are made for students' academic performance during the school period.
Keywords: data analysis; academic prediction; computer education; local universities and colleges; SPSS
一、問题的提出
随着我国工业2025和智能制造战略的提出,以及信息产业“自主可控”的现实意义越来越迫切,高素质信息技术人才成为左右国家政治命脉、经济发展、军事强弱和文化复兴的关键因素。覆盖了互联网、软件开发、硬件设计、云计算、大数据、人工智能等相关专业的计算机教育近年来得到了快速发展。据统计,目前我国也有1200个院校开设了计算机类相关本科专业,其中,“985”“211”院校占15%左右,地方本科院校占85%左右[1]。地方本科院校的计算机类专业人才培养,构成了我国信息产业人才的基础,为区域经济社会发展提供了重要智力支持和人才支撑。地方本科院校的生源素质与师资水平,决定了其办学定位及人才培养目标,当前地方本科院校的计算机类专业均以就业为导向、以应用型为目标的人才培养,以满足社会发展与需求。
此外,学生在校期间的学业受多种因素的影响[2],而地方本科院校由于生源情况相关影响更为显著;学校积极利用这些影响因素对学生在校期间学习生活进行指导与激励,能够有效提高学生的学业成绩;同时,也能够根据相关因素可能导致的不利结果,对学生做出学业和生活上的合理干预与预警,从而确保学生顺利、高效的完成学业,达成人才培养目标[3]。
二、分析研究方法
数据分析与数据挖掘成为进行复杂问题分析的重要方法,通过对客观真实的数据进行分析,不仅能对预设问题进行合理解释,也能发现隐藏的新问题。数据分析与数据挖掘方法在教育领域得到了广泛应用[4-5],促进了教育问题的量化分析,成为制定教育教学各方面决策的主要依据。
本文通过对获取我院2020届计算机类专业毕业学生的学业进展数据、党员发展数据、毕业认证数据、精准扶贫奖学金数据、班级班干成员数据等进行数据集成,然后利用SPSS软件对数据信息综合分析[6],力求获得专业、性别、社会实践与政治理想、获取精准扶贫助学金、违规违纪处分、毕业等各种因素对学业的影响,进而总结出有意义的结论与建议。
三、数据准备
数据准备(数据预处理)是数据分析的前提,合理的、高质量的样本信息是分析结果准确、有效的保证。在数据预处理中,综合使用了多种手段和工具,如C语言、Access数据库、SPSS、扫描仪、文字识别软件等。数据预处理的基本过程如图1所示。
(一)数据抽取
分析研究涉及到2020届毕业生的学业进展、党员发展、毕业认证、精准扶贫奖学金、班级班干成员等数据,这些数据来源于不同的系统和渠道、以多种文件格式(包括数据库表、Excel、CSV、文本文档、数据图片、纸质文档等)存储。数据抽取时,将不同渠道获取的数据均以毕业生的“学生编号”作为标识属性存储在不同的数据表中,并存入用于数据初步处理的Access数据库中。
在上述过程中,处理的难点在于非机构化存储的文本文档、图片和纸质文档,本文采用的处理方法如下:
1. 对于非结构化存储的文本文件,编写字符过滤程序对数据进行格式化。
2. 对于纸质文档,首先利用扫描仪数字化以PDF文档形式存储在计算机中,再通过文字识别软件进行识别以获得文字,最后对获得的文字进行核对及数据格式化。图片文件采用相应的处理方式。
(二)数据集成
通过数据抽取,将不同渠道信息存储在Access的不同数据表中,并经过简单的处理及分析。然后,将Access中的数据表导入SPSS分析软件,利用“变量合并”功能将多个表中的信息根据“学生编号”标识进行数据合并;合理设计合并后数据表中的变量属性:数据类型、宽度、小数点位数、标签、值、度量标准、角色等,最后以SPSS支持的“sav”格式保存数据;通过数据的规范化,便于后续在SPSS中进行数据分析。