杨杉
摘要:根据四川省某高校在校学生的一卡通数据、教务系统数据、图书馆数据,将学生分为理工科类、文科类、艺术类三个类别,分别对这三类学生的消费、学习、晚归等情况做出了全面的分析,通过多维数据交叉对比,将数据进行重组并创新性地应用于学生分类培养和教学管理中,为高校的办学质量的改进和提高提供了有效的数据支撑,也为高校进行个性化教育提供了借鉴。
关键词:大数据;分类培养;个性化教育;数据分析;教学管理
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2020)34-0148-05
Abstract: Based on card data, teaching system data, and library data of students in a college in Sichuan Province, this paper divides students into three categories: science and engineering, liberal and art. The three types of students are consumed and studied respectively. A comprehensive analysis was made on the situation of consumption, study, and late return. Through multi-dimensional data cross-contrast, the data was reorganized and creatively applied to the classification training and management of students, which provided data support for the improvement of the quality of running colleges and universities. In addition, it provides a personalized education reference for college.
Keywords: big data;classified training;personalized education;data analysis;teaching management
1 引言
随着教育事业日新月异的发展,科学有效地提高高校的教学质量,有针对性地培养社会需要的各类人才是高校面临的一大重要问题。利用大数据技术[1],通过全面细致的数据分析和数据挖掘,一方面可以帮助高校教师更好地了解学生的特点及情况,对学生实施行之有效的个性化教育和培养,完善自己的教学管理方法,提升自己的工作能力[2],另一方面也有利于学校清晰地了解到当前在校学生的实际情况和学校教育管理中存在的问题,为学生创造一个更优越的学习环境,完善学校的教学管理制度和教学管理环境[3]。
本文以四川省某高校在校学生2013.01.01~2019.12.31的一卡通数据、教务系统数据、图书馆数据为依托,将学生分为理工科类、文科类、艺术类三个类别,进行了全面的数据分析,针对学生分类培养和管理给出了有价值的结论和建议。
2 数据准备
2.1数据来源
数据来源于四川省某高校在校学生2013.01.01~2019.12.31的一卡通、图书馆、教务系统数据,原始数据9000余万条。
2.2数据清洗
利用该高校计算机学院云计算平台的HADOOP集群进行数据清洗,清洗步骤如下:
(1)从学校教务处、图书馆、后勤处等部门获得原始数据17G,98061839条;
(2)在云平台上采用SHELL脚本方案对数据进行初步清理,去除本次分析暂不涉及的字段、删除不合法数据、完成特殊数据转换;
(3)在HADOOP集群平台上,采用MAP/REDUCE技术[4-6],完成数据的拼接、计数、逻辑筛选、排序等功能[7-8];
(4)MAP/REDUCE过程中采用“学号+年份”作为KEY,根据各个文件的内容作为对应的VALUE并增加对应关键字,在REDUCE根据VALUE的关键字完成数据按格式输出到分布式文件系统HDFS上;
(5)按照数据分析组的格式要求将数据从分布式文件系统HDFS从下载到本地,最终完成数据交互。
3 数据分析
3.1理工科类学生的数据分析
对理工科学生的图书馆借书量、平均成绩、年饭卡消费额、22点和23点后的晚归数据进行了细致的分类分析。
理科类学生年借书总量平均为6.24本,最低借书量为0,最高借书量为22本,超过8000位学生借书量为0,说明大部分同学的借书量远远不够。
理科类学生平均成绩约为73.82分,最低的为0分,最高的为94.1分,学生年成绩平均分为0的约有250人左右,可能是错误数据,也有可能是缺考、作弊等导致;且大多数学生年平均成绩主要集中在70~90分之间,77分左右的人数最多。
理科类学生年均消费为2648.59元,最低消费为0,最高消费为71542元。年饭卡消费金额为0的接近3000人,可能是饭卡丢失或不使用饭卡进行消费等原因;正常情况下,学生年均饭卡消费金额主要集中在1000~5000之间。
理科类学生22点之后晚归次数平均为4.99次,最少晚归次数为0,最多晚归次数为317次,22點之后晚归次数为0次的接近9800条数据,占总数据的67%以上,说明大部分学生基本不在22点之后晚归;其中晚归的学生,年晚归次数集中在10次以内。
理科类学生23点之后晚归次数约为2.93次,最少晚归次数为0,最多晚归次数为155次,23点之后晚归次数为0的数据接近8500条,占总数据的58%以上,说明大多学生基本不在23点之后晚归;23点之后晚归的学生也多集中在8次之内。
理科类学生借书总量为22332本,借书类型排列第一的为[T]工业技术类,所占比例高达25% ;第二为[I]文学类,所占比例高达21%;第三为[F]经济类所占比率高达10%;
借书类型较少的是:[A]马克思主义、列宁主义、毛泽东思想、邓小平理论、[X]环境科学,安全科学[V]航空、航天[S]农业科学、[N]自然科学总论;
以上结果说明:理科类学生借书类型较为丰富,不仅喜欢阅读技术性较强,逻辑性较强,探索性较强的图书,也喜欢阅读文学性较强的图书,这可能与他们的专业,兴趣有关,也可能与图书馆的图书数量及图书位置的摆放有关。
3.2文科类学生的数据分析
对文科学生的图书馆借书量、平均成绩、年饭卡消费额、22点和23点后的晚归数据进行了细致的分类分析。
文科类学生年借书总量约为3.86本,最少的为0本,最多的有117本,接近12000人左右的学生年借书总量为0本,学生年借书总量多为0~20本之间。
文科类学生平均成绩约为77.31分,最低的为0分,最高的为95分,学生年成绩平均分为0的约有300人,可能是错误数据,也有可能是缺考、作弊等导致;且大多数学生年平均成绩主要集中在70~90分之间,80分左右的人数最多。
文科类学生年饭卡消费金额约为2360.34元,年饭卡消费金额为0的接近3000人,可能是饭卡丢失或不使用饭卡进行消费等原因;正常情况下,学生年均饭卡消费金额主要集中在1000~5000之间。
文科类学生22点之后晚归次数约为4.72次,22点之后晚归次数为0次的接近13000条数据,占总数据的50%以上,说明超过一半的学生基本不在22点之后晚归;其中晚归的学生,年晚归次数集中在30次以内。
文科类学生23点之后晚归次数约为2.39次,23点之后晚归次数为0的数据接近20000条,占总数据的68%以上,说明大多学生基本不在23点之后晚归;23点之后晚归的学生也多集中在15次之内。
文科类学生借书总量为29438本,借书类型排列第一的为[I]文学类,所占比例高达29% ;第二为[F]经济类,所占比例高达16%;第三为[H]语言类所占比率高达11%;
借书类型较少的是:[A]马克思主义、列宁主义、毛泽东思想、邓小平理论;[Z]综合类图书;[X]环境科学,安全科学[V]航空、航天[U]交通工具;[S]农业科学;[R]医学,卫生;[Q]生物科学;[P]天文学、地球科学;[N]自然科学总论;
以上结果说明:文科类学生借书类型较为单一,喜欢阅读文学性较强,故事性较强,情感较为丰富,想象力丰富的图书。这可能与他们的专业,兴趣和一直以来的阅读习惯有关。
3.3 艺术类学生的数据分析
对艺术类学生的图书馆借书量、平均成绩、年饭卡消费额、22点和23点后的晚归数据进行了细致的分类分析。
艺术类学生年借书总量约为2.52本,最少的为0本,最多的有100本,学生年借书总量多为0~20本之间,有接近2800人左右的学生年借书总量为0本,占总人数的50%以上,说明艺术类学生的借书量还不够。
艺术类学生平均成绩约为69.24分,最低的为0分,最高的为100分,学生年成绩平均分为0的约有380人左右,可能是错误数据,也有可能是缺考、作弊等导致;且大多数学生年平均成绩主要集中在70~85分之间,77分左右的人数最多。
艺术类学生年均消费为1632.36元,最低消费为0,最高消费为12620元。年饭卡消费金额为0的接近1010人,可能是饭卡丢失或不使用饭卡进行消费等原因;正常情况下,学生年均饭卡消费金额主要集中在1000~4000之间。
艺术类学生22点之后晚归次数平均为3.69次,最少晚归次数为0,最多晚归次数为109次,22点之后晚归次数为0次的接近2700条数据,占总数据的60%以上,说明大部分学生基本不在22点之后晚归;其中晚归的学生,年晚归次数集中在8次以内。
艺术类学生23点之后晚归次数平均为4.05次,最少晚归次数为0,最多晚归次数为151次,23点之后晚归次数为0次的接近3100条数据,占总数据的68%以上,说明大部分学生基本不在23之后晚归;其中晚归的学生,年晚归次数集中在15次以内。艺术类学生借书总量为3492本,借书类型排列第一的为[I]文学类,所占比例高达33% ;第二为[I]艺术类,所占比例高达19%;第三为[H]语言类和[K]历史,地理类所占比率高达8%;
借书类型较少的是:[A]马克思主义、列宁主义、毛泽东思想、邓小平理论;[Z]综合类图书;[X]环境科学,安全科学[V]航空、航天[U]交通工具;[S]农业科学;[O]数理科学;[R]医学,卫生;[Q]生物科学;[P]天文学、地球科学;[N]自然科学总论;
以上结果说明:艺术类借书类型比较单一,借书数量比较少,喜欢阅读情感较为丰富,想象力丰富,具有一定创造性的图书。这可能与他们的专业,兴趣,爱好,生活习惯和学习习惯有关。
4结论及建议
通过前面的数据分析,得出了以下结论:
第一,学习成绩越优秀的学生借书越多,借书类型也更丰富,并且学习成绩良好的学生借书更偏好文科类书籍,学习成绩一般的学生借书更偏好理工科類书籍。这说明:学习成绩越好的学生对不同类型的书籍涉猎越多,不同学习成绩的学生对书籍类型的偏好不一样,这很有可能是因为各人补短处不同;