K—means聚类分析在就业管理系统中的应用研究

2015-11-17 11:29王志伟王利军
电脑知识与技术 2015年24期
关键词:数据聚类分析

王志伟 王利军

摘要:学生就业管理系统可以采集毕业生的就业调查数据信息,并且可以对数据进行选择和转换以便数据挖掘的顺利完成,利用SPSS软件进行K-means聚类分析,从而得到有价值的信息,为学生管理工作和教学方案的修改制定提供参考。

关键词:就业管理;聚类分析;数据

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)24-0008-02

Application Research of K-means Clustering Analysis in Job Management System

WANG zhi-wei,WANG li-jun

(Anhui Economic Management Cadres Institute, Hefei 230059, Anhui)

Abstract: Student job management system can collect the data information about the employment of graduates, and can choose and convert the data to complete the data mining, and use SPSS software to carry out K-means clustering analysis, so as to get valuable information, and provide a reference for the students' management work and teaching plan.

Key words: job management; clustering analysis; data

1 数据的采集

就业调查数据的采集工作是通过毕业生登录系统后在就业调查页面填写就业调查问卷完成的,并将数据保存在数据库中,以便后期的数据统计和数据挖掘使用。就业调查数据主要包含应届毕业生的基本信息,教育信息和就业信息等。基本信息主要由姓名、性别、是否干部、班级、专业、系部、籍贯和党团关系组成;教育信息主要由学业成绩(优秀、良好、中等、及格和不及格五个档次)、英语水平和专业证书组成;就业信息主要由就业状况、单位性质、就业位置、满意程度、对口程度、起薪标准、主要就业困难、实习经历情况、就业指导情况、招聘信息来源、基本素质培养和意见建议等组成。

2 数据选择

就业调查数据是通过在线问卷调查页面采集的,数据在格式上相对规范统一。但不是所有的数据都适合进行数据挖掘,系统主要提取就业调查数据表和毕业生信息表中的性别、是否干部、学业成绩、实习经历、就业指导、工作位置、起薪标准、对口程度和满意程度属性的值作为数据挖掘的原始数据,以便为数据挖掘工作的顺利完成提供完整的数据基础。提取原始数据页面如图1所示。

3 数据转换

提取的原始数据大多是以文本的形式存在,不适合进行数据挖掘,因此需要对原始数据进行数据转换。

3.1 数据规范

为了便于数据挖掘,性别、是否班委、学业成绩、实习经历、就业指导、工作位置六个属性采用十基数变换规格化方法,规范的字段和说明如下所示:

3.2 属性构造

属性构造是根据己有属性集构造新的属性,并加入到现有属性集合中以帮助挖掘更深层次的知识,提高数据挖掘结果的准确性。就业质量不能仅仅通过起薪标准、对口程度或满意程度某一个属性来体现。就业质量是一个综合属性,需要通过属性构造来生成。

属性项“起薪标准”、“对口程度”和“满意程度”三项进行合并来构造新的属性“就业质量”。就业质量取值采用一个加权函数式进行构造,就业质量=0.3*(起薪标准)+0.3*(对口程度)+0.4*(满意程度),再采用十基数变换规格化方法进行规范数据,数据转换后的结果如图2所示:

4 数据挖掘

利用IBM SPSS软件对选择和构造的属性进行K-means聚类分析。聚类变量为sex、banwei、xueye、shixijingli、jiuyezhidao、gongzuoweizhi和quality,个案标识依据为StudentID,聚类数设置为3,选项参数中勾选初始聚类中心、ANOVA和每个个案的聚类信息。K-means聚类分析设置窗口如图3所示:

各个聚类簇的案例数分别为86、119和150。

聚类簇编号为1的案例具体数据是一组就业质量较高的一组分布,男生居多,学生干部居多,学业成绩为优秀的居多,绝大多数都有实习经历和参加过就业指导,就业的工作位置多为直辖市或省会城市。

聚类簇编号为2的案例具体数据是一组就业质量较低的一组分布,女生居多,非学生干部居多,学业成绩为中等的居多,实习经历和就业指导经历不完善,就业的工作位置多为非省会城市。

聚类簇编号为3的案例具体数据是一组就业质量中等的一组分布,男女比例均衡,非学生干部居多,学业成绩为良好的居多,实习经历和就业指导经历较完善,就业的工作位置多为非省会城市。

学院在制定教学与培养计划时,应加强专业课程建设,考虑到性别的差异性,加强实习实训的监察工作,合理设置就业指导课程的内容与时间安排。

6 总结

学生管理部门的管理者可以使用聚类分析方法从学生的就业调查信息中挖掘有价值的信息,从而指导学生就业管理和教学方案的修订。

参考文献:

[1] Jia-wei Han, Kamber M.数据挖掘概念与技术[M].北京:机械工业出版社, 2008.

[2] 张继美.数据挖掘在高校就业分析中的应用研究[D].安徽大学,2010.

[3] SPSS聚类分析全过程: http://www.itongji.cn/article/061022 162013.html.

猜你喜欢
数据聚类分析
浅谈计量自动化系统实现预购电管理应用