徐维艳,汪志南,王平心
(1. 江苏科技大学 理学院,江苏 镇江 212003;2. 北京理工大学 数学与统计学院,北京 102488)
基于粗糙集理论的大学生就业满意度统计分析
徐维艳1,汪志南2,王平心1
(1. 江苏科技大学 理学院,江苏 镇江 212003;2. 北京理工大学 数学与统计学院,北京 102488)
当前大学生就业形势越来越严峻,就业压力越来越大,为了研究哪些信息或因素对学生的就业有影响,通过现场问卷调查和电子问卷相结合的方式进行抽样,对在校大学生就业问题进行信息获取。在此基础上对毕业生就业状况中的家庭背景、性别、人际关系、专业课程、创新能力等相关因素进行研究,采用统计理论和粗糙集的方法,从统计理论的基础上对找到满意工作的重要因素进行分析,另外在粗糙集理论的基础上用属性约简算法对指标体系进行简化,并进一步确定找到好工作的重要因素,为大学生就业和高校学生管理提供参考依据。
粗糙集;约简;就业
近年来大学毕业生的就业状况一直是社会关注的热点。继1999年教育部文件《面向21世纪教育振兴行动计划》发布,高校连年扩招,一方面促进了高等教育的发展,逐渐由精英教育向大众教育过渡;另一方面也导致大学生就业日益困难。2015年全国大学毕业生达749万,毕业生数量供远大于求,毕业生去向也逐渐呈多口径分流,由单一的全职受雇向多渠道就业方向(继续深造、自主创业等)并存发展。麦可思研究报告[1]表明大学生就业率虽然相对较稳定,但就业质量包括就业满意度[2]、就业稳定性等指标均有下滑。目前实施鼓励大学生自主创业、到基层特殊岗位、去中西部地区、军营等促进就业的措施,于大学毕业生就业率的积极意义较明显。但大学生就业报告对就业率的客观统计并不能反映就业满意度,实际上这也是就业质量的一个非常重要的指标,对就业质量的研究当然需要对就业满意度做深入研究。
大学生普遍都认为就业很难,找到一份让自己满意的工作更难。什么才是影响大学生就业满意度的主要因素呢?文献[2]基于问卷调查的数据,用简单抽样的方式统计大学生就业满意度与参加社会实践活动、专业成绩、学生工作和求职前期准备工作等方面的相关性,并给出指导意见;文献[3]得出家庭背景对985高校毕业生就业一般没有明显影响,但影响其获得高收入的工作机会;文献[4]用2011年全国高校毕业生就业状况调查数据,从理论上探讨建立就业满意度的指标体系。
关于就业满意度的探讨,现有研究中鲜有用除频率统计之外的研究方法。研究不确定问题的方法有多种,其中统计方法最为常规,但在统计过程中需要大量的样本,而运用粗糙集[5]方法不需要大量样本也不需要过多的先验知识,相对比较客观、真实。统计方法是指收集、整理、分析和解释统计数据,通过计算研究数据的平均值与方差[6],分析数据的分散程度,并对其所反映的问题给出一定结论。粗糙集由波兰科学家Z.Pawlak于1982年提出,是一种处理不精确、不一致、不完整信息的数学工具,粗糙集理论[7]是基于给定训练数据内部的等价类的建立,用一对上下近似集合来逼近数据库中的不精确概念。粗糙集决策的主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。目前粗糙集理论广泛应用于临床医疗诊断、电力系统和其他工业过程故障诊断、预测与控制、模式识别与分类、图像处理等。文章在统计理论和粗糙集理论的基础上分析采样数据、利用属性约简[8]讨论不确定性问题,研究就业满意度的主要影响因素。
1.1统计的基本概念
频数又称“次数”,在相同的条件下,进行了n次试验,在这n次试验中,事件A发生的次数m称为事件A发生的频数。比值m/n称为事件A发生的频率,即每个对象出现的次数与总次数的比值称为频率。
(1)
方差是各个数据分别与平均值之差的平方之和的平均数,用来度量随机变量取值和其数学期望(即均值)之间的偏离程度。用字母D表示,记为:
(2)
1.2数据分析
研究通过对可能与大学生找到有满意工作有关的因素的调查分析,选出10个影响因素,回收450份问卷,取400份有效问卷做数据样本,构建的决策信息见表1。数据统计之后得出信息见表2。
表1 调查问卷设计
表2 决策信息系统
对每个属性进行数据统计得信息,见表3。
表3 调查结果数据统计
根据上表数据统计结果显示,只有6%的人对自己目前的工作很满意,决策属性的取值平均值为1.34,方差为0.5898,数据的离散程度较小,说明绝大多数刚就业的毕业生对自己目前的工作不太满意。上表中的属性8(情商)中每个选项的百分比很相近,说明毕业生情商因素对找到满意工作的重要性褒贬不一,这组数据相对其他数据是没有意义的。其他影响比较显著的属性有学历、性别、举办社团活动能力、创新能力等等。其中54%的毕业生认为学历对于找到满意的工作有着很重要的影响,而且平均值为0.6,相对其他因素平均值是最小的,如今越来越多的企业也将高学历作为招聘筛选人才的一个门槛,相对较高的学历可以给公司本身提升台阶,促进企业成长,从而学历的重要性也逐步提高。相反的,根据统计结果专业课程的好坏以及兴趣对找到满意工作的影响并不大,两者属性均值均大于1,但是大多数企业尊重员工,在兴趣爱好方面也作为一种考核来招聘。很多企业在专业知识方面是要求严格,专业知识可以体现毕业生在校的学习能力。当然其他因素也是可以影响大学生的就业问题,比如性格、家庭背景、户籍所在地等等。从表3的数据可以看出每个属性的取值方差均小于1,相对来说方差总体偏小,这是由于属性的取值0、1、2本身差距不大,而且样本总数相对来说较多造成的。
2.1粗糙集基本概念
一个信息系统可定义为一个四元组I=,其中U是一个非空有限对象的集合,又称为论域;AT是非空有限属性集合 , ∀a∈AT,Va表示属性a的值域;V表示全体属性的值域集合,即V=VAT=∪a∈ATVa;f为信息函数,∀x∈U,a∈AT, 定义f(x,a)表示x在属性a上的取值,则有f(x,a)∈Va。
设I=,∀X⊆U,A⊆AT, 定义X关于属性A的下、上近似分别记为
(3)
(4)
2.2决策规则
设一个信息系统可定义为一个四元组I=,A=C∪D,其中C为条件属性集,D为决策属性集,Xi和Yj分别代表U/C与U/D中的各个等价类,des(Xi)表示等价类Xi的描述,即等价类Xi对于各条件属性值的特定取值;des(Yj)表示对等价类Yj的描述。
决策规则定义如下:
rij:des(Xi)→dex(Yj),YjIXi≠Ø
(5)
规定的确定性因子(可信度):
u(Xi,Yj)=|YjIXj|/|Xi|,0
(6)
当u(Xi,Yj)=1时,rij是确定的;当0
决策属性D对条件属性C的依赖度定义为:
rC(D)=|POCC(D)|/|U|
(7)
属性子集B在条件属性集C基础上相对于决策属性D的重要度定义为:
Sig(B,C,D)=rC(D)-rC-B(D)
(8)
2.3数据分析
在粗糙集理论的基础上,根据基于属性重要度的约简方法,利用Matlab编写程序进行约简。约简步骤为:去掉一个属性ci(i=1,2,3,…,9,10),若Sig({ci},C,D)=0,则属性ci可约去,在数据中去掉该列属性后再代入计算其他属性的重要度,如有等于0的,按上述方式循环,通过计算约掉的冗余数据为﹛c3,c4,c7,c8﹜,最终得到C对﹛d﹜的相对约简为﹛c1,c2,c5,c6,c9,c10﹜。由表3获取的确定性决策规则如下:
r1:(c1=0)∧(c2=0)∧(c5= 0)∧(c6=0)∧(c9=0)∧(c10=0)→(d=0),可信度为1,
r2:(c1=0)∧(c2=0)∧(c5=0)∧(c6=2)∧(c9=0)∧(c10=0)→(d=0),可信度为1,
r3:(c1=0)∧(c2=0)∧(c5= 0)∧(c6=2)∧(c9=2)∧(c10=0)→(d=1),可信度为1,
r4:(c1=1)∧(c2=0)∧(c5= 0)∧(c6=0)∧(c9=2)∧(c10=1)→(d=1),可信度为1,
r5:(c1=2)∧(c2=2)∧(c5= 0)∧(c6=2)∧(c9=1)∧(c10=2)→(d=1),可信度为1,
r6:(c1=2)∧(c2=2)∧(c5= 2)∧(c6=2)∧(c9=1)∧(c10=2)→(d=2),可信度为1。
上述确定性规则用通俗语言解释如下:
(1) 在校期间参加了很多社团活动,专业课程很好,对某项工作有浓厚的兴趣并具有很强的创新能力的男性通常都能找到满意度很高的工作,且可信度为1;
(2) 在校期间参加了很多社团活动,专业课程不好,对某项工作有浓厚的兴趣并具有很强的创新能力的男性通常都能找到满意度很高的工作,且可信度为1;
(3) 在校期间参加了很多社团活动,专业课程很好,对某项工作没有兴趣但具有一定的创新能力的女性通常都能找到满意度一般的工作,且可信度为1;
(4) 在校期间没有参加社团活动,专业课程不好,对某项工作没有兴趣也没有创新能力的女性通常都找不到满意的工作,且可信度为1。
通过计算属性的平均值与方差,分析就业满意度影响因素的数据样本,由于属性取值在0和2之间且样本数量相对较多,所以导致总体方差偏小,造成影响因素的重要性区分度太低。考虑到粗糙集理论处理问题不需要太多样本也不需要过多的先验知识,适用于在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。
利用粗糙集理论对大学生找到满意工作的因素进行数据处理,建立信息系统,通过属性约简可以得出,影响大学生找到满意工作的主要因素有性别,学历,在校期间社团活动,专业课程,兴趣以及创新能力,在研究中发现多参加一些有意义的学校社团活动对大学生找工作有很大的帮助,希望所得结果能够给当代大学生带来帮助,也能给学生的就业指导和就业管理提供有益的参考。
[1] 麦可思研究院.2015年中国大学生就业报告[M].北京:社会科学文献出版社,2015.
[2] 邢朝霞,何艺宁. 大学毕业生就业满意度与其影响因素的相关性分析[J].教育学术月刊,2013(12): 42-46.
[3] 李春玲. 80后大学毕业生就业状况及影响因素分析—基于6所985高校毕业生的调查[J].江苏社会科学,2012(3): 45-53.
[4] 李斌. 试谈基于就业满意度的大学生就业质量评价体系[J]. 燕山大学学报:哲学社会科学版,2009(3): 140-141.
[5] Pawlak Z. Rough sets[J]. International Journal of Computer and Information Sciences,1982(5): 341-356.
[6] 盛骤,谢式千,潘承毅. 概率论与数理统计[M].北京:高等教育出版社,2011.
[7] 张文修,吴伟志,梁吉业,等. 粗糙集理论与方法[M].北京:科学出版社,2001.
[8] Pawlak Z. Rough sets: theoretical aspects of reasoning about data[M].Dordrecht: Kluwer Academic Publisher, 1991.
InvestigationandAnalysisontheInfluencingFactorsofFindingSatisfactoryJobsforCollegeStudents
XU Wei-yan1, WANG Zhi-nan2, Wang Ping-xin1
(1. School of Science, Jiangsu University of Science and Technology, Zhenjiang Jiangsu 212003, China;2. School of Mathematics and Statistics, Beijing Institute of Technology, Beijing 102488, China)
The current employment situation is more and more serious, in order to study the influencing factors of students' employment, we have obtained information about the employment of college students through field survey and electronic questionnaire. We have analyzed related factors such as family background, gender, interpersonal relationship, professional courses, and innovation ability, statistical theory and the methods of rough set were used to analyze some important factors. In addition, the attribute reduction algorithm based on the rough sets is used to simplify the index system, and further determine the important factors for getting a good job. It provides a reference for the employment and management of college students.
rough set; reduction; employment
O211.9
A
1009-7961(2017)05-0096-05
2017-05-06
国家自然科学基金(61503160);江苏科技大学本科生创新计划项目
徐维艳(1978-),女,江苏盐城人,副教授,硕士, 主要从事粗糙集理论及应用研究。
(责任编辑:孙文彬)