我国大学生创业意愿识别模型比较研究

2021-03-31 05:00戴冬阳
牡丹江大学学报 2021年3期
关键词:决策树意愿准确率

石 峰 胡 燕 戴冬阳

(1.湖南工程学院管理学院,湖南 湘潭 411104;2.中南大学法学院,湖南 长沙 410012;3.中国人民解放军陆军勤务学院 国防经济系,重庆 401331)

教育部公布的数据显示,2020年我国高校毕业生高达847万。在新冠疫情影响下,大学生就业形势更加严峻。鼓励大学生自主创业是扩大就业的重要渠道。创业不仅能创造就业机会,也是实现产业转型升级的重要途径。因此,构建大学生创业意愿识别模型,系统分析影响大学生创业意愿的各种因素,有利于科学把握大学生的创业动机和创业行为。同时对于激发大学生创新创业精神和推动形成“大众创业,万众创新”的创新创业人才培养机制具有重要现实意义。

创业意愿是个人是否从事创业活动的态度和想法。创业意愿是一种有意识的精神状态,表明潜在创业者为从事创业活动而做出的努力。关于大学生创业意愿的研究,国内外主要基于Shapero和Sokol的创业事件模型(SEE)、经Bird开创和Davidsson发展的心理经济模型(MEP)以及Ajzen的计划行为理论模型(TPB)。[1]由此将大学生创业意愿的影响因素概括为内在因素和外在因素。内在因素主要是创业者的个体特征、心理特质和认知,外在因素主要是指创业者所处的特定环境因素。国内外学者普遍认为,大学生创业意愿是内在和外在因素共同作用的结果。Duong(2020)等针对越南高校学生创业意愿的调查数据,运用结构方程模型实证研究表明:大学生个人特征和创业环境对创业意愿具有显著正向影响。[2]Fragoso(2020)基于计划行为理论框架对巴西和葡萄牙的大学生创业意愿进行实证检验发现:人格特质、自我效能感和创业态度是创业意愿的重要影响因素。[3]Mahfud(2020)根据印度尼西亚的理工类专业大学生调查数据,使用结构方程模型分析发现:个人认知、社会资本和心理资本共同影响大学生的创业意愿。[4]Sesen(2020)基于土耳其356名大学生的调查数据,运用回归分析的实证结果表明:个人自我效能和家庭背景对大学生创业意愿具有显著影响。[5]Ozaralli(2016)对美国和土耳其大学生创业意愿的比较研究表明,人格特质、个人教育背景和创业环境对创业意愿的影响存在显著地区差异。[6]马佚群(2020)等运用回归分析认为,贫困经历和创业动机对创业意愿具有显著影响。[7]国内大多运用相关分析、多元回归和逻辑回归的方法探讨人口统计学特征、财富禀赋、人力资本、社会资本、创业政策等因素对大学生创业意愿的影响。[8-10]

综上,已有研究都是从内在或外在因素对大学生创业意愿的影响进行理论分析与实证检验,运用机器学习算法构建大学生创业意愿识别模型的相关研究还很难见到。本文从影响大学生创业意愿的诸多因素出发,同时考虑影响大学生创业意愿的内外在因素,构建多种算法的大学生创业意愿识别模型,并对识别效果进行对比,旨在找出一种更有效识别和预测大学生创业意愿的算法模型,为大学生创业准备和创业实践提供帮助和政策支持。与大多研究不同的是,本文的创业意愿不是简单的二进制变量,而是具有六个类别的分类变量。因此,本文构建的大学生创业意愿识别模型是一个多类别的识别模型。

二、数据、变量与模型

(一)数据与变量

本文构建的大学生创业意愿识别模型的数据来源于2015年中国综合社会调查(CGSS)。本文首先根据该调查问卷中的题项“您目前最高教育程度的状态”对数据进行筛选,其中,“正在读”的大学生样本占总体2.6%,“毕业”的大学生样本占总体66%,“其它”的大学生样本占总体31.4%。由于“毕业”的大学生样本占总体的绝大多数,因此,本文仅将已毕业的大学生作为考察样本。

本文根据2015年中国综合社会调查(CGSS)数据,建立大学生创业意愿识别指标体系(见图1所示),由此构建大学生创业意愿识别模型。

图1 大学生创业意愿识别指标体系

由图1看到,大学生创业意愿识别指标体系由个人认知能力、个人特征、创业环境、社会信任和资源禀赋等五个维度构成。其中,个人认知能力包括说英语的能力、听英语的能力、说普通话的能力和听普通话的能力;个人特征包括性别和户籍类型;创业环境主要包括政府工作表现和社会公共服务,其中政府工作表现由维护公平、秉公办事、环境保护和公平执法等四个维度衡量,社会公共服务由公共教育服务、基本住房保障服务、医疗卫生公共服务和社会管理公共服务衡量;社会信任由“总的来说,您同不同意在这个社会上,绝大多数人都是可以信任的”,即社会信任总体评价衡量;资源禀赋则由家庭经济状况和父亲的教育程度衡量。

因此,本文纳入大学生创业意愿识别模型的变量如下:

1.目标变量。本文的目标变量是创业意愿(busi),表示为“如果有机会和资源,您是否会去创业?”是多分类变量,其中,变量取值为“非常可能”“很可能”“有可能”“说不清可不可能”“不太可能”“很不可能”“非常不可能”等7个类别。由于选填“非常不可能”只有少量样本,故删除该类样本,由此本文的创业意愿是6个类别的目标变量,分别用“1”“2”“3”“4”“5”“6”表示。

2.特征变量。本文的特征变量由个人认知能力、个人特征、创业环境、社会信任和资源禀赋等五个维度的指标构成。其中,个人认知能力(cogn)的取值是说英语的能力、听英语的能力、说普通话的能力和听普通话的能力等四项指标的平均值,该四项指标均由“完全不能”“比较差”“一般”“比较好”和“很好”衡量,取值均为1至5;个人特征有性别(gend)和户籍类型(resi)两个变量,其中,性别取值为1和2,分别表示男和女。户籍类型取值为1至5,分别表示“农业户口”“非农业户口”“蓝印户口”“居民户口(以前是农业户口)”“居民户口(以前是非农业户口)”。创业环境由政府工作表现(gov)和社会公共服务(pubs)衡量。其中,政府工作表现的取值是维护公平、秉公办事、环境保护和公平执法等四个指标的平均值,该四项指标的取值均为1至5,表示“非常低”、“比较低”“一般”“比较高”和“非常高”;社会公共服务的取值是取百分制(0至100)的四个指标(公共教育服务、基本住房保障服务、医疗卫生公共服务和社会管理公共服务)的平均值。社会信任(trus)由社会信任总体评价衡量,分别由“绝大多数不可信”“多数不可信”“可信者与不可信者各半”。“多数可信”和“绝大多数可信”表示,对应取值为1至5。资源禀赋由家庭经济状况(econ)和父亲的最高教育程度(fedu)衡量。家庭经济状况由“远低于平均水平”“低于平均水平”“平均水平”“高于平均水平”和“远高于平均水平”表示,对应取值分别为1至5。父亲的最高教育程度取值为 1至14,分别表示“没有受过任何教育”“私塾、扫盲班”“小学”“初中”“职业高中”“普通高中”“中专”“技校”“大学专科(成人高等教育)”“大学专科(正规高等教育)”“大学本科(成人高等教育)”“大学本科(正规高等教育)”和“研究生及以上”。

(二)模型

本文构建的大学生创业意愿识别模型本质上一种分类技术与方法。分类技术是机器学习和数据挖掘的重要组成部分,本文运用逻辑回归、支持向量机、决策树和K最近邻等四种算法构建大学生创业意愿识别模型。

1.逻辑回归

逻辑回归是一种有监督的学习方法,该算法通过将数据拟合到逻辑函数来预测事件发生的可能性。逻辑回归本质是一种二进制分类算法,通常可以使用逻辑回归的扩展模型(多项式逻辑回归和有序逻辑回归)解决具有多个类别的问题。本文的目标变量具有6个类别,因此可以通过拟合5个独立的二进制逻辑分类器模型来处理多个类别问题。由于大学生的创业意愿具有不同的强弱程度,即存在大小顺序,因此,本文使用有序多分类逻辑回归构建具有5个二元的逻辑回归模型。

2.支持向量机

支持向量机(Support Vector Machine,SVM)是一种分类方法,可以同时用于分类和回归问题。SVM在多维空间中构造一个超平面以分隔不同的类。SVM以迭代方式生成最佳超平面,用于最小化误差。SVM的核心思想是找到最大的边际超平面,以最大程度地将数据集划分为不同的类别。

3.决策树

决策树是基于分割规则将数据递归地划分为更多子节点的非参数方法。运用决策树进行识别分类,通常按照以下几个步骤进行:(1)导入数据。(2)建立训练集与测试集。在训练集上训练模型并在测试集上进行预测。(3)决策树生成。使用信息增益、基尼系数或增益比率选择最佳属性,使该属性成为决策节点,并将数据集分成较小的子集,同时通过对每个子集递归地重复此过程来开始树的构建。(4)模型预测。运用决策树模型进行预测。(5)模型评估。运用混淆矩阵评价监督式学习模型的精确性,常用的评估指标主要有准确率、召回率、误差率和Kappa系数等。

4.K最近邻

K最 近 邻(K-Nearest Neighbor,KNN)算法是一种基本分类与回归方法。通过给定测试实例,基于某种距离度量方法找出训练集中与测试点最靠近的K个实例点,然后通过这K个最近邻的信息预测测试实例的类别。欧几里德距离和余弦相似性通常作为K最近邻算法的分类器。本文使用欧几里德距离实现大学生创业意愿识别模型的K最近邻分类结果。

三、模型结果及比较

本文使用准确率(accuracy)和Kappa系数作为大学生创业意愿识别模型的结果评价指标。准确率是预测正确的样本与所有样本的比例。Kappa系数是基于混淆矩阵得到的指标,用于衡量分类的效果,即模型的预测结果与实际分类结果是否一致,取值在-1至1之间,值越大表明分类结果越准确。

本文使用R语言函数对逻辑回归、支持向量机、决策树和K最近邻算法的大学生创业意愿识别模型进行估算。该四种算法都将256个样本数据集中的三分之二样本作为训练集,剩余三分之一样本作为测试集。

本文首先对基于有序多分类逻辑回归的大学生创业意愿识别模型进行估算。在对模型进行估计之前,必须对大学生创业意愿识别模型中的8个特征变量进行多重共线性检验,以满足有序多分类逻辑回归模型的假设要求。共线性检验表明:8个特征变量的容忍度均大于0.1,且方差膨胀因子均远远小于10,所以不存在多重共线性。另外需要指出的是,使用有序多分类逻辑回归模型,必须满足比例优势假设,即各特征变量对目标变量中6类别的系数相等。通过比例优势假设的平行线检验表明:卡方值为32.605,P显著性值为0.437(P>0.05),说明比例优势假设成立,可以使用有序逻辑回归进行分析。基于10次重复试验的平均准确率为0.3108,即平均来看,31.08%的测试样本被正确识别;10次重复试验的Kappa系数平均值为0.0833,说明预测结果与实际分类结果相差较大(见表1所示)。

本文随后分别对支持向量机、决策树和K最近邻的大学生创业意愿识别模型进行估计。本文使用R语言中的e1071包估算支持向量机(SVM)算法的大学生创业意愿识别模型。估计结果为:10次重复试验的平均准确率为0.2871;Kappa系数平均值为0.0445。

关于决策树的大学生创业意愿识别模型的估算,主要有ID3、C4.5、C5.0和rpart等算法。C5.0是基于ID3和C4.5实现生成决策树的监督机器学习算法。C5.0算法使用信息熵作为确定最佳分组变量和分割点的标准。rpart算法使用基尼系数作为确定数据拆分的规则,从而实现最佳分组变量和分割点,输出决策树。本文使用rpart算法的估计结果为:平均准确率和Kappa系数平均值分别是0.2941和0.0577。可见,决策树rpart算法的识别精度低于逻辑回归算法。

本文使用R语言的caret包对K最近邻算法的大学生创业意愿识别模型进行估计。估计结果为:10次重复试验的平均准确率是0.3345;Kappa系数平均值为0.0863。

表1 10次重复试验结果

由表1看到,基于四种算法的大学生创业意愿识别模型,通过10次重复试验的结果表明:K最近邻模型的平均准确率最高,支持向量机模型的平均准确率最低。按照平均准确率大小依次排序为:K最近邻(0.3345)>有序多分类逻辑回归(0.3108)>决策树的rpart(0.2941)>SVM(0.2871)。其中,K最近邻与有序多分类逻辑回归在平均准确率上更接近;而决策树的rpart与SVM在平均准确率上更靠近。从准确率的离散程度看,K最近邻的标准差最小(0.0334),表明K最近邻的准确率最稳定。同样由表1看出:K最近邻的Kappa系数平均值最大,表明四种模型的识别结果中K最近邻的分类效果最好,依次排序为:K最近邻(0.0863)>有序多分类逻辑回归(0.0833)>决策树的rpart(0.0577)>SVM(0.0445)。

综上所述,无论从平均准确率,还是Kappa系数平均值看,基于K最近邻算法的大学生创业意愿识别模型在大学生创业意愿识别上,相比逻辑回归、决策树的rpart以及支持向量机等算法具有更好的识别效果。但遗憾的是,本文基于四种算法构建的大学生创业意愿识别模型在识别效果上都不具有较好表现。原因在于:首先,本文是基于256个样本构建的大学生创业意愿识别模型,样本数太少。其次,创业意愿的六个类别在数据分布上不均衡,即有的样本多,有的样本少。第三,在大学生创业意愿识别指标体系的建立过程中,可能遗漏了一些重要指标。以上这些因素都可能影响到模型的识别效果。但本文构建的四种大学生创业意愿识别模型为创业意愿的识别研究提供了方法选择。

四、结语

本文利用2015年中国综合社会调查(CGSS)数据,建立包括个人认知能力、个人特征、创业环境、社会信任和资源禀赋等五个维度的大学生创业意愿识别指标体系,构建逻辑回归、决策树、支持向量机和K最近邻等四种算法的大学生创业意愿识别模型。四种算法模型的结果表明:K最近邻模型的平均准确率最高,支持向量机模型的平均准确率最低。基于10次重复试验的平均准确率排序依次为:K最近邻>有序多分类逻辑回归>决策树的rpart>支持向量机。从Kappa系数平均值看,也得到与平均准确率一致的结论,即K最近邻模型的分类效果最好,支持向量机模型的分类效果最差。

可见,在四种算法构建的大学生创业意愿识别模型中,K最近邻算法具有相对较高的准确性。K最近邻算法是一种非参数模型,虽然不需要对数据做出严格的假设要求,但必须要找到一个最佳的K值。而逻辑回归模型需要特征变量之间满足相互独立和比例优势假设。若目标变量和特征变量之间的关系通过线性模型能很好地拟合,则线性模型的识别效果常优于决策树模型。但决策树作为一种非参数方法,不依赖于概率分布假设,能够拟合复杂的数据集。支持向量机实现多分类的识别方法是将一个多分类问题转化为多个二分类问题,常用的方法是“一对多法”和“一对一法”,但支持向量机的有效性依赖于核函数和核参数的选择。因此,在构建大学生创业意愿识别模型的过程中,应充分考虑各种算法模型的优势和缺陷,根据具体问题和数据特点选择最适合的模型。

猜你喜欢
决策树意愿准确率
健全机制增强农产品合格证开证意愿
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
汪涛:购房意愿走弱是否会拖累房地产销售大跌
信息时代基于决策树对大学生情绪的分类
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
An Analysis on Deep—structure Language Problems in Chinese