基于随机森林的大学英语四级通过率预测模型

2021-06-25 11:10袁乐泉朱亚辉
电子测试 2021年4期
关键词:通过率决策树分类器

袁乐泉,朱亚辉

(陕西学前师范学院数学与统计学院,陕西西安,710100)

0 引言

随着国际化进程的不断推进,英语能力已经成为衡量高校人才能力的重要指标之一,大学英语四级成绩也成为众多公司招聘的门槛之一。通过预测大学英语四级成绩,既可以对学生英语四级成绩进行合理化评估,也可以有针对性地向成绩高危的学生进行成绩预警,帮助学生顺利通过大学英语四级考试。常用的数据挖掘模型包括决策树[1]、贝叶斯网络和支持向量机[2]等,虽然能够对大学英语四级成绩进行预测,但它们的预测准确率不高。

随机森林模型具有泛化能力较强、对输入数据误差的不敏感性、具备分析输入特征重要度功能等优点,具有较强的通用性。近年来,许多学者[3,4]应用随机森林模型进行预测,并取得了较高的预测准确率。因此,本项目利用随机森林模型对某学院大学生英语四级通过率进行预测,旨在预测和识别处于成绩高危的学生,督促其认真学习英语知识,提高大学英语四级成绩。

1 随机森林算法简述

随机森林是由LeoBreiman[5]提出的一种经典的机器学习算法,它是由弱模型决策回归树(Classification And Regression Tree, CART)结合装袋算法(Bagging)和随机特征子空间(Random Subspace Method, RSM)构成。CART既能用于回归也能用于分类,相应的随机森林也可用于分类和回归分析,其基本结构如图1所示[1]。

图1 随机森林模型基本结构

构建随机森林的主要步骤大致如下:

(1)boostrap方法随机抽样,每个样本均构建一棵决策树;

(2)每棵决策树持续分裂,直到节点的所有训练样例都属于同一类;

(3)构建好的多棵决策树组成随机森林,用随机森林分类器对待测试数据进行分类。

2 大学英语四级通过率预测模型

根据随机森林基本原理,采用随机森林预测大学英语四级通过率的模型构建基本流程为:

Step 1:特征向量的建立

大学英语四级通过率主要受到大学生基本信息(性别、民族、专业)、高考英语成绩、大学英语成绩(共计4学期)、大学生课外英语使用情况(英语社交参与、英语APP使用、英文期刊订阅、英语学习资料件数)等因素的影响。例如:1)女生较男生更适合语言的学习,女生英语四级的通过率优于男生[6]。表1给出了某院校男、女生英语四级的通过率,从表1可以看出,女生英语四级通过率远高于男生;汉族学生英语四级通过率优于少数民族;文科专业学生英语四级通过率优于理科专业学生;2)从高考成绩和大学英语成绩能够直接反映学生实际的英语水平;3)除了开设英语课以外,还需要在课外通过其他方式进行学习,例如英语APP使用、是否订阅英语期刊等。

表1 男女生英语四级通过率[7]

Step 2:采用CART决策树作为随机森林中的基分类器。

由k个分类器集合而成的随机森林模型可以表示为:

其中,T是输入特征集,hq(T)代表基分类器,每个基分类器是一棵CART决策树。

基于随机森林算法的大学英语四级通过率预测方法原理如下:

(1)设置随机森林模型中基分类器的个数k,基于boostrap抽样方法,随机且有放回地从含有n个训练样本的数据集中抽取n个样本作为一个子样本集,重复k次上述抽样过程,得到k个子样本集。

(2)利用CART算法为每个boostrap子样本集构建决策树。基于CART算法的决策树使用基尼指数作为特征选择与分裂的衡量标准。

(3)将k棵CART决策树组成随机森林,每个样本包含9个特征,设定一个常数m=2,构建每棵决策树时,随机地从9个特征维度中抽取2个特征作为一个特征子集,决策树每次从特征子集中选择最优分裂特征,按照基尼指数最小的原则进行分裂。

(4)k棵CART决策树按照分类结果进行投票,投票数最多的类别作为随机森林模型的分类结果。

3 实证分析

本研究从某院数据库中提取1000位本科生的性别(女赋值为1,男赋值为0)、民族(汉族赋值为1,少数民族赋值为0)、专业(文科赋值为1,理科赋值为0)、高考英语成绩、4个学期的大学英语成绩、大学生课外英语使用情况统计数据,将它们作为大学英语四级通过率预测模型的输入变量;大学英语四级通过类别作为分类变量,其中通过类别标记为1,没有通过类别标记为0。

基于随机森林算法的大学英语四级通过率预测模型构建步骤如下:

Step1:输入包含特征的样本数据集。输入经过处理的1000个样本,设定输入变量与分类变量。随机选择70%的专利样本作为训练集,30%作为测试集,用于模型预测效果的检验。

Step 2:根据大学英语四级通过率预测模型的输入变量个数和分类变量,设置模型参数如下:k= 2 ,M= 9 ,m=2,并根据基尼指数最小的规则进行决策树的分裂,知道直到所有特征全部分裂结束。

Step3 :所有的CART决策树按照分类结果进行投票,投票数较多的类别作为随机森林模型的分类结果。

为了验证基于随机森林算法的大学英语四级通过率预测模型的效果,在测试集上计算分类结果的预测准确率、召回率、命中率,结果如下:预测准确率=90%,召回率=89.5%,命中率=93.3%。结果表明,基于随机森林算法的大学英语四级通过率预测模型具有较好地分类效果,预测结果较为准确。

4 结束语

本文将随机森林模型应用到大学英语四级通过率预测,以学生基本情况(性别、民族、专业)、高考英语成绩、大学英语成绩(共计4学期)、大学生课外英语使用统计数据为输入变量,以通过和未通过作为分类变量,模型预测准确率达到90%,召回率达到89.5%,命中率为93.3%,表明基于随机森林的大学英语四级通过率预测模型是有效的。

猜你喜欢
通过率决策树分类器
瓦里安VitalBeam直线加速器Portal Dosimetry验证通过率低故障维修
一种针对不均衡数据集的SVM决策树算法
基于高职英语教育效果市场化探索研究——以英语AB通过率为例
决策树和随机森林方法在管理决策中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
提高CLEN通过率的策略与成效
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别