摘要:分类算法是数据挖掘技术中非常重要的一个研究领域,预测离散数据的分类标号。主要应用于客户分类、垃圾邮件处理、信用卡分级等。该文主要研究分类中的决策树算法,并应用于我校学生招生录取数据,采用Python语言建立分类模型,并验证了该模型的准确率。
关键词:决策树;Python;招生数据
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)29-0016-02
1 决策树理论介绍
决策树算法是一种典型的分类算法,它的分类过程是基于样本数据建立一棵倒立的树的过程。从树的根节点到叶节点的路径实际就是决策的过程,确定数据样本所属类标号的过程,它是一个递归地从上到下确定分支节点和叶节点的过程﹒叶节点存放的是数据样本所属的类标号;分支节点根据数据样本的某个合适的属性值进行数据集划分[1]。
2数据介绍
数据集为湖南城市学院从2013年到2016年的招生数据,部分数据如图1所示,包括考生的考生号、姓名、性别、录取专业、文化成绩、投档成绩、省份。根据考生的性别、录取专业、文化成绩、投档成绩来预测考生所来自的省份。
根据各个分类算法及数据集本身的特点,采用决策树算法建立分类模型。
3 建立分类模型
建立挖掘模型首先要对数据进行预处理,数据预处理主要包括数据清洗、数据集成、数据转换、属性选择几个步骤。
3.1数据清洗
3.1.1缺失值的处理
缺失值的處理方法主要由三种,包括删除缺失值记录;数据插补;有些模型允许出现一定量的空缺值,可以不处理。
确定文件中是否有缺失值以及缺失值的属性和缺失率的个数和缺失率。
通过以上代码判断是否存在缺失值。
3.1.2异常值的处理
异常值的处理主要包含有,删除含有异常值得记录;与缺失值一样的处理方法;平均值修正;不处理。
采用以上代码过滤异常数据,把文化成绩在700以上,0分以下的数据都过滤掉。
3.2数据集成
采用以上代码对数据文件进行合并。
3.3数据转换
在该数据集中,把性别值男和女分别转换为1和0,并对录取专业进行数据转换,分别一一对应为1到59范围内的整数。其主要代码为。
4结论
基于Python语言,对我校招生数据建立决策树分类模型,通过考生的录取年份、性别、录取专业、文化成绩、投档成绩预测考生所属省份,其准确率非常高。该预测模型对我校招生工作,学生的分布有一定的帮助。
参考文献:
[1]黄雪华. 决策树和贝叶斯分类算法在学生专业录取数据中的应用研究[J]. 湖南城市学院学报自科版, 2017, 26(4): 63-65.
【通联编辑:王力】