基于模糊决策树的成绩评估模型

2018-02-09 07:18蒋玉宇陈宓宓
计算机与数字工程 2018年1期
关键词:结点决策树宿舍

刘 姣 王 兵 蒋玉宇 陈宓宓

(江苏科技大学信息化建设与管理中心 镇江 212003)

1 引言

现代高等教育从精英到大众,从一元到多元,校园载容量急剧扩大,教学资源日益紧张,对校园风气净化、教育信息化建设和学校管理提出了新的挑战,其中学生考核为教学工作的重要内容之一,单纯依靠考试的传统评价体系已无法真实、准确地反映学生能力水平。为此,需要建立更加科学的成绩评价模型,为高校教学质量评估和教育信息化建设提供有效方法。

目前高校成绩评价主要是从课程、作业成绩,性别、年级等自身状况和学习能力等方面分析预测大学生成绩。何楚、宋健、傅亚莉等采用Aprior、遗传神经网络、C4.5等方法以课程和作业成绩分数为基础对成绩进行预测建模[1~2],但是测试分数只是单纯地反映了学生试卷的答题状况,并不能完全反映学生的知识能力水平。邹丽娜、丁茜、李晓莉等采用BP算法和分位数分析了性别、年纪、学习能力等对成绩的影响[3~4],这些算法对性别、年纪、学习能力影响值的量化存在局限性。虽然这些算法可以在一定程度上反映和预测本学期的成绩,但是成绩评价仍然有待提高。

因此,本文构建以学生日常行为为载体的成绩评估预测模型。在对成绩模型属性水平进行划分时,清晰的边界不能正确描述属性水平,因此本文采用模糊理论[5]和决策树[6~7]相结合的算法分析学生上课出勤率、考勤和借阅情况与学生成绩之间的关联关系,以达到预测的目的,为高校的教学工作提供重要的决策依据。

2 基于模糊决策树成绩模型构建

2.1 模糊决策树基本原理

决策树算法特点是在属性值较少的情况下进行高质量、高效率的分类,现阶段的大多数决策树学习算法是一种核心算法的变体,即采用自顶向下的贪婪搜索遍历可能的决策树空[8],决策树常见算法ID3、C4.5、C5.0等[9~11]。

高校学生正值青春年少,心智还不成熟,行为具有偶然性、突发性等特点,隶属度划分具有潜在的不确定性,采用传统的决策树算法生成的决策树对于突变的数据具有不适应性,导致决策树结构繁琐,决策结果不精确。因此本文采用模糊理论和ID3相结合的算法对行为数据进行分析,得到学生成绩评估模型。模糊决策树核心原理主要有以下几点:

1)指标模糊处理:分析属性的选取是衡量决策模型的标志,属性值的量化是构建模型的前提[12],通过设计模糊隶属度函数将指标进行模糊处理。

2)建立模糊矩阵:模糊矩阵的建立是构建模糊决策树的基础。在指标进行模糊化的基础上建立模糊判断矩阵。

3)模糊决策树的建立:在模糊矩阵的基础上得到模糊信息熵,进而计算出模糊信息增益FGain。模糊决策树是在ID3算法上进行了改进,将传统决策树上的信息熵和信息增益均进行模糊化处理,最后通过递归调用得出决策推理。

本文通过改进的模糊决策树设计决策分析模型,模型框架如图1所示。

2.2 数据模糊处理

本文通过问卷调查,专家经验,数理统计和深度访谈等方式[13~14],从影响学生学业成绩的众多行为指标中选取上课出勤率,最早出宿舍时间,最晚出宿舍时间和图书借阅量作为评估学生成绩决策树的节点属性,选取学生期末成绩为决策树的结点属性。设m为属性水平的划分,n为区分属性水平的中心点。属性 Aij(属性i的第j个元素)在水平mk的模糊隶属度矩阵为Ci,矩阵元素为,其中j=1,2,…,p,k=1,2,3,n1,n2分别为区分属性水平的中心点。

图1 决策分析模型框架

由于模型选取的分析属性度量单位和取值排序存在差异,为了克服数值含义的不同本文设计分段和半三角形相结合的隶属度函数,求解属性元素分段水平的隶属度:

当属性取值 x<n2,隶属度(0,0,1)。

由此可得模糊隶属度矩阵Ci为 p*k阶矩阵,其中∈[0,1]。具体表示方式如式(3)所示:

2.3 构建模糊决策树

本文建立的学生成绩评估模型,从根节点开始逐步对样本节点属性进行测试,并沿着相应的分支向下行走直至达到样本结点,此时得到的结点属性即为该样本在节点属性条件下的评估结果,结点属性在水平mk的隶属度值为所取样本的隶属度值之和,即:

由此可得成绩结点在水平m上的熵如公式:

对属性结点G和属性节点Ai进行模糊分割,得到结点G在节点Ai模糊条件熵如公式:

最后得到节点Ai在结点G相应的信息增益如公式:

通过得出的信息增益值,选取FGain(Ai,G)最大的作为决策树的根节点,然后对每一颗子树进行递归调用,逐渐定位树的分枝节点。最后得到成绩预测模糊决策树。

3 实例分析

随机选取江科大50名学生数据如表1所示,通过数据清洗,筛选和转换,选取学生一学期上课出勤率,最早出宿舍时间(日均),最晚回宿舍时间(日均),图书借阅量(学期总合)为决策树节点属性,学生期末成绩为决策树结点属性(注:如果未请假夜不归宿者另做处理)。

3.1 实例建模

表1 学生行为数据表

通过同教务专家、后勤集团的调研选取模型属性中心点的取值,如表2所示,其中n1,n2分别区分属性水平的中间点,为属性水平(时间在数值上越小越接近m1水平,在计算模糊隶属度时取反)。

表2 属性中心点和水平值选取

通过2.2小节设计的数据模糊化方法,得到学生成绩(G)和各评估属性(Ai)的模糊隶属度矩阵,其中i=1,2,3,4:

通过信息熵和信息增益的计算方法得到各属性的模糊信息增益:

通过上述计算,选取信息模糊增益最大的属性(最早出宿舍时间)为模糊决策树的根节点,由此可将样本集分成3部分,然后再对树的分枝按照上述方法进行递归运算,得出以50个样本训练集为基础的模糊决策树模型如图2所示。

图2 一卡通决策分析树

其中决策树中标识序号为基于行为的成绩评估分类,共计13类,经计算序号为①、③、⑦和○11的枝干评估结果为无,由此可得该行为分枝出现的概率极小,对此进行模糊截枝处理,处理后行为分枝评估结果如表3所示。

3.2 模型验证

随机选取200个测试样本集对所建模型9类分枝的正确性进行验证,学生样本采集标准参照表1,得到根据学生行为状况预测成绩结果的正确率如图3所示。

由图3可知,上课出勤率高且最晚回宿舍时间为中等的学生学业水平94%为优秀,上课出勤率为中等且最早出宿舍时间为早的学生学业水平84%是优秀。上课出勤率为中等、最早出宿舍时间为中等且最晚回宿舍时间为早的学生学业水平87%是一般,上课出勤率为中等、最早出宿舍时间为中等且最晚回宿舍时间为中等的学生学业水平90%是优秀等。即针对决策树○13中的每一个分枝均能预测成绩信息。

表3 属性中心点和水平值选取

4 结语

以高校学生校园日常行为为基础,采用模糊理论设计隶属度函数,结合改进的决策树算法深度挖掘学生日常行为与能力、水平之间的关联关系,建立了模糊决策树。实验证明该决策树能够正确、高效、全面地对学生成绩进行分析预测,为高校的信息化建设和教学管理决策工作提供重要的依据。

猜你喜欢
结点决策树宿舍
LEACH 算法应用于矿井无线通信的路由算法研究
热得快炸了
基于八数码问题的搜索算法的研究
信息时代基于决策树对大学生情绪的分类
简述一种基于C4.5的随机决策树集成分类算法设计
学校到底是谁的
决策树学习的剪枝方法
热得快炸了
如何帮助大一新生建立良好的宿舍关系
决策树在施工项目管理中的应用