数据挖掘算法对于提高实验报告质量的作用探讨

2018-01-02 06:30苗维诚
赤峰学院学报·自然科学版 2017年24期
关键词:实验报告决策树数据处理

苗维诚

(蚌埠医学院 数理教研室,安徽 蚌埠 233030)

数据挖掘算法对于提高实验报告质量的作用探讨

苗维诚

(蚌埠医学院 数理教研室,安徽 蚌埠 233030)

为提高我校医用物理实验报告的质量,本文运用数据挖掘决策树C4.5算法对实验报告进行处理分析,找出影响实验报告质量的关键因素,建立决策树模型,提出改善的办法.

实验报告;数据挖掘;决策树算法

1 引言

蚌埠医学院数理教研室常年开设医用物理学实验课.实验报告是实验教学的一个重要环节,书写实验报告能锻炼学生的分析、写作、总结能力,培养学生的实验素质和科研能力,也是教师了解学生掌握知识的状况和进行成绩评定的依据[1].为提高物理实验报告质量,对学生的实验报告进行分析,运用数据挖掘决策树C4.5算法找出影响实验报告质量的关键因素.

2 数据挖掘C4.5算法介绍

2.1 定义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.决策树C4.5算法是数据挖掘领域最具影响力的算法之一,在给定数据集合上运行C4.5算法可以得到一个从属性值到类别的映射,进而可以用该映射去分类新的未知实例,最终形成决策树[2].

2.2 公式

C4.5算法构造决策树是以信息增益率作为分枝准则的,信息增益率表示分枝产生的有用信息的比率,选择具有最大信息增益率的关键因素作为树的根结点.

为了方便介绍C4.5算法的公式,先作如下假设:D表示一个训练集Di,(i=1,2,…,m)表示D中m个不同类,那么对D中的元组分类所需的期望信息记为Info(D),也叫做D的熵,公式为:

假定按照属性A将训练集D划分成n个不同的类,需要计算D关于属性A的熵EntropyA(D).

计算训练集D关于属性A的信息增益Gain(A)的公式为:

分裂信息SplitInfoA(D)表示按照属性A划分训练集D的广度和均匀性,公式为:

信息增益率(GainRatio)的计算公式为:

3 C4.5算法在提高实验报告质量中的应用

3.1 数据的获取

C4.5算法的数据来源于2016级临床专业的学生,选取了476份实验报告.为了方便数据的获取,对实验报告的四个方面分别进行打分,每项的总分都是10分,最后再给实验报告一个总分,满分100分.这四个方面为:(1)实验报告的格式内容.这里存在的问题主要是实验报告内容不完整,格式不规范,字迹潦草,抄袭书本原话,内容雷同.(2)实验数据的处理.主要问题是在数据处理上存在简单错误,比如计算错误,单位错误,图表格式不规范,还存在数据抄袭的现象.(3)实验报告的讨论总结.主要问题是学生的实验总结很简单,没有深度和新意,没有去查阅文献,缺少必要的讨论.(4)实验报告的反馈完善.问题主要是学生拿到批改后的实验报告不能及时修改,存在拖延现象,有的修改后仍然存在错误.

3.2 数据的预处理

通过对实验报告四个方面的打分,我们提取出影响实验报告质量的四个关键因素,分别为:“格式内容”“数据处理”“讨论总结”“反馈完善”.把这四项得分大于等于8分的记为“优”;小于8分的记为“一般”,于是我们就把“格式内容”“数据处理”“讨论总结”“反馈完善”根据得分都分为“优”和“一般”两类.根据实验报告的总得分,把大于等于80分的记为“优”;小于80分的记为“一般”,这样就把实验报告的质量也分为“优”和“一般”两类.对数据进行处理获得476条数据,把数据分为两类:训练集360条数据,测试集116条数据.

3.3 数据的计算分析

首先计算样本分类所需的期望信息量,即熵值.训练数据集360条数据,实验报告质量优的有112条,一般的有248条;

由公式①得:

然后计算每一个关键因素的信息增益率:

(1)属性“格式内容”,由训练集得:格式内容 =“优”有156条,其中84条实验报告质量优,72条质量一般;

格式内容=“一般”有204条,其中28条实验报告质量优,176条质量一般;

由公式②计算其熵值为:

由公式③计算其信息增益为:

Gain(格式内容)=I(S1,S2)-E(格式内容)=0.13603

由公式④计算分裂信息:

(2)属性“数据处理”,数据处理=“优”有98条,其中79条实验报告质量优,19条质量一般;数据处理=“一般”有262条,其中33条实验报告质量优,229条质量一般;

最终公式⑤计算:

(4)属性“反馈完善”,反馈完善 =“优”有 117条,其中75条实验报告质量优,42条质量一般;反馈完善=“一般”有243条,其中37条实验报告质量优,206条质量一般;

(3)属性“讨论总结”,讨论总结=“优”有93条,其中85条实验报告质量优,8条质量一般;讨论总结=“一般”有267条,其中27条实验报告质量优,240条质量一般.

3.4 构造决策树

由上面计算出的每个关键因素信息增益率的值,来确定决策树的根结点,生成决策树,再对决策树进行剪枝.剪枝采用自下而上的方式,最后生成一棵实验报告质量决策树.用括号表示实验报告质量决策树为:(讨论总结(数据处理(质量优,反馈完善(质量优,质量一般)),数据处理(反馈完善(质量优,格式内容(质量优,质量一般)),反馈完善(格式内容(质量优,质量一般),质量一般)).

3.5 分类规则

IF讨论总结=“优”AND数据处理=“优”THEN实验报告质量=“优”;IF讨论总结=“优”AND数据处理=“一般”AND反馈完善=“优”THEN实验报告质量=“优”;IF讨论总结=“优”AND数据处理=“一般”AND反馈完善=“一般”THEN实验报告质量=“一般”;IF讨论总结=“一般”AND数据处理=“优”AND反馈完善=“优”THEN实验报告质量=“优”;IF讨论总结=“一般”AND数据处理=“优”AND反馈完善=“一般”AND格式内容=“优”THEN实验报告质量=“优”;IF讨论总结=“一般”AND数据处理=“优”AND反馈完善=“一般”AND格式内容=“一般”THEN实验报告质量=“一般”;IF 讨论总结 =“一般”AND 数据处理 =“一般”AND反馈完善=“优”AND格式内容=“优”THEN实验报告质量=“优”;IF 讨论总结 =“一般”AND 数据处理 =“一般”AND 反馈完善=“优”AND格式内容=“一般”THEN实验报告质量=“一般”;IF 讨论总结 =“一般”AND 数据处理 =“一般”AND反馈完善=“一般”THEN实验报告质量=“一般”.

4 改善方法

由以上规则可以看出,我校医用物理学实验报告的质量主要受到格式内容、数据处理、讨论总结、反馈完善四个因素的影响,其中,影响力由大到小依次是讨论总结,数据处理,反馈完善和格式内容.所以要提高实验报告的质量,可以要求学生把实验报告分为三个部分书写:(1)课前部分,上课前学生应该认真预习实验内容,用自己的语言把实验的目的、原理、步骤等简明扼要的写在实验报告上,杜绝照抄课本,有不明白的地方应在实验报告上做好标记.(2)课堂部分,学生做实验的过程中需把实验得到的原始数据记录在实验报告上,并完善实验报告课前部分的内容.(3)课后部分,实验课结束后,学生应处理实验原始数据得到实验结果,并对实验结果进行分析讨论,讨论包括对实验的理解,实验中遇到各种问题的解决方法,实验数据的偏差处理,对整个实验的总结等.教师批改完实验报告反馈给学生,学生要对实验报告中的不足和错误及时进行完善和修改.

5 总结

实验报告的改革是一个循序渐进的过程,运用决策树C4.5算法对医用物理实验报告进行分析,学生实验报告写的多,想的少,缺乏自主性和创造性.实验报告的重点应该是实验结果的处理分析和讨论总结,只有这样才能使学生把理论和实践相互转化,真正起到大学实验课的作用.

〔1〕吕道文.《医学物理实验》的课程建设与教学改革研究[J].中国医学物理学杂志,2009,26(6):1570-1572.

〔2〕袁方.实用数据挖掘[M].北京:电子工业出版社,2010.

〔3〕吴信东,库玛尔.数据挖掘十大算法[M].北京:清华大学出版社,2013.

〔4〕张学文,司佑全.《电子技术》实验报告存在的问题及对策[J].湖北师范学院学报,2015,35(3):97-101.

〔5〕蒋瑾.写好实验报告的思考[J].吉林化工学院学报,2013,30(4):56-58.

G642.423

A

1673-260X(2017)12-0201-02

2017-10-25

校级重大教学改革项目(2016jyxm07)

猜你喜欢
实验报告决策树数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
一种针对不均衡数据集的SVM决策树算法
实验报告
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
生物化学检验实验报告书写综述
Matlab在密立根油滴实验数据处理中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用