苗维诚
(蚌埠医学院 数理教研室,安徽 蚌埠 233030)
数据挖掘算法对于提高实验报告质量的作用探讨
苗维诚
(蚌埠医学院 数理教研室,安徽 蚌埠 233030)
为提高我校医用物理实验报告的质量,本文运用数据挖掘决策树C4.5算法对实验报告进行处理分析,找出影响实验报告质量的关键因素,建立决策树模型,提出改善的办法.
实验报告;数据挖掘;决策树算法
蚌埠医学院数理教研室常年开设医用物理学实验课.实验报告是实验教学的一个重要环节,书写实验报告能锻炼学生的分析、写作、总结能力,培养学生的实验素质和科研能力,也是教师了解学生掌握知识的状况和进行成绩评定的依据[1].为提高物理实验报告质量,对学生的实验报告进行分析,运用数据挖掘决策树C4.5算法找出影响实验报告质量的关键因素.
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.决策树C4.5算法是数据挖掘领域最具影响力的算法之一,在给定数据集合上运行C4.5算法可以得到一个从属性值到类别的映射,进而可以用该映射去分类新的未知实例,最终形成决策树[2].
C4.5算法构造决策树是以信息增益率作为分枝准则的,信息增益率表示分枝产生的有用信息的比率,选择具有最大信息增益率的关键因素作为树的根结点.
为了方便介绍C4.5算法的公式,先作如下假设:D表示一个训练集Di,(i=1,2,…,m)表示D中m个不同类,那么对D中的元组分类所需的期望信息记为Info(D),也叫做D的熵,公式为:
假定按照属性A将训练集D划分成n个不同的类,需要计算D关于属性A的熵EntropyA(D).
计算训练集D关于属性A的信息增益Gain(A)的公式为:
分裂信息SplitInfoA(D)表示按照属性A划分训练集D的广度和均匀性,公式为:
信息增益率(GainRatio)的计算公式为:
C4.5算法的数据来源于2016级临床专业的学生,选取了476份实验报告.为了方便数据的获取,对实验报告的四个方面分别进行打分,每项的总分都是10分,最后再给实验报告一个总分,满分100分.这四个方面为:(1)实验报告的格式内容.这里存在的问题主要是实验报告内容不完整,格式不规范,字迹潦草,抄袭书本原话,内容雷同.(2)实验数据的处理.主要问题是在数据处理上存在简单错误,比如计算错误,单位错误,图表格式不规范,还存在数据抄袭的现象.(3)实验报告的讨论总结.主要问题是学生的实验总结很简单,没有深度和新意,没有去查阅文献,缺少必要的讨论.(4)实验报告的反馈完善.问题主要是学生拿到批改后的实验报告不能及时修改,存在拖延现象,有的修改后仍然存在错误.
通过对实验报告四个方面的打分,我们提取出影响实验报告质量的四个关键因素,分别为:“格式内容”“数据处理”“讨论总结”“反馈完善”.把这四项得分大于等于8分的记为“优”;小于8分的记为“一般”,于是我们就把“格式内容”“数据处理”“讨论总结”“反馈完善”根据得分都分为“优”和“一般”两类.根据实验报告的总得分,把大于等于80分的记为“优”;小于80分的记为“一般”,这样就把实验报告的质量也分为“优”和“一般”两类.对数据进行处理获得476条数据,把数据分为两类:训练集360条数据,测试集116条数据.
首先计算样本分类所需的期望信息量,即熵值.训练数据集360条数据,实验报告质量优的有112条,一般的有248条;
由公式①得:
然后计算每一个关键因素的信息增益率:
(1)属性“格式内容”,由训练集得:格式内容 =“优”有156条,其中84条实验报告质量优,72条质量一般;
格式内容=“一般”有204条,其中28条实验报告质量优,176条质量一般;
由公式②计算其熵值为:
由公式③计算其信息增益为:
Gain(格式内容)=I(S1,S2)-E(格式内容)=0.13603
由公式④计算分裂信息:
(2)属性“数据处理”,数据处理=“优”有98条,其中79条实验报告质量优,19条质量一般;数据处理=“一般”有262条,其中33条实验报告质量优,229条质量一般;
最终公式⑤计算:
(4)属性“反馈完善”,反馈完善 =“优”有 117条,其中75条实验报告质量优,42条质量一般;反馈完善=“一般”有243条,其中37条实验报告质量优,206条质量一般;
(3)属性“讨论总结”,讨论总结=“优”有93条,其中85条实验报告质量优,8条质量一般;讨论总结=“一般”有267条,其中27条实验报告质量优,240条质量一般.
由上面计算出的每个关键因素信息增益率的值,来确定决策树的根结点,生成决策树,再对决策树进行剪枝.剪枝采用自下而上的方式,最后生成一棵实验报告质量决策树.用括号表示实验报告质量决策树为:(讨论总结(数据处理(质量优,反馈完善(质量优,质量一般)),数据处理(反馈完善(质量优,格式内容(质量优,质量一般)),反馈完善(格式内容(质量优,质量一般),质量一般)).
IF讨论总结=“优”AND数据处理=“优”THEN实验报告质量=“优”;IF讨论总结=“优”AND数据处理=“一般”AND反馈完善=“优”THEN实验报告质量=“优”;IF讨论总结=“优”AND数据处理=“一般”AND反馈完善=“一般”THEN实验报告质量=“一般”;IF讨论总结=“一般”AND数据处理=“优”AND反馈完善=“优”THEN实验报告质量=“优”;IF讨论总结=“一般”AND数据处理=“优”AND反馈完善=“一般”AND格式内容=“优”THEN实验报告质量=“优”;IF讨论总结=“一般”AND数据处理=“优”AND反馈完善=“一般”AND格式内容=“一般”THEN实验报告质量=“一般”;IF 讨论总结 =“一般”AND 数据处理 =“一般”AND反馈完善=“优”AND格式内容=“优”THEN实验报告质量=“优”;IF 讨论总结 =“一般”AND 数据处理 =“一般”AND 反馈完善=“优”AND格式内容=“一般”THEN实验报告质量=“一般”;IF 讨论总结 =“一般”AND 数据处理 =“一般”AND反馈完善=“一般”THEN实验报告质量=“一般”.
由以上规则可以看出,我校医用物理学实验报告的质量主要受到格式内容、数据处理、讨论总结、反馈完善四个因素的影响,其中,影响力由大到小依次是讨论总结,数据处理,反馈完善和格式内容.所以要提高实验报告的质量,可以要求学生把实验报告分为三个部分书写:(1)课前部分,上课前学生应该认真预习实验内容,用自己的语言把实验的目的、原理、步骤等简明扼要的写在实验报告上,杜绝照抄课本,有不明白的地方应在实验报告上做好标记.(2)课堂部分,学生做实验的过程中需把实验得到的原始数据记录在实验报告上,并完善实验报告课前部分的内容.(3)课后部分,实验课结束后,学生应处理实验原始数据得到实验结果,并对实验结果进行分析讨论,讨论包括对实验的理解,实验中遇到各种问题的解决方法,实验数据的偏差处理,对整个实验的总结等.教师批改完实验报告反馈给学生,学生要对实验报告中的不足和错误及时进行完善和修改.
实验报告的改革是一个循序渐进的过程,运用决策树C4.5算法对医用物理实验报告进行分析,学生实验报告写的多,想的少,缺乏自主性和创造性.实验报告的重点应该是实验结果的处理分析和讨论总结,只有这样才能使学生把理论和实践相互转化,真正起到大学实验课的作用.
〔1〕吕道文.《医学物理实验》的课程建设与教学改革研究[J].中国医学物理学杂志,2009,26(6):1570-1572.
〔2〕袁方.实用数据挖掘[M].北京:电子工业出版社,2010.
〔3〕吴信东,库玛尔.数据挖掘十大算法[M].北京:清华大学出版社,2013.
〔4〕张学文,司佑全.《电子技术》实验报告存在的问题及对策[J].湖北师范学院学报,2015,35(3):97-101.
〔5〕蒋瑾.写好实验报告的思考[J].吉林化工学院学报,2013,30(4):56-58.
G642.423
A
1673-260X(2017)12-0201-02
2017-10-25
校级重大教学改革项目(2016jyxm07)