苗维诚
(蚌埠医学院 数理教研室,安徽 蚌埠 233030)
C4.5算法在提高物理实验教学效果中的应用
苗维诚
(蚌埠医学院 数理教研室,安徽 蚌埠 233030)
针对医用物理学实验课的教学现状进行了问卷调查,应用决策树C4.5算法对问卷的数据进行分析,发现影响教学效果的关键因素、建立决策树模型,为实验教学的改革提供思路和参考.
物理实验;问卷调查;数据挖掘;教学改革
蚌埠医学院开设医用物理学实验课程,每年实验课时数1000余学时.为了切实提高学生的实验水平和科学素养,将C4.5算法应用在提高医用物理学实验教学效果的研究中,为教学改革提供参考[1].
设D是类标记元组训练集,类标号属性具有m个不同值,m 个不同类 C(i=1,2,…,m),CiD 是 D 中 C 类的元组的集合,|D|和|CiD|分别是D和CD中的元组个数.对D中的元组分类所需的期望信息记为Info(D),也叫作D的熵,公式为:
假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类,还需要计算D关于属性A的熵EntropyA(D).
原来的信息需求与新需求之间的差定义为信息增益Gain(A),即:
将D划分成对应于属性A测试的v个输出的v个划分产生的信息,这个值记为SplitInfoA(D),公式为:
信息增益率(GainRatio)是C4.5算法的分枝准则,它选择具有最高信息增益的属性来作为节点N的分裂属性[2].公式为:
2.1.1 问卷调查与分析.数据挖掘的原始数据来自《医用物理学教学效果调查问卷》,问卷调查的对象为2016级临床医学专业的学生,共收回有效问卷296份,调查结果具有较强的代表性.(1)Q1对物理实验是否感兴趣?选择“感兴趣”占30%;“一般”占42%;“不感兴趣”占28%.Q2实验课的学习目标是?选择“掌握实验技能,提高综合素质”占25%;“应付课程考试”占60%;“没有目标”占15%.由Q1、Q2看到,对物理实验课不反感的学生占到了70%以上,但是有明确学习目标的学生只有25%,大多数学生对于为什么要学习物理实验并不清楚.由此把“学习目的”作为一个关键因素.(2)Q3上实验课前您预习吗?选择“经常预习”占42%;“偶尔预习”占37%;“不预习”占21%.Q4若预习,所花时间为?选择“10分钟之内”占22%;“20分钟左右”占42%;“30分钟以上”占36%.由Q3、Q4看到,大约40%的学生有按时预习的习惯,进一步调研发现,每次预习时间都在20分钟以上的学生大约只占总人数的30%.这里把经常预习且时间大于20分钟的学生归为“认真预习”,把“认真预习”作为一个关键因素.(3)Q5您认为在实验课的学习过程中,以下哪个因素对您帮助最大?选择“实验教材”占16%;“教师的讲解”占75%;“同学的帮助”占9%.由Q5看到,老师对学生的学习效果起到了决定因素.根据调查问卷和学校对教师教学评价中学生评价的数据,把“教学评价”作为一个关键因素.(4)Q6您在实验过程中,有没有遇到过问题?选择“经常遇到”占76%;“偶然遇到”占18%;“没有遇到”占6%.Q7若实验过程中出现问题,您的做法是?选择“独立解决”占37%;“同学帮助”占27%;“立即向老师报告”占36%.由Q6、Q7看到,在实验过程中遇到问题,只有37%的学生有独立解决问题的意识,大部分学生面对困难总想找别人解决,自己的思维能力、实践能力得不到锻炼.这里把“实验操作”作为一个关键因素.
2.1.2 数据预处理.通过分析问卷,已经提取出C4.5算法的四个决策属性:“学习目的”“认真预习”“教学评价”和“实验操作”.我们把学习目的分为“明确”和“不明确”两类;认真预习分为“是”和“否”;教学评价分为“优”和“一般”;实验操作分为“好”和“不好”.根据调查问卷、学生实验报告和期末成绩,三者的数据结合起来分析,得出实验课教学效果的情况,把教学效果分为“好”和“一般”.对数据进行处理共获得296条有效数据,将数据分为两部分:训练数据集220条,测试数据集76条.
首先计算样本分类所需的期望信息量,即熵值.训练数据集220条数据,教学效果好的有66条,一般的有154条;
由公式①得:
然后计算每一个决策属性的信息增益率.
(1)属性“学习目的”,由训练集得,学习目的=“明确”有55条,其中50条教学效果好,5条教学效果不好.
学习目的=“不明确”有165条,其中16条教学效果好,149条教学效果不好;
由公式②计算其熵值为:
由公式③计算其信息增益为:
由公式④计算分裂信息:
最终公式⑤计算:
(2)属性“认真预习”,认真预习=“是”有72条,其中46条教学效果好,26条教学效果不好;认真预习=“否”有148条,其中20条教学效果好,128条教学效果不好.
(3)属性“教学评价”,教学评价=“优”有93条,其中51条教学效果好,42条教学效果不好;教学评价=“一般”有127条,其中15条教学效果好,112条教学效果不好.
(4)属性“实验操作”,实验操作=“好”有61条,其中49条教学效果好,12条教学效果不好;实验操作=“不好”有159条,其中17条教学效果好,142条教学效果不好.
由上面计算出的每个决策属性信息增益率的值,来确定决策树的根结点,生成决策树,再对决策树进行剪枝.剪枝采用自下而上的方式,最后生成一棵教学效果决策树[5].
从决策树可以得到分类规则如下:
IF学习目的=“明确”AND实验操作=“好”THEN教学效果=“好”;IF学习目的=“明确”AND实验操作=“不好”THEN教学效果=“一般”;IF学习目的=“不明确”AND实验操作=“好”AND认真预习=“是”THEN教学效果=“好”;IF学习目的=“不明确”AND实验操作=“好”AND认真预习=“否”AND教学评价=“优”THEN教学效果=“好”;IF学习目的=“不明确”AND实验操作=“好”AND认真预习=“否”AND教学评价=“一般”THEN教学效果=“一般”.
IF学习目的=“不明确”AND实验操作=“不好”AND认真预习=“是”AND教学评价=“优”THEN教学效果=“好”;IF学习目的=“不明确”AND实验操作=“不好”AND认真预习=“是”AND教学评价=“一般”THEN教学效果=“一般”;IF学习目的=“不明确”AND实验操作=“不好”AND认真预习=“否”THEN教学效果=“一般”.
由以上规则可以看出,要提高实验课的教学效果,首先要使学生明确实验课的学习目的,其次要提高学生实验操作的主动性,激发学生发现问题、解决问题的能力,第三要使学生认真预习,最后要提高教师的教学水平.
〔1〕吕道文,魏杰,张拥军.我院医学物理学实验现状的调查与思考[J].中国医学物理学杂志,2006,23(1):30,79-80.
〔2〕吴信东,库玛尔.数据挖掘十大算法[M].北京:清华大学出版社,2013.
〔3〕罗玉梅,白小东,何显儒,周松,赵春霞.专业综合实验教学现状问卷调查分析[J].高教学刊,2017(3):33-35.
〔4〕吴陈,林炎钟.C4.5算法在高校老师评价中的应用研究[J].信息技术,2010(1):17-19.
〔5〕王黎黎,刘学军.决策树C4.5算法在成绩分析中的应用[J].海南工程学院学报,2014,26(4):69-73.
G642.0
A
1673-260X(2017)12-0014-02
2017-09-13
校级重大教学改革项目(2016jyxm07)