侯海凤
(肇庆市端州中学,广东 肇庆 526040)
由于高中阶段的高考是目前中国社会最重要的考试,因此社会、学校、家庭甚至高中生本人,都非常重视高中阶段的学习。研究如何提高中学生的学习成绩,以及影响中学生学习成绩的学习习惯等方面的问题,受到国内外学者的重视,并且已开展了较深入的研究。文献[1]指出长期的学习和升学压力,导致很多高中生经常出现精神萎靡不振、身体疲惫不堪的现象。文献[2]指出好的学习习惯,犹如物理学中的惯性力量,让学生可以坚持学习下去。文献[3]研究发现,学生在完成任务时的动机很大程度上受他们自我观念的影响。本文中,笔者将运用关联分析法,研究中学生课前学习习惯、课堂学习习惯、课后学习习惯以及课外爱好等因素之间的关联性,寻找影响学生学习成绩的主要因素。
1993年Agrawal[4]等人提出的关联分析法,可以发现存在于大型数据集中的数据项之间的关联性,其发现模式通常用关联规则或频繁项集的形式表示。关联规则的一般形式是X→Y(规则支持度,规则置信度),其中X称为规则的前项;Y称为规则的后项。依据样本数据可以得到很多关联规则,但要获得有价值的关联规则,则需要采用支持度和置信度等测度指标。
支持度(Support)表示项目X和项目Y同时出现的概率,其数学表达式如公式(1)所示。
置信度(Confidence)表示包含项目X的事务中同时包含项目Y的概率,其数学表达式如公式(2)所示。
简单关联规则技术的核心算法Apriori算法[5-9]包含两部分:第一,产生频繁项集;第二,依据频繁项集产生关联规则。
频繁项集是指包含项目A的项集C,如果其支持度大于等于用户指定的最小支持度,即
则称A(A)为频繁集。包含一个项目的频繁项集称为1-项集,记为L1;包含k个项目的频繁项集称为k-项集,记为Lk。
Apriori寻找频繁项集的过程是一个不断迭代的过程,每次迭代都包含两个步骤:第一,产生候选集Ck,所谓候选集就是可能成为频繁项集的项目集合;第二,基于候选集Ck,计算支持度并确定频繁项集Lk。
本文的基本思路是先采用SPSS软件中的K-均值算法,对调查问卷中的35个问题进行粗关联分析,在粗关联分析的基础上,再用Apriori算法进行精关联分析。具体步骤如下:先采用SPSS软件中的K-均值算法将调查问卷中的35个问题分成n类,把这n类视为n个综合项目;再用Apriori算法找出这n个综合项目的频繁项集Lk。
本文算法步骤具体如下:
步骤1 计算问卷调查中35个问题的每一个问题选“A”“B”“C”和“D”所占的比例,并由这4个比例数构成一个4维向量。
步骤2 采用SPSS软件中的K-均值算法,将步骤1产生的35个4维向量分成n类,即n个综合项目。
步骤3 对每一个问题制定相应的评分标准,根据评分标准,给出选“A”“B”“C”和“D”项相应的分数。同时,根据第二步的综合项目计算每一个样本的综合项目分,综合项目分由综合项目所含项目的平均分构成。
步骤4 制定相应的平均分分级标准,给出n类的每一个样本的综合项目的等级。
步骤5 采用Apriori算法找出这n个综合项目的频繁项集Lk。
调查问卷针对中学生课前学习习惯、课堂学习习惯、课后学习习惯以及课外爱好共4个方面设计了35个问题,问题如表1所示。笔者向肇庆市某普通高级中学的88名学生发放了调查问卷,共收回88份有效问卷。
根据本文的算法步骤1,计算问卷调查中35个问题的每一个问题选“A”“B”“C”和“D”所占的比例,统计结果如表1所示。
表1 调查问卷统计表
根据本文算法的步骤2,采用SPSS软件中的K-均值算法,将步骤1产生的35个4维向量分成9类,即9个综合项目,具体分类情况如表2所示。
表2 K-均值算法分类结果
根据表2的数据显示,学习计划(问题1)、学习成绩是否进步(问题9)、表达见解(问题17)具有很强的关联;课前预习(问题2)、作业改正(问题7)、听课方法(问题14)、使用手机时长(问题23)、和谁聊天(问题25)、手机是否影响学习(问题26)具有很强的关联。问题3、6、16、18、20、22和27具有很强的关联;问题4、19、24、28和30 具有很强的关联;问题5、15、31、33、35具有很强的关联;问题10、11、29具有很强的关联;问题12、13具有很强的关联;问题21、34具有很强的关联。
由于有些类中包含两个方面的问题,即选项的意思刚好相反,因此对该类拆分为两类,最后分类结果如表3所示。
表3 修正后的分类结果
根据本文算法的步骤3,制定第一个问题的选项A(优秀)、B(良)、C(合格)、D(不合格),4个选项的分数分别为100、75、50、25分,其他问题根据情况类似制定。根据表3的分类结果,计算每个样本综合项目的分数,具体如表4所示。
表4 每个样本综合项目的分数
本文制定的分级标准如表5所示,根据表5的分级标准,获得表6所示的每个样本的综合项目的分类等级。
本文采用的最小支持度Smin=30%,最小置信度Cmin=60%。
首先计算频繁1-项集,候选项集={A1,B1,C11,C21,D1,E11,E12,F1,G1,H11,H21,I1,J1}。
计算支持度大于最小支持度Smin的候选项如下:
所以频繁1-项集={C11,C21,D1,E11,E21,J1}。
其次计算频繁2-项集,计算支持度大于最小支持度Smin的候选项如下:
表5 学生评价分类标准表
表6 全部样本的综合项集等级
计算置信度大于等于最小置信度Cmin的候选集如下:
再次计算频繁3-项集,计算支持度大于最小支持度Smin的候选项如下:
计算置信度大于等于最小置信度Cmin的候选集如下:
最后通过计算没有频繁4-项集。
经过Apriori算法计算,可获得6条关联规则,结果如下:
规则1表明:C11与D1的支持度(support)=36.36%,置信度(confidence)=100%。即教师在课堂上是否面向全体学生、教师的课堂教学方式与课堂笔记、手机花费情况、使用手机年限、对恋爱的看法之间是正关联的。
规则2表明:C11与J1的支持度(support)=30.68%,置信度(confidence)=84.38%。即教师在课堂上是否面向全体学生、教师的课堂教学方式与成绩之间是正关联的。
规则3表明:C21与D1的支持度(support)=54.54%,置信度(confidence)=88.89%。即课堂听课情况、课后作业、手机数量、与谁联系、早恋时间与课堂笔记、手机花费情况、使用手机年限、对恋爱的看法之间是正关联的。
规则4表明:C21与J1的支持度(support)=37.50%,置信度(confidence)=61.11%。即课堂听课情况、课后作业、手机数量、与谁联系、早恋时间与成绩之间是正关联的。
规则 5表明:C11,D1与J1的支持度(support)=30。68%,置信度(confidence)=84.38%。即教师在课堂上是否面向全体学生、教师的课堂教学方式、课堂笔记、手机花费情况、使用手机年限、对恋爱的看法与成绩之间是正关联的。
规则 6 表明:D1,C21与J1的支持度(support)=34.09%,置信度(confidence)=62.50%。即课堂笔记、手机花费情况、使用手机年限、对恋爱的看法、课堂听课情况、课后作业、手机数量、与谁联系、早恋时间与成绩之间是正关联的。
笔者根据中学生的课前学习习惯、课堂学习习惯、课后学习习惯以及课外爱好等方面制作了35个问题的调查问卷,并将调查问卷发给肇庆市某中学的88位学生进行调查,之后对收回的调查问卷进行统计分析。分析结果显示,学生的课堂学习习惯、课外学习习惯和业余时间的爱好等方面存在较强的关联性。
[1]郭斌.高中物理学习中遇到的问题及解决方法[J].中学生数理化(学研版),2013,12(6):28-28.
[2]王兴梅.高中生学业自我、成就动机对学习倦怠的影响研究[D].成都:四川师范大学,2012:32-34.
[3]黄仁辉.自我概念、成就动机及应对方式对大学生抑郁的影响研究[D].南昌:江西师范大学教育学院,2006:34-36.
[4]傅亚莉.基于Apriori算法的高职院校课程相关性分析[J].长春工程学院学报(自然科学版),2013,14(4):108-111.
[5]宋中山,赵祖应,丁勇,等.基于Apriori算法的购物篮关联规则分析[J].江西科学,2012,30(1):96-98.
[6]陈涛,王万荣.基于关联规则的数据挖掘技术在教学评价及学生成绩关系之间的应用研究[J].安徽科技学院学报,2013,27(6):62-65.
[7] 王晨绫,刘伟,郑世珏.基于Apriori算法的对微信热点事件的关联分析与研究[J].计算机与数字工程,2016,44(1):31-34.
[8]刘忠铁.基于Apriori算法的远程教学成绩影响因素分析研究[J].电脑知识与技术,2013,3(31):7 006-7 008.
[9]陈涛,王万荣.基于关联规则的数据挖掘技术在教学评价及学生成绩关系之间的应用研究[J].安徽科技学院学报,2013,27(6):62-65.