李茹 支景民 肖松
摘要:近些年来,很多中学生不堪面对学习压力大,更有甚者选择跳楼、自杀等极端方式结束自己的生命,本文针对此种情况,收集大量中小学生心理问题的数据,并对数据进行了标准化处理,通过使用Apriori算法挖掘频繁项集,并设置最小支持度、置信度,得到强关联规则的数据挖掘模型。
关键字:Apriori;大数据;关联规则;心理问题
一、研究现状及意义
随着近几年新一轮基础教育改革的大力推进,中小学生在心理健康方面的教育越来越受到学校和家庭的重视。各级部门都在积极的探索、出台学生心理健康方面的教育方案,有些学校还把中小学学生心理健康状况纳入各学科教师考核评价指标体系,各级教育行政部门设立本级学生心理健康发展服务中心,加强管理考核,使这项工作正逐步走向规范科学的发展轨道。但是中小学生心理健康教育的现状仍然不容乐观,存在的问题还很突出,这些问题更亟待解决。
二、关联规则
关联规则[1]是一种形如的蕴涵式,它能从庞大的数据信息中寻找数据项之间的有价值的隐含关系。其中,,是不相交的项集,被称为关联规则的前导,而是后继。其中,关联规则,存在支持度和信任度。韩家炜教授等专家把关联规则定义为:
假设,是所有项的集合。给定一个事务数据库,,是所有事务的集合。关联规则的强度可以用支持度和置信度两个参数度量。支持度确定了规则可以用于给定数据集頻繁程度,置信度确定了包含的事务中出现的频繁程度[2]。根据需要人为设置最小支持度和最小置信度的阈值,当满足两个阈值时,则认为关联规则是有用的。
三、Apriori数据挖掘算法
Apriori是一种挖掘布尔关联规则频繁项集的算法,采用逐层搜索的迭代方式,使用频繁项集性质的先验知识。支持度和置信度越高,关联性越强。其中,支持度是,表示A和B同时出现的概率。置信度是,表示A和B同时出现的概率占A出现概率的比值[3]。
简而言之就是两步:找出所有的频繁项集,由频繁项集产生强关联规则。 Apriori 算法的具体实现步骤如下[4]:
1、扫描数据库,得到候选k=1-项集的集合C1,计算出各个 k = 1 项集的支持度。
2、根据设定的最小支持度,当候选1-项集的集合C1大于或等于最小支持度时,产生频繁1-项集的集合L1。
3、当k>1时,重复执行步骤4,5,6,不断产生候选k+1项集。
4、执行剪枝操作,由Lk执行连接和减枝操作,产生候选k+1-项集的集合Ck +1。
5、与最小支持度进行比较,遍历候选(k+1)-项集的集合Ck +1,产生频繁(k+1)-项集的集合Lk+1,删除不满足条件的候选项集。
6、如果L不是空集,则令k=k+1,转入步骤4,否则结束。
7. 重新扫描数据库,计算出置信度,满足大于或等于最小置信度的即为强关联规则。
四、关联规则挖掘
根据影响中小学心理健康的相关属性,以学生的校园个人信息作为样本数据库,选取SCL-90量表的九个测试因子作为研究对象,研究各个测量因子之间的关系及他们之间的影响[5]。综合判断得到的频繁项集有:(头痛、呼吸困难、发热),(晕倒、呼吸困难、发热),(忘性大、反复检查、反复洗手),(不感兴趣、易哭泣、精力下降),(活动减慢、不感兴趣、发抖),(腰疼、感到害怕、易紧张)等。我们把置信度设置为60%,支持度设置为40%,应用Apriori算法进行数据挖掘并挖掘出强关联规则,强关联规则如下表所示:
表3.1中列出了部分强关联规则,当有晕倒、呼吸困难、发热的症状时,出现躯体化症状的概率较高。强迫症与忘性大、反复检查、反复洗手等症状有着较高的相关性;不能控制大发脾气、摔东西、常与人争论等症状与敌对有着较高的相关性。当出现以上问题时,老师应当及时跟进关注学生的心理健康状况。
五、总结
本文通过Apriori 算法在庞大的数据信息中挖掘出一些有价值的关联规则,从而通过这些规则展示出来的内在关联,可以初步预判学生的心理状况,提出合理的指导方法,给学校负责心理健康的老师带来了很大的帮助,并对他们的工作起到了积极的指导作用。
参考文献
[1] Han Jiawei,Kamber M,Pei Jian.数据挖掘概念与技术[M]。范明,孟小峰译.北京:机械工业出版社,2006.
[2]袁路妍,李锋.改进的关联规则Apriori算法在课程成绩分析中的应用[J].中国教育信息化,2017.
[3]Wang Jiasheng,Mu Xiaoguang.EstablisHshment and Analysis of Multi -Association Rule Mining Model of Reader LoaIl[J].Journal of Computer Application,2011.
[4]高潮.基于校园多源融合数据的大学生行为关联分析[D].石家庄:石家庄铁道大学,2020.
[5]胡朝光,单丰,齐良晨,等.大学生抑郁症现状研究[J].心理月刊,2018.
全国教育信息化办公室2016年青年课题,课题立项编号:162043643。