数据挖掘技术在高职学生心理健康问题预测的应用研究

2021-03-24 04:32
科学咨询 2021年10期
关键词:项集置信度数据挖掘

杨 娟

(湖南工业职业技术学院 湖南长沙 410208)

教育部党组颁发了《高等学校学生心理健康教育指导纲要》进一步提出:“坚持育心与育德相统一,要求完善心理危机预防和快速反应机制,更好地适应和满足学生心理健康教育服务需求。”现阶段高职院校的学生心理健康预测主要集中在一年一次的新生入校心理普查,侧重于数据收集及统计,没有进一步挖掘更深层次的信息,总结发展规律,导致问题预测准确性较低。

一、数据挖掘与心理健康问题预测的概述

在大数据挖掘中发现关键的关系信息或属性类别中的规律性联系,并挖掘潜在的信息,通过关联规则分析,进一步找出发生的事件并导致其他事件顺序或时间上的形成规律。前期研究表明,高职生心理健康状况有其群体特征,人际交往问题比较明显,同时对比分析了不同专业、生源地、社会支持对心理健康的影响,结果表明之间有较显著的关联性,具有不同属性特征。在此研究基础上,通过找出发现数据的内在信息,根据样本数据进行大量特征分类,抽取概括出这些信息的共质性及较明显特点,自动匹配最具代表性的其他特征,自动匹配最佳权重指标。[1]

二、数据挖掘技术在高职学生心理问题预测的运用

通过数据挖掘技术,从大量学生的心理健康评估数据库里提取有用信息,为高职学生心理问题预测做参考。具体流程图如下:

图1 高职学生心理健康测评数据挖掘流程图

(一)数据采集

本文中所选用数据来源于湖南工业职业技术学院、湖南科技职业技术学院和湖南工程职业技术学院的心理健康测评系统中自评量表SCL-90及个人基本信息的数据,具体从在校大一、大二学生中选取260名,其中男生157人,女生103人。所涉及职院的心理测评数据库采用SQL Server 2008来存储管理,个人信息主要收集性别、年龄、专业、生源地、家庭经济收入、个体社会支持利用程度,共6项内容。学生自评量表SCL-90包含90个评定项目,10个因子分,每个项目采用五级评分制(1-5分),分数越高,表示症状越严重。[2]

(二)数据预处理

数据预处理是数据挖掘过程中一项重要环节,在处理相关数据时因各种因素会产生很多不准确噪声数据,对噪声数据进行预处理能极大提升挖掘效率,减少后续分析时间。1.进行数据清洗环节,具体操作过程中:“学生基本信息表”中删除身份证号码、姓名、出生年月等无效属性,保留所在年级、性别、所学专业、是否独生子女、生源地情况、家庭经济情况;“学生自评SCL-90量表”删除学院、姓名、学号等属性,保留90个评定项目总分、平均分及10个因子分,作为数据挖掘的内容。最后确定高职学生基本信息表由年级(NJ)、性别(XB)、专业(ZY)、生源地(SYD)、家庭经济(JTJJ)组成。高职学生自评SCL-90量表由强迫(QP)、抑郁(YY)、躯体化(QTH)、敌对(DD)、焦虑(JL)、人际敏感(RJMG)、精神病性(JSBX)、恐怖(KB)、偏执(PZ)、其他(QT)因子组成。2.数据清洗环节,不仅需筛选重复数据,删除或纠正不正确的数据,还需不断完善数据。从高职学生心理健康测评系统导出的数据,除去没有参加测评、项目缺失比较严重的12位同学,经过数据清理处理后,可用于数据挖掘数据一共2460条。3.数据集成环节,将多个相关数据集合中的记录集成构建到新的数据集的过程。在本文中通过关联学号对学生基本信息表和SCL-90心理自评表进行连接,由系统中“数据选择” 确定生成新的高职学生心理健康测评表。4.数据规范,具体操作为数据离散化:针对高职学生SCL-90自评表中每个因子分超过2分,筛选为阳性,视为有症状,小于2分为无症状。[3]

表1 “高职学生心理健康测评表”规范表(部分)

(三)关联规则算法

关联规则(Association Rules)是反映某事件与其他事件之间的关联依赖程度,表示形式一般为关联规则的支持度:Support(A? B)=P(A B),当项集A出现时,项集B也出现概率为该关联规则的置信度:Confidence(A ? B)=p(B/A)。在实现过程中,通过查找全部频繁项集,贯串连接步和剪枝步,用于挖掘大量数据间的相关性。具体指连接步通过Ln产生Cn,多次连接,把Cn中符合限制条件的项集保存下来,连接产生Cn,多次循环操作后最大频繁项集Ln即可产生。剪枝步主要在生成候选项Ck的过程中减少搜索范围,删除小于或等于预设最小支持度阈值的项值,剩下的规则达到预设最小置信度阈值,以达到挖掘出强关联规则。[4]

高职学生自评SCL-90量表中选取有代表性的字段和记录进行算法的演练模拟(表3),字段主要是由抑郁(YY)、躯体化(QTH)、敌对(DD)、焦虑(JL)、人际敏感(RJMG)等组成,并将原始数据中有症状的信息输入事务数据库中,选取5位同学的数据记录,最后得出事务数据库D(表4)。

表2 选取部分用于Apriori 算法的数据记录

表3 事务数据库D 及记录

关联规则Apriori算法具体如下:假设最小支持度计数,扫描事务D多次迭代,反复运用过滤、连接及剪枝,生成新的项集。示例:第1次迭代:扫描事务D,得到1项候选项集C1,假设最小支持度计数为2,则最小支持度为(min=0.18),由C1过滤生成频繁1项集L1;第2次迭代:L1与L2自身连接,生成候选项集C2,由C2计数过滤生成2项集L2;第3次迭代:运用连接和剪枝由L2生成新的3项集C3。

流程如下:对L2连接,产生新集合{I1,I3,I4}{I1,I2,I4}、{I1,I4,I5}.对L2进行剪枝,生成候选3项集C3。

{I1,I3,I4}的两项子集分别是{I1,I3}{I1,I4}与{I3,I4},其中舍弃非频繁子集{I3,I4};

{I1,I2,I4}的两项子集分别是{I1,I2}{I1,I4}与{I2,I4},其中舍弃非频繁子集{I2,I4};

......

一般候选支持度计数等于最小支持度计数2,以上多次迭代生成了候选3项集C3,L3则无法再生成候选项集。同时,过滤规则根据支持度筛选,通常最小的置信度,用于找出最小置信度下的最大支持度,找出符合条件的实例数。通过数据挖掘软件中的Apriori进行挖掘,不断设置最小置信度和最小支持度等,从结果输出中选择有价值的规则。如:

JL=JL3 KB=KB3 PZ=PZ3 135? YY2 1 43 conf:0.99 lif:(1.18)lev:(0.13)[24] conv(12.45)

K B=K B2 PZ=PZ 2 JSBX=JS2 142?QT H=QT H2 YY=YY2 151< conf:0.97>lif:(1.13)lev:(0.11[22] conv(4.07)

RJGX=RJ2 PZ=PZ2 JSBX=JS2 138? YY=YY2 146 <conf:(0.98)> lift:(1.13) lev:(0.1)[24] conv:(3.87)

QTH=QTH2 RJGX=RJ2 Y Y=Y Y2 151? KB=KB2 139 <conf:(0.92)>lift:(1.23) lev:(0.09)[23]conv:(5.45)

......

对挖掘样本进行了规则分析,得出躯体化症状明显的学生,在抑郁、人际敏感等方面可能性比较大;同时在偏执、焦虑程度较高的学生更容易产生躯体化和抑郁症状,这些数据挖掘的信息说明了个体各心理因子间均有潜在关联,每个因子关联程度不同,对高职学生心理问题预测有一定的指导作用。[5]

三、小结

本文将数据挖掘技术应用于高职心理健康问题预测中,仅采用了SCL-90量表的测评数据,没有更多采用其他形式的心理测评调查,在今后研究中应丰富测评样本数据,进一步完善心理健康数据的挖掘,使心理问题预测更加精准。

猜你喜欢
项集置信度数据挖掘
基于数据置信度衰减的多传感器区间估计融合方法
改进支持向量机在特征数据挖掘中的智能应用
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
不确定数据中的代表频繁项集近似挖掘
软件工程领域中的异常数据挖掘算法