多维关联规则在心理测量中的应用

2015-05-30 22:01:06王冬燕
智能计算机与应用 2015年5期
关键词:标准分立方体关联

王冬燕

摘 要:利用多维关联规则方法提取心理测量不同量表属性间的关联规则,样本包括1958名大学新生。鉴于量表属性较多,且数据库庞大,传统的关联规则Apriori算法较难实现,因此基于Apriori算法设计并实现了多维关联规则的挖掘算法,并应用于心理测量量表属性的关系研究。实验表明,多维关联规则方法能够较快速且更加准确的挖掘出属性间的多维关联规则,并且这些规则在心理测量工作中能够起到指导作用,说明该方法是十分有效的。

关键词:多维关联规则;MMPI;16Pf

中图法分类号:TP311,B842 文献标志码:A 文章编号:2095-2163(2015)05-

Application of Multidimensional Association Rules Method in Psychological Measurement

WANG Dongyan

(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)

Abstract The use of multidimensional association rules to extract the psychometric properties of the scale between different association rules, the sample includes 1,958 freshmen. Given the large scale property and huge databases, traditional Apriori algorithm of association rules difficult to achieve, so based on Apriori algorithm design and implementation of multidimensional association rules mining algorithm, and study the relationship between psychometric properties of the scales applied. Experimental results show that the multidimensional association rules can more quickly and more accurately excavated multidimensional association rules between attributes, and these rules work in psycho-metrics can play a guiding role, indicating that this method is very effective.

Keywords multidimensional association rule; MMPI; 16Pf

0 引 言

大学生群体,承担着来自学业、生活、情感、就业等多重压力,其心理健康状况越来越得到社会各界的关注。为了更好地对大学生的心理健康状况进行全面了解,及时应对各种可能发生的情况,各个高校都会在新生入学时对学生进行各种心理测量,通常包括明尼苏达多项人格测验(MMPI)、症状自评量表(SCL-90)、卡特尔十六种个性因素测试(16PF)等。其中MMPI在人格失常测量方面具有高稳定性[1],主要用于确定被试者的心理健康水平并根据不同临床量表的得分高低,辅助临床诊断[2],包含566个自我描述项目,一般测试前399道[3]。16PF主要用于测量十六种主要的人格特征,包含187道题目[4]。SCL-90包含90项题目[5],能较好地反映被试的病情及其严重程度和变化。由于测量题目繁多,时间长,不仅使一些学生难以坚持认真完成测试,从而导致测量结果无效,同时更给施测老师带来巨大的工作量。因此,如果可以挖掘出量表之间存在哪些关联或者规则,对于研究者来说就可以通过一种量表的测量来预测另一种量表的结果,此时则可通过数据挖掘中的一些方法来实现这些需要。

近年来,国内学者越来越多地将数据挖掘技术应用于心理测量。余嘉元研究表明[6],粗糙集和神经网络可以有效地对心理测量数据进行因素提取和分类。肖新攀等[7]提出采用二次学习风范的规则生成算法,从心理学数据中提取规则。吴小刚等人[8]对通过症状自评量表测试,利用C4.5算法构造决策树并提取预测大学生心理健康状况的规则。任丽君[9]则将多种数据挖掘方法应用于分析学生症状自评量表的测量结果,发现了心理问题与学生属性之间的内在关系。钟镜平[10]利用改进频繁项集挖掘算法对大学生团体心理健康进行评估。

从以往研究发现,数据挖掘方法确实可以有效地应用于心理测量数据的分析,但是基本上是对某一种心理测验内部的分析,而未能对量表之间的关联程度进行考察。本文则通过多维关联规则的方法对不同心理测量量表属性之间的关系进行挖掘。分析过程中使用基于Apriori 算法的维间频繁属性集生成算法,将数据立方体技术运用到Apriori算法中,提高了挖掘效率。

1 多维关联规则

关联规则[11-12]定义:设 I = {i1, i2, … im } 是项的集合,记D为事务T的集合,这里事务T是项的集合,并且T I。对应每一个事务有唯一的标识,记作TID。设X是一个I中项的集合,如果X I,那么称事务T包含X。规则X ?Y在D中的支持度(support)是事务集中包含X和Y的事务数与所有事务数之比,记为support (X?Y),即support ( X ?Y) =?{ T: X ? Y T, T ? D}?/?D?。规则 X ?Y 在事务集中的置信度(confidence)是指包含 X 和 Y 的事务数与包含X的事务数之比,记为confidence (X ? Y ),即confidence ( X ?Y )=?{T: X ?Y T, T ?D} ?/?{T: X T, T ? D}?。

1.1 多维关联规则概述

多维关联规则是相对于单维数据库内的关联规则而言的,是从多维的数据库中挖掘规则的方法[13],即处理各个属性之间的某些关系。多维关联规则目前还没有被应用于心理测量的数据处理方面。本文根据数据属性特点,采用维间关联规则挖掘。

具体在分析中,可以分为两步:首先扫描经过预处理后得到的数据,在所有记录中寻找出现频繁的字段值组合;再由频繁字段值组合推导出关联关系。从记录数据表中产生频繁属性集采用经过改进的基于Apriori算法的维间频繁属性集生成算法实现,由各频繁属性集进一步产生关联规则可通过对置信度的考查较容易地完成。

1.2 数据立方体

在数据仓库中,多维数据模型将数据按数据立方体(data cube)的形式进行组织与构造。数据立方体由维和事实定义。给定一个关联规则挖掘任务,其内容涉及d1,...,dn个维,并根据用户挖掘需求确定各维的维层次,然后从数据仓库中生成数据立方体。其中每一维包含 |di|+1 个数值,| di |是第i 维包含的互不相同的维成员个数。在di维中,前| di |行各代表di中一个互不相同的维成员。最后一行存储了一个称之为SUM!的维成员,其中记录了其所对应的维的合计值,这种合计值极大地方便了关联规则的挖掘中支持度的计算。立方体的方格中记录的是对应维成员的频繁度量值,记为count。这样涉及d1,...,dn维数据的一个关联规则挖掘任务就对应一个 n 维的数据立方体 Cube (d1,...,dn∣count),其中d1,...,dn 是立方体的维,count是立方体的事实度量[14]。

1.3 多维关联规则算法

输入: a. 一个n维的数据立方体CB[d1,...,dn]

b. 最小支持度:min-sup

输出: n维间的频繁项目集L

① k=1;L=Φ;

② 对于每一维,生成1-itemset候选集

C1·di ={di维中所有互不相同的取值};

③ 生成1-itemset频繁项集L1 = gen-frequent(1,c1);

④ Repeat k = k+1;

生成k-itemsets 候选集Ck = gen-candidat ( k, Lk-1);

生成k-itemsets 频繁集Lk = gen-frenquent( k, Ck );

L=L∪Lk;

Until Lk = Φ;

函数 gen-frenquent( k, Ck ),从候选集Ck中生成频繁项目集Lk

Function gen_frequent( k, Ck )

Lk = Φ;

for each candidate I={i1, i2,…, ik}∈Ck do

{ frequency = k 维立方体中方格(i1, i2,…, ik)中的count值

support = frequent/total count;

if (support >min_supp) then Lk = Lk∪{I};}

函数gen-candidat ( k, Lk-1),从(k-1)频繁项目集中生成k-itemset候选集Ck

Function gen-candidat ( k, Lk-1)

Ck = Φ;

for each item I1∈Lk-1

{ for each item I2∈Lk-1

{if (与有k-2个相同的项目,并且最后一个项目分别来自不同的维) then

{ c = I1 I2

if c有非频繁的( k-1)子集,then 删除c

else 将c加入到Ck中}}

}

return Ck

2 数据准备

2.1 数据属性

本文的数据来源于南京中医药大学心理咨询中心对2010级2 554名新生在入校后所做的大学生心理健康量表,主要采用的是MMPI和16PF测量。MMPI的前399道题目主要包括 4个效度量表:疑问量表、说谎量表、诈病量表、校正量表;10个临床量表:疑病、抑郁、癔病、精神病态、男性化-女性化、妄想狂、精神衰弱、精神分裂、轻躁狂、社会内向。16PF是卡特尔在其人格的解释性理论构想的基础上编制的16种人格因素问卷,共187道题目,从16个方面描述个体的人格特征,分别是:乐群性、聪慧性、稳定性、恃强性、兴奋性、有恒性、敢为性、敏感性、怀疑性、幻想性、世故性、忧虑性、实验性、独立性、自律性、紧张性。

2.2 数据清洗

在本研究中,由于被试是分开进行MMPI和16PF的测量,因此测试后需要将两份数据统一到同一数据库中。首先是对缺失值的处理,在本研究中,被试人数为2 554人,相对整体来说,存在缺值的被试不算太多,因此就采用了直接删除法。多维数据异常点处理是将在每个维度内的均值左右3 个标准差区间外的数据可以看作是异常点,将其删去[15]。本研究采用k均值聚类方法,取k等于2~11类,进行了10次试验,结果表明,没有发现多维异常数据。另外,本研究参考MMPI量表的4个效度量表,也可以对效度较低的个案数据删除。根据MMPI疑问量表Q,高分者有回避问题的倾向,即对问题毫无反应或对“是”“否”都进行反应的项目总数,称“无回答”的项目,将得分超过22分的被试数据删除;根据说谎量表L的结果,高分者总想让别人将其看得要比实际情况更好。而且,连每个人都具有的嬉笑短处也不承认。L量表共15个题目,如果原始分超过10分,即标准分超过70分,则不能信任MMPI的结果,因此将这些数据的个案删除。

通过数据清洗,最终共获得1 958份有效数据。本研究采用的是静态数值关联规则法,将数值数据离散化。对于MMPI量表,具有中国自己的常模和标准分[16],因此以标准分60分为分界线,大于60分的设置为1,为人格正常组,不大于60分的设置为2,为人格异常组;但其中有5个量表Hs、Pd、Pt、Sc和Ma的标准分要经过K分校正,则以70分为标准分,大于70分设置为1,不大于70分设置为2;对于16PF量表,标准分1~4分的,设置为1,为人格特征偏低组,标准分5~6分的,设置为2,为人格特征居中组,标准分7~10分的,设置为3,为人格特征偏高组。

3 多维关联规则提取

3.1 相关系数分析

通过数据预处理过程,获得要分析的数据属性。主要包括MMPI和16PF两份量表,共25个维度的属性,MMPI中效度量表要考察的属性是F,临床量表要排除Mf和Si两个属性,这两个属性仅作为临床诊断的参考。整理后,所有属性如表1所示。

在做多维关联分析之前,先对两份量表的维间属性进行相关系数的检验,查看是否适合做关联分析。由于已将原数值数据进行了离散处理,可将离散后的属性值看作是等级变量,由此展开Spearman相关分析(见表2),从分析结果可以看出,两份量表各个属性间也基本存在显著相关性,因此可以进行关联分析。

3.2 维间多维关联规则提取

通过基于Apriori算法的维间频繁属性集生成算法得到各频繁项集后,针对每一个频繁项集L,根据置信度的定义,可按照以下方法产生关联规则:

( 1 ) 对于每个频繁项集L, 产生L的所有非空子集。

( 2 ) 对于L的每个非空子集,若s-count (L)/s-count (s) ≥ Cmin,则输出规则“s→(L-s)”。

由于规则由频繁项集产生,因此都自动满足最小支持度。

本研究采用Java语言实现基于Apriori的多维关联规则算法。取最小支持度为0.1,最小置信度为0.7。由于本研究需要着重了解两份量表之间的关系,因此在得出的规则中筛选出60条相对符合条件的关联规则,列举若干条(以置信度降序排列)如表3所示。

从所筛选出来的关联规则来看,确实能给研究者带来一定的启发。在MMPI量表中主要集中在F、D和Hy属性上;而16PF量表则在各种人格特征上都存在相关,且多数存在低分相关。例如规则D = 1 Hy = 1 ==> l = 1显示,当MMPI中疑病量表和抑郁量表分数偏高时,会伴随16PF中怀疑性人格的低分;而规则q4 = 3 ==> F = 1 D = 1则表明16PF中紧张性的高分表现会带来MMPI中诈病量表的高分和抑郁量表的高分。另外,在规则中的频繁两项集在一定程度上验证了相关分析的结果,例如c = 1 ==> F = 1,可验证c和F的spearman相关关系。由此可证明多维关联规则在考察属性相关性方面是有效的。

4 结束语

本文首次采用多维关联规则方法分析了心理测量量表MMPI和16PF各个维度之间的关联关系。实验研究表明,采用多维关联规则分析心理测量量表维度之间的关系是可行的,挖掘出了较有意义的属性间的关系,为实践工作中的应用提供了有效建议。另外,实验也验证了多维关联规则特别适用于数据量和属性值都比较庞大的多维数据库中的规则挖掘。但是,在本文中挖掘出来的关系还达不到研究的设想,这和数据量的局限性有一定的关系,也可能还有更好的方法来获得结论。因此,需要对更大的数据库进行挖掘,也许会有更多的规则出现。显然,传统的心理学统计方法已不能满足日益庞大的数据库,引入数据挖掘的方法来分析心理测量数据还是十分必要的。

参考文献:

[1] ROSENTHEL T L, EDWARDS N B, ACKERMAN B J, et al. Substance abuse patterns reveal contrasting personal trait[J]. J-Subst-Abuse, 1990,2(2):255.

[2] SINLIA B K, WATSON D C. Personality disorder in university students. A malt trait-multi method Matrix study[J]. J. Personal Disord,2001,(513):235-244.

[3] 《心理学百科全书》编辑委员会编.心理学百科全书[M].杭州:浙江教育出版社,1995:1757.

[4] Johnson J S, Mowrer R R. Mail Surveys among College Students: DO Initial Responders Score Differently form Non-responses On the 16PF?[J]. Psychology-rep, 2000,86(3Pt l):901-908.

[5] GRUDE T, VAGLUM P. One-year follow-up of patients with cluster C Personality discord: a prospective study comparing patients with“Pure”and comorbid conditions within cluster C, and“Pure”C with“Pure”cluster A or B conditions[J]. J-Personal-discord, 2001,15(3):216-28.

[6] 余嘉元.粗糙集和神经网络在心理测量中的应用[J].心理学报, 2008, 40(8),939-946.

[7] 肖新攀,余嘉元,姜远,周志华.从心理学数据中发现可理解的模式[J].计算机科学与探索,2011, 5(3),247-255.

[8] 吴小刚,周萍,彭文惠.决策树算法在大学生心理健康评测中的应用[J].计算机应用与软件,2011,28(10),240-244.

[9] 任丽君.数据挖掘在大学生心理问题中的应用[D].上海:华东师范大学,2006.

[10] 钟镜平.关联规则挖掘在心理分析中的应用研究[D].杭州:浙江大学,2007.

[11] Tan P-N, Steinbach M, Kumar V. 数据挖掘导论[M].范明,范宏建等译.北京:人民邮电出版社,2006:258-268.

[12] WANG P J, SHI L, BAI J N, et al. Mining association rules based on Apriori algorithm and application[C]// Proof the 2009 Intl Forum on Computer Science-Technology and Applications, Chongqing, China:IITAA, 2009:141-143.

[13] 胡可云,田凤占,黄厚宽.数据挖掘理论与应用[M].北京:清华大学出版社,2008:116.

[14] 彭硕, 吴昊. 基于MDPI的多维关联规则算法的研究[J].微电子学与计算机,2011,28(1),78-82.

[15] 洪伟,吴承祯. 试验设计与分析——原理操作案例[M].北京:中国林业出版社,2004.

[16] MMPI全国协作组.明尼苏达多相个性测查表使用指导书[M].北京:中国科学院心理所,1989.

猜你喜欢
标准分立方体关联
叠出一个立方体
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
奇趣搭配
图形前线
智趣
读者(2017年5期)2017-02-15 18:04:18
EXCEL在数据处理中的实践分析
大科技(2016年11期)2016-08-04 00:51:44
立方体星交会对接和空间飞行演示
太空探索(2016年9期)2016-07-12 09:59:53
折纸
重新认识成绩
语言学与修辞学:关联与互动
当代修辞学(2011年2期)2011-01-23 06:39:12