基于Apriori的科研考核信息的关联性分析

2020-10-22 09:10
辽宁高职学报 2020年10期
关键词:预处理关联阈值

许 悦

(辽宁工程职业学院,辽宁 铁岭 112008)

按照《辽宁工程职业学院科研工作量化考核制度》的要求,将教师以职称水平分类,然后以其科研、论文等考核类目的级别及数量为基础,通过学院科研考核系统,把采集的预处理过的数据利用Apriori算法进行关联性分析,以判断不同职称教师的科研能力以及政策制度的合理性和可行性[1]。

一、Apriori算法

提取关联规则的有效算法之一是Apriori算法。它的规则是首先通过扫描数据集产生候选项集,然后根据已知的最小支持度阈值及最小置信度阈值导出频繁项集[2]。以下是对它的描述:

输入:事物数据库D,最小支持度阈值min_sup;输出:D中频繁项集L。

(1) L1=find_frequent_1_itemsets(D);

(2) for(k=2;Lk-1≠Φ;k++){

(3) Ck=apripri_gen(Lk-1,min_suppor);//频繁项K-1集生成候选K项集

(4) for each transaction t∈D

(5) Ct=subset(Ck,t);//构造t的候选子集

(6) for each candidate c∈Ct

(7) c.count++;}

(8) Lk={c∈Ct│c.count>0}

(9) }//Ck为候选相集

(10) return L=∩kLk;

连接步:

(1) procedure apriori_gen(Lk-1:frequent(k-1)item)

(2) for each itemset l1∈Lk-1

(3) for each itemset l2∈Lk-1

(4) if(l1[1]=l2[1]∩l1[2]=l2[2]∩L∩l1[k-1]=l2[k-1]then){

(5) c=l1∞l2

(6) if has_inf requent_subset(c,Lk-1)then

(7) delete c;//剪枝;删除非频繁的候选相集

(8) else add c to Ck;}

(9) return Ck;

剪枝步:

(1) procedure has_infrequent_subset(c:candidate k item;Lk-1:frequent(k-1)item)

(2) for each(k-1)subset s of c

(3) if s∈Lk-1then

(4) return TRUE;

(5) return FALSE;

二、科研考核信息关联分析算法

科研考核信息的关联分析算法是改进Apriori算法并借助Weka平台实现的。算法主要包括步骤读取数据集data,并提取样本集instances,离散化属性Discretize,创设Apriori关联规则模型,输出大频率项集及关联规则集[3]。在 Apriori算法中,设置minSupprot=50%,最小置信度minimum confidence也设置为50%[4]。Weka配置路径为Explore->Openfile(TestStudenti.arff)->Associate点击配置参数信息,classIndex=-1,delta=0.05,lowerBoundMinSupport=0.5,minMetric=0.5, numRules=20,significanceLevel=-1.0,upperBoundMinSupport=1.0。

三、科研考核信息数据的预处理

科研考核信息的分析数据集来自辽宁工程职业学院科研考核系统的教师科研信息导出数据。部分教师科研考核信息如表1所示。

表1 部分教师的科研考核信息表

由于在得到的科研考核数据中有一些噪声数据,所以有必要对这些数据进行整理和归集[5]。预处理操作如表2至表6所示。

学历属性信息包括研究生学历、本科学历和专科学历。学历属性信息的预处理如表2所示。

表2 学历属性预处理表

学位属性信息包括博士学位、硕士学位、学士学位以及无学位等。学位属性信息的预处理如表3所示。

表3 学位属性预处理表

职称属性信息包括教授、副教授、讲师和助教。职称属性信息的预处理如表4所示。

年龄属性的信息预处理如表5所示。

科研成果包括省级以上论文数量、省级科研项目数量、专著数量和专利数量[6]。将科研成果总数量进行预处理操作,如表6所示。

表4 职称属性预处理表

表5 年龄属性预处理表

表6 科研成果数量预处理表

四、科研考核信息的关联规则分析

影响关联规则提取有两个因素,一个是最小支持度,另一个是最小置信度。最小支持度和最小置信度阈值的取值大小可影响提取关联规则的数量[7]。满足最小支持度和最小置信度阈值的频繁项集即为关联规则。本文选取的最小支持度阈值是0.5,最小置信度阈值是0.5。利用Weka中的Apriori算法提取的关联规则的结果包括一至四维关联规则[8]。四维关联规则如表7所示。

表7 科研考核信息四维关联规则表

下面对科研考核信息的关联分析如下:

分析发现,职称虽然相同,但是近几年新入职教师的科研得分与科研得分“高”的关联度比较高,而学院原始教师的科研得分与科研得分“低”的关联度比较高。出现这种状况主要是因为近几年新入职的教师一般都具有研究生学历或硕士以上学位,理论水平和动手能力都较强[9];而对于学院的原始教师(我院由六所中职院校合并而成)来说,科研能力比较薄弱。

针对分析结果,可以建议学校重点栽培近年来新招入的高学历教师。因为这部分教师虽然职称较低,但却体现出了很强的科研潜力。但同时也不能放弃科研得分较低的教师群体,要通过正确的引导,为他们开辟新的科研空间[10]。

五、小结

本文将辽宁工程职业学院科研考核系统导出的数据利用Apriori算法进行关联性分析,得出了科研信息数据中的关联结果,并根据关联分析结果对学院今后的科研发展提出了指导性的意见。

猜你喜欢
预处理关联阈值
求解奇异线性系统的右预处理MINRES 方法
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
高COD二噻烷生产废水预处理研究
小波阈值去噪在深小孔钻削声发射信号处理中的应用
“一带一路”递进,关联民生更紧
基于CS-TWR的动态阈值贪婪算法成像研究
基于自适应阈值和连通域的隧道裂缝提取
奇趣搭配
基于预处理MUSIC算法的分布式阵列DOA估计
智趣