基于决策树关联算法在农村大学生信息系统中的应用

2020-08-31 01:36付荣华
湖北农业科学 2020年10期
关键词:数据挖掘

付荣华

摘要:通过数据挖掘技术分析各个领域大量数据之间的关系,可以发现这些记录中隐藏的学生学习和生活状态。该研究开发了一个综合分析系统,其系统引入了数据挖掘技术,包括决策树算法和关联规则挖掘算法。通过分析来自农村的大学生图书馆记录和消费记录以及农村学生完成的课程成绩和心理测试数据可以看出,该系统可以挖掘农村学生的生活和学习状态及其关联性,并将结果展示出来,可以让学校或老师及时清晰地了解其状态,有助于更好的教学。

关键词:数据挖掘;决策树算法;关联规则挖掘算法;数据库应用

中图分类号:TP311.13         文献标识码:A

文章编号:0439-8114(2020)10-0150-004

DOI:10.14088/j.cnki.issn0439-8114.2020.10.035           开放科学(资源服务)标识码(OSID):

Absrtact: By using data mining technology to analyze the relationship between these data, The hidden students' learning and living conditions in these records were founded. A comprehensive analysis system was developed, which introduces data mining technology, including decision tree algorithm and association rule mining algorithm. By analyzing the records of college students' libraries and consumption from the countryside, as well as the data of curriculum achievements and psychological tests completed by rural students, the system can excavate the life and learning status of rural students and their correlation, and display the results, so that schools or teachers can understand their status in time and clearly, which is help fulfor better teaching.

Key words: data mining; decision tree algorithm; association rule mining algorithm; database application

數据挖掘是数据库中最重要的领域之一,可以从数据库的大量数据中揭示出隐含的、先前未知的并且有价值的信息,从而为使用者提供决策帮助[1]。高等教育状况在很大程度上代表着国家教育的发展,合理、有效地帮助大学生完成学业,对高校教育有着至关重要的意义。目前,大学校园都采用校园卡系统进行电子化管理,产生大量学生相关的学习、生活等数据[2]。因此,运用数据挖掘技术,对大学生的学习、生活等数据记录进行分析和挖掘,为学校管理提供决策辅助,进而有效管理大学生,是当前高校教育的一个重要研究方向[3]。

部分研究人员已经研究了学生数据之间的部分关系[4,5],但未从农村大学生这一特殊群体的不同方面进行分析,其研究功能模块是分散的,没有挖掘学生的相关数据中存在的关系,无法发现学生(以下学生特指农村大学生)的学习、生活等行为状态之间的潜在关联。高校管理系统数据库中的学生数据是全面的,但在研究过程中,研究人员并没有注意它们之间的关系。因此,当选择优秀的学生、优秀的班长、研究生推荐或贫困学生时,学校通常习惯于手工分析。此外,由于学业压力等问题,部分大学生容易出现心理问题,学校老师往往不能及时发现,直到这些学生发生严重事件时才能发觉,从而造成严重的后果。

根据目前存在的这些缺陷,本研究设计并实现了一个综合分析系统,该系统记录了学生的活动,包括校园购物、餐厅用餐、课程学习、图书馆记录等数据。同时,该系统使用决策树算法和关联规则挖掘算法来分析系统数据库中的大量数据,挖掘不同数据之间的关系,发现其中隐含的有价值信息,为高校管理提供决策支持,从而使得学校可以更加方便、及时、合理地管理学生,帮助学生顺利完成学业。

1  方法论

1.1  决策树算法

决策树算法是一种近似离散函数值的方法,基于树结构来进行决策,常用于分类问题[6]。C4.5算法[7]是机器学习中一种重要的分类决策树算法,是对ID3算法的一种改进,能够处理连续型和离散型数据[8-13]。因此,在该系统中,使用C4.5算法分析大学生的成绩得分、心理状态和消费情况,构建了学生综合评价的决策树。

该算法分类标准基于成绩平均分,分为>90分、80~90分、70~80分、60~70分和<60分5个等级。首先,计算学生成绩样本的信息熵[14],信息熵用于计算信息的期望,如式(1)所示。

式中,Ci代表来自X的信号源,Tj代表来自Y的信号源,P(Ci|Tj)表示Y为Tj且X为Ci时的概率。

H(X)和H(X|Y)的关系可由式(3)的信息增益给出[15]。

Gain(X|Y)=H(X)-H(X|Y)  (3)

1.2  关联规则挖掘算法

在该系统中,使用Apriori关联规则挖掘算法,挖掘数据之间的隐含关联[10-12]。该算法引入两个重要度量,分别为支持度和置信度,支持度表示项目集在数据库中的出现频率,置信度用来衡量规则的可信程度。该综合评价系统的评价结果根据这两个标准给出,由式(4)计算支持度,P(X)表示X出现在D中的概率。

支持度(X)=发生(X)/计数(D)=P(X) (4)

然后根据式(5)计算置信度,P(X|Y)反映了X和Y之间的相关关系。

置信度(X→Y)=支持度(X∪Y)/支持度(X)=P(X|Y)   (5)

2  实例应用

该系统包括4个功能模块,分别为得分分析模型、消费分析模型、心理状态测试模型、综合分析模型。得分分析模型用于分析学生不同学年的课程得分,消费分析系统记录学生的消费情况,心理状态测试模型用于分析学生的心理状态变化,综合分析模型挖掘学生所有数据(课程成绩、消费记录、心理测试)之间的关联,发掘有价值的信息。整体分析系统框架如图1所示。

运用决策树算法对学生的得分、消费属性和心理状态进行不同程度的分类;运用关联规则挖掘算法,发现数据中隐含的信息。通过调整算法输入数据的属性、规模等,两种算法结合使用,进行多次训练来规范评估结果。

2.1  决策树算法在系统中的应用

第一个功能模型是得分分析,如图2所示,它对每个学生的所有课程分数进行分析,使用决策树算法构建分类模型,并在一个学生的不同课程中获得规律性。例如,如果一个学生擅长操作系统,那么他有很大可能也擅长数据库理论;如果一个学生在第一年、第二年和第三年表现良好,那么其毕业设计也会表现良好。从数据库中根据需求抽取数据集合,计算每个学生X的信息熵H(X),其度量X的不确定性;然后计算条件熵H(X|Y),其度量Y在以后X剩下的不确定性;最后根据信息熵和条件熵计算信息增益,其度量X在Y以后不确定性的减少程度。根据信息增益来判断当前节点应该选取什么特征来构建决策树,信息增益越大,越适合用于分类。

决策树以表示样本的单个节点开始,构建决策树的算法过程如下:

①如果样本已存在于同一类别中,则此节点是标记为此类别的叶节点。

②否则,它将自动生成节点,该节点选择占据大部分属性的节点。

③经过分析和总结,样本信息分为多个组。每个分支节点都可以获取其子集的值,每个子集对应一个分支。对于最后一步的每个子集,重复该过程;然后,它将为每个样本生成一个决策树。

④一旦某种属性出现在一个节点中,就不需要考虑它的后代。

当满足以下条件时,该算法将停止:

①节点的所有样本属于同一类别。

②没有用于划分的左侧属性。在这种情况下,树的节点将在分析和结束后更新,并且它可以自动生成标记有具有最多元素的类别的叶节点。

③如果一个分支没有满足这个现有类别的样本,它将构建一个叶子节点,其中样本具有多数类。

2.2  关联规则算法在系统中的应用

使用关联规则算法,首先找出所有频繁项集,采用支持度作为衡量标准;然后由频繁项集产生强关联规则,采用置信度作为衡量标准;最后,根据关联规则来支持系统在选择优秀学生、优秀班长、研究生推荐和贫困学生时的决策。基于Apriori[13]算法,实现方法如下:

①在数据库中构建学生分数、消费情况、心理测试状态和图书馆记录的初始化集合。

②计算不同数据集合下的置信度,并给出在规则库中构建的关联规则。

③如果学生的置信度满足设置的阈值,那么该学生将成为候选人。

整体实现思路如图3所示。

2.3  两种算法的融合

这两种算法都有解决特定问题的优点,将它们引入本系统中,利用各自的优势。分析学生得分时,使用决策树算法构建分类模型;然后,结合关联规则算法分析学生的消费情况和心理状态,发现关联信息,分析过程如图4所示。

式中,i.score(X)表示学生X的课程i的得分,

H(X)反映学生X得分的稳定性,M(X)表示平均表型值。如果该学生只是一个新生,则将平均表型值M(X)根据式(6)计算;如果该学生是二年级学生,则按照式(7)计算;以类似的方式,如果该学生是三年级学生,将使用式(8)计算;只有当该学生是毕业年级学生时才会采用式(9)。

因此,根据学生X的H(X)可以掌握学生X的学习状态。如果H(X)变低,则可以使用第二个核心模型——心理状态测试模型,通过心理测试分析,可以得知学生得分不佳的原因。

2.3.2  心理状态测试模型分析   该模型包括8个部分,每个部分都有许多测试主题,这些主题由系统从问题数据库自动生成(图5)。这个问题数据库由权威健康心理问题构成,并能够及时更新[14]。选择Highcharts[9,15]技术显示来自学生测试的结果,包括直线图、柱状图、饼状图等图表类型,可以根据需要選择合适的图表,来清晰、准确地展示测试分析结果。根据式(10)计算分析结果总值。

Zx=w1Z1+w2Z2+w3Z3+…+w8Z8  (10)

式中,wi表示分别来自8个部分的受试者的数量,Zi表示受试者所占的比例。通过测试分析,可以掌握学生的动态心理。如果学生出现一些严重的心理疾病,如抑郁症,根据分析结果,学校或老师可以及时发现,并给予帮助。如果学生的心理状态是正确的,还可以检查他进出图书馆的记录。如有必要,也可以检查其消费记录。

2.3.3  优秀学生选拔算法  该模型包括选拔优秀学生、优秀班长、研究生推荐和贫困学生。首先,建立模型需要的标准值,并从分数数据库中获得平均表型值、消费价值和心理健康价值数据。然后,将数据源构建为(Y)数据集合(表1)。在综合分析系统中,该部分的每个功能模型都有各自的规则。因此,做不同选择时应该使用不同的规则算法。

选择优秀学生时,应考虑两个因素,包括一个学生的平均表型值和得分信息熵;选择优秀班长及他或她是否是班长时,将需要考虑额外的因素;选择贫困学生,授予贫困学生奖学金时,同时需要参考消费价值、心理健康价值和图书馆地位信心价值数据,进行综合分析;同时,该算法也适用于研究生推荐的选择。算法过程如下。

1)优秀学生选拔算法。输入:每个学生的(X)和Hi(X),i取值1到n;输出:学生设置Z1。

①过滤数据, 筛选同一班级中每个学生的Hi(X)和Mi(X);

②将所有学生的M(X)组从大到小排序;

③如果不止一个学生的相同值等于Mi(X),则这些具有相同价值的学生Mi(X)属于一组S(X);

④将S(X)中所有学生的Hi(X)从小到大排序; 队列的顶部属于Z1。

2) 贫困学生的选择算法。输入:Hi(X)、Mi(X)、PS(X)、C(X)和S(X);输出:学生设置Z3。

①为Mi(X)设置阈值T,如75,根据T过滤学生;

②通过基于Hi(X)和Mi(X)的上述算法,得到队列 Z1′;

③对Z1′中所有学生的数据C(X)进行排序,然后按照从小到大的顺序存储在队列R1中;

④为C(X)设置阈值C,根据Z1′过滤学生,小于C的学生分类为Z2′;

⑤对Z2′中所有学生的数据PS(X)进行排序,然后按顺序从大到小存储在队列R2中;

⑥对Z2′中所有学生的数据S(X)进行排序,然后按照从大到小的顺序存储在队列R3中;

⑦对Z2′中所有学生的数据H((PS(X),S(X))|(C(X),M(X),H(X))进行排序,然后按从小到大顺序存储在Z3中。

3  小结

本研究提出了一种高等教育学校选择特殊学生,辅助教育管理的特征选择方法,并实现了一个综合分析系统。首先,将数据库中数据进行预处理,根据需求将数据抽取为指定格式。然后,通过决策树算法和关联规则算法进行挖掘分析,发现数据中潜在关联和有价值信息,并将分析结果通过图表展示出来,清晰地提供给学校或老师。系统实施后表明,该系统对大学生管理和学习生活的重大改进提供了极大帮助。学校或老师可以掌握每个学生的学习状态、心理活动等信息。如,如果某个学生的研究被拒绝,可以得到该学生的图书馆记录和信息熵,以了解他是否变得懒散;或者该学生是否存在过多娱乐性的消费记录;通过心理健康测试分析,了解该學生是否出现心理方面的消极变化。综上可知,该系统可以发掘学生学习、生活、活动的潜在关联,辅助学校或老师的管理决策,从而更加有效、合理地管理学生的学习和生活。

参考文献:

[1] 杨茂青,谢健民,秦  琴,等.基于RF算法的突发事件网络舆情演化预测分析[J].情报科学,2019,37(7):95-100.

[2] 吴  蓓.基于决策树算法的成绩预测模型研究及应用[D].西安:西安理工大学,2019.

[3] 尹  儒,门昌骞,王文剑.一种模型决策森林算法[J].计算机科学与探索,2020,14(1):108-116.

[4] 胡明明.决策树算法在学生课程成绩分析中的应用研究[D].哈尔滨:哈尔滨师范大学,2019.

[5] 谢霖铨,徐  浩,陈希邦,等.基于PCA的决策树优化算法[J].软件导刊,2019(9):75-77,82.

[6] 张小奇.基于决策树算法的教学管理数据分析[J].青岛大学学报(自然科学版),2019,32(2):86-94.

[7] 刘  亮.基于数据挖掘的银行客户评级系统设计与实现[D].石家庄:河北科技大学,2019.

[8] 南小琴,张  泽,印彩霞,等.基于决策树算法的棉花产量预测研究[J].农村科技,2019(1):29-35.

[9] 李  云.大数据分析技术及其在贫困生帮扶工作中的应用研究[D].贵阳:贵州大学,2018.

[10] 武善锋,陆  霞.基于决策树算法的体育课程分析与管理系统     设计[J].现代电子技术,2019,42(3):131-133,138.

[11] 潘  燕.决策树算法在高职院校课程关联分析中的应用研究[J].现代信息科技,2019,3(2):151-153.

[12] 卜  阳.数据挖掘决策树技术在高职教学质量评价中的应用[J].湖北开放职业学院学报,2018,31(21):32-34.

[13] 尹  儒,门昌骞,王文剑,等.模型决策树:一种决策树加速算法[J].模式识别与人工智能,2018,31(7):643-652.

[14] 阴亚芳,孙朝阳.决策树算法在实践教学中的应用研究[J].计算机与数字工程,2018,46(6):1078-1082,1088.

[15] 朱瑞瑞.基于改进决策树算法的绩效测评应用研究[D].合肥:安徽大学,2018.

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议