张树滑
关键词: 数据挖掘; ID3决策树; 体育成绩; SQL Server; B/S模式; 体能分析
中图分类号: TN02?34 文献标识码: A 文章编号: 1004?373X(2019)05?0104?03
Design of sports achievement data mining and physical fitness analysis
system based on ID3 algorithm
ZHANG Shuhua
(Guangxi University of Foreign Languages, Nanning 530222, China)
Abstract: The ID3 decision tree algorithm is applied to the sports performance data mining to effectively analyze the students′ physical fitness, and improve the management level and quality of physical teaching. The shortcomings of the existing performance analysis system are analyzed, and the overall system architecture and data mining implementation process are introduced. The principle of ID3 decision tree algorithm and its software implementation flow are designed. The Analysis Services development environment in the multidimensional mode of Microsoft SQL Server 2012 tool is used to realize the software module of decision tree algorithm. The system operation results show that the proposed system can provide the valuable scientific basis for student achievement management and analysis based on data mining.
Keywords: data mining; ID3 decision tree; sports achievement; SQL Server; B/S mode; physical fitness analysis
在學校教育工作中,每一门课程的教学活动均需要给学生评出相应的成绩,以便对学生掌握该门课程相关知识的情况进行考核。课程的成绩在一定程度上真实反映应了学生在某专业方面的能力和素质,例如音乐、数学、美术、体育等[1]。这些课程的教学管理工作产生了数量巨大的学生成绩数据,如何处理和分析这些数据以便挖掘出更有价值的隐藏信息得到了众多教育工作者的关注[2?3]。
数据挖掘是20世纪90年代出现的一门交叉学科,涉及数据库技术、知识工程、概率与统计、模式识别、神经元网络、可视化技术等各领域的研究成果[4]。数据挖掘的本质是从大量有噪声、不完全、模糊、随机的数据中抽取出隐藏的并具一定可利用价值的信息和关系。数据挖掘的功能和不同模式类型包括[5]关联分析、分类和预测、聚类分析和孤立点分析。其中,针对分类和预测问题典型的算法是决策树。常用的算法包括ID3,C4.5,AC2,CN2等。因ID3具有结构简单、分类速度快且使用范围广等优点,本文选择ID3决策树算法实现体育成绩的数据挖掘。通过数据特征和关系对学生体能进行有效分析,从而为体育课程教师的因材施教提供了有价值的数据支持。首先对现有成绩分析的不足进行分析,并介绍了系统总体架构和数据挖掘实施流程。然后对ID3决策树算法的原理和软件实现流程进行设计。最后使用Microsoft SQL Server 2012工具多维模式中的Analysis Services开发环境实现了决策树算法的软件模块。
1.1 现有成绩分析的不足
对学生掌握所学课程相关知识的情况进行考核,是广大教师开展教学活动的关键内容。传统学生成绩分析工作通常采用Excel办公软件或者综合办公系统实现,其突出表现为工作强度大、表格分散和操作效率低,教师需要人工完成查询、分类和汇总工作。成绩数据的分析结果延迟性较高,无法及时为教师实施的教学活动提供实时、有价值的信息。
此外,现有的多数成绩统计系统仍然采用简单的均值、方差、区别显著性检验或者信度计算方法,来实现成绩数据分析,因此根本无法发现学生成绩数据中隐含的信息或者关系。成绩考核评分很容易,但是如何对学生成绩进行分析并提取出所需要的隐藏信息也很重要。因此,本文针对以上问题,应用数据挖掘技术对体育成绩数据进行分析,以便形成有价值的学生体能特征信息,为制定个性化的相应教学措施提供可参考的科学依据,供教学管理人员做出相应的决策。
1.2 系统总体架构设计
体育成绩数据挖掘与体能分析系统的三层总体架构如图1所示。可以看出,用户分为体育教师、学生和系统管理员三种类型。首先是面向人机交互的系统表示层,包括测试项目管理、成绩管理、成绩统计分析和扩展项目。其次,作为系统核心部件的业务逻辑层包含表示层中所有项目的相关业务逻辑,完成逻辑判断和处理。最后是与数据库和文档相连的数据访问层。
1.3 数据挖掘实施流程
数据挖掘系统中标准的流程为:首先需要确定挖掘对象及其目标,选取合适的模型并进行数据采集。然后对数据进行预处理以便实施选择的数据挖掘算法。最后对数据挖掘的结果进行分析。标准的数据挖掘系统结构[6?7]如图2所示。按照图2的流程设计了所需系统的挖掘功能,如图3所示。
现阶段,数据挖掘在课程教学活动中的研究较少,大多数处于理论研究阶段。文献[8]将决策树算法应用于提高实践课程教学效果的探索中,用C4.5算法和ID3算法对训练样本建立模型并进行分类预测,准确率分别为80%和71%。文献[9]提出一种结合概率推理与决策理论来构建C++智能教学系统(Intelligent Tutoring System,ITS)中学生学习模型的方法,以帮助ITS达到自适应教学的目的。通过分析可以发现,ID3决策树算法在教学数据挖掘中具有较好的应用效果,因此本文选择ID3决策树算法实现体育成绩的数据挖掘。
2.1 ID3决策树算法的设计
ID3决策树算法的关键是按照递归思想进行信息增益和熵的计算。计算初始熵的方法[10]如下:
[S(I)=i=1cNiNlog2NiN] (1)
式中:[Ni]为类别[Ci]中的样本个数;[N]为样本的数量;[c]为类别的数量。
对决策树的根节点进行属性选择的过程中,分支的新熵计算方法如下:
[S(I,Ak,J)=i=1cnkj(i)nkjlog2nkj(i)nkj] (2)
式中:[Ak]表示属性;[nkj]为每个分支的样本个数;[nkj(i)]为每个分支的[nkj]个样本中属于类别[Ci]的样本数。
计算信息增益的方法如下:
[ΔS(K)=S(I)-S(I,Ak)] (3)
挑选具有最大信息增益的属性[Ak0]作为决策树的根,[Ak0]的判断条件为:
[Δ熵(k0)>Δ熵(k), k=1,2,…,K且k≠k0] (4)
2.2 软件整体设计思路
决策树算法软件总体设计流程如图4所示。
3.1 数据挖掘软件模块实现
系统应用平台为Window 7操作系统。数据库软件采用Microsoft SQL Server 2012。采用三层B/S架构完成数据挖掘算法软件的开发。软件开发环境使用Microsoft SQL Server 2012工具多维模式中的Analysis Services。利用Analysis Services项目模板创建名为“体育成绩分析”的数据挖掘项目,如图5所示。
以某学校12个班级学生的体育课程成绩为例进行数据挖掘分析,并将ID3算法在体育课程分析系统中进行具体应用。
3.2 系统测试结果
对设计的体育成绩数据挖掘与体能分析系统进行测试。测试结果显示系统运行状态良好,操作流畅,人机交互效果良好。其次,在学生体能分析中,基于ID3决策树算法的挖掘分类结果如图6所示。从图6所示挖掘结果可以看出各个体育项目的测试成绩与学生个人体能之间的关系,例如,学生在篮球项目测试方面取得了较好的成绩,这说明该学生在体能锻炼上更倾向于篮球项目。
本文提出ID3决策树算法在体育成绩数据挖掘与体能分析中的应用系统。首先对现有成绩分析的不足进行分析,并介绍了系统总体架构和數据挖掘实施流程;然后对ID3决策树算法的原理及其软件实现流程进行设计;最后使用Microsoft SQL Server 2012工具多维模式中的Analysis Services开发环境实现了决策树算法软件模块。运行结果显示,提出的系统能够为基于数据挖掘的学生成绩管理与分析提供有价值的科学依据。
参考文献
[1] 贺超波,陈启买,石玉强,等.实验教学数据管理与分析系统的研究与实践[J].实验技术与管理,2012,29(1):110?113.
HE Chaobo, CHEN Qimai, SHI Yuqiang, et al. Research and practice of experimental teaching data management and analysis system [J]. Journal of experimental technology and management, 2012, 29(1): 110?113.
[2] 王彩虹,高旭阳.基于英语阅读教学数据库的云服务模式研究[J].图书馆学研究,2011(19):49?52.
WANG Caihong, GAO Xuyang. Research on cloud service model based on English reading teaching database [J]. Library science research, 2011(19): 49?52.
[3] 弓静,王莉,郝强,等.基于PACS系统医学影像学教学数据库的开发及应用[J].基础医学教育,2017,19(1):66?68.
GONG Jing, WANG Li, HAO Qiang, et al. Development and application of medical imaging teaching database based on PACS system [J]. Basic medical education, 2017, 19(1): 66?68.
[4] JOSEPH S R, HLOMANI H, LETSHOLO K. Data view [J]. Neuroscience, 2016, 12(3): 719?743.
[5] LU H, SETIONO R, LIU H. Effective data mining using neural networks [J]. IEEE transactions on knowledge & data engineering, 2016, 8(6): 957?961.
[6] BUCZAK A L, GUVEN E. A survey of data mining and machine learning methods for cyber security intrusion detection [J]. IEEE communications surveys & tutorials, 2017, 18(2): 1153?1176.
[7] ADENIYI D A, WEI Z, YAN Y Q. Automated Web usage data mining and recommendation system using K?Nearest Neighbor (KNN) classification method [J]. Applied computing & informatics, 2016, 12(1): 90?108.
[8] 阴亚芳,孙朝阳.决策树算法在实践教学中的应用研究[J].计算机与数字工程,2018,46(6):1078?1082.
YIN Yafang, SUN Chaoyang. Application research of decision tree algorithm in practice teaching [J]. Computer and digital engineering, 2018, 46(6): 1078?1082.
[9] 杨诚一,朱巧明.基于概率推理和决策树的教学系统的设计与实现[J].计算机应用与软件,2009(12):170?173.
YANG Chengyi, ZHU Qiaoming. Design and implementation of teaching system based on probabilistic reasoning and decision tree [J]. Computer applications and software, 2009(12): 170?173.
[10] PHU V N, TRAN V T N, CHAU V T N, et al. A decision tree using ID3 algorithm for English semantic analysis [J]. International journal of speech technology, 2017, 20(4): 1?21.