蒋永旺 江苏护理职业学院
所谓数据挖掘,是指目的性从大量数据中搜索、寻找数据信息的过程,在这项技术中,需将验证驱动法作用于数据中,并默认想要搜寻的信息是存在的。在高校管理中,由于办学规模的扩大,学生数量不断增长,学校教务管理系统中,累积了大量学生数据资源,数据挖掘技术的应用,对于提升高校教育管理水平有着积极意义。在素质教育背景下,虽然不提倡以成绩论英雄的理念,但是成绩在一定程度上反映出学生对于专业知识和技能的理解掌握程度,可作为学校教育水平评估的主要依据,应用数据挖掘技术,展开学生成绩的分析,根据分析结果,展开教学改革,优化教学理念,转变教学方法,对于高校的可持续发展有着积极意义。
1.1 概念
数据挖掘是从数量大、种类繁杂的海量数据资源中,根据需求寻找相对应数据信息的过程。数据挖掘是按照业务需求理解、数据理解、数据搜集、建模、模型测评、部署的流程展开的,而且这一流程是迭代式进行的。在这项技术中,工作人员会将分类后的几个样本作为模板,来制作模型,并将未分类数据按照规定数目进行分类,建模后,进行数据挖掘,分类输出值是非连续的,然后,再寻找不同数据间的联系,对数据进行分组,将相似数据分在同一组。
1.2 常用算法
目前,在数据挖掘技术应用过程中,常用的算法有以下三种:①贝叶斯算法(Bayes)。这是一种典型的不确定性知识的表示、推理方法,在这个原理中,先假设一个先验概率,在这个假设下观察不同数据的概率;②决策树算法(Decision Tree)。这是一种与流程图相似的树结构,在这种算法中,根据变量对于数据对象的影响,会显示为不同的树枝形状,以此来进行数据分析预测,以目标变量所产生的影响,制定差异化的分类规则,适用于探测式的知识发现,展现形式直观形象,被应用于各个领域;③线性回归算法(Linear Regression)。所谓回归分析,就是用一个或多个变量的变化,去解释另一变量变化的方式,万物都是相关联的,很多参数都存在相关性,诸如人类的年龄与身高,商品的成本与生产数量,商品的销售额与广告费,家庭的收入与支出等,这些参数存在相关性,但是相关关系是不确定的,可采用线性回归算法分析。
近年来,随着计算机、互联网等技术在高校管理中的应用,教务管理基本实现信息化,在学校的教务管理系统数据库中,可查询到学生的各类信息,现阶段,这些信息的价值并没有被充分挖掘出来,信息利用仅停留在查询、统计、制作报表等浅显阶段。以高校学生成绩为例,成绩的查询、打印等,只是最基本的利用途径,如若能够构建成绩数据库,利用现代化技术从中挖掘有效信息,用以评估学生的学习态度、学习效果,评估教学成果,无论对于学生的提升,还是学校的发展,都有着重要作用。在利用数据挖掘技术,展开学生成绩分析时,需历经以下几个阶段:
(1)数据准备。在数据准备阶段,应该先提取出可直接处理分析的数据信息,在此过程中,技术人员需根据所选数据挖掘算法的信息使用需求,集成、筛选、处理信息,为接下来的数据挖掘工作做好准备,以提升分析结果的可信度。值得注意的是,在整个高校学生成绩分析过程中,准备阶段需花费较多的时间。首先,在分析学生成绩时,所提供的数据信息,应该尽量覆盖多个学科,构建多个数据库,提升数据量,然后再展开数据的整理分析,消除数据源与源之间的语义模糊性,消除数据信息存在的缺陷,将之整理为统一规范的数据格式;其次,由多种源数据汇集而成的数据合集中,存在大量的无关数据,这些数据无法提升分析结果的可靠性,反而会增加数据挖掘工作量,需要筛选出去,确保留下来的数据都是相关的数据;最后,数据经筛选后,可能存在噪声问题、不完整问题、数据不一致等问题,因此,技术人员需对数据进行预处理,完善补充分析库内的数据结构,提升分析结果的可信度和可靠性,而且,为了方便计算,需要将数据库中属性字段的信息转换为可识别、可处理的编码数据。
(2)数据挖掘。经历长期的数据准备工作后,即可采取多种数据挖掘算法,处理分析数据库中的数据信息,发掘出数据间的内在联系,构建知识图谱。在此过程中,首先,技术人员应该确定数据挖掘的目标,找准工作定位,然后根据工作任务选择合适的数据挖掘算法,构建数据模型,确定需分析的参数,利用模型挖掘数据库中的相关参数,寻找目标关联规则、数据回归结构,找出可用于评估与分析的模式表达式。现阶段,数据挖掘技术相关软件已较成熟,在选择好数据挖掘算法后,后续工作可自动化完成。以利用数据挖掘技术对学生的成绩进行挖掘为例,需采集学生的基本额信息,比如姓名、学号、性别、专业、班级等;然后,在成绩方面,通过成绩数据库,纳入学生的平时成绩、考试成绩以及总评成绩;对于此数据库,则由教师基于教学过程所产生;通过挖掘学生的各方面成绩,了解学生的综合素养与薄弱知识点,为后续有针对性、分层教学提供有效依据。
(3)结果评估与解释。数据挖掘工作完成后,管理人员可根据所获得的分析结果,或者是模式表达式,来评估、判断其是否有效,是否与学生成绩分析需求相符合,如若对挖掘结果不满意,可更改算法后重新展开数据挖掘。值得注意的是,在学生成绩分析挖掘过程中,需采取数据转换的方式,比如将学生的成绩分为三个等级:85-100分;65-84分;0-64分;对这三个等级的学生分数,可转换成:优、良、差三种转换方式,然后以深直方图的形式了解各个等级学生的分布及比重,为后续展开有针对性的教学工作提供客观科学的参考依据。总之,在学生成绩数据挖掘分析过程中,为了直观、形象地了解整体学生的学习情况,需进行数据转换。
综上所述,所谓大数据,就是通过常用计算机软件无法实现高效信息处理、管理的巨量数据信息集合。数据是一种没有实际形态的东西,看不见也摸不着,但是作为一种信息载体,广泛分布在人们的日常生活及社会的生产活动中,在这个信息爆炸的时代,采用大数据技术,展开数据的收集、储存、分析、挖掘、应用,能够更好地发挥信息的利用价值。而数据挖掘技术,则能够让人们在海量信息中,挖掘出目标信息,应用于高校学生成绩分析中,能够让学校管理者通过成绩这些海量数据,看到各班级、专业、院校的教学水平,再制定教学策略,提升办学水平。