吴梨梨
(福州英华职业学院,福建福州350007)
数据挖掘技术在学生专业倾向性分析中的应用
吴梨梨
(福州英华职业学院,福建福州350007)
目前的社会被称为信息大爆炸的社会,人们每天都能接收到大量的信息,但这些信息如果没有经过一定的筛选以及深度地挖掘,大部分人都无法了解这些信息中所蕴藏的知识点;而传统的数据挖掘技术,已经满足不了这么庞大的数据挖掘分析的要求,通过数据挖掘技术与云计算技术结合,极大程度地弥补了传统的数据挖掘技术的不足之处;设计了一个基于云计算技术的数据挖掘平台,用于发现影响学生专业学习的因素。
数据挖掘; 云计算; 专业倾向
通过专业倾向性分析,根据学生以往的表现发现最适合学生特点的专业,避免了学生在求学过程中专业选择错误等问题的发生。而云计算平台下的数据挖掘技术将云计算技术与数据挖掘技术完美地结合,利用云计算的特点,使用数据挖掘技术,从海量的互联网数据中挖掘影响高职学生选择专业的因素,指导学生的专业选择。
(一) 云计算的定义
云计算是一种新型的商业计算模型,由网络计算、并行处理、分布式计算发展而来。目前对于云计算的定义有非常多种,在本文中引用的是中国云计算专家刘鹏的定义:云计算将计算任务发布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。这种资源池就是所谓的“云”,用户按照需求来获取网络服务,云计算在广义上被认为是服务的交付和使用模式。
(二) 数据挖掘
数据挖掘技术就是从大量的、不完全的、随机的、有噪声的以及模糊的数据中,对隐含其中的、预先未知的但具有潜在价值的知识和信息进行提取的过程。在以往的数据挖掘中,面临的数据量比较小,传统的数据挖掘技术完全满足需求。但是随着海量数据的快速增长,数据挖掘的个性化需求越来越凸显出来。云计算因为自身的海量的存储能力以及强大的计算能力,成为了数据挖掘的最有效的解决方式。
(三) 云计算平台下进行数据挖掘的显著优势
首先,云计算平台有效解决了海量数据的存储与数据丢失问题。云计算改变了数据存储的一般模式,将网络上的海量数据经过合并,转换和筛选,存储在云计算平台的各个存储节点上。其次,利用云计算平台的分布式并行计算的特点,可以有效地降低数据处理的成本,并且也摆脱了对机器性能的依赖。第三,利用云计算技术,可以提升处理海量数据的能力与速度,在控制好系统的容错性的同时,也可以增加系统的节点。
云计算技术的实现主要是建立在网络平台上,利用虚拟技术和分布式存储技术来实现对海量数据的存储与计算,云计算技术与数据挖掘技术相结合的框架图如图1所示。用户通过不同的终端,利用浏览器以及相应的账号登陆到系统中,通过Iaas服务可以访问服务器群和数据库群,通过Daas服务进入数据管理子系统,进行平台与数据服务之间的数据交换,也可以通过Paas服务进入数据挖掘子系统,选择合适的挖掘算法,还可以利用Saas服务调用数据挖掘子系统,完成数据挖掘任务。在这个系统中,数据挖掘平台是核心。
本系统的主要目的是利用与学生信息相关的海量数据来分析,找出影响学生专业倾向性的主要因素,从而达到指导专业选择的目的。系统的部分功能如下:
(一) 主界面设计
良好的人机交互界面是系统成功的第一步。本系统采用侧面导航栏的模块结构,便于用户选择功能区域。
(二) 数据管理子系统
数据管理子系统主要提供给用户的查询操作。用户在使用中,使用信息查询类,向数据库群和服务器群提出查询请求,数据库系统按照用户需求关键字组织符合的数据组装到数组中返回给数据查询类,并显示在用户临时数据表中。
(三) 数据挖掘子系统
数据挖掘子系统是全系统中功能最重要的模块。在该模块中,用户可以通过先选择数据库,再以专业倾向为目标,选择输入的字段进行分析。默认的目标是专业倾向,也可以按下拉键选择其他属性。数据挖掘子系统的用户界面如图2所示。在该模块中,数据挖掘分析是通过数据挖掘算法来实现的。对使用用户而言,所进行的操作只是选择数据库表、选择目标选项、选择输入条件等;对数据挖掘子模块而言,这里要求自主选择挖掘的支持度、置信度等信息参数,并根据用户的条件选择来连接数据库,读取数据,根据数据挖掘算法进行数据挖掘操作,并根据得到的最小支持度和置信度参数来过滤符合条件的数据,最终返回决策树图形与规则集。
(四) 系统管理模块
在系统管理模块中,主要实现用户权限管理。由于专业倾向性分析数据涉及多个部门,各有其数据敏感性。因此针对数据仓库里每个数据项应做安全分级管理,对应的则是用户应据此有不同的访问权限。按照不同的用户类别,划分不同的使用权限。系统超级管理员可以把权限分配给普通用户,可以添加、删除用户的权限,管理员同时具有数据备份的权限;数据备份是系统重要的功能之一,外力造成的不可控因素有可能导致数据崩溃性的破坏,因此需要有规律地进行数据备份,以便把数据损失挽回到最小;除了对用户权限的设置以外,系统的超级管理员还拥有定时备份数据或手动备份数据的功能,同样也可以从页面上“后台首页”处点击进入。普通用户的界面不显示“后台首页”功能的登陆入口,保证敏感数据得到分级保护,也尽可能地避免误操作。管理界面的数据备份如图3所示,管理页面的内容包括了更改密码,用户权限与数据备份。其中“定时设置”是对定时备份频率的设置,默认30天自动备份。管理员可以随时手动开启备份功能。除了常规的系统默认备份外,管理员可以点击“手动备份”,操作随时可以进行。系统在备份时会暂时停止对外数据交互。当需要设置备份文件存放的物理路径与格式,或导出备份数据时,可以选择“高级设置”。最后,当系统数据遭遇无可挽回的损失时,管理员可以点击“数据导入”,使用备份数据替换被破坏的数据。为了避免频繁导入数据造成数据混乱,导入数据功能每天最多使用两次。
(五) 报表打印
为了能够随时将查询的结果以图文并排的形式打印为纸质文本,在报表打印模块中,设置了打印报表的功能。使用者可以在执行任意查询功能之后,除了在网页上列表显示查询的结果外,也可以点击横功能栏上的“打印报表”,生成报表格式并联通实体的打印机,以纸质文本的形式打印出来,打印报表的运行界面如图4所示。
云计算平台下的数据挖掘平台为实现高职生源专业倾向性分析提供了解决方案,系统使用B/S架构,满足了多种终端用户的访问,实现了用户群的广泛性;系统管理模块实现了用户的权限管理,数据管理子系统中用户根据自己的账号和密码就可以访问服务器群和数据库群;数据挖掘子系统中用户可以根据自己的需求选择数据挖掘算法来完成对数据的深度挖掘。
[1] 王鹏,王健安,郭畅,巴济慈.基于云计算及数据挖掘技术的海量数据处理研究[J].长春理工大学学报(自然科学版),2013(6):157-160.
[2] 尹雪婷,程强,许惠惠.基于云计算的数据挖掘技术[J].信息与电脑,2015(21):60-63.
[3] 吴锐,孙银香.云计算平台下的Web数据挖掘研究[J].网络安全技术与应用,2014(8):67-68.
2017-04-07
2015年福建省中青年教师教育科研项目“云计算平台下的数据挖掘技术在高职学生专业倾向性分析中应用”(项目编号:JA15872)
吴梨梨(1983-),女,福建福州人,硕士,讲师,研究方向为数据挖掘,电话:13960822663。
G712.3;TP311.13
A
1671-4733(2017)04-0106-02