摘要:文章主要介绍了数据挖掘的概念,分析了当前高校科研管理工作的现状和存在的主要问题,提出应用数据挖掘技术来分析教师的职称、学历、科研工作量数据之间潜在的关联规则,对科研工作安排可以起到辅助决策的作用。
关键词:数据挖掘;关联规则;科研管理
1.引言
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、未知的、非平凡的、极有潜在应用价值的信息或模式的过程。
关联规则是数据库中存在的一类重要的可以被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。
2.科研管理的现状
高等院校的科研管理数据库中蕴藏着大量的信息资源。这些数据主要是以各级管理部门提供的统计报表和简单信息查询方式存在,对这些数据所隐含的价值并没有充分挖掘利用,需要有新的、更有效的技术对大量数据进行挖掘以发挥其潜能,从中迅速萃取有用的信息以指导和辅助科研管理。因此,有必要在科研管理中引入数据挖掘技术,以提高高校科研管理的水平和能力。
3.数据挖掘技术的应用
(1)总体方案
高校科研数据挖掘系统基于SQL Server来构建数据挖掘模块。系统主要由学校局域网内部用户使用,采用C/S结构,将数据挖掘数据源组织存储在服务器端数据库,而数据挖掘模块在客户端编写应用程序实现。
①组织数据源
将源数据经过选取、预处理统一有序的存储到服务器端数据库中,为数据挖掘做好数据准备工作。
②选择挖掘算法并在应用程序中实现该算法
③应用程序与服务器上的数据库进行数据交互。
(2)数据处理
挖掘的源数据来自科研管理系统中与教师学历、职称,科研成果统计有关的数据表。
数据处理模块主要负责对待挖掘的数据源作必要的准备,将挖掘系统要处理的有关科研管理的数据转化为符合关联规则挖掘要求的待挖掘数据。数据处理主要包括三个步骤:数据清理、数据集成和数据变换。主要是改正数据中的错误、填充空值,将需要的多个数据集成在同一张表中并进行标准化处理;进行数据变换,对需要变换的数值数据离散化,最后形成能够进行挖掘的有效数据。
①数据清理
高校科研数据挖掘主要是对教学岗位上的教师科研信息进行关联规则挖掘,行政管理人员、实验技术人员、专职政工人员的信息与挖掘目的无关,属于无效记录,将这些记录删除。
部分在职取得硕士学位人员没有研究生学历。但他们具有相应的学习经历,这部分教师的学历应该取硕士研究生。试用期教师无职称,他们的职称属性是空值。对于这部分教师,如果其学历是博士,则职称取讲师,其他试用期人员的职称取助教。
②数据集成
高校科研数据挖掘中用到的教师个人信息、科研成果数据来自不同的数据表。在数据挖掘实施前,把教师的职称、学历、科研工作量数据集中存储在一个科研信息表中,各表中的数据通过关键字编号唯一匹配并连接在一起。教师的科研工作量由教师参与的科研项目、发表论文、出版著作情况合并而成,需要对其进行标准化处理,形成一个高质量的数据源,以利于辅助决策分析。根据教师参与项目、发表论文、出版著作的档次和位次,分别用系数来对教师的科研成果进行换算,利用换算以后系数之和来表示科研工作量。
③数据变换
对于一般的关系型数据库而言,连续的数值型数据是必须考虑的问题。经过数据集成后的科研信息表中既包含了分类属性又包含了数值属性。将科研信息表中的分类和数值属性离散化,把關系数据表转换成事务数据表。
(3)数据挖掘
输入挖掘需要的参数,使用Adapted Apriori算法进行挖掘。这一阶段首先产生候选项目集,然后扫描事务数据库,计算各候选项目的支持度,生成频繁项目集;由频繁项目集产生关联规则,计算规则的可信度和兴趣度,产生感兴趣的关联规则。
(4)规则分析
以某职业院校的科研数据为例,选定最小支持度=15%,最小可信度=75%,得到的规则是:
副教授,本科 及格;
助教,硕士 稍差。
①副教授,本科 及格
这部分教师教龄比较长,知识和经验积累较多。但缺少高层次教育的经历,接触科技前沿知识较少和创新能力较弱,学习经历影响了科研工作。建议学校应积极鼓励这类教师,攻读硕士、博士学位。让其有时间、有条件提高学历层次,更多地接触科技前沿知识,培养他们成为科研骨干。
②助教,硕士 稍差
硕士研究生系统地学习了专业内的高层次知识,具备一定的创新能力,但缺少知识的积累和经验的沉淀。针对这类教师可多给予学术访问和合作研究的机会,培养和促进这些高学历教师早日成为学术骨干。
4.总结
开展科研能够更新和提高教师的业务知识水平,并能及时地应用于理论课堂教学及实验教学中,从而促进教学质量的提高,对学生、教师个人及对学校整体的发展都将起着积极的推动作用。在科研管理中引入数据挖掘技术,能够充分利用数据所隐含的价值,为领导者制定决策提供科学的依据,以提高高校科研管理的水平和能力。
参考文献:
[1]陈京民等,数据仓库与数据挖掘技术[M].北京:电子工业出版社
[2]安淑芝等.数据仓库与数据挖掘[M].北京:清华大学出版社
[3]刘同明等.数据挖掘技术及其应用[M].北京:国防工业出版社
作者简介:
王萌(1981-),男,山东昌邑人,硕士,潍坊学院数学与信息科学学院讲师。