高职学生职业类型选择数据仓库的研究与构建*

2014-09-04 08:29:41王善勤王小林陈业斌
九江学院学报(自然科学版) 2014年2期
关键词:数据仓库数据源维度

王善勤 王小林 陈业斌

(1安徽工业大学计算机学院 安徽马鞍山 243032;

2滁州职业技术学院 安徽滁州 239000)

高职学生职业类型选择数据仓库的研究与构建*

王善勤1,2王小林1陈业斌1

(1安徽工业大学计算机学院 安徽马鞍山 243032;

2滁州职业技术学院 安徽滁州 239000)

针对高职院校对积累教务管理、就业跟踪调查、学生综合素质测评等数据与高职学生首次职业类型选择的决策分析和研究结果的愈加依赖,从高职学生职业类型选择的特点出发,应用数据仓库技术研究高职学生职业类型选择数据仓库的主题域、主题、数据组织等,确立数据仓库的组织结构并完成数据仓库ETL设计,为对高职学生职业类型选择深层分析做好了铺垫。

数据仓库,职业类型选择,研究,构建

近年来,对职业生涯领域的研究工作,国外已经比较深入全面[1],对职业、职业类型选择及职业价值观等方面做了深入地研究,国内在这方面的研究相对较浅且单一。国内外专家学者对数据仓库技术在各行各业进行应用研究,而国内高职学生首次职业类型选择的应用研究还是空白。鉴于此,笔者以职业规划理论为基础,建立了高职学生职业类型选择数据仓库,为进一步对数据深层分析并从中挖掘相应规则模型做好了铺垫。

1 数据仓库相关概念

(1)数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合[2]。

(2)外部数据源[3]是指从外部为数据仓库提供数据分析的数据来源。比如构建的高职学生职业生涯规划数据仓库不仅以教务管理系统的基础数据库作为外部数据源,同时也将综合测试中各个班每年的综合测评表等作为数据源。

(3)元数据[3]是指关于数据仓库中数据、操作数据的进程及应用程序的结构和意义的描述信息。

(4)粒度[3]是指数据的详细程度;粒度越小,细节程度越高。

(5)数据集市是一个特定应用的数据仓库,数据集市有独立型数据集市、从属型数据集市两种类型[3]。独立型数据集市的是满足企事业单位内各种分析需求而建立的微小型数据仓库。从属型数据集市中数据的组织和分析是以数据仓库作为基础的,其与数据仓库中的数据逻辑上保持一致但并不完全相同。比如笔者为访问数据仓库频繁的职业类型选择子系统创建从属数据集市,从而提高查询操作的效率。

2 高职学生职业类型选择数据源的构成

高职学生职业类型选择数据仓库的数据来源于教务管理系统、综合素质测评、就业跟踪统计、心理素质测试系统及其它外部数据源中数据。

2.1 教务管理系统数据

教务管理系统数据库是在SQL Server2000环境下创建的事务性数据库。它的数据内容包含了学生成绩数据、教师及任课信息、学生实践成绩数据、系部及班级情况数据等。此数据库为高职学生职业类型选择数据仓库的主要数据源之一。

2.2 综合素质测评数据

综合素质测评数据中大的方面可分为德育成绩、智育成绩、体育成绩(身心健康素质)、能力成绩等报表。此数据为高职学生职业规划数据仓库的主要数据源之一。以德育成绩计算方法举例,德育成绩(思想道德素质)积分(M=M1+M2+M3),其德育成绩记分为“M”,其德育基准分记分为M1,其德育加分记分为M2,其德育减分记分为M3。

2.3 就业跟踪统计数据

就业跟踪统计数据由毕业生就业统计表、毕业生跟回访情况表、就业情况分析表等数据构成。它的数据内容几乎包含了学生就业、创业所涉及的各个领域的基础数据,如学生就业统计表、毕业生跟踪调查表、就业明星表等。这些数据为高职学生职业类型选择数据仓库的主要数据源之一。

2.4 心理辅导、职业规划教学相关数据

学校已开展大学生心理辅导、职业规划工作5年多,心理素质测试系统积累了很多信息,教学过程中也积累了相应的信息,主要是关于气质、性格等测试试卷及职业规划书等。其它外部数据源包括调研报告、会议纪录文档等。

3 高职学生职业类型选择数据仓库的主题域

3.1 主题和主题域

主题是指能完整、统一地描述出分析对象所涉及的各项数据、相互联系[4]。高职学生职业类型选择数据仓库划分主题的根据主要来源于两个方面:一是对教务管理系统、综合素质测评、就业跟踪调查信息的基础数据的分析;二是对学生先天具有特征的分析。基础数据能较好的反映出学生在校期间的努力情况,学生先天具有特征能够反应出原有特征等。

主题域是所有主题及其之间关系的集合[4],在数据仓库设计时,主题域的确定并装载到数据仓库的主题是非常重要的一步。例如,高职学生职业类型选择数据仓库就是选择大学阶段的努力对职业类型选择的影响主题、先天特征对职业类型选择的影响主题等作为数据仓库设计的主题范围。

3.2 高职学生职业类型选择数据仓库主题的划分

根据高职学生职业类型选择指导子系统的功能和业务流程,可以知道整个流程涉及到性格、气质、兴趣、德育成绩、智育成绩、体育成绩、能力成绩、专业实践成绩、职业类型选择等。针对现在研究现状,以职业类型选择作为高职学生职业类型选择数据仓库的主题域,其中包括大学阶段的努力对职业类型选择的影响主题、先天特征对职业类型选择的影响主题等二个主题,如图1所示的高职学生职业类型选择数据仓库的主题域的划分和总体结构。

图1 高职学生职业类型选择数据仓库主题域树状结构图

3.2.1大学阶段的努力对高职学生职业类型选择的影响主题 该主题主要包括了学生大学阶段德、智、体、能、专的五方面的基本信息,教务管理中信息主要包括了学生智育成绩、专业实践成绩、体育课成绩等;学生综合测试信息主要包括了学生德育成绩、体育加分项成绩、能力成绩等;就业跟踪调查统计信息主要包括学生就业单位、就业岗位、个人对岗位满意度等。

该主题所包含的表如下:

主键:学号

智育成绩维度表(学号、第一学期平均成绩、第二学期平均成绩、第三学期平均成绩、第四学期平均成绩、第五学期平均成绩、……)

德育成绩维度表(学号、政治思想表现、道德品行、学习态度、组织纪律、劳动卫生、加分、减分、……)

体育成绩维度表(学号、体育课成绩、达标成绩、早锻炼成绩、加分、减分、……)

能力成绩维度表(学号、自我管理能力、沟通表达能力、团队合作能力、解决问题能力、创新创业能力、审美能力、职务附加分、文艺汇演附加分、发表论文或译文附加分、获奖附加分、……)

专业实践能力成绩维度表(学号、毕业设计成绩、主持或参与项目附加分、竞赛获奖附加分、实训成绩、实习成绩、……)

毕业生职业类型维度表(学号、就业单位、就业岗位、个人对岗位满意度、……)

学生情况信息实务表(学号、姓名、班级、德育成绩、智育成绩、体育成绩、能力成绩、专业实践能力成绩、职业类型……)

3.2.2先天特征对高职学生职业类型选择的影响主题

主键:身份证号码

该主题主要包含了性别、性格、气质、兴趣、职业类型等各个方面的基本信息。可以通过该主题从学生先天条件的角度对高职学生首次职业类型选择进行分析,从而可以提高学生职业类型选择的质量等。

通过分析可以帮助高职毕业生根据总体情况作出科学的决策,帮助职业规划指导师指导学生进行首次职业类型选择。

该主题主要包含的表如下:

学生信息先天条件事实表(学号、性别、性格编码、气质编码、兴趣编码、职业类型编码、……)

性格情况维度信息表(性格编码、性格类型、分数、测试日期、指导教师ID、……)

气质情况维度表(气质编码、气质类型、分数、测试日期、指导教师ID、……)

兴趣情况维度表(兴趣编码、兴趣类型、分数、测试日期、指导教师ID、……)

职业类型维度表(职业类型编码、职业类型、岗位群、……)

教师表(教师编码、姓名、职称、级别、……)。

4 高职学生职业类型选择数据仓库的数据组织结构

数据仓库根据上述主题分析划分成不同的数据集市,如后天努力影响职业类型选择数据集市、先天影响职业类型选择数据集市等。为了有利于提高职业类型选择数据分析的准确率,数据仓库的数据组织方式是在较高层次上对分析职业生涯规划者的一个较全面地刻画出了各个职业类型选择对象所涉及的各项数据及数据间的联系。高职学生职业类型选择数据仓库的数据组织结构如图2所示。

图2 高职学生职业类型选择数据仓库的数据组织结构

由图2可知,高职学生职业类型选择数据仓库中的数据是一个不断综合的过程。数据组织结构的确定,为高职学生职业类型选择数据仓库的ETL[3]设计做好了铺垫。

5 高职学生职业类型选择数据仓库ETL设计

高职学生职业类型选择数据仓库ETL体系结构[3]严格按照“抽取”“转换”“装载”的步骤进行操作。

5.1数据抽取

根据高职学生职业类型选择需要,本文采用增量抽取和全量抽取相结合的抽取方式。全量抽取一般当需要将数据库中的数据全部复制到数据仓库中去时使用,增量抽取为不需要全部复制只是针对特定的主题或者新增的数据时使用。

5.2数据转换

数据转换的重要任务是去除从数据源中抽取数据时存在某些数据的重复。如在“后天”努力影响下的首次职业类型选择主题体育维度表中一部分字段是来自学生成绩信息表,而另一部分心理素质加分、减分等都是来自综合素质测评的体育加分、减分表,在清理过程中是有选择地抽取有用字段并合并到体育成绩维度表。

5.3数据装载

数据的追加常有直接追加、全部覆盖和更新追加几种类型。由于现在高职学生职业类型选择子系统还未交付使用,数据是最新的,此处采用全部覆盖的类型进行数据装载。

6 结语

近年来,数据仓库技术的应用加快了高职学生职业类型选择科学化的进程。数据仓库在高职学生职业类型选择中的应用是一个初步探索,对一所高职院校近3年的教务管理系统、综合素质测评、心理素质测试、就业跟踪调查统计等数据,构建了关于高职学生职业类型选择的数据仓库,为进一步做好高职学生职业类型选择分析提供有力保障。研究范围是对高职学生职业类型选择的数据仓库的构建,其他的高职教育、教学应用领域还有待进一步探讨。

[1]康雁冰.职业发展与大学生职业规划[J].创新与创业教育,2012,3(6):29.

[2]闵建虎.基于数据仓库的决策支持系统设计研究[J].微型电脑应用,2010,26(4):48.

[3]苏新宁,杨建林.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.66.

[4]张宁,贾自艳,史忠植.数据仓库中ETL技术的研究[J].计算机工程与应用,2002,39(24):213.

(责任编辑李佳瑜)

滁州职业技术学院院级科研基金项目《初探数据挖掘在大学生职业生涯规划中的应用》(编号YJY-2011-17);安徽省示范性高等职业院校项目《软件技术专业建设》(编号CZ03)成果之一。

2014-1-20

王善勤(1979-),男,皖灵璧人,硕士,研究方向为数据挖掘和计算机技术。E-mail:wangshanqin2005@163.com。

G 642.4

A

1674-9545(2014)02-0116-(04)

猜你喜欢
数据仓库数据源维度
浅论诗中“史”识的四个维度
中华诗词(2019年7期)2019-11-25 01:43:00
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
分布式存储系统在液晶面板制造数据仓库中的设计
电子制作(2016年15期)2017-01-15 13:39:15
探析电力系统调度中数据仓库技术的应用
光的维度
灯与照明(2016年4期)2016-06-05 09:01:45
“五个维度”解有机化学推断题
基于数据仓库的数据分析探索与实践
基于真值发现的冲突数据源质量评价算法