刘付成, 张树瑜
(上海航天控制技术研究所,上海 200030)
人力资源决策支持系统中数据仓库平台的设计研究
刘付成, 张树瑜
(上海航天控制技术研究所,上海 200030)
在纷繁复杂的人力资源数据信息中挖掘数据并以智能算法生成的各类表层之间的内在关系,通过“加工”实现数据的“增值”,以便及时、有效地提供战略决策支持,这种方法成为人力资源管理信息系统开发的新热点。企业建立人力资源决策支持系统,并以此为基础进行人力资源信息相关大数据的挖掘日益成为企业“现代化产业集团”建立与发展的重要手段。传统数据管理系统存在与大数据分析架构不匹配、集成性和综合性较差等问题,而数据仓库技术在弥补这些缺陷,具有诸多优点。从航天行业人力资源管理信息系统的现状及特点,分析并构建关于该领域人力资源数据仓库平台的实现。
大数据; 数据仓库; 多维模型; 联机分析处理; HR-DSS
人力资源管理信息系统(简称HR-MIS)对管理水平和工作效率的提升作用显而易见。人力资源管理信息系统就是应用计算机及网络技术,融合科学、有效的管理方法,辅助人力资源管理从业人员完成信息管理与职能完善的管理模式。人力资源信息包含着庞大的海量数据,不仅有多达数十类不同统计形式的报表数据(如人员基本信息明细、主业人员在岗职工情况、薪酬福利统计信息、员工培训情况信息、社保缴纳情况信息等),并且每类统计数据又包含少则3~5项,多则10~20项的统计属性。再加上快则每天、每周,慢则每个月、每半年、每年的数据统计信息,形成了“浩如烟海”的以Excel、Word或.db等文件形式存在的具有重要参考价值的信息。因此,如何从人力资源信息中提取有管理价值的信息,为单位战略决策服务已经成为各单位乃至其他企业面临的重要课题。人力资源决策支持系统(简称HR-DSS)的建立是解决该问题的唯一途径。
以作者本人所在的航天单位为例,与国内大型私营企业的人力资源管理信息化相比,大多数航天单位的人力资源管理信息系统处于初期开发阶段,存在如下现状:(1)业务模块的信息化不完整。先期开发主要集中在员工基本信息、考勤信息、调配信息以及合同信息等模块,部分模块还未上线,诸如绩效管理、薪酬福利规划、职业通道以及任职资格管理等模块还未实现信息化。并且部分上线模块仍处于试运行阶段,随着信息获取需求的不断增加,业务模块维护的完整性和实效性也存在滞后现象。(2)仅仅具有基本的数据浏览或查询功能。通常是以单一的人事行政事务或人力资源管理业务需求角度设计并研发,虽然目前的系统正在逐渐将模块功能扩展至单位人力资源管理的整个业务领域,但在系统整体性、前瞻性、集成性、易用性、规范性等方面仍还有待进一步提升;(3)各模块间生成的信息各自独立。仅仅通过每个模块可以了解该业务的基本现状或情况,由于一个单位运作过程中不断产生的问题原因涉及到多方面的内因联系,因此还需要各个模块信息间的互相支撑或对比分析才能综合判断问题及原因。单从个人脑力来进行综合评价难度很大;(4)无决策增值服务大数据决策支持分析理念。即未真正实现由“人事管理”到“人力资源”管理的转变,部门的名称虽然由“人事部”改为“人力资源部”,但工作模式或理念还未完全转型匹配。面对大量的数据,单位的决策者并不仅仅是浏览或知悉,更重要的是发现隐含的内在真正问题,这就需要结合大数据管理方法,对当前单位人力资源状况进行全面剖析,通过智能决策支持系统识别管理运作中需要改进的风险点,进而利用大数据为领导层全面了解情况、科学决策提供支撑,实现数据的“增值”服务。
进行大数据分析的对象基础是数据仓库的建立。数据仓库不同于传统的数据库系统,相比之下存在诸多优点:规模更大、数据集成性和综合性更高、具有良好的面向大数据分析的体系架构、便于决策者进行长期趋势的分析和决策、体系结构努力保证查询和分析的完整、实时性以及努力保证与现代计算机系统的相匹配等。数据仓库是一种专门的数据仓储方式,用来保存从多个数据库或其他信息源选取的已有数据,并为上层用户提供统一的接口。美国著名信息工程科学家W.H.Inmon[1]提出数据仓库的概念是:数据仓库是集成的面向主题的数据库集合,是用来支持决策功能的,其中每个数据都与时间相关。
本文以作者实际工作单位的人力资源管理信息系统为对象,对数据仓库的构建进行分析和研究。
按照人力资源管理的实际需求,开发基于数据仓库的决策支持系统。该系统以Visual Basic为前端开发工具,SQL Server为目标数据库,主要功能为:多维分析、动态报表、即席查询、动态预警、可持续预测等[2]。其体系结构,如图1所示。
图1 基于数据仓库的人力资源决策支持系统体系结构
图1中的数据仓库是系统的数据管理部分,向上层应用提供所需数据,运用多维分析、联机分析处理(简称OLAP)工具,组成整个系统的核心与基础。
1.1 数据仓库平台的开发方法
数据仓库的开发过程相当复杂,不同于一般的管理信息系统(简称MIS),而是一种数据驱动过程[2],包括数据模型分析、数据量分析、技术环境分析、主题区域分析、源数据分析、物理设计、数据仓库的建立、数据填充以及决策支持系统等部件的开发。
由于人力资源系统数据仓库的开发涉及到本单位各部门的大量人员和数据,并需要一定的人力资源管理和信息技术方面的专业知识,因此需要有周密的计划、科学的管理和有效的方法。数据仓库的开发分为4个步骤,循环进行,分别介绍如下,如图2所示。
图2 HR-DSS系统数据仓库开发步骤
(1) 信息分析和项目规划:“企业化、市场化、产业化、国际化”是本单位发展的战略目标,数据仓库的建立应该以该战略为导向进行信息分析和项目规划,这是保证数据仓库建立有效的基础。即,必须明确为什么建立数据仓库,应该为单位的战略发展做些什么,并将数据仓库的建立分为一系列计划项目;
(2) 体系结构定义:该步骤制定高层次的计划或蓝图,同样以本单位战略发展目标“企业化、市场化、产业化、国际化”为初始定义,确立数据仓库的技术服务和应用程序结构,并为随后进行的活动制定更为详细的计划;
(3) 实际建立:该步骤的工作包括以现有多种数据存储形式如Excel、Word、.db等为基础建立HR数据模型、源系统分析、物理设计、填充实现;
(4) 运行和维护:随着时间的变化,用户对信息的需求以及数据的更新需求不断变化,要求对数据仓库进行不断优化并进行适当维护。
1.2 HR-DSS系统数据仓库的技术体系结构
结合数据仓库技术和本单位人力资源目前的MIS系统特点,提出人力资源决策支持系统数据仓库平台的体系结构,它由以下7个关键模块组成,如图3所示。
图3 人力资源决策支持系统数据仓库技术体系结构
(1) HR数据获取模块:其功能是从原来的OLTP数据库中抽取弱关联人力资源信息数据,对数据进行检验和整理,同时根据数据仓库的设计要求,对人员信息数据进行重新组织和加工,并加载到人力资源“增值”模块(简称HRM+)目标数据库中。
(2) 数据管理模块:用于建立、管理和访问人力资源数据仓库中的数据。
(3) 管理模块:对人力资源决策支持系统数据仓库的运行提供监控和管理手段,包括人力资源决策支持系统资源的使用管理、用户操作的合法性管理、安全管理、存储管理等。
(4) HR信息目录模块:为管理者和用户提供有关元数据。元数据描述人力资源决策支持数据仓库中源数据和目标数据本身的信息,定义从源数据到目标数据的转换过程。
(5) 数据访问模块:为企业需求分析用户提供访问(查询统计、汇总报表、关联分析、动态预警、可持续预测等)及分析数据仓库的工具。
(6) OLAP服务器:是功能强大的多用户数据操作引擎,特别用来支持数据仓库中多维数据视图及服务,体现与OLTP数据库仅对于传统事务处理的本质区别。
(7) HR数据传递模块:用于向其他数据仓库和外部系统分配数据仓库的数据。
2.1 数据模式的设计
由于OLAP数据仓库在规模大小、集成程度、集合程度、体系结构等方面与传统OLTP数据库有相当大的区别,因此,不宜使用传统的数据结构,否则无法满足要求。此外,人力资源数据相关的数据仓库多维数据使用量大,内嵌引用规律复杂,在智能数据挖掘时会涉及到大量的OLAP操作,如Slice、Dice、Roll-up、Drill-down等。为提高操作效率,有必要为数据仓库设计一种数据模式。目前构建数据仓库常用的数据模型有星型模型和雪花模型两种。虽然星型模型具有查询效率快的特点,但雪花模型由于采取了规范化和各维度较低的粒度,相比星型模型由于增加用户查询处理表数量而导致查询复杂性相对较高问题,实际中为了得到真正有用的信息,时间花费较多并非考虑主要因素,主要目标是获取信息的完整性和覆盖性程度要高,以便获取对于单位改进或完善管理机制的决策支持。通过对本单位人力资源信息系统统计数据特性的属性分析,结合数据仓库环境的特点,我们选定雪花数据模型用于描述多维数据模型。
在多维模型中,人力资源相关信息数据是作为事实和维而不是行和列存储。雪花模型利用了被称为事实表的大表,其中包括人力资源的事实数据和数量数据,以及一些被称为维表的小表,其中包含了描述性数据。一个维表代表了观察数据的一个角度,可以看作一种测量尺度或立方体的一面。因此,这种模型通常被称为立方体模型、雪花型模型、事实模型或维模型。如图4所示。
图4 HD-DSS分析立方体模型
一个带有序列、语义属性和隶属关系的人力资源变动趋势分析立方体,一个数据点表示序列、属性类别和隶属关系信息的交叉点,如图5所示。
根据图4给出图5所示的雪花数据模式,它由一个事实表和3个维表组成。语义属性表示该员工的一些基本属性,包括年龄、学历、专业技术职务、技术等级及人员类别等;隶属关系维表列出了员工在不同分类中的特征表述,包括是否内部引进、企业并购、海外引进以及社会引进等;事实维表显示了员工实际获得的货币及非货币性报酬,包括个人职业发
图5 HR-DSS员工雪花模型
展、提拔晋升、学历深造以及增值医疗服务等;序列维表通过机构代码、工号、国密号、身份证号以及与日期ID对应关系的组合来标定人员不同时间的特点索引。这样事实表通过序列、语义属性以及隶属关系三个维表联结起来,形成雪花模型结构的多维数据模型。
使用雪花数据模型组织多维数据,可以非常直观的描述多维数据的结构。由于序列维表中数据有限而事实表中的数据庞大,在多维数据进行OLAP操作时,应先对维表进行操作,后处理事实表以提高效率。此外,为提高效率,在进行多表连接时,可利用连接索引(Join Index),不必进行真正的Join运算,就能找到符合条件的记录。SQL Server就提供这种功能。
2.2 异型数据源的集成方案
数据仓库的基本思想之一是:当数据从业务系统或其他数据来源取出来时,应该先经过变换或“清洗”。而数据集成是一种较为复杂的数据变换类型,它是指将业务数据从一个或几个来源中取出,并逐字段的将数据映射到数据仓库和新数据结构上,这需要元数据的帮助。用于数据集成的元数据一方面定义数据源的原始数据模式与目标数据模式对象之间的映射,即源表与目标表中各字段间的映射,另一方面又规定数据集成程序何时执行数据的转换和清洗。HR-DSS数据仓库中的数据集成方案介绍如下。SQL Server的数据仓库通过ODBC接口可以与多种DBMS连接,为实现异型数据库之间的数据集成创造了条件[3],如图6所示。
图6 通过ODBC连接多种DBMS示意图
在进行数据转换的同时,还要去掉源数据中的“脏”数据,即数据清洗。一种清洗方法是检查数据字段中的有效值,通过范围检举、枚举清单和相关检验来实现。数据清洗规则是各种不同方法的结合。有效值检验不要求复杂的逻辑,它既可以用手工编码的方法,也可以用SQL Server提供的DTS进行数据变换。
2.3 数据仓库的OLAP处理过程
一个标准的HR-DSS访问表层生成过程,如图7所示。
图7 HR-DSS数据仓库的OLAP处理过程
前台控制OLAP Table N Action:它负责接收和处理每个过滤后的数据查询请求。前台控制OLAP Table N Action3协调其它控制模块中的组件分发请求和产生下一个视图。因为它是一个OLAP Table N Action,它能创建任何类型的内容,包括二进制类型的内容。前台控制器使用下面的空间完成各种操作:
请求处理类(Filter Request):该类负责映射Request到相应的Action类,使用Table层的Action类使得开发者增加一个新的功能变得很容易;OLAP Action:负责分发EJB Event到EJB Controller(EJB Controller的定义在下面);LANBack:决定请求之后应该跳转到哪一个表层去。表层流程控制是在外部的各类报表文件中定义的,所以新的表层可以很容易被添加到系统中;EJB Controller用来接收EJB Event和执行相应的EJB Action。使用了EJB Event和EJB Action使得新的业务功能很容易加入到系统中。Filter Request可以放置到前台控制OLAP Table N Action之前。模板Servlet(Template Servlet)用来组织应用程序中的页面,来形成统一风格的界面。
本文介绍了基于航天领域人力资源决策支持系统中数据仓库平台的设计方案、体系结构及若干关键问题的解决方法。随着对决策支持系统研究的深入,构建该系统中还有许多需要研究的地方,例如在此基础上开发智能数据算法进行有效数据挖掘是进一步需要研究的内容。
[1] 张剑芳. 数据仓库技术在仓库管理信息系统中的应用[J]. 实用物流技术,2013,100(1):265-268.
[2] 田永青等. 一种基于税务系统数据仓库的模糊数据挖掘算法的研究[J]. 计算机工程与应用,2013,10(2):16-18.
[3] 涂杰,黄志明. 基于数据仓库的税务地理信息系统构建[J]. 微型电脑应用,2014,30(11):30-32.
Research on Data Warehouse Platform Design for Human Resource Decision Support System
Liu Fucheng,Zhang Shuyu
(Shanghai Aerospace Control Technology Institute, Shanghai 200233)
It is an increasingly hot topic to provide time and effective strategy decision support in complex and large data mining on human resource information, to generate intrinsic relation among tables and layers and to realize data increment. Data warehouse is an important method to restruct and improve modernization industry group for data mining in human resource management. The traditional decision support systems have many problems such as architecture non-matching, less composition and all-around defect performance. The paper analyzes and establishes the realization of data warehouse platform for human resource management information system combining real present status and characters.
Bigdata; Data warehouse; Multidimensional model; OLAP; HR-DSS
刘付成(1973-),男,博士,研究员,山西朔州人,研究方向:航天器智能控制与大数据研究。 张树瑜(1978-),男,博士,高级工程师,研究方向:自动化与数据掘。
1007-757X(2017)08-0040-03
TP311
A
2017.06.02)