杨金峰 侯景严 王松
摘 要:随着互联网的飞速发展,企业建立了诸多信息管理系统,其数据产生量也爆炸式增长。合理利用各类系统的异构数据挖掘潜在信息,对助力企业决策者确立企业发展方向及计划具有重要意义。为此,文章针对企业内部已有信息系统数据分散、基本结构不一致的异构状态,依托“态势感知”思想,借助数据可视化分析方法和图形化展示手段建立面向异构数据的态势感知系统,有助于挖掘历史数据的价值以及提升企业决策者态势感知的支持度。
关键词:异构数据,大数据,决策支持
中图法分类号:TP311文献标识码:A
1 引言
随着时间的推移,计算机科学与技术发展日新月异,许多科研企业搭上了数字化、智能化的快车,构建了一连串辅助办公的核心业务软件系统,如人力资源管理软件、固定资产管理软件、供应商管理软件、测试管理软件等。经过时间的积累,诸多系统产生了大量的应用数据,企业逐渐进入大数据时代。数据的积累可以通过数据本身为系统提供反查依据,也可以通过数据挖掘、数据分析等信息化手段得到潜在的数据或关联关系,为企业中、高领导层提供做出决策的态势感知支持,进而对系统的建设和使用做出正相关反馈[1] 。但企业内部建立的系统不是一天、一次性建成的,导致在企业办公应用系统中形成了不同编程语言、不同操作系统、不同硬件架构,不同数据库的系统集群[2] 。不同的系统产生了大量的密集型多来源异构数据,影响了企业统一视图的建设,将此类异构的数据进行整合并建设精细化、集成化的态势感知系统显得尤为重要。
本文针对多来源的异构数据在企业态势感知系统中的应用,提出通过异构数据的整合,将其应用于态势感知系统,并建立一系列指标供决策者在决策前感知发展态势。
2 相关理论
2.1 异构数据整合
异构数据顾名思义是指基本结构不同的数据库数据,是由多个拥有独立、完整的DBMS 数据库数据组成的集合。异构数据的异构性主要体现在异构的计算机体系结构、异构的操作系统、异构的数据格式、异构的数据存储地点以及异构的数据存储逻辑模型。本文的数据整合主要由异构的数据格式和异构的存储逻辑模型构成。数据格式存在多样性,包括关系型数据库和非关系型数据库;存储逻辑模型主要在不同业务逻辑中存储和维护相同意义的数据。异构数据整合的目的是实现不同层次结构的数据库数据资源的共享和集成。其关键在于组织基础数据,并借助不同的工具和简单的逻辑整合,生成具有统一对外接口的数据仓库资源。数据整合的步骤如图1 所示,包括数据抽取、数据清洗、数据转换等步骤,最终形成数据仓库,为后续环节提供统一化的数据支撑。
数据抽取的概念是将上层需要的数据从下层源中按照一定规则进行提取。当前现有数据抽取的技术手段有全量和增量2 种抽取方式。第一种全量的方式类似于数据的迁移和复制,它对下层源中所有数据进行原封不动的抽取。而第二种增量的方式则是对比上次抽取时的状态,只抽取有变化的部分。这种方式最重要的环节是如何捕捉源的变化。在确保结果准确率和性能最优化的前提下,其主要方法有触发器方式、时间戳方式、日志记录方式等。
异构数据最终生成数据仓库并对外提供统一化接口的关键一步是数据清洗和转换,具体操作为通过检查数据有效性和一致性,对缺失值进行处理。其主要处理方法有部分数据丢弃法、缺失数据补全法、真值转换法、不处理等。可根据源头数据库表以及字段的特性来选择方法对其进行处理。而数据转换则是因为异构的原因而引入,主要解决各源头系统中对某一特定事物表述方式不同的问题。如A 系统将性别表示为男、女,而B 系统则表示为F,M,此时应根据数据仓库的标准对源头系统的数据做转换,达到最终一致的效果。
2.2 态势感知与决策
态势感知是指能全局地发现周围的发展状态和趋势,它是基于环境且动态的。此概念最早出现在军事研究中,包含感知、理解和预测3 个方面。态势感知数据系统则以大数据为基础,从全局视角出发,发现潜在问题,监测业务发展,反馈决策效果。态势感知数据系统所处地位高于综合信息管理系统。它融合多种处理方法和分析算法,对结构化、半结构化和非结构化的数据进行分析处理,并充分利用多样的可视化组件图形对处理的结果进行展示,最终为企业决策者态势感知提供有力支持。系统对应态势感知概念中的3 个层次为:数据管理层、数据分析层、数据展示层。具体态势感知系统结构如图2 所示。数据管理层是该系统的基础模块,主要功能是对异构数据进行整合,完成异构数据的抽取、清洗和转换,最终形成可对上层模块提供统一化接口的存储管理仓库。数据分析层是态势感知系统的关键,主要通过各类数据处理方法和数据分析算法对业务数据进行全方位的统计分析,得到可供展示的半成品态势感知数据。展示层对态势感知数据进行多维度的展示,通过多样化的图表(如柱形图、环图、雷达图等)准确清晰地表示数据,并依靠各业务系统设立的角色对展示权限进行约束。
态势感知数据系统可以快速连接现有系统数据,有效分析数据潜在问题与趋势,帮助各角色人员对企业发展态势进行准确感知,并在此基础上做出决策,以供執行层业务人员修正业务内存在的问题。
3 系统设计
3.1 系统顶层架构
本系统通过对企业决策支持的现状和业务需求进行分析,并结合企业内部在用的信息化综合管理系统,采用自底向上的模式,其具体分为3 个层次,包括数据管理层、数据分析层和数据展示层。实现态势感知数据系统的思路为:首先在数据管理层对企业内部建立的大量业务系统产生的异构数据进行整合,经过一系列的清洗及转换,形成可供分析使用的数据仓库;然后分析企业内态势感知指标体系,并提出供决策使用的指标以及结合数据处理方法和数据分析算法得到的待展示数据;最后选择适用于展示数据的可视化组件并形成图形化界面,给予各层次决策者不同的数据权限、展示权限,从而为其决策提供充分依据。面向异构数据的态势感知系统架构如图3 所示。
3.2 数据管理模块
数据管理模块主要管理来自各独立系统的异构数据,并对数据分析模块提供输出。其主要处理同构化的异构数据并对中间结果进行抽取清洗和转换,最终生成可供上级分析模块使用的数据仓库。数据抽取主要针对当前已经建立的一系列应用系统,目前企业内系统数据库均为诸如MySQL,Oracle,SQL Server的关系型数据库,直接通过JDBC 接口连接即可。各数据库数据链接后,还需要对管理的数据做进一步的清洗和转换。具体操作包括数据库数据列命名、数据行重复值删除、缺失值处理、异常值处理,也包括数据重排序和数据的一致化处理。该模块是态势感知数据系统的基础,因此对数据的安全性和保密性提出高要求尤为重要。数据安全性主要参考源系统的业务权限,对用户建立角色并保证对特定用户角色开放特定数据权限。
3.3 数据分析模块
数据分析模块主要分为2 部分:一是按照业务需求确立态势感知的指標体系,二是根据确立的指标体系并结合数据处理方法和数据分析算法对数据仓库中的数据进行分析处理得到的待展示结果。指标体系需求确立数据领域与用户,数据领域划分为战略规划、科研管理、生产管理、人力管理、财务管理、采购管理、质量管理等。用户分为决策层(高层)、管理层(中层)、执行层(基层)。其中,决策层指标体系关注战略目标、监控运营盈亏等综合性指标;管理层指标体系关注目标计划完成状况、分析发现的问题;执行层主要细化到各自负责的业务执行状况,关注具体业务指标。数据处理方法主要涵盖数据关联、汇总和合并,而数据分析算法则比较多样,包含回归、分类、聚类等,最终得到以领域划分,以角色控制的待展示数据。
3.4 可视化模块
可视化模块输入为数据分析的结果,选择适用于该数据结构的可视化图形进行绘制,得到最终结果并与门户系统集成,供用户使用。可视化需求可分为以下3 个方面:数据变化趋势、数据统计分布、潜在数据分析。而开发平台上对应可视化前端组件非常丰富,具体有:柱线组合图、环图、矩形树图、漏斗图、气泡图。因此可根据展示数据类型按需选择可视化图表设计成果,最终发布成果到企业门户系统供各层人员查看并感知发展态势。
4 系统实现
基于上文中态势数据感知系统的理论模型和企业现有信息管理,结合系统顶层设计和模块详细设计,构建了面向异构数据的态势感知系统。首先整理企业现有综合管理系统,包括人力管理、生产及科研管理、财务与薪酬管理等系统,并统一管理和标准化各系统数据源,而后对这些异构数据进行整合。其次进行业务调研、需求梳理,形成业务板块并建立一套符合单位现状和业务现状的态势感知指标体系,覆盖战略规划、科研管理、生产管理、人力管理、财务管理、采购管理等10 余个模块,建立100 余个需求指标。最终使用以折线图、柱形图、环形图为代表的可视化图形进行绘制,综合生成态势感知结果。如图4 所示,针对企业内部全年计划完成情况分布,提取综合计划管理系统数据并生成环形图,以展示相关业务的态势,点击环形图也可展示各部分组成数据全貌,给予决策者详细的参考。如图5 所示,针对企业内部员工基本信息,提取人力资源管理系统数据并生成员工年龄分布柱状图,以展示员工各年龄阶段分布。决策者可以由此了解企业员工整体年龄分布是否符合正态分布,并据此对新员工招聘年龄和企业岗位任职等抉择性信息作出调整。
5 结束语
在大数据环境下,数据增长飞速。合理利用数据已成为日常业务的重要工作。态势感知系统可以将业务系统数据进行整合,挖掘潜在数据并利用可视化工具对其进行更加直观、美化的展示。因此,本文基于企业内各业务系统,并面向异构数据研究建立本地化的态势感知数据系统,以丰富的图表形式展现了企业内部业务现状和发展趋势;利用大量隐藏、有价值的业务数据整合异构信息系统数据,以丰富的图表直观表达了数据分布和企业重要发展态势,从而为各层员工传递信息并为其作出有效决策提供数据支持。
参考文献:
[1] 程龙军.面向大数据的指挥决策系统模型研究[J].山西电子技术,2015(1):85?87.
[2] 杨明亮.基于数据抽取的决策支持系统研究与实现[J].数字技术与应用,2018,36(3):47?48.
作者简介:
杨金峰(1996—),硕士,助理工程师,研究方向:软件设计开发及数据库应用。
王松(1989—),硕士,高级工程师,研究方向:软件开发及数据分析(通信作者)。