数据治理和商业智能

2018-08-30 09:15江飞
中国科技纵横 2018年14期
关键词:商业智能数据治理

江飞

摘 要:随着互联网+、物联网、云计算、大数据、区块链等信息技术的迅猛发展,催生了超越以往任何年代的巨量数据,需要配套的数据治理与管理机制,结合商业智能可视化分析,将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值,为企业带来不可替代的竞争优势。随着移动通讯4G网络的快速发展,以及手持式设备的普及,BI的展示就可以扩展到移动手持设备。

关键词:数据治理;商业智能;元数据管理

中图分类号:F272 文献标识码:A 文章编号:1671-2064(2018)14-0054-02

1 数据治理概览

从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管,保证数据的有效性、可访问性、高质量、一致性、可审计和安全性。从分类来讲,数据治理分为应对性数据治理和主动型数据治理。

(1)应对性数据治理。应对型数据治理是指将前端应用产生的数据,通过数据移动工具批量移动到主数据管理(MDM)系统中。数据经过整理、匹配和合并,然后同步回原系统、企业的其它应用程序以及数据仓库或商业智能/分析系统。由于主要是通过批量方式进行主数据的移动,批量操作带来的时间延迟,可能导致业务部门继续操作“过时的”主数据。(2)主动型数据治理。直接在MDM系统中录入数据,通过预设的业务规则,以整理、匹配和合并数据。这样的优势在于:数据经过预设的规则进行选择性填写,可在源头获得高质量的主数据。保证了数据的初始质量,并且不会再有数据从其它源系统中传入,就实现了主数据管理的主要目标——保证和保持主数据的“干净”;通过使MDM成为录入系统及记录系统,能从本质上将数据维持在“零延迟”状态,新记录实时或准实时的方式发布到其它应用系统。

2 数据治理要点

数据治理包含数据质量管理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理。数据治理逻辑架构如图1所示。

2.1 元数据管理

元数据管理,是指通过建立元数据工作配套的组织、制度和平台,对元数据的采集、检验、发布、应用进行一系列的管理活动。

元数据指对数据内容、质量、所处语境等特征的基础性定义或结构化描述,也被称为关于数据的数据,是信息交换和数据共享的基础和前提。元数据按照存放内容可分为技术元数据、业务元数据和操作元数据。

技术元数据,指用于系统设计及日常管理相关数据信息,主要包括数据模型、应用系统以及数据迁移与转换规则等。

业务元数据,指和业务相关的数据信息,用于辅助定位、理解及访问业务信息,主要包括业务术语、业务规则、业务指标、业务报表、概念模型、数据标准以及数据质量规则等内容。

操作元数据,指系统日常运行产生的操作信息,主要包括应用作业程序配置信息以及应用作业运行次数、运行开始时间、运行结束时间、运行结果、处理数据量、异常数据量等内容。

2.2 数据质量管理

数据质量管理(Data Quality Management),是指对数据的生命周期(计划、获取、存储、共享、维护、应用、消亡)的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

数据质量问题主要有如下几类:

数据完备性。或称为数完整性,主要体现在数据缺失未填,丢失关键数值。或数据值为NULL。

数据有效性。主要体现在数据无意义,或数据有意义但不符合业务定义,或代码取值越界,或关联字段不匹配。

数据唯一性。主要体现在业务关键属性组合不唯一。

数据一致性。主要体现为数据的维度与度量值之间的引用关系断开,或引用关系正常但同一数据不同表格内取值不同,或汇总数据不一致。

数据精确性。主要体现为数据精度不够,不符合业务需求。

数据时效性。主要体现在数据时效太低,不满足统计及需求。或使用了“过期”的数据版本。

数据真实性。主要体现为数据不是真实的业务数据。

3 数据仓库

数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。

数据仓库主要有如下特点:

主题导向。不同于数据库面向事务的特性,数据仓库按主题进行组织,即按数据的意义将其归类至相同的主题区。主题是指用户使用数据仓库进行决策时所關心的重点方面,如销售记录等。

集成性。数据来自企业内的各个数据库,经过数据抽取、清理、转换、系统加工、汇总和整理,消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

数据随时间变化。数据仓库是随时间而变化的,数据的变动,在数据仓库中会被纪录以及追踪变化的,有助于反映出数据随着时间变化的轨迹。

数据不可更新。数据一旦确认写入数据仓库后是不会被取代或删除的,即便数据是错误的也是如此。

图2描述了一个典型的企业信息工厂模型,数据仓库汇总数据,并为后续分析提供数据支持。

4 商务智能

商务智能(Business Intelligence,简称BI),是一套用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策的完整的解决方案。

从技术层面来看,BI由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘等部分组成。

从技术成熟度来看,报表系统是BI的初级阶段,数据分析是BI的中级阶段,数据挖掘是BI的高级阶段。

4.1 商务智能的实施步骤

需求分析。商务智能本身也是一个项目,所以从项目管理的角度来讲,必须全面地理解用户的各项要求,做好需求分析。包括需要分析的主题,实现这些主题需要查看的维度等等。

数据仓库建模。通过前期的需求分析,建立企业数仓库的逻辑模型和物理模型,按照规划好的架构,将各类数据按照分析主题进行组织和归类。

数据抽取。依据分析模型将数据仓库建立起来之后,就需要将数据从源端(各个业务系统)抽取到数据仓库。抽取规程中,还需要将数据按照既定的业务规则,进行转换和清洗,加载到各个分析主题中。

建立可视化分析报表。可借助主流BI工具FineBI,通过拖拉的方式,进行可视化分析报表的制作。

4.2 商务智能的发展趋势

传统的商务智能,如SAP BO、Oracle BIEE、IBM Cognos,产品采购成本以及后续的硬件、软件维护、咨询、培训成本均很高,不具有普适性。其次,传统的商务智能实施,考虑到后期的性能和可扩展性,对于数据仓库的设计规范要求很高,实施周期较长。再者,传统商务智能是纯粹的IT驱动,对于业务部门的服务响应周期很长,不适应业务快速发展的需要。

新一代商业分析平台,gartner称之为modern BI platform,以允许业务人员“自服务”为标志。由IT驱动转变为业务驱动,IT负责基础数据架构的整理和接口开发维护,业务人员作为分析主体和需求主体,使用基于人机交互和符合人的认知规律的分析方法,把人所具备的、机器并不擅长的认知能力融入分析过程中,进行快速的可視化分析和报表分析维护。这样的改变的好处是显而易见的,整个BI流程就变得更加敏捷。而且拖拽式这种简单而友好的使用方式,使得上至高层管理人员,下至基层服务人员,都可以快速获得所需的报表。高层可以快速准确决策,基层可以精准有效服务,整个企业的效能将会大幅提升。

同时,随着移动通讯4G网络的快速发展,以及手持式设备的普及,BI的展示就可以扩展到移动手持设备。管理高层可以更加便捷,随时随地的查看报表、做决策,大大提高办公效率。基层人员也可以更加贴近用户,提供高质量的服务。

参考文献

[1]DAMA International著.马欢,刘晨,等译.DAMA数据管理知识体系指南.2012年7月第1版.清华大学出版社,2012:148-149.

[2]William H.Inmon著.王志海等译.数据仓库.机械工业出版社,2006.

猜你喜欢
商业智能数据治理
什么是商业智能?它的定义和解决方案
关于实时商业智能的文献综述
商业智能在当下出版社中的运用
广东省高速公路联网综合信息商业智能系统
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理