大数据环境下的数据治理框架研究及应用

2017-04-24 10:24:51高洪美宋俊典张绍华
计算机应用与软件 2017年4期
关键词:数据管理框架环境

杨 琳 高洪美 宋俊典 张绍华

(上海计算机软件技术开发中心 上海 201112)

大数据环境下的数据治理框架研究及应用

杨 琳 高洪美 宋俊典 张绍华

(上海计算机软件技术开发中心 上海 201112)

大数据技术及应用创新促进了数据的业务化。从数据中发现问题到解决问题、从业务支撑到业务创新、从商业智能到决策指引,数据与业务相伴相生,大数据环境下的机遇与风险共存。通过对当前国内外数据治理理论、方法和新的应用需求分析,提出大数据环境下的数据治理框架,包含数据治理目标、治理保障、治理域和治理方法论等。并分析大数据治理框架的应用,对组织开展大数据环境下的数据治理具有重要的参考价值和意义。

大数据 数据治理框架 数据质量 数据安全隐私

0 引 言

大数据为组织带来巨大商机的同时,也向传统数据治理提出挑战。半结构化、非结构化数据的高效处理和应用对技术架构提出更高要求。数据集成、分析处理时的数据质量问题更加严峻,数据开放与共享使安全隐私问题更加突出。

海量、多源异构的数据不仅仅对数据管理、存储、处理和应用带来了挑战。组织在寻求新技术来支撑大数据的应用,获取更大应用价值的同时,数据开放与共享将个人隐私暴露在平台前端。数据开放与隐私保护、数据应用创新与风险合规等已成为当前数据治理领域面临的巨大挑战,越来越多的组织开始重视数据治理,将数据治理视为组织发展的重要战略。

传统的数据治理手段已不能完全满足大数据治理的需求,不少组织和学者开始关注、探索大数据治理。文献[1]从社会治理的角度,提出要顺应大数据时代的发展趋势和本质要求,树立大数据治理意识;文献[2]通过大数据平台和信息架构来实现大数据与企业数据的灵活集成,结合企业数据的获取、存储、组织和分析作出科学决策,以实现企业大数据治理研究;文献[3]指出有效治理大数据和挖掘分析其潜在的业务价值,是商业银行面临的新课题,从大数据时代的机遇和挑战剖析数据治理面临的问题,并基于制定数据标准体系和流程、数据质量规划、评估和管理模式等方面提出大数据时代的数据治理措施;文献[4]从利益相关者视角分析了大数据环境中个人隐私治理问题,提出多元主体协同治理机制,为平衡数据挖掘和隐私保护提供参考。

因此,组织需顺应大数据的发展,树立大数据治理意识,构建完整的治理理论和框架来指导、监督和评估组织的数据治理,从而更好地支撑大数据技术的应用创新和价值实现,满足数据资产化的需求,保障数据质量和安全隐私,增强组织决策能力与核心竞争力,大数据环境下的数据治理研究迫在眉睫。

1 数据治理国内外研究概述

数据治理一直是国内外研究的热点和重点,已取得了一定的成果,由于切入视角和侧重点的不同,业界给出的数据治理定义已有几十种,但这些定义目前为止仍未形成一个统一的标准。综合当前主流的数据治理的内涵和外延可知,数据治理主要聚焦在治理目标、职能、范围、过程与规范等方面,其本质是对企业的数据管理和利用进行评估、指导和监督,通过提供不断创新的数据服务,为企业创造价值[5]。

(1) 国际标准化组织(ISO/IEC JTC 1/SC 40)

国际标准化组织IT服务管理与IT治理分技术委员会制定了ISO/IEC 38500系列标准,提出了信息技术治理的通用模型和方法论,并认为该模型同样适用于数据治理领域[6]。在数据治理规范相关的ISO/IEC 38505标准中,阐述了基于原则驱动的数据治理方法论,提出通过评估现在和将来的数据利用、指导数据治理准备及实施、监督数据治理实施的符合性等。该模型实际上是对IT治理方法论的进一步扩展,并未对数据治理的实施和落地提供有效的手段。

(2) 国际数据治理研究所(DGI)

DGI从组织、规则和过程三个层面总结数据治理的十大关键要素,创新性地提出DGI数据治理框架[7]。该框架以直观方式展示十个基本组件间的逻辑关系,形成一个从方法到实施的自成一体的完整系统。DGI强调数据治理区别于IT治理,将数据治理归结为组织依据规则对治理范围进行实施的过程,其治理目标、治理域有待进一步明确。

(3) 国际信息系统审计和控制协会(ISACA)

ISACA提出了面向过程的信息系统审计和评价的最佳实践COBIT 5.0,提出了基于原则的自上而下的企业IT治理与管理框架,对治理和管理作了严格区分[8]。同时提出数据治理五项基本原则[11]:满足利益相关者需求、端到端覆盖企业、采用单一集成框架、启用一种综合的方法、区分治理与管理。该最佳实践在治理原则的基础上,分析了数据治理的利益相关者、促成因素、范围、治理和管理的关键领域等,在如何解决大数据治理的生命周期、数据应用创新等方面有待深入。

(4) IBM数据治理委员会(IBM DG Council)

IBM数据治理委员会通过结合数据特性和实践经验,有针对性地提出了数据治理的成熟度模型,将数据治理分为五级,即初始阶段、基本管理、主动管理、量化管理和持续优化。同时在构建数据治理统一框架方面,提出了数据治理的要素模型[9],将数据治理要素划分为支撑域、核心域、促成因素和成果四个层级。IBM DG Council认为业务目标或成果是数据治理的最关键命题,在支撑域、核心域和促成因素的作用下,组织最终可以获得业务目标或成果,实现数据价值。该模型重点关注数据治理过程和方法。

(5) 信息技术服务分会(ITSS)

ITSS服务管控工作组是国内信息技术服务领域的信息技术治理和数据治理的标准制定和研究机构。ITSS相关的机构在数据治理原则研究的基础上,提出数据治理的框架,明确数据治理域、数据治理的促成因素和内外部环境。并明确数据治理的任务和过程,旨在评估组织数据管理能力的成熟度,指导组织建立数据治理体系,并监督数据管理体系的建设和完善。

以上研究成果奠定了数据治理的原则、模型和基本框架,本文将在以上成果的基础上,结合典型的大数据应用和创新,系统分析大数据环境下数据治理的新需求,提出大数据治理的框架,并开展相关的应用分析。

2 大数据环境下的数据治理需求分析

国内外在数据治理模型和框架研究方面,已经取得了丰硕的成果,基本都形成了相对完整的数据治理理论体系、涉及到数据治理的原则、范围和方法等。同时基于原则驱动的数据治理思想、以治理为核心的数据管理方法论、数据治理成熟度模型等都已经得到了广泛的认可。但对通信、金融、互联网等领域的大数据应用实践的深入分析可知,还存在许多传统数据治理无法解决的问题。

传统的数据治理要求设立数据治理委员会,负责建立数据治理的制度和流程,大数据环境下则提出了更高的要求,需要数据质量管理、数据安全管理、数据风险和合规管理等管理体系的协同,实现以应用带动管理,以管理保障应用,最大程度地体现了数据为业务带来的价值。具体到数据治理域,传统的数据治理构建了基于主数据、元数据、数据规范的数据仓库管理系统,实现了应用级别的数据质量管理。但无法满足大数据环境下所面临的海量、异构、多源的组织级数据整合、数据业务化和应用创新的需求,需要在数据战略、组织和架构层面,对数据质量建立组织级的管理制度、流程和规范,建立信息化部门和业务部门共同参与的企业级的数据质量保障体系。另一方面,数据与业务的结合为业务洞察、业务创新带来了新的机遇,但也带来数据误用和滥用的风险,需要在成本和业务创新之间建立基本的应用保障措施,满足战略一致性的需求,建立自顶而下的数据治理体系和策略。

由上述分析可知,在大数据环境下,数据治理的主要问题和挑战聚焦在以下几个方面:

(1) 数据标准不统一:大数据中的半结构化和非结构化数据大大增加了企业在元数据管理和主数据管理上的困难。目前组织缺乏统一、标准化的元数据、主数据定义标准,不同组织定义的数据标准各不相同,这有碍于系统间信息的共享,使组织资源的利用率比较低。

(2) 数据质量问题严重:大数据的实时性要求,需要组织提高数据的访问效率,减少数据传输,这就迫使组织将相同的信息在不同系统之间进行冗余存放。但由于数据的更新存在滞后,容易造成冗余数据不一致,而给数据质量带来更多问题。

(3) 数据安全隐私凸显:大数据的挖掘分析、开放共享在增强数据应用价值的同时,也增加了数据的透明程度,尤其是将数据集中在一个大环境时,一些敏感隐私的数据就有可能被泄露或非法使用,这给数据的安全与隐私保护带来更加严峻的挑战。

3 面向大数据的数据治理框架

通过对大数据环境下的数据治理需求分析可知,数据标准化、数据质量管理、数据安全与隐私保护等过程中存在的问题是组织在开展数据治理时面临的首要挑战。为了更好地解决这些问题,组织需要重点关注对元数据管理、主数据管理、数据质量管理和数据安全隐私与合规等方面的治理。因此,本文从大数据应用和创新的视角提出数据治理的框架,该框架包括治理目标、治理保障、治理域、治理方法论四个部分,全面展现大数据治理的总体框架和内容,以全局视角描述大数据治理的所涉及的各个方面。该框架以治理目标为指导,充分考虑数据治理过程中的保障因素,建立数据治理域,基于EDM(Evaluate-Direct-Monitor:评估-指导-监督)的治理方法论,能够系统化地构建数据治理的体系,从而满足数据完整性、正确性、一致性要求,为大数据的应用创新和价值创造提供支撑,保障数据安全隐私并满足合规性要求。大数据环境下的数据治理框架如图1所示。

图1 大数据环境下的数据治理框架

数据治理的目标是战略一致、风险可控、运营合规和价值实现。在大数据治理过程中,战略一致应满足组织持续发展的需要,大数据既是组织的价值来源,也是风险来源,有效的大数据治理能够避免决策失败和经济损失,降低合规风险。同时组织的运营应符合国内外法律法规和行业相关规范,运营合规可以帮助组织有效地提升自身信誉,增强在不同监管环境下的生存能力和竞争力,最终通过大数据与业务的融合实现保证数据价值实现。

治理保障可以分为促成因素和内外部环境两部分。促成因素是指对大数据治理成功实施起关键促进作用的因素,如文化、技术与工具、流程与活动等。内外部环境则是大数据治理所处的内部与外部环境,如政策法规、行业规范、市场需求与竞争力等。大数据治理要求组织在各个层面都具备大数据治理的意识,并通过适应大数据环境、技术环境、战略环境等,逐渐形成自身的大数据治理文化氛围。最终以文化氛围促进组织对大数据治理的应用实践。同时,大数据治理需要通过安全基础设施、识别和访问控制、大数据保护等技术工具来支撑和保障大数据治理的实施工作,以提高大数据治理的效率,降低大数据治理的成本。组织需要通过定义、优化业务流程活动来提高用户和大数据之间的沟通效率,从而保障大数据治理的风险可控、服务创新和价值创造。

治理域描述了组织在开展数据治理活动时应该关注的治理对象,主要包括战略、组织、架构、元数据管理、主数据管理、数据生命周期管理、数据质量管理、数据安全与合规、数据应用与服务创新。战略、组织、架构是大数据治理自上而下的顶层设计。通过顶层设计,组织可以站在较高的战略点上,统筹协调各方面因素,整体地、系统地解决组织数据管理与应用中的问题,它是实现治理目标的重要保障。大数据战略在组织战略规划中占有重要地位,组织在制定大数据战略时,应以大数据的服务创新和价值创造为最终目标,根据业务模式、组织架构、文化、信息化程度等因素进行战略规划。组织应该根据其自身情况建立大数据治理组织结构,通过明确组织的角色和职责,以落实大数据战略,提高组织协同性。元数据管理和主数据管理是数据标准化层面的治理,从基础上保障数据的完整性、规范性和一致性。大数据环境下的数据生命周期管理应从降低成本转向有效地管理和使用大数据,并基于大数据采集、存储、整合、处理与分析、应用与呈现、归档与销毁的全生命周期,进行持续优化的管理。大数据环境下的数据质量管理要求组织对业务重点和整体战略进行调整的同时,更加关注对数据质量治理能力的提高,以及数据在清洗后的整合、分析和价值利用。大数据的开放与共享将传统数据的安全隐私与合规问题显著放大,故大数据环境下的数据安全与合规管理要求组织建立有效的大数据安全规范和策略,以确保大数据资产在使用过程中具有适当的认证、授权、访问和审计等控制措施,从而满足大数据利益相关者的隐私与合规要求[10]。大数据的核心价值是持续不断地应用数据并创新服务,为组织创造价值,这是大数据治理与数据治理最显著的区别。

数据治理的方法论是评估、指导、监督,即EDM模型。在大数据治理过程中,治理主体通过评估实施过程及实施后的效果,全面深入了解大数据治理当前的状态和差距,为大数据治理领导层提供更准确的决策,并通过对大数据治理工作进行持续改进和优化,确保达到组织的预期目标。同时,治理主体通过指导治理战略和策略的准备与实施,监控组织对数据管理和应用的绩效,来保障大数据治理的有效开展。治理方法论意义重大,是大数据治理工作可持续发展的重要抓手,它不仅能够提高组织对大数据治理风险控制的能力,满足社会和行业的监管需要,更有助于实现数据的商业价值和社会价值。

4 大数据治理的应用分析

大数据在政府治理领域的应用创新成为近年来关注的热点,基于大数据的科学决策、精细管理、精准服务将成为常态,大大推动政府管理理念和社会治理模式进步。

本节将结合大数据治理在政府决策中的应用,聚焦科学性、前瞻性、准确性等方面的需求,提出大数据治理在政府决策重点应用,通过提高数据质量保障政府正确决策、监督数据应用过程中的合规性,防止数据滥用造成的安全风险和隐私泄露。基于数据治理的应用分析可以分为规划、治理实施、评估优化三个阶段。

(1) 规划阶段:大数据应用主管部门评估政府机构数据管理和应用的现状,明确大数据治理的目标是开放共享政府数据与社会数据(运营合规、风险可控),在政府决策中发挥大数据的优势和作用,支撑政府智能决策(价值实现)。充分考虑政府数据目前存在的“不愿开放、不敢开放、不会开放”以及社会外部数据有待进一步汇聚等问题。在数据共享与开放必要性得到认可等促成因素的促进下,制定“需求导向、统筹规划、统一标准、确保安全”的战略方针,构建了跨机构、跨部门的治理组织,并明确组织角色和职责、机制,指导数据治理的实施。

(2) 治理实施阶段:各级政府机构配合大数据应用主管部门,关注治理域中的元数据管理、主数据管理、数据质量管理、数据安全与合规,提出政务数据的标准化要求,促进政务信息系统的互联互通,提升数据质量;统筹规划政务数据共享与开放,建立政府数据共享目录,逐步开放政务数据,营造数据共享与开放的社会氛围;着手建立符合法律、规范和行业准则的数据合规管理体系,保障数据开放和应用过程中的合规、合法。

(3) 评估优化阶段:大数据应用主管部门对治理实施结果进行评估分析,对尚未达到目标要求的指标制定改进措施,以监督指导治理工作的实施,优化治理结果并持续评估和改进。

综上,面向政府决策的大数据治理实施流程如图2所示。

由图2可知,面向政府决策的数据治理通过规划、实施和评估三个阶段,建立了一套持续改进的管理机制,包含一系列机制和流程,能够促进大数据在政府决策中有效、高效、合理的利用,达到大数据的安全合规、风险可控和价值实现的目标。

图2 面向政府决策的大数据治理流程

5 结 语

大数据时代,数据即服务(DAAS)是未来的必然趋势。数据治理能够优化和提升数据,保证数据的质量、安全与隐私等,推动数据的服务创新和价值创造。本文在相关数据治理研究成果的基础上,围绕大数据环境数据治理的需求,提出了基于目标驱动的大数据治理框架,聚焦治理保障、治理域和治理方法的研究。以全局视角来描述数据治理框架的应用,并结合政府决策领域的大数据治理进行了分析。该框架能够帮助组织深入理解数据治理的全貌、指导数据治理的应用和实践。作为一个新兴研究和应用领域,数据治理拥有广阔的应用前景,是组织实现数据服务创新和价值创造的重要支撑。正因如此,大数据环境下的数据治理研究和应用任重而道远,需要更多组织和学者不断地深入研究和探索。

[1] 张义祯.树立大数据治理意识[J].中国科技奖励,2014(12):75-75.

[2] 王宇德. 企业大数据治理研究[J].互联网天地,2014,1(1):20-24.

[3] 王玮. 大数据时代的商业银行数据治理研究[J].中国金融电脑,2013(7):36-38.

[4] 王忠,殷建立. 大数据环境下个人数据隐私治理机制研究——基于利益相关者视角[J].技术经济与管理研究,2014(8):71-74.

[5] 张绍华,潘蓉,宗宇伟. 大数据治理与服务[M]. 上海:上海科学技术出版社, 2016.

[6] ISO 38500.Corporate governance of information technology[S].Geneva:International Organization for Standardization,2008.

[7] Data Governance Institute. The DGI data governance framework [R]. USA:DGI,2009.

[8] ISACA: COBIT 5. Enabling information [S]. USA: Information Systems Audit and Control Association,2013.

[9] IBM Corporation. IBM Data Governance Council Maturity Model:Building a roadmap for effective data governance [R]. USA:IBM Corporation,2007.

[10] Sunil Soares. Big data governance: an emerging imperative [M]. USA: MC Press Online,2012.

RESEARCH AND APPLICATION OF DATA GOVERNANCE FRAMEWORK IN BIG DATA ENVIRONMENT

Yang Lin Gao Hongmei Song Jundian Zhang Shaohua

(ShanghaiDevelopmentCenterofComputerSoftwareTechnology,Shanghai201112,China)

Innovation and application of big data technology has promoted data to be a business. From data discovery to problem solving, from business support to business innovation, from business intelligence to decision-making guidelines, data and business go hand in hand, and big data environment opportunities and risks co-exist. Based on the analysis of current domestic and foreign data governance theories, methods and new application requirements, this paper proposes a data governance framework for big data environment, including data governance objectives, governance guarantee, governance domain and governance methodology. This paper also analyzes the application of big data governance framework, which is of great reference value and significance to the data governance in big data environment.

Big data Data governance framework Data quality Data security and privacy

2016-12-27。上海市科技人才计划项目(16XD1421500)。杨琳,工程师,主研领域:IT治理,数据治理。高洪美,硕士。宋俊典,副研究员。张绍华,副研究员。

TP39

A

10.3969/j.issn.1000-386x.2017.04.012

猜你喜欢
数据管理框架环境
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
框架
海洋环境数据管理优化与实践
长期锻炼创造体内抑癌环境
一种用于自主学习的虚拟仿真环境
CTCS-2级报文数据管理需求分析和实现
广义框架的不相交性
孕期远离容易致畸的环境
环境