一种数据质量服务管理方法

2015-03-15 05:33何文金顾昊旻
微型电脑应用 2015年12期
关键词:数据质量数据中心

何文金,顾昊旻



一种数据质量服务管理方法

何文金,顾昊旻

摘要:数据中心提供的服务水平主要受到数据质量和数据中心软硬件设备服务质量两方面因素的影响。目前,尚无模型和系统能够将这两方面因素进行统一的度量。因此,提出了一种数据服务质量的管理方法,将数据质量和服务质量统一为数据服务质量。首先,提出一种数据服务质量模型,包括定义及算法;接下来,通过研发一个数据服务质量管理平台来实现该模型;最后,以电网企业数据中心为应用案例,证明该模型和管理平台的有效性。

关键词:数据中心;数据质量;数据服务管理平台

0 引言

ActiveX是微软公司提出的一套二进制组件发布方案、实现随着信息化和工业化的不断融合,大数据技术及业务蓬勃发展,信息系统内业务数据逐渐丰富,数据共享需求迫切,对数据服务的质量要求不断提升[1][2]。但是目前学术界和工业界均没有形成完整的数据服务质量管控体系和保障机制,这极大制约了数据价值的充分发挥。因此,有必要围绕企业级数据服务质量,实现数据服务质量模型、数据接入、数据诊断、数据服务质量评估的全程管控模式,夯实数据基础,保障数据的准确、及时、有效和可信,最终实现数据资产管理和使用标准化,最大限度的发挥数据资产的价值,提升数据中心的服务能力。

因此,本文以提升数据中心服务质量为目标,从数据服务质量模型、数据服务质量管控平台、数据服务应用提升几方面入手,从应用的角度展现数据服务全景视图、数据服务性能和数据流向,通过服务血缘分析和影响分析快速定位数据中心出现的问题,保障数据中心的数据服务质量。本文的数据服务不仅仅指提供给消费者的数据,还包括相关的接口和数据清洗转换过程,以及数据服务部署的硬件和软件平台资源。将数据中心提供的数据及接口统一作为数据服务的一部分,关心数据服务的输入和输出,管理数据服务内部的接口和数据清洗转换过程,以及数据服务部署的硬件和软件性能,并通过对这些数据服务组成的有效管理和性能优化,提高数据服务质量。这些对于数据服务[3]的提供者和使用者都是透明的。目前工业界和学术界也进行了许多相关研究工作[4]。Oh.Jisu等人在实时数据服务方面有一系列重要工作[5-7],还有研究人员进行了移动数据服务[8]、用户感知质量[9]和终端用户质量[10]等方面的研究工作。Oracle一体机的出现说明工业界也希望将数据中心的功能和性能因素统一考虑。

1 基础知识

1.1数据质量

数据质量标准ISO 8000在国际标准化组织(International Organization for Standardization——ISO)主导下开发,由ISO技术委员会TC184负责,属于ISO的一个部分。目前已发布了若干个独立的标准。和其他ISO及IEC标准一样,ISO 8000有版权,不免费提供。许多数据质量管理先驱,非常明确的指出“数据即产品”的概念,指出把数据当作企业资产和产品进行管理的思路,无论采用何种成熟的体系和理论管理数据产品都是可行的。这种方法在多家大型企业已经得到了验证。即便没有ISO8000的出台,数据的质量对企业也是必须的,对数据质量管理的需求也是存在的。随着全球对数据质量管理需求的急速膨胀,也会催促和推动这个新兴标准的完善与成熟,最终,ISO8000也会像人们熟知的ISO 9001一样被大家所认可。

1.2服务质量。

目前,服务质量(Quality of Service,QoS)[11]是最广泛采用的服务的度量标准.QoS评价指标主要包括网络的吞吐率、时延、丢包率、抖动、误码率等.显然这些指标仅仅反映了服务技术层面的性能,甚至仅仅是网络传输层面的性能,忽略数据服务的主要因素,因此它不能直接反映数据服务的质量。

2 种数据服务质量模型

这里的定义均对一个数据产品进行。正常情况下一个数据中心对外提供若干个数据产品、极端情况下一个数据中心对外只提供一个数据产品。本部分定义和算法的实现在本文的第4部分体现。

定义1 数据质量模型.一个数据质量模型定义为一个四元组DQM(CP、CH、CR、MI),其中:

(1)CP为完整性,包括整体完整性cpall、参照完整性cpref和列完整性cpcol.cpall具体描述数据表中记录的唯一性;cpref具体描述相关联的表间的数据一致性;cpcol具体描述为数据的有效性.

(2)CH为一致性,包括前向一致性chfwd和多源一致性chmsr..chfwd具体描述为所涉及的数据源指标值与产品数指标值一致,chmsr具体描述为产品某一指标值所涉及的多个数据源指标值一致.

(3)CR为准确性,包括内容准确性Ftcom和形式Ftfor正确性.Ftcom具体描述为数据精度及值域范围的准确,Ftfor具体描述为数据类型及格式的准确.

(4)MI为及时性。描述数据的有效期限对应用的满足程度。

定义2 数据服务质量模型 .一个数据服务质量模型定义为一个五元组DSQM(CP、CH、CR、MI、AL),其中:

(1)CP、CH、CR、MI的定义和描述见定义1.

(2)AL为可用性,包括网络可用性alnet、硬件可用性alhdp和软件可用性alsft.alnet具体描述为数据服务

根据定义1和2,可以给出数据产品的问题诊断算法如下。

算法1 数据服务质量问题诊断算法:

(1)获得数据服务质量模型,并从数据服务质量模型获取所需要诊断的数据服务信息列表(比如对象总体个数、某个属性的平均值、最大值、最小值);

(2)从诊断的数据信息列表中取第一个所要诊断的数据信息项,按照数据服务质量模型所定义的规则对数据服务质量诊断对象进行诊断,如果违反数据服务质量模型所定义的规则,则记录诊断结果或异常数据记录;否则转到(3);

(3)获得数据服务质量模型诊断规则,按照依次顺序遍历整个诊断的数据信息列表,找出数据服务质量诊断对象所有的问题,并记录诊断结果或异常数据记录;

(4)将所有的诊断结果和异常数据记录进行归纳整理,获得最终数据服务质量问题列表。

由于数据产品的服务质量问题可能出在数据中心、源系统和数据集成及交换系统,所以会出现服务质量问题的传递.,由此给出定义(3)。

定义3 数据全链关系图. 数据全链关系图是一个DAG图。图的节点包括:数据节点输入层数据节点、数据节点处理层数据节点、数据节点输出层数据节点;图的边包括:从数据节点输入层到数据节点处理层的有向边、从数据节点处理层到数据节点输出层的有向边。边链接的两个节点之间存在前向的血缘关系和后向的影响关系。

根据数据节点间的血缘关系及数据影响关系初始化企业数据全链关系图,根据数据服务质量模型可以诊断出数据质量问题列表,进而确定数据服务质量问题对应的数据在数据全链关系图上的位置。这可以由算法2进行。

算法2 数据服务质量问题归并算法.

(1)首先获取数据服务质量管控平台诊断出的所有数据服务质量问题列表;

(2)循环数据服务质量问题列表,对每个质量问题做如下处理:

① 确定该数据服务质量问题对应的数据在血统关系图上的位置;

② 扫描本节点的所有元数据父节点,如果所有元数据父节点均不存在服务质量问题则当前服务质量问题为核心问题之一,将其存储起来;如果存在有服务质量问题元数据父节点,则可判断该问题为父节点的服务质量问题,存储该节点与父节点的数据影响关系。

③ 列表循环完成后,可以得到两部分数据:核心问题列表与质量问题影响关系列表;

根据算法2得出的核心问题列表即为质量问题归并工作的成果,即源头问题列表。根据数据影响关系列表可以找出每个源头问题引发了哪些数据质量问题。

3 数据服务质量管理平台

本部分介绍一种企业级数据中心的数据服务质量管控平台。该平台功能覆盖了数据源头、数据接口、数据质量诊断、数据质量评估、数据质量问题分析与处理等环节的整个数据服务质量管理过程,可以对数据服务质量问题进行全面诊断、评估、统一处理。

3.1平台体系结构

整个数据服务质量管控平台分为4层:采集层、数据层、功能层和应用层,如图1所示:

图1 数据服务质量管控平台体系结构

平台首先建立数据服务质量规则库,从完整性、准确性、一致性、及时性四方面进行数据服务质量度量,基于规则识别数据服务质量问题,并根据具体的数据质量诊断任务,定时进行数据质量诊断并生成数据质量诊断结果;接下来,以元数据描述了企业数据血统关系图谱、数据影响关系图谱及数据全链关系图谱,并基于此提供质量问题归并;最后,对外提供统一的数据描述及全景视图,主要包括数据全景视图、应用全景视图、基础环境全景视图。

3.2平台功能

(1)采集层:主要实现数据服务质量监测信息的采集功能。数据服务管控平台的采集数据覆盖了企业级业务系统数据处理全过程,它是数据服务质量功能和应用的基础。采集的数据范围有:接口信息、ETL加载过程状态信息、数据仓库处理过程状态信息、应用分析处理过程状态信息、业务指标数据等。

(2)数据层:主要实现数据服务质量监测信息的存储功能。① 元数据主要分为技术元数据、业务元数据和管理元数据,为数据服务管控平台提供基本的数据实体和处理描述及其映射关系,是质量管理的支撑基础;② 数据服务质量监控信息库主要存储从各个数据质量检测点上采集的有关系统数据状况及过程运行状况的信息,以及数据质量检查过程、监控报告和告警处理的信息;③ 数据服务质量问题信息库主要存储数据服务质量所有的问题、问题解决方案及问题处理流程信息。数据服务质量问题包括监控发现的问题、数据服务质量评估后发现的问题和业务及运维人员发现的问题;④ 数据服务质量知识库主要存储对数据质量问题及处理进行总结后形成的知识,包括接口问题及处理知识、ETL加载问题及处理知识、仓库处理过程问题及处理知识、指标异常及处理知识等。

(3)功能层:包含了数据服务质量管控平台的基础功能,为数据服务之量管控的前段应用提供了基本的功能支撑,主要包括元数据分析、资源监控、数据服务质量监控、数据服务质量问题评估、数据服务质量问题处理、主句质量知识库、对外服务、流程管理、系统管理等。

(4)应用层:在数据服务管控平台功能层的支持下,应用层为数据服务管控的实际问题提供应用解决手段,主要包括数据服务质量管控各个环节的监控,如:接口质量监控,抽取、清洗、转换、加载过程质量监控,仓库处理过程质量监控和指标质量监控等;利用知识库对检查规则进行优化;数据服务质量信息查询和数据源接口质量评估等应用。

3.3核心算法实现

数据质量问题归并核心算法代码如下:

4 行业应用案例

数据服务质量管控平台在某大型电网企业数据中心优化治理进行了实用化应用,计算出20134个模型,清理无效数据模型、重复模型1934个,节约了1.1TB的表空间,数据服务部署时间从小时级缩减到分钟级,服务器重建和应用加载时间每年节省5,000小时. 应用效果如图2、图3所示:

图2 数据质量水平

图3 数据服务质量水平

图2显示了系统中模型数量从0到20000时的数据质量水平,图3显示了系统中并发用户数从0到500时的数据服务质量水平,显然,当并发用户数超过200时,数据服务质量水平下降的很快.

平台整体应用效果明显,有效地提高了该企业的数据服务质量管理水平,提升了数据中心的服务能力,有助于充分发挥企业数据资产的运营价值。平台工具在数据中心实际运维过程中,大幅度的提高了工作效率,有效提升了ICT部门的数据服务支撑能力。

5 总结

本文以提升数据中心服务质量为目标,提出了一种数据服务质量的管理方法,将数据质量和服务质量统一为数据服务质量。讨论了一种数据服务质量模型定义及算法,并研发一个数据服务质量管理平台来实现该模型;以电网企业数据中心为应用案例,证明该模型和管理平台的有效性。SG-ERP[12]系统希望实现生产、资产、客户服务和风险管理的业务联动,智能电网[13]强调互操作、自动化,那么信息平台中必然要考虑数据服务的质量问题。因此,在本文工具的基础上进行面向智能电网数据服务质量相关的研究是一件有意义的工作,并且在数据产品的服务质量方面进行探索性研究也是未来的研究方向。

参考文献

[5] Carey,M.J. Onose.N, Petropoulos.[M]. Data Services. Communications of ACM, 2012,55(6):86-97.

[6] Carey,M.J. Declarative Data Services: This is your data on SOA[C].Proceedings of the IEEE InternationalConference on Service Oriented Computing and Application. California,USA.2007,4.

[7] Carey,M.J. Data delivery in a service orientiented world: The BEA Aqualogic data services platform[C]. Proceedings of the ACM SIGMOD. Chicago, USA,2006: 695-705.

[8] 张鹏,王桂玲,季光,等.基于数据服务的数据组合视图的优化更新[J].计算机学报,2011,34(12):2344-2351.

[9] 林闯.计算机网络和计算机系统的性能评价[M].北京:清华大学出版社,2001.

[10] 顾广宇.SG-ERP建设中的若干关键技术[J].电力信息化,2010,5:23-25.

[11] Jisu Oh, Kyoung-Don Kang.A Predictive-Reactive Method for Improving the Robustness of Real-Time Data Services[J]. IEEE Trans. Knowl. Data Eng.,2013:974 -986.

[12] Kajackas A,Batkauska V,and.Saltis,et c A. Quality of heterogeneous mobile data services: capabilities and end-user achievements[J]. Electronics and Electrical Engineering.2011,5.

[13] Bhatti N, Bouch A, and Kuchinsky A. Integrating User-Perceived Quality into Web Server Design[J], Proc. Ninth Int'l World Wide Web Conf.2000:1-16.

[14] Ur.Rehman.Laghari K, Crespi.N, Molina.B,etc.QoE awareservice delivery in distribute environment. [J]Proc of the 2011 IEEE WAINA,2011:837-842.

[15] Lin,C. 2001. Computer Network and Computer System Performance Evaluation. Beijing[D]: Tsinghua University Press,

[16] Gu,G.Y. Some Key Technologies in the construction of SG-ERP[J], Electric Power Information Technology, 2010,5:23-25.

[17] HAASE,P. Intelligrid: A Smart Network of Power[J].EPRI Journal, ,2005:27-32.

收稿日期:(2015.07.08)

作者简介:何文金(1978-),男,福建南靖人,国网信通产业集团安徽继远软件有限公司,工程师,硕士,研究方向:电力行业信息化,合肥,230088顾昊旻(1976-),男,国网信通产业集团安徽继远软件有限公司,工程师,硕士,研究方向:电力行业信息化,合肥,230088

文章编号:1007-757X(2015)12-0077-04

中图分类号:TP311

文献标志码:A

猜你喜欢
数据质量数据中心
酒泉云计算大数据中心
陇东能源大数据中心
浅析数据中心空调节能发展趋势
数据中心ECC设计方案研究
电子商务平台数据质量控制系统及仿真模型分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
基于云计算的交通运输数据中心实现与应用