运营监测数据质量研究

2018-06-04 03:42孙常鹏张耀于海涛高静国网天津市电力公司信息通信公司
数码世界 2018年5期
关键词:质量

孙常鹏 张耀 于海涛 高静 国网天津市电力公司信息通信公司

引言:在数据资产价值越发突出的今天,数据质量问题受到了格外地关注,尤其对于国家电网这个庞大的信息化企业来说,每天产生着大量的业务数据,数据结果直接或间接的反应了国家电网的运行状况,因此分析数据质量影响因素并提高数据质量自然而然成为公司的重要任务。此前,国网信通部关于开展运营监测(控)系统四期建设工作开展并执行以来,各种数据质量问题开始凸显。数据质量问题可能会造成严重后果,例如,阻碍项目的进度,滞后业务数据分析的时效,影响决策的方向等。基于这些可能发生的后果,使得对运营监测数据质量的研究更加迫切。本文通过研究60多项业务主题数据质量情况,总结了一套自己的研究流程、数据质量指标衡量方法、数据质量管理办法;最终提出提升数据质量的措施。

1 研究背景

随着信息技术和系统的不断发展,电网企业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的载体,高质量的数据是各种业务数据分析基本条件,如经济活动分析、数据挖掘等能够得到有意义结果的。人们常常抱怨所谓的“数据丰富,信息贫乏”,其中一个原因是缺乏有效的数据分析技术,而另一个重要原因则是数据质量不高,如数据残缺不全、数据不一致、数据重复等,导致数据不能有效地被利用。数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段。数据质量的研究由来已久,涉及到统计学、人工智能、数据库等各个领域。

2 数据质量定义

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。

数据质量可能在圈外的人理解起来比较抽象,但举例说一个一支笔的产品质量大家可能会理解起来比较容易,首先它有外观、长短、寿命、颜色、功能特性、价格等衡量标准,笔的产品质量高,会得到广大消费者的青睐。然而,在电网企业中,笔者认为数据质量就是衡量电力数据真实有序情况的一个标准和偏好。在电力数据中,总结出8个数据质量指标,包括准确性、完整性、一致性、时效性、唯一性、精确性、合理性、规范性,将在下文中详细说明。

3 数据质量研究流程

根据国网开展各个主体数据归集与常态维护的工作内容,总结出如下数据质量研究流程:

3.1 数据获取

在国网电力天津公司对业务数据获取阶段的工作其实一路并不是朝夕即能完成的事,但这为研究数据质量摸清了前端的业务类型、信息系统、数据质量管理的参与者、供给者。数据获取的流程如下:

3.1.1 确定监测业务主题

国网总部下发的文件中,确定了四类监测内容,核心资源、计划与预算、关键流程、专题监测,包括60多项业务主题,例如,物资采购管理、生产技改项目管理、生产大修项目管理、日常输电运检管理、日常配电检修管理、应收款、存货、供应商、专题监测-交费渠道、电网运营、电网基建项目等。

3.1.2 确定数据需求字段

根据主题的监测内容,确定支撑的字段,并对每个主题的数据制作数据需求表,附上填表说明。

3.1.3 按照需求字段获取数据

根据数据需求表,运监中心、信通公司、业务部室协作将数据字段归集,其中某些主题的数据需求字段需要在不同的系统中获取,纽带性字段信息是关键。例如供应商主题中物资类涉及两个系统的数据,其中合同编号就是纽带性字段是连接两个不同系统的关键字段,同一行数据需要纽带性字段匹配对应。

3.2 数据质量统计

按照数据质量的评估指标,统计数据质量情况,并以该字段数据质量有问题的条目数百分比形式作为统计结果。

根据数据情况总结出数据质量指标有8个。下面详细说明数据质量指标,并根据实际电力数据内容作出举例。

1准确性:数据准确性是指数据准确反映其所建模的“真是世界”实体的程度。通常,度量数据值与已确定的正确信息参照源的一致性可以度量准确性,如:将数据值与来自数据库或其他数据表的正确的数据集比较,根据动态计算的数据进行检查,有时可能需要手工检查数据值的准确性。例如,物料库存金额字段有0.1元的现象,需要根据元数据以及实际情况核查该数据的准确性。

2完整性:完整性的要求之一是一个数据集的特定属性都被赋予了数值。完整性的另一个要求,是一个数据集的全部行记录都存在。例如,日常配电检修业务中的线站名称字段的列项统计有23%的空数据。

3一致性:一致性是指确保一个数据集的数值与另一个数据集的数值一致。一致性的概念相对宽泛,可以包括来自不同数据集的两个数值不能有冲突,或者在预定义的一系列的约束条件内定义一致性。例如,合同编号字段在经发系统和ERP系统中都存在,但双对应的合同总金额要有一致性。

4时效性:数据时效性是指信息反映其所建模的当前真实世界的程度。数据时效性度量了数据的“新鲜程度”以及在时间变化中的正确程度。可以根据数据元素刷新的频率度量数据的时效性,从而验证数据是最新的。数据时效性规则定义了一个数值在失效或需要更新之前已经历的“寿命”。例如数据最新统计周期是201705期,但数据只更新到201704期,那么数据显然是延迟了。

5唯一性:唯一性主要体现在一个数据集中,没有实体多余一次出现。满足实体唯一性,说明没有实体出现多于一次,并且每个唯一实体有一个键值且该键值只指向该实体。许多组织都将 的可控的数据冗余作为更加可行的目标。例如,对于不同的合同只能有不同的合同编号,具有唯一性。

6精确性:精确性是指数据元素的详细程度。数值型数据可以有若干精确数位。例如,对数据取整或截断可能会产生精确度错误。

7合理性:使用数据合理性考察与一些特定的运营场景相关的数据一致性。例如,运检数据中一条线路当次巡视时间与上一次巡视时间不能超过90天。

8规范性:规范性用于度量哪些数据未按统一格式存储。例如,物料库存批号要求是文本格式,10个字节。

3.3 数据质量管理

3.3.1 数据质量管理方法

数据质量管理的一种通用方法是戴明环质量环,如下图所示:

戴明是对质量管理的发展产生巨大影响的大师之一,他提出了被大家所知的“计划-实施-监控-行动”用于解决问题的模型,该模型对数据质量管理同样有效,当已定义数据质量水平协议,并将此模型应用于数据质量管理时,它包括:

●制定数据质量现状评估计划和识别数据质量度量关键指标。

●实施度量和提升数据质量的流程。

●监控和度量根据业务预期定义的数据质量水平。

●执行解决数据质量问题的行动方案,以提升数据质量从而更好地满足业务预期。

3.3.2 数据质量管理方法的实际应用

笔者在此次大规模的监测业务数据归集的工作过程中,对数据质量管理流程做了如下概括:

在计划阶段,数据质量团队评估已知的数据问题,包括确定问题的代价和影响以及评估处理问题的可选方案。

在实施阶段,剖析数据并执行检查和监控,识别出现的数据质量问题。在此阶段,数据质量团队可以修复引致数据错误的流程中存在的缺陷,或者作为一种应急办法对下游错误进行校正。如果不能在错误的源头进行校正,那么就在数据流中尽早校正该错误。

在监控阶段,根据已定义的业务规则库对数据质量水平进行动态监控。只要数据质量满足可接受度阈值,流程就是受控的,数据质量水平就可满足业务需求。然而,如果数据质量下降到可接受度阈值之下,需要通知数据质量管理员以便他们在下一阶段采取行动。

在行动阶段,主要是处理并解决出现的数据质量问题。

3.3.3 数据质量问题的经验总结

此次数据质量管理工作,一方面结合计划预算,建立了数据质量规则库、开展动态数据质量监测、异动数据根因分析、形成数据质量监测报告;二方面结合指标和明细数据、强化数据接入核查,完善了数据质量通报及评价机制,为运监业务数据质量提供支撑。

尤其在对产生数据质量问题的情况进行全面业务调研,在电力各个信息系统中总结数据质量问题原因有6种;包括1、系统未设置原因;2、非必填字段原因;3、业务调整原因;4、实际异动原因;5、键入错误原因;6、流转中发生变化的原因。

3.4 提升数据质量措施

研究运营监测数据质量的最终目的是指导我司电力业务决策、提高企业的运营效率;故提升数据质量为此打下了良好的基础。提升数据质量措施包括5种,

1、提升数据质量意识,这不仅意味着需确保组织中配备合适的人员了解数据质量问题的存在,而且对于获得组织中利益相关者的必要支持至关重要,这将提升数据质量项目成功的机会。

2、定义数据质量指标,衡量数据质量的指标一般包括准确性、完整性、一致性、时效性、唯一性、精确性、合理性、规范性。

3、建立数据质量业务规则库,根据业务类别、业务主题、业务部门、系统、数据库表、业务字段、具体规则约束值或条件等信息建立数据规则库。

4、持续测量和监控数据质量,对业务主题数据定期监测。

5、建立数据质量问题管理绩效机制,针对发生数据质量问题的数据产生部门建立绩效管理机制,督促其完善系统设置、提高业务规范性、提高工作人员的数据质量意识。

4 数据质量研究展望

在整个数据生命周期中,原有的数据质量问题解决了,往往还会发现有新的质量问题,这主要表现为两点:其一是质量问题的某些“症状”会随着另外一些“症状”的解决而显现;其二是随着时间的推移和数据的演化,会有新的数据质量问题产生。因此,不能指望任何一种方法能够毕其功于一役。

面对新的数据质量问题,需要我们彻底的掌握元数据,并能够再次做到全面的数据二次清洗,但面对国网电力企业来说,规模越大以上两点越难以做到,如何实现大企业数据质量的全面一次性改善的方法还有待被发现。

[1] DAMA International 著.DAMA数据管理知识体系指南.马欢,刘晨等译.北京.清华大学出版社.2016.

[2] 郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报.2002 13(1 1):2076-2081.

[3] 韩京宁,徐丽臻,董逸生.数据质量研究综述.计算机科学.2008 35(2)

猜你喜欢
质量
质量守恒定律的应用
二年级下册期末质量检测(一)
提升天丝60支紧密纺成纱质量
提高审议质量 强化人大监督
怎样选填质量单位
J.D.Power:新车质量不升反降
创举措 拓渠道 提质量
质量投诉超六成
SPC在一轴盖油封装配质量控制中的应用
睡个好觉