基于运营商的数据质量管控体系探讨

2016-11-17 02:37林碧兰张晖黄学田
中国新通信 2016年17期
关键词:质量分析质量监控

林碧兰 张晖 黄学田

【摘要】目前电信运营商均在进行各类网络及数据的集约化,集约化过程中数据涉及较多环节,任何一个环节出现问题都会影响数据质量。本文对数据质量管控内容、运营商数据质量现状做了深入研究,详细论述了如何借助系统,通过数据质量监控和数据质量分析等手段,发现数据质量问题,并针对可能出现的各类数据质量问题,提出了切实可行的解决方案。该体系方案已在中国电信多个数据集中项目中得到了实施,并取得了良好的应用效果。

【关键词】质量监控 质量分析 数据补救措施

“数据,已经渗透到当今每一个行业和业务职能领域。”大数据时代的来临,为企业特别是运营商带来了前所未有的机遇,与此同时,数据分析及应用的挑战也接踵而来。运营商所需存储处理的数据量惊人,数据来源及结构繁多复杂,要想充分发挥大数据所赋予的价值,必须拥有可靠、准确、及时的高质量数据。

只有从高质量的大规模数据中提取隐含的真实有用的信息,运营商才能做出更加精准、更加符合市场和客户需求的决策,否则大数据的优势将化为泡影。为此,运营商需要更加注重大数据时代下的数据质量。

一、数据质量管控内容

数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量通常通过以下几个维度来衡量:完整性、准确性和及时性。完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。准确性是统计数据质量在统计信息客观真实性方面的体现,是统计数据使用者的首要要求。数据的准确性包含正确性和有效性。及时性是统计数据质量在统计信息的时间价值上的体现,及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。

二、产生数据质量问题的原因

数据分析系统的灵魂是数据。“脏数据”,即数据质量差的数据,它们的存在直接影响了分析系统的使用质量。如果数据仓库中存在着大量的不可信赖的脏数据,那么基于它所做的分析项目就会受到极大的影响。因此提高数据质量是运营商大数据分析必须面对的问题。为了更好地解决数据质量问题,就必须对脏数据来源有个清晰的了解。归结起来主要有3个来源:源系统、数据集成过程及数据分析过程。

致使源数据系统中存在脏数据的原因主要包括:数据实施过程中完整性受到破坏但未被发现;软硬件故障导致数据质量被破坏;不同的源系统的数据相互之间不一致,这可能由于各系统来自不同的厂商,没有统一的数据定义,没有采用统一的规则等;没有正确的命名规范或数据定义,可能会导致统计上的混淆。

第二大产生脏数据的过程就是在源数据加载到数据仓库之前的清洗、加载流程,即数据集成过程。由于录入到数据仓库的数据来自于各个不同平台系统,源数据之间的数据结构、信息编码、数据定义等方面可能都不一致,集成过程就是把这些凌乱的数据源进行整理和统一。而开发人员对数据源系统的业务方面理解的不充分,导致规则理解错误,或者即使规则很明确,ETL开发的过程中也会发生一些错误,例如逻辑错误、书写错误等,这些都将直接导致脏数据的产生。

数据分析建模是指用适当的统计分析方法、模型对收集来的大量数据进行分析,提取有用信息形成结论。在该过程中,可能存在同一指标不同开发人员多个算法、或者开发人员人为处理错误等导致脏数据的产生。

三、传统数据质量管控方式

运营商的各个网管、IT系统经过长期的建设演进,虽然在各系统内部已初具一些数据质量监控手段,但传统的数据质量监控方式仍比较单一,由各自专业网管承担,通常需较多人为干预,效率较低,且数据质量好坏很大程度上依赖于维护人员的业务熟悉程度。目前运营商在进行各类数据的集约化,集约化过程中数据涉及采集层、处理层及应用层等多层面,而且网管、平台数据从采集、处理到大数据应用,需跨多地域多个专业系统,专业领域跨度大且涉及多个厂商及不同接口,存在越来越多数据质量隐患环节,任何一个环节出现问题都会影响数据质量。

传统的数据管理模式逐渐满足不了网络运维管理集中化及大数据分析的要求,难以对数据质量进行有效监控,无法快速对各类数据问题进行溯源分析,且数据质量监控工作各个环节相应的角色和职责等机制未建立,难以支撑数据质量问题的及时处理。

在网管集约化的演进趋势下,亟需建议一套完善的数据质量管控体系,智能化主动发现问题,并改变以往逐层进行问题排查的盲目工作方式。

在该体系下,对跨区域、跨系统数据端到端采集、处理流程进行梳理,设置数据质量监测点,并通过可视化视图使网管维护人员清晰地发现和定位问题出现点,主动地发现解决问题,并采用自动派单及时通知相关维护人员处理,提升数据维护效率及数据质量。

四、建立数据质量管控体系

建立数据质量监控体系需基于统一数据集约及监控平台上从数据质量监控、分析及数据补救几个环节入手,下图为数据质量管控体系结构规划图。

4.1数据质量监控

数据质量主要监控功能包括数据完整性、准确性、及时性监控、数据异常告警以及接口运行监控等。在采集层及数据处理主要阶段设置数据质量检测点,支持对数据质量的全程监控,同时,将监控界面可视化,使维护人员能够快速直观地定位到问题所在。

4.1.1数据完整性监控

对数据的完整性监控,通过系统界面设置各类数据在每个采集周期的监控粒度、系统进行数据完整性检查的时间周期后,应可以看到该采集源下数据完整性监控的矩阵图,该界面提供具体采集信息,包括完整率、采集条数、经验值、完整率阈值等。比如对省平台上报的文件数量或大小波动是否大于阈值进行监控,对省平台上报文件数量、大小与集团平台获取到的文件数量、文件大小是否一致进行核对和监控等,并形成告警,提供可视界面对告警信息的详情查看的辅助功能。

4.1.2数据准确性监控

数据质量监控是以数据的提供信息的准确性为目标。数据准确性监控,主要是针对重点考核的指标进行正确性、有效性的监控和分析。

数据正确性监控。根据同期或历史经验值(可设置)进行重点采集和指标合理性对比分析,能够自动对那些超出阈值的重点指标进行筛选,以及同一指标在不同报表或报告中是否一致对比等。这种情况可能会发生在当其他检查规则都未出现异常时,指标准确性仍可能出现异常,如某天的数据上报文件数量和大小都正常,但文件的部分指标值为0或与上月波动超过阀值。

数据有效性监控。大多数情况下,字段的空值、空字符串、负值、0都是无效信息,或者某些字段有固定的格式,若与格式不相符,我们也认为该取值是无效信息。无效值的比例越多,建模时能够利用的信息就越少。当无效值的比例大到一定程度,我们甚至认为该变量对于建模是无效的。对于无效值较多的变量,我们将首先怀疑数据处理过程是否存在错误。如无错误,对于极差和无效的变量,在建模时将慎用甚至弃用。系统应支持对多维度重要字段数据无效率的分析,当无效率超过阈值时,在下一步数据分析前剔除该部分数据。另外,系统应支持对异常值的原因分析。

及时监控的同时,系统均应形成告警,并在可视界面上提供对告警信息的详情查看的辅助功能,运维人员可及时对这些异常指标进行数据处理和采取相应补救措施,避免这些不合理的采集数据对上层应用决策和分析造成负面影响。

4.1.3数据及时性监控

对数据及时性进行监控,应具备对上报接口是否及时上报或数据处理过程是否在规定的时间内处理完成进行监控的能力。在数据可视矩阵图上应能够清晰地标注出采集及时的数据、延时的数据、采集异常的数据,以及处理延时、异常的数据。

同时,该功能能够对不及时或异常的数据进行及时监控,形成告警,并提供可视界面对告警信息的详情查看的辅助功能。

4.1.4接口运行监控

监控接口是避免故障突发的重要措施。通过分析运行情况,监控接口能实现异常情况的提前预警,有效地缩短故障持续时间。接口运行监控是指采集适配平台对各接口的运行情况的监控功能。

接口监控负责监控与统一适配平台对接的接口,包括接口连接是否正常,连接进程状态,连接数量,数据采集是否正常、网络速率是否正常等。主要根据接口调用返回的异常结果来进行显示。同时,能够支持将接口运行状态形成告警,并以可视界面进行管理。

4.2数据质量分析

数据质量分析功能要求系统能够支持多手段、多维度数据质量分析。分析手段方面,采用总量稽核和分量稽核的全面校验手段。总量稽核的基本算法是对入口源和出口各相邻处理环节的数据,进行数据总量的验证。总量验证需要对所有度量指标进行比对,如总记录数、总次数、总时长、文件大小等。

分量稽核是在总量稽核正确的前提下,从各个角度对重要指标进行稽核,比如对各类重要数据的占比、同比、环比、异常比例、不同节点问是否一致等进行比较,以保证数据的质量。

分析维度方面,可从系统维度、厂家维度、省份维度、接口类型维度等多维度分析。通过总量稽核、分量稽核及多维度地分析处理,系统生成相关的数据稽核报表,从而评定数据质量,并对其进行有效的管理。

4.3数据补救措施

当数据不完整、延时、不准确等状况发生时,应主要致力保障采集层数据质量以支撑上层应用系统正常运行。主要的补救措施包括数据自动补采、人工补采、数据剔除等。

4.3.1系统自动补采

当系统发现数据不完整时,系统应能依据策略自动或手动触发数据补采。数据自动补采策略内容包括补采检查时间点、数据完整率补采阀值等。系统支持定时轮询检测数据完整率情况,当数据完整率低于设定值时,管理服务器会根据补采策略在闲时下发补采任务,自动执行数据补采操作,同时系统应支持补采完成通知配置。

4.3.2人工补采

当通过完整率监控无法发现数据质量问题时(即有时通过数据准确性发现问题),支持通过系统界面,选择相应的补采策略,进行手工补采。可支持进行单个时间点、单个文件、单个指标的补采,也可支持批量补采。

4.3.3数据剔重及填充

在进行数据处理前,有个一比较重要的操作就是去除数据中的重复记录。有时候由于接口或网络的问题,数据源传过来时会存在较多的相同数据,就需要将这些重复数据剔除掉。在进行完整性监控时,需要对源数据和采集数据进行一致性比较,当采集数据量大于源数据时,需要支持对该部分数据进行剔重的功能。

当源系统数据由于客观原因导致无法进行自动或人工补采时,系统可支持维护人员根据数据填充规则对近期缺失的数据进行批量填补,以确保数据的完整性。数据填补规则包括指标的设定、指标值的范围设定(平均值、最大值、经验值,数值可编辑)、数据填补时间段及时间点的设定。另外,可以凭借经验值对由于设备故障或网络等因素产生的异常数据或者偏离很大的数据进行修补,从而保障数据质量。

五、结束语

目前,上述数据质量管控体系方案已在中国电信集团公司网运部的数据集约项目中得到了初步实施及验证。通过该体系系统,维护人员可较快定位数据质量问题所在,数据质量得到了较好地管控。

随着网络运行及经营数据的日趋庞大,数据质量的稽查工作也将变成日常工作中越来越重要的一项。如何尽量避免在数据质量核查时过多的人工操作,避免因手工操作而产生的人为性失误,这就需要对整个系统、业务流程非常熟悉和了解,对每一个可能发生的数据质量问题都能够提出应对措施,争取数据质量监控和数据质量解决全部实现程序自动化。另外,制定出更科学的数据质量评判规则及标准,以便建立一套完善的数据质量管控体系,这也是在今后的数据质量管理工作中努力的目标和方向。

猜你喜欢
质量分析质量监控
高校双语教学质量监控体系的构建
抽样检验质量分析对提升产品质量的作用研究
浅谈药品现场质量监控员在药品生产过程中重点监控的关键点
药品质量分析在其评价抽验中的作用探讨
产融结合型企业利润结构质量分析体系的构建
浅谈电子元器件的质量分析与控制
高职教育实践教学质量监控与评价体系的构建分析
浅议我国公路监理在质量监控方面的科学措施
智能建筑施工中机电设备安装质量监控手段