谌迅
摘要:伴随着大数据时代的到来,存储在云端的数百万的数据想要成为真正的具有价值的资产,就需要一个有效的管理系统对其进行管理,针对云端数据量大、结构复杂等方面的特点,设计并实现一个能够将数据从采集到处理再到清理最后直到产品化的整个生命周期进行管理的系统,并将这些杂乱无章的数据资产化。该系统使用kafka总结结构,将数据的资产化过程分为采集、清洗、产出等多个阶段,并配套的设计了多个丰富系统功能的子系统,能够大大的提高数据资产的使用率。本文介绍了系统的设计和实现过程,详细描述了对系统起到支撑作用的多个子系统,本系统易扩展,可兼容,研究具有一定的现实意义。
关键词:大数据;远程监控;资产化;运维系统
中图分类号:TP311.5
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2016.02.013
引言
伴随着大数据时代的到来,存数在云端的数据数以万计。而这些成百上千的数据,在套上了大数据的背景之后,其价值被重新定位,可以说,在正确的管理下,数据就是无形的最有价值的资产。然而,数据本身并不具有资产属性,它需要一个有效的管理系统完成自动化的采集、处理、清晰、产品化等一系列流程才能具有价值。
就目前而言,无论是IT、金融或者其他部门,都无时不刻的产生着大量的数据,然而随着数据的增多,以及人员交接等问题,数据资源无法被使用,重复使用等问题大大增加了资源的管理成本,给管理部门造成了很多问题。针对这些问题,我们需要设计一个资产管理系统,众多的资源管理系统一样,本系统以计算机作为操作平台,采用B/S结构和分布是数据库对资源的整个生命周期(产生、采集、整理、盘点、报废进行全方位监管)。通过数据的资产目录建立,对数据质量的治理,使得数据能够被管理者应用,并设计实现了数据资产的后期运营,可以支持企业数据资产的分发、开放、交易等数据嫁接的实现,从而促进数据资产的价值实现。
1 系统架构设计
渐进的方式向资产运营目标过渡。系统大致分为数据目录管理模块,用来解决有哪些数据的问题,以及数据资产运营模块,用来方便后期运维,用户根据特定的资产稽核规则,这个数据资产管理系统的核心设计思路是从大数据资产治理人手,兼顾数据应用,以对系统中的资源进行监控,评测,保证数据在运行期的质量,方便生产部门将数据进一步加工成产品。系统大体的体系架构设计如图l:
(l)元数据库:用了存放系统中原始数据的数据库,各种类型的数据通过目录管理模块,形成统一的格式,存入元数据库中,此时的数据仅仅是数据,不具有资产属性,也不能变成产品,只有经过后续的加工才能成为产品,相当于一个原始数据的存储模块,只是规定了统一的接口。
(2)数据目录管理:系统的第一个子模块,建立并维护一个数据资产目录,目的就是将纷繁复杂的数据资源整合起来,在商定好统一的接口之后,发送给源数据库。
(3)数据资产质态库:元数据库中的数据进过接口汇集、产品加载等一系列流程(采集、校验、清洗、脱敏)处理,进入数据质态库,这里的数据可以称之为数据资产了,它具有统一的格式,形成相应的视图,并且需要对其属性进行长期监控
(4)数据质量稽核:由于该系统每天都要上报大量的数据,所以要对质态库中的数据质量进行分析,也就是数据资产的后期维护功能,他决定着系统能不能在第一时间发现并解决数据、设备故障的问题,是保证系统正常运行的关键。
系统的工作流程大致如下:数据资产目录模块负责整理云端的数据,并将其存入系统的元数据库,然而元数据库的数据作为原始数据,并不具有资产属性,经过处理和相应的盘点进入数据资产状态库,在通过对这些资产状态进行分析成为大数据资产,从而可以被相应的部门使用。
2 系统实现
如上一章中所提到的,系统由两个数据库和两个子系统实现,这两个子系统分别是目录子系统和稽核子系统,其中目录子系统负责解决系统由什么资源的问题,稽核子系统解决这些资源是否正常的问题,以下为详细介绍:
2.1 数据资产目录子系统
如前文所提到的该子系统维持了一个整理数据资产的方式,集中解决的是整理系统由哪些资源的问题:
所以在此模块的设计涉及到数据的存储模式:例如DPI类的数据、ODS类的数据如何定义成统一的格式,规定一个统一的接口,定义各个层级的功能和规范,还需要定义各资产的硬件存储环境,统一字段属性,并且最终形成资产目录视图。图2为资产目录子系统的总体设计思路:
(l)目录架构:此处定义了数据的分类以及数据所属的层次,下图3为目录架构表:
此表针对不同的数据类型,采用不同的目录结构。
(2)存储环境:此处定义各类数据在什么环境下存储。
(3)资产信息:此处规定目录中的数据资产需要统一的提取哪些字段,例如名称、每种类型数据资产的数据量、用途等。
(4)资产属性:规定个资源信息的格式,例如资源名称的格式是怎么样的应该包含数据的产生时间+产生方式+产生单位等一系列统一的口径。
在定义好数据的接口规范以后元数据库的不同类型的数据(ODS类、DPI类)经过接口层形成固定格式的数据,经过生产、加工成为有效的资源类数据,系统采用hbase与mysql作为存储方式,主要统计的是各种资产的记录条数、量值等信息,并且有一系列有字段属性。资产目录的展示如图4:
系统可以根据不同的数据,进行数据稽核,检查数据是否有问题。此处的任务ID都是随机生成,稽核类型指的是稽核点,是检查数据的位置,即哪些数据是有问题的。
最终系统还可以根据目录生成资产关系视图:
他简单的表达了哪些数据是属于哪个中心的,从属于哪些任务一目了然。
2.2 数据质量稽核子系统
该子系统负责对数据资产质量库的数据进行监控、统计维护以及质量评估,作为监控系统是否正常工作的子系统,在监控中起着非常重要的作用。简单来说,此部分的工作首先就是要对告警规则进行配置,之后对各个类型的数据资产进行监控并打分,因此,这个子系统分为三个模块:数据质量监控模块、告警稽核模块、数据打分模块.
数据质量监控模块:这里要对第一章提到的数据的整个生命周期进行监控,对于源数据库中的数据,要对他的及时性、完整性、重复率进行监控;对于质态数据库中的数据,要对其一致性、完整性、逻辑性进行监控。
告警稽核模块:首先,有网管人员配置告警规则,系统采样数据指标,判断数据是否存在故障,如有故障,下发告警以及解决方案。
数据打分模块:通过判断数据的一致性、数据的逻辑性、数据的重复率、文件的完整性、文件的及时性等指标根据打分规则对各部门数据进行打分。
子系统的业务工作流程如下图:
系统首先读取管理员的稽核规则,然后系统提取数据稽核点的数值得到结果,根据这个结果,自动生成数据质量表,可以对数据质量进行打分,当然,打分规则也是可以配置的;同时系统可以根据事先配置好的告警规则判定时候需要告警,并发送警告。
以下是部分效果展示:
如上图所示,各种不同的稽核规则,对应不同的资产类型,多长时间稽核一次,用什么类型的方法稽核,在此处都可以配置,这样,无疑增加了检测的灵活性。这个就是告警规则的配置页面,此图之后还可以选择稽核点,稽核方式等问题。
这个是打分结果表通过此窗口,便可以查看各个数据资产的是否有问题,此处还可以选择相应的稽核规则。前文已经所说,此处的稽核规则也算是事先被配置好了的,选择适合稽核规则,只有这样,数据的质量才有保障。
3 结论
本文给出了一个数据资产管理系统的设计方案并按此思路完成了实现以及后期的测试,通过系统的开发以及后期的实践,系统可以对大量的数据进行稽核检测,并把这大量的数据通过此系统收集起来,作为各个设备是否运行良好的检测标准,具有很好的现实意义。此外,系统的使用方式灵活,可以很好的对其所监控的所有设备进行很好的管理,一旦某个设备出现了故障,第一时间就可以发出警报。