数据资源体系在大数据中的应用

2021-06-03 09:45
中国自动识别技术 2021年1期
关键词:席位字段校验

随着互联网、大数据、人工智能等先进技术的发展,信息数据呈现几何增长。这些数据已经渗透到当今社会的各行各业,为政府和企业进行科学决策、开展各类研究、规划未来发展方向等方面提供了充分的科学依据,成为政府和企业发展中不可或缺的战略资源。

随着政府和企业智能化、信息化的转型升级,存量数据形成规模,数据质量和可用性均不高等问题逐渐暴露出来,数据资源的利用率长期处于低位,导致政府和企业在进行决策过程中缺乏有效数据进行支撑的窘境,这也是数据资源没有发挥出其真正效应的根本原因。数据资源体系则成为解决此类问题的一剂良药。

数据资源体系构建方式

为确保数据资源体系建设工作的顺利推进,依托数据资源建立便于任务推进、促进协调沟通、符合实际需要的数据治理工作组织,包括成立数据采集席位、数据治理席位、数据分析席位、数据运维席位、数据管理席位,共同构成数据资源体系建设的组织架构,并根据组织架构层级确定角色和职责,建立多层次、相互衔接的运行机制,如图1所示(见下页)。

图1 数据治理工作组织

数据管理席位

数据管理席位由数据架构工程师组成。负责数据资源体系的架构设计、关键数据治理技术突破和技术咨询、数据实施开展的指导培训以及数据资源共享交换的权限审批。

数据分析席位

数据分析席位由数据挖掘工程师组成。负责业务场景的数据分析、算法建模和模型部署以及数据共享交换服务的注册发布,解决数据价值挖掘和数据决策支撑的痛点需求。

数据治理席位

数据治理席位由数据ETL工程师组成。负责结构化数据的抽取、转换和加载,开展数据标准区、数据主题区和数据专题区的建设工作,提升数据资产化价值。

数据采集席位

数据采集席位由数据爬虫工程师和数据开发工程师组成。负责数据需求调研,实现对网页数据、数据库在线、物联网传感数据和离线文件四种场景的数据采集,进行流程开发和运维管理。

数据运维席位

数据运维席位由大数据运维工程师组成。负责平台应用的部署、运维和管理,大数据集群和数据仓库服务器的运维调优工作。

数据资源体系实施过程

在数据资源体系建设的具体实施过程中,可分为数据需求调研,数据体系规划,数据标准化建设,数据资产建设四个环节;而这四个环节的执行过程都需要数据质量稽查和数据安全管理这两个模块的支撑。

数据需求调研

在进行数据需求调研时,分两个阶段开展工作:首要工作是对现有数据资源进行盘点和统计,其次是对数据应用进行需求调研及规划设计。数据资源盘点对数据项目是否能成功落地起决定性的作用:数据湖里若是连“水”都没有,讨论数据应用的需求就是“空中楼阁”,应用设计得再好,也无落地的可能。数据资源盘点完成后,需要针对实际情况,进行数据的需求分析和规划设计,使数据资源的建设方向有的放矢。

对数据资源进行盘点,具体包括以下步骤:

一是从最易接入的数据类型入手,获取数据库中的数据。通过已有的数据库,获取数据字典(若无则需要与业务人员进行字段意义的逐一确认),最终理解每个数据库的部门归属、用途和意义,进行元数据记录及数据量统计。

二是盘点服务器数据,例如系统日志和数据库日志等,最终掌握每个日志的部门归属、用途和意义,进行元数据记录及数据量统计。

三是盘点IoT数据,需要整理每种IoT数据所需的解析协议,进行元数据记录及数据量统计;盘点非结构化数据,整理公司云盘、SVN等文件存储器下的电子文档及多媒体文件等,形成清单列表,表名属性、分类、用途及归属等信息。

数据应用的需求分析,从业务的实际痛点出发,过程中需要与一线作业人员充分沟通,探求如何优化业务人员的工作流程,提高实际业绩。例如,为销售人员提供公司客户群体画像,为售前人员提供能预测潜在客户购买概率的AI模型等。数据应用需求分析完毕后,要对项目周期内的应用进行规划,即合理的应用交付范围,后续的数据资源建设方向都以此为目标。

数据体系规划

把握整体数据和应用情况后,即可对数据体系进行设计和规划。

对于原始区数据引接问题

•原始数据区需引接领域与类型;

•原始数据区未来采用全量同步或增量同步的引接方式;

•非结构化数据引接前对于数据的处理及解析方式;

•历史数据的引接范围时间周期。

标准数据区对引接的原始数据处理方式问题

•需要进行数据清洗和转化的方式及操作过程;

•对于字典标准、业务标准等标准集的抽取和制作方式;

•数据标准化的完成路径。

主题区设计问题

•主题区基于业务的主题库设计;

•主题库内的字段选择;

•基于业务的主题库内容更新方式。

专题区设计问题

•专题区基于业务和管理的专题库设计;

•主题库至专题库的映射关系设计;

•专题数据服务提供时效;

•数据应用与数据服务接口的交互方式。

一般来说,在这个阶段,需要制定数据库模型设计的规范、制定数据开发规范;二是进行数据库模型构建,并提交评审讨论。

数据标准化建设

数据标准是保障数据内外部使用和交换一致性、准确性的规范性约束,是进行数据标准化、消除数据业务歧义的主要参考和依据。数据标准管理是指数据标准的制定和实施等一系列活动,目标是通过统一的数据标准制定和发布,结合相关约束、系统控制等手段,实现数据平台上数据的完整性、有效性、一致性、规范性、开放性和共享性管理。

数据标准管理主要内容包括标准规划、标准制定、标准发布、标准执行和标准维护五个阶段。一般来说,通过将数据与标准集进行关联匹配来达成数据标准化的目的。需要注意的是,关联匹配的前提是业务表与标准集之间存在可关联字段,这就需要在标准构建阶段,甄选出业务价值最高需要进行标准化建设的字段。

数据资产建设

数据资产建设是数据资源体系建设前期投入最大、最困难也最难看到显著成效的模块。但是所有数据化建设的最后,都要以数据资产为基础,围绕资产去实现实际的数据应用,因此数据资产建设阶段的成果质量好坏至关重要。

数据资产建设主要分为:

数据库选型这个阶段需要为不同的数据区选择合适的数据库产品(原始数据区采用HDFS文件系统,使用HIVE进行数据清洗转换及查询;专题区可以用MySQL进行数据存储,提供快速的查询反馈)。

平台选型数据处理管道(pipeline)的开发需要平台工具的支持,这些平台工具能完成不同数据源的协议适配与数据引接,并能开发工作流实现数据的处理和流转。

数据区建设这一步进行实际的数据开发工作,根据前序已经确立的方向及开发规范,引接真实数据,进行数据清洗,建设原始区、标准区、主题区及专题区,并创建自动化工作流,使数据得以定时化、自动化更新。

数据资产建设完成后,即可按需开发数据接口,为上层应用提供数据服务。

数据质量稽查

数据质量稽查需贯穿整个数据资产建设的过程,是数据质量的重要保障,是数据应用正确指导业务活动的前提。通过数据质量稽查,要求数据在提供给数据应用前,要满足准确性、完整性、一致性、有效性、唯一性、及时性、稳定性。

目前,业内较为通用的校验规则如下:

单字段校验通过单一字段的约束条件进行校验,包含不为空、比较运算、包含、不包含、取值范围(区间)、取值范围(枚举)、字段长度、字段类型、正则表达式等规则,可用于校验数据的准确性、完整性等;

唯一性校验针对单一字段或者多个字段组合后做唯一性约束校验,通过重复记录行或其他违反唯一性约束属性值进行校验;

关联性校验针对字段的关联关系校验,通过引入其他关联字段验证字段的存在和缺失进行校验;

记录行统计型校验针对某个字段的记录行总数做校验,通过统计记录行数量与合理阈值范围比较来进行校验;

多源对比校验针对多个数据源进行对比校验,通过关联字段和对比字段的对比,以校验通过率高或匹配率高的数据知晓哪个数据源的数据质量高。

数据安全管理

数据治理流程中主要涉及数据采集安全和数据处理安全两方面:数据采集安全包括数据分级分类、数据标签、数据采集身份管理、数据源鉴别、记录和数据质量管理;数据处理安全包括数据脱敏、数据分析安全、数据,使用安全、数据导入导出安全和数据处理环境安全。

随着数据资产的不断积累,政府机关及企事业单位对于数据价值挖掘的需求逐渐显现。数据价值挖掘的过程,不仅是使用数据分析挖掘工具进行数据处理的过程,更是以数据规划设计为起点,通过构建数据资源体系进行系统化的数据资源管理的过程,也是为数据支撑业务打好最结实的基础,最终让数据资产发挥其应有的价值。

猜你喜欢
席位字段校验
图书馆中文图书编目外包数据质量控制分析
炉温均匀性校验在铸锻企业的应用
机构席位买卖股追踪
机构席位买卖股追踪
结合抓包实例分析校验和的计算
机构席位买卖股追踪
机构席位买卖股追踪
大型电动机高阻抗差动保护稳定校验研究
基于加窗插值FFT的PMU校验方法
CNMARC304字段和314字段责任附注方式解析