数据治理在公积金行业数字化转型的研究

2022-07-11 01:13杨世利廖强陈雪洪晓霞郑国林
电子技术与软件工程 2022年4期
关键词:公积金重庆中心

杨世利 廖强 陈雪 洪晓霞 郑国林

(1.重庆市住房公积金管理中心 重庆市 401121 2.浙江大学 浙江省杭州市 310058)

重庆市住房公积金管理中心(以下简称重庆公积金中心)主要负责授权范围内住房公积金和其他房改资金的日常管理。重庆公积金中心现有信息系统架构为“一个平台+两个系统”(一个平台为云数据中心平台,两个系统为核心业务系统和综合管理系统),随着业务的不断发展和壮大,逐渐形成重庆公积金中心特有的数据特色,如:数据体量大、数据分布广、基础属性多、自带金融属性、时间跨度长等。

数据体量大:重庆公积金中心从成立之初到现在,已保存了20 多年的公积金缴存明细数据,其中核心库约6T、管理库约6T、中转库约3T、数据上报库约800G、住房补贴库约800G、微信数据库约500G,共涉及约4.8 万家实缴单位基础信息,298.6 万实缴员工基础信息。

数据分布广:随着重庆公积金中心信息化水平的逐渐提升,建设规模的不断扩大,目前数据广泛分布于以核心业务系统、综合管理系统为代表的28 个应用系统和11 个服务渠道中。

基础属性多:在数据信息融合的大趋势下,重庆公积金中心广泛与不动产登记中心、社保部门、民政部门、公安部门及银行开展数据协同工作,进一步使得公积金基础数据属性不断增长,涉及多个部门,多个渠道的字段。

自带金融属性:重庆公积金中心数据涉及面极广,不仅包含了基础属性,还覆盖公积金贷款、房屋基础信息、银行卡绑定信息等金融属性,具备动态、实时、变化极快的特征。

时间跨度长:数据往前可追溯至1995 年重庆公积金中心创立之初,当下可展示实时数据,未来也将持续新增并维护,数据长度跨越了过去、现在、未来三个时间维度。

但伴随着重庆公积金中心的不断发展壮大,其中也产生了一系列数据隐患,如:

数据孤岛问题:在住房公积金中心发展过程中,建立了许多相对独立的系统,形成了“一类业务,一个IT,一个数据库”的封闭式IT 架构。其带来的直接问题就是“数据孤岛”:IT 系统中的数据语言不统一,不同IT 系统之间数据不贯通,同样的数据需要在不同的IT 系统重复录入,甚至不同IT 系统中的同一个数据不一致等,这些问题限制了运营效率的提升。

数据价值挖掘问题:重庆公积金中心经历20 年的信息化发展,围绕业务需求建设了众多的业务系统,各个业务系统每日产生的海量数据以复杂而分散的形式存储,看似积累了众多的数据资产,实则在需要使用时困难重重,数据得不到有效利用。

数据质量问题:重庆公积金中心经过近20 年的发展历程,累积了海量历史数据,这些海量历史数据的价值无疑是巨大的,但是由于时代的局限性,数据准确性也存在一定的问题,重庆公积金中心在2018 年第四代信息系统建设前期,已持续开展了历史数据清理工作,取得了较大的成效,但数据质量仍有待提高。

数据安全问题:信息共享融合是发展的必然趋势,大数据时代背景下如何管理好共享数据出口,保障缴存客户信息的安全是重庆公积金中心需深入研究的重要工作。

基于以上存在的问题,数据治理成为了重庆公积金中心迫在眉睫又不得不面对的一个难题。将数据视为一种高度关注的社会资源和新兴的研究对象,如何有效地管理和使用这些数据资源成为一个挑战,这将需要从数据获取、管理、利用和安全等各个角度对数据治理问题进行系统深入的研究,以指导重庆公积金中心的治理实践。同时,由于公积金管理中心为类金融性管理机构,数据治理问题更具复杂性,我们不仅要在数据管理和使用的实践中探索,更要加强数据治理的理论研究。

1 全局数据治理体系

基于重庆公积金中心目前存在的数据孤岛、数据挖掘、数据质量、数据安全等问题,设计了具备重庆公积金中心数据特色的全局数据治理体系(见图1),体系包含数据保障体系、数据管控平台、数据中台、数据应用平台四个部分,从规章制度、数据治理、数据服务、数据挖掘四个方面,规范公积金业务数据,满足相关标准要求。

图1:全局数据治理体系

1.1 数据保障体系

基于重庆公积金中心数据治理现状和数据管理能力成熟度,设计并规划相应的数据保障体系(见图2),支撑重庆公积金中心数据治理工作有序开展。数据治理的保障体系包括治理组织、规章制度、流程管理、绩效管理四个方面的内容,其中:

图2:数据保障体系

治理组织:确保数据管理工作的推动力和执行力;

规章制度:从法理层面保障数据治理工作“有据、可行、可控”;

流程管理:制定数据治理各项活动应遵循的活动步骤,保证数据操作的标准和规范性;

绩效管理:以考核的形式,保证数据治理工作持续推动,不断改进,形成长效机制。

1.2 数据管控平台

在数据保障体系的组织、制度、流程不断更新和完善的背景之下,围绕重庆公积金中心面向主题域的数据仓库,对数据治理重点关注的内容:数据模型,数据标准、数据质量、元数据、主数据、数据生命周期等,进行设计和规划数据管控平台(见图3),其中:

图3:数据保障体系与数据管控平台的关系

数据模型:定义和描述重庆公积金中心“28 个系统和11 个渠道”的数据及数据间的关系;

数据标准:实现数据的标准化、规范化;

数据质量:负责事前预防、事中监控、事后处理的全面质量监控;

主数据:从核心业务系统和综合管理系统抽取价值最高、最核心、最需共享的高价值数据,经清洗整合的过程,建立企业级的数据视图;

元数据:通过血缘分析、影响分析、冷热度分析、关联度分析、数据资产地图,帮助重庆公积金中心掌握数据的“数据资产”、“前世今生”和“异常定位”;

数据生命周期:针对数据生命周期的在线阶段、归档阶段、销毁阶段三大阶段,建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。

1.3 数据中台

基于全局数据治理体系建设思路,整合现有数据保障体系,数据管控平台的功能模块,进行优化和增强,同时新增数据服务模块形成数据中台,对数据进行有效管理和价值变现。一方面,数据保障体系和数据管控平台支撑和服务于数据中台,属于数据中台的一部分;另一方面,数据中台的数据服务质量和效率的反哺,又不断优化和完善数据保障体系的组织、制度、流程,提升数据管控平台数据标准化、规范化、高质量的能力,从而形成一个数据闭环,不断规范数据标准,高效与相关单位数据共享。数据中台分为5 个层次:汇聚层、加工层、资产层、安全层、服务层,见图4。

图4:数据中台

汇聚层:从28 个系统和11 个渠道中采集原始数据;

加工层:实现数据到数据资产的转化,提炼数据价值;

资产层:将数据汇聚和数据加工后的数据分层存放在数据仓库;

安全层:对敏感数据从多方面、多层次进行安全保障;

服务层:把数据变为一种服务能力,对外输出,便捷与相关单位共享数据。

1.4 数据应用平台

利用数据中台强大的数据服务能力,集成大数据、区块链、人工智能等工具,挖掘28 个系统和11 个渠道数据的潜在价值和关联关系,落地统计报表、客户画像、机器学习、推荐系统、智能运维、决策分析、智能客服、指标体系等应用场景,激活数据价值,提升重庆公积金中心的决策能力和服务水平。如图5 所示。

图5:数据应用平台

2 应用场景

全局数据治理体系是构建标准化、高质量、安全共享的数据的基本保障和前提,是把数据当作资产来管理的有效手段。在大数据时代,数据治理将为数据的应用奠定基石,重庆公积金中心数据将得到更好的治理,具体的应用场景有:数据汇聚、标准统一应用、异常快速定位、数据热度分析、数据电子稽核、数据上报服务、灵活就业应用、数据保险箱。

2.1 数据汇聚

通过全局数据治理体系的数据管控功能,从重庆公积金中心的28 个系统和11 个渠道中抽取数据元数据,汇聚到数据管控平台。各个部门的业务人员只需输入库、表、字段名称进行模糊查询,便能确定相关元数据信息(如:字段名称,字段类型,字段长度,字段非空等)、分布服务器、所属业务系统、相关责任人、业务属性等信息,减轻业务人员手工管理数据源的负担,节省业务成本,提高重庆公积金中心的服务质量与效率。

同时,数据管控功能保证了库表更新的时效性。当源系统的表或字段发生更新时,数据管控中台会及时检测到表或字段的差异性,立即作出预警,进一步维护了数据结构在上下游系统中的一致性。

2.2 标准统一应用

全局数据治理体系结合公积金行业数据规范和重庆公积金中心数据特色,形成系统性的数据标准管理体系。方便各业务系统在新建需求时,仅需通过查询数据标准信息,就能获取相应行业数据标准规范,做到各业务系统数据标准的一致性,同时有效避免各部门之间因行业规范版本差异,导致数据标准的不一致,加快重庆公积金中心数据治理进程。

2.3 异常快速定位

全局数据治理体系不仅将重庆公积金中心所有业务系统的数据进行标准化,规范化的管理,还进一步将数据使用场景和数据源头建立血缘关系,解决数据“从哪里来,往哪里去”的溯源问题。首先,业务场景发生时,操作人员可快速根据“血缘关系”图谱,了解到指定数据的来源业务系统,计算加工方式等信息,节省业务办理时间,保证服务质量。其次,当下游业务系统数据异常,相关运营人员可根据血缘关系快速反向定位源业务系统和相关负责人信息,明确责任范围,自动发起修复流程,避免了“职责无边界,认责不明确,数据前世今生不清楚”的问题。使得业务人员对千万级别的数据做到“心中有数”,异常快速定位。

2.4 数据热度分析

全局数据治理体系应用于重庆公积金中心各业务系统,从业务和技术双重层面反哺重庆公积金中心。业务上:统计近7 天、近1 个月、近1 年的数据查询量、数据使用量、数据影响面等指标,分析客户关注热点、群众诉求, 针对客户痛点、难点,及时调整政策和服务, 提升重庆公积金中心服务口碑和形象,为广大客户提供多元化、便捷化的高质量服务。技术上:数据价值分析指标结果也间接反映了各业务系统受欢迎程度,从而对各业务系统进行业绩考核或线上渠道优化,打造明星产品。

2.5 稽核检查

全局数据治理体系的数据质量监控通过配置多重精确规则,基于客观事实多重校验,确保数据可信、一致。对数据录入进行严格度量和控制,确保下游各环节能够及时、准确、完整的获取所需数据,并在整个业务端到端链条中对异常数据进行严格监控,并将异常数据及时反馈给业务人员,避免异常扩散至其余业务系统,产生雪崩效应,提高重庆公积金中心识别风险的能力,规避潜在风险。

2.6 数据上报服务

目前,全国各城市住房公积金中心都需要将T+1 日数据按照《住房公积金基础数据标准》规范,上报住房和城乡建设部。同时根据重庆市政府相关规定,需向重庆市大数据局等单位共享相关数据,在数据上报或共享过程中,时常遇到“数据标准化”和“数据新鲜度”两个问题。而随着数据服务与重庆公积金中心体系的有效结合,这两个困扰业务人员和开发人员的问题便迎刃而解。

(1)“数据标准化”通过资产服务与质量监控,可快速的根据上级或相关单位的共享数据规则,以“拖拉拽”方式,将散落在各业务系统的“黄金数据”聚合在一起,形成高质量,标准化,规范化的数据报表。

(2)“数据新鲜度”也可得到良好的解决,通过数据对外服务的周期性调用配置,定点定时上报数据,保证数据的“新鲜”,解决了重庆公积金中心向相关单位上报或共享数据,因时间口径差异造成的数据不一致性问题。

2.7 客户画像

全局数据治理体系以重庆公积金中心TB 级别的数据体为基础,从不同的维度对数据进行建模,抽取数据画像,服务于不同的业务场景,如:

2.7.1 缴存企业画像

将未开户缴存企业和已开户缴存企业的特征,输入已经训练好的精准扩面模型,输出推荐扩面企业,由业务人员进行精准化的服务与推广。

2.7.2 缴存用户画像

(1)强制缴存人员:针对正常缴纳社保的用户数据,构建非公积金用户、未开户、政策推广等客户标签。按照业务规则给用户推送服务、楼盘、租房等消息,并对开户情况进行监控,进行精准服务推荐。

(2)灵活就业人员:将业务系统的用户数据,进行二分类算法模型计算,将用户分别打标:愿意/不愿意缴存公积金;进而细化:推荐缴纳方式(一次性缴存,按月定额缴存,自由缴存)。

2.7.3 租房项目画像

通过对租房项目周边需求人员情况、租赁企业综合实力、住房市场发展情况、项目周边交通情况、租房人员情况等数据进行科学建模,助力租房项目科学选址、有效管控风险、推动租房市场健康发展。

通过以上建模过程,不仅挖掘了数据潜在的价值,提高了数据利用率,同时达到了数据复用,加速应用开发。实现“数据即资产”的远大目标。

2.8 数据保险箱

通过全局数据治理体系的安全层功能,将数据放进“保险箱”,全方位保护重庆公积金中心数据资产的安全。首先,不同渠道的业务人员登录系统,仅能查询授权了的个人信息,缴存单位信息等数据,对未授权数据自动屏蔽。其次,限制业务人员对数据的操作类型,如:删除、更新、新增等。仅授权的业务人员才能对数据进行修改。有效地防止用户个人信息的泄漏,保障人民的财产安全。

3 结语

本文针对重庆公积金中心信息化过程产生的“数据孤岛、数据挖掘、数据质量、数据安全”等问题,首先调研了重庆公积金中心的数据特色和管理现状,然后将数据治理和重庆公积金中心服务体系进行有效结合,设计了全局数据治理体系,其中包含数据保障体系、数据管控平台、数据中台、数据应用平台,从“规章制度、数据治理、数据服务、数据挖掘”等不同的维度,探索了“数据到资产转变”的可行性,通过全局数据治理体系,集成管理重庆公积金中心的数据资产,并遵照行业基础数据标准,对数据质量进行监控,对外提供数据服务和数据挖掘分析服务,反哺业务管理和系统效能,提升中心服务效率。

在未来数据治理的研究可以从以下三个方面进行深入:首先,关注更多的数据标准逐渐完善研究。本文主要参考了住建部2014 年版《住房公积金基础数据标准》,可以借鉴更多行业,更多住房公积金中心的数据标准,形成适合重庆公积金中心的系统性的数据标准。其次,建立交叉领域数据共享。与协查系统的各单位建立数据通道,在不泄露用户信息前提下,抽取用户画像标签,以进一步加深对客户的了解,精准化服务。最后,深化数据治理工作。强化数据治理的深度与广度,并拓展数据治理不涉及的数据应用领域,真正实现重庆公积金中心内部数据的闭环。

猜你喜欢
公积金重庆中心
剪掉和中心无关的
重庆客APP
在打造“两个中心”中彰显统战担当作为
重庆人为什么爱吃花
“逗乐坊”:徜徉相声里的重庆味
在这里看重庆
别让托养中心成“死亡中心”
大学生缴存公积金,这个可以有