基于Greenplum的金融数据仓库模型设计与实现

2020-07-09 23:01杨锐张荣荣
现代信息科技 2020年21期
关键词:数据模型财务公司数据仓库

杨锐 张荣荣

摘  要:21世纪以来,企业管理日趋现代化、国际化,财务公司作为集团企业的非银行金融性企业,把握着集团生存的命脉,资金管理水平及效率将直接影响集团企业发展的稳定性。基于此背景,为集团企业的财务公司建立一套完善的金融数据仓库显得至关重要,数据仓库在面对海量的业务数据时,有着安全化、实时化、规范化、智能分析以及预测等诸多优势。而数据模型在数据仓库管理工作中发挥交流和分析作用,且能够确保数据的一致性,实现商务智能的目标。

关键词:财务公司;数据仓库;数据模型;商务智能

中图分类号:TP311.13     文献标识码:A 文章编号:2096-4706(2020)21-0113-07

Design and Implementation of Financial Data Warehouse Model Based on Greenplum

YANG Rui1,ZHANG Rongrong2

(1.Hainan Branch of China Southern Power Grid Co.,Ltd.,Haikou  570203,China;

2.China Southern Power Grid Digital Grid Research Institute Co.,Ltd.,Guangzhou  510663,China)

Abstract:Since the 21st century,enterprise management has become more and more modernized and internationalized. As a non-bank financial enterprise of group enterprises,financial companies grasp the lifeblood of the groups survival. The level and efficiency of fund management will directly affect the stability of the groups development. Based on this background,it is very important to establish a set of perfect financial data warehouse for financial companies of group enterprises. In the face of massive business data,data warehouse has many advantages,such as security,real-time,standardization,intelligent analysis and prediction. The data model plays a role of communication and analysis in data warehouse management,and can ensure the consistency of data and achieve the goal of business intelligence.

Keywords:financial company;data warehouse;data model;business intelligence

0  引  言

随着近些年的高速发展,南方电网财务有限公司业务趋于繁杂,传统业务系统已无法满足日益增长的业务需求,伴随着企业数据暴增的大数据时代的到来,建立一套完善的大数据分析平台成为一种必然的趋势,因此南网金融业务系统应运而生,建立该系统能极大地弥补财务公司各业务系统相互独立而导致的数据口径不一致、商业智能化分析难度大、数据报表展示不易、商业化决策难以预测等诸多难题。

本文针对金融数据仓库做了系统的阐述及架构设计案例分析,适合数仓架构师、数仓模型设计师、ETL开发人员等专业人员阅读,文中主要对数据仓库基础架构、主题域划分、模型主题释义、源数据入仓规范、ETL事务处理、模型开发方式方法等进行了专业性的讲解。

1  研究现状

1.1  财务公司业务现状

随着财务公司业务的快速发展,由原来业务单一的核心、信贷等业务系统发展至涵盖投资理财、资金结算、综合网银、外汇、风险预警、商业报表等诸多业务系统,企业数据呈井喷式增涨。

1.2  财务公司系统现状

基于财务公司开展的业务种类,现行系统共分为核心系统、信贷管理系统、客户管理系统、票据系统、投资管理系统、资金结算系统、业务支撑平台、外汇业务系統、财务管理系统、风险管控系统,各业务系统相互独立而又整体统一,共同组成了财务公司的企业数据资源池。

经过长期的业务体系调研与研讨,南方电网财务有限公司业务主要划分为6大域,分别为:A.客户服务域,B.产品运营域,C.业务支持域,D.风险管控域,E.经营决策域,F.产品管理域,各个域之间相互独立而又整体统一。南网金融业务系统总体业务框架如图1所示。

基于以上总体业务框架,该项目总体应用架构设计如图2所示。

其中的需求重点数据集成平台采用基于MPP数据库理论的Greenplum来搭建。

金融数据仓库模型建模,提前对以银行业业务为基础的金融数据仓库模型和数据标准进行研究,为下一步拓展金融类公司的数据分析与数字化转型打下良好基础。模型差异化分析和裁剪:基于数据仓库基础模型版本,结合财务公司的业务特征、未来发展方向等因素,完成模型差异化分析和裁剪工作。

2  金融数据仓库实现方法

2.1  数据仓库基础架构

金融数据集成平台采用行业通用开源解决方案,基于OGG\Kafka\FLink的技术栈,构建基于实时数据及离线数据两条数据通道,包括数据采集、清洗、加工、缓存、传输、回流等功能,为统计分析等系统提供数据支撑服务,同时包括财务公司对数据资产的统一管理相关功能。金融数据集成平台总体架构如图3所示。

其中实时数据缓冲处理模块,数据基本走向如图4所示。

数据集成平台通过进行上游不同的系统数据的对接,通过ETL抽取工具进行数据统计,并实现了数据的标准化,数据接入贴源层,通过设计的模型Mapping文档将贴源层数据接入各个模型表中,形成模型层主题分类。

2.2  数据仓库模型设计规范

2.2.1  源表源字段入仓筛选规范

2.2.1.1  表级

表级规则如下:

(1)尽量保留粒度比较细的数据;

(2)不保留仅用于流程控制的数据;

(3)不保留中间数据、临时数据和备份数据;

(4)对于无法识别和对应的数据应尽量完整保留;

(5)原则上不保留冗余数据。

一般不考虑入仓的表:系统控制表、业务流程控制表、为未来业务拓展预留的表、冗余数据表、中间表和临时表、备份表。

2.2.1.2  字段级

以下类型字段,不入整合层:

(1)无分析意义的字段,如加载时间戳、密码等信息;

(2)业务系统操作流程相关字段,如当前页号等信息;

(3)计算结果字段,如积数等信息;

(4)未启用字段;

(5)冗余字段,如账户表中的客户名称等信息;

(6)非结构化字段,如图片、语音等信息。

2.2.2  主题模型命名规范

主题模型的命名规范包括对逻辑数据模型(LDM)的命名规范和物理数据模型(PDM)的命名规范。主题命名规范如表1所示。

主题命名举例:协议的分类子主题“T03协议.分类”。

2.3  数据仓库模型设计描述

2.3.1  模型概要设计思路

2.3.1.1  涉及范围

本项目纳入LDM设计范围的源系统共10个,源系统清单列表如表2所示。

2.3.1.2  设计目标

基础层设计目标为:

(1)共享性:在基础层设计时,可实现南方电网财务有限公司业务范围的涵盖,以满足金融机构未来业务发展需求;

(2)可扩展性:实现历史数据的存放,能够有效地扩展业务,满足“上复杂情况,下业务发展”的需求;

(3)稳定性:能够长时间确保数据模型稳定性,能够有效解决各种业务问题。当新增源系统入仓或是大量新增源系统表,主题模型依然保持稳定,不会对模型进行大幅度的重构操作;

(4)规范性:在模型设计时,应当使用业务语言,这样能够方便业务人员的理解,使得业务人员与IT沟通更加方便。

2.3.1.3  设计步骤

在主题模型概要设计时,主要分为以下几个步骤,以优化形成概要设计说明书:

(1)数据准入:对源系统数据入各主题的原则和范围进行确定;

(2)划分数据:对各主题主实体的标准及方法进行确定,并划分主实体的建设数据类型,确保分类标准统一,以方便理解;

(3)ID生成:对编号的生成规则进行制定,并根据源系统生成相应的字段、预留出足够长度;

(4)数据整合:收集各源系统的主数据,包括机构、产品和当事人等数据。同时,掌握业务数据(包括当事人、协议)之间的关系;

(5)数据处理:对主题历史信息进行确定,以便人们进行历史追踪;

(6)例外处理原则:当各主题有需要特殊处理说明时,可以在此原则中标识出来。

2.3.2  模型主题描述

主题是业务某一方面信息的反映,并概括业务数据(包括产品信息、客户信息、协议信息)等等方面的需求。本项目的主题采用神州数码FS-LDM的10个主题,并根据信息调研的情况对主题进行裁减,主题域和主题域的关系如图5所示。

2.3.2.1  当事人

此当事人主要是指金融机构所服务的一个人或者一组人,包括个人或公司客户、代理机构、部门等。一个当事人可扮演许多角色,且他们之间关系密切,如南方电网财务有限公司机构与管理机构、上下级之间和企业之间、企业与个人、在模型中可体现这些信息。

2.3.2.2  產品

产品是南方电网财务有限公司及其关联的当事人提供给市场、能单独销售并满足客户的某种需求,可以从中赚取各种实际或潜在收入的有形商品或无形服务。

2.3.2.3  协议

此协议是金融机构结合客户的需求而签订特定产品或服务的契约,双方就相应的条款和条件达成了协议,此协议由卡账户、贷款合同、存款和贷款账户等部分组成。

2.3.2.4  资产

此当事人资产主要是对南方电网财务有限公司的客户资产进行描述。客户在申请购买某项服务时,机构要先掌握客户的资产负债情况,并优选相应的资产作为担保,为南方电网财务有限公司实现担保与风险管理。

2.3.2.5  内部机构

内部机构作为金融机构或者法人机构的内部组织机构。此概念较为宽泛,它也是机构的重要组成部分,分为不同的机构和部门和功能团队。

2.3.2.6  渠道

渠道是对事件发生时,南方电网财务有限公司和客户进行交互的方法进行描述。作为接触点,双方通过各种接触,如购买产品、使用服务进行交流。并且,可进行渠道信息的保存,方便金融机构与客户之间的交易,实现各种成本的计算,以提高沟通效率。

2.3.2.7  事件

事件主要描述了南方电网财务有限公司与客户之间的交易活动,它记录了详细的行为和交易数据。可能涉及账户、资金,也可能与这些无关。通过事件主题,掌握好客户的使用渠道和交易类型、金额、事件及服务员工等。

2.3.2.8  地理区域

地理位置是对金融机构的地址信息和地理区域进行描述,包括国家、省份、城市、县、乡等。地理区域主题包含不同层次的信息,如“地理位置”“具体地址”和“地区”等。该主题关系以内部组织机构、营销活动等内容为主题,且地址多样,一个当事人可拥有多个地址。

2.3.2.9  营销活动

营销活动是为树立财务公司形象、扩大市场份额而开展的活动。营销主题主要由制定营销策略、实施营销活动、反馈营销活动,并做出相应评估等部分组成。

2.3.2.10  财务

财务主题与财务公司的总账系统相对应,是对南方电网财务有限公司的科目组成、账务、余额变动进行描述,且也包括了预算管理内容,以满足不同科目组织体系的需求。

2.4  模型工作开展

本项目模型开发工作主要涉及源系统数据收集、表级分析、字段级分析、模型设计等相关工作,详细步骤如图6所示。

本项目模型中涉及的表级调研工作主要以数据驱动的方法来确定表是否入仓,入仓和不入仓的原则如图7所示。

本项目模型涉及字段级分析是否入仓部分,主要从7部分来考虑,如图8所示。

本项目数据模型设计步骤主要涉及前期准备,交流研讨,信息调研,统一设计规范和模型设计五部分,各个流程关系如图9所示。

2.5  金融数据仓库的系统实现

通过对各个上游业务系统数据,进行ETL标准化之后,统一进行模型的设计,按照不同主题来划分协议、当事人、产品、时间、内部机构等相关主题。根据上述模型主题,分别建立相应的逻辑数据仓库模型,并通过模型设计工具对各个模型主题涵盖的内容进行报表定义,开发人员只需要对接模型层表即可开发报表。简化了报表开发流程,并提高了报表开发的工作效率及质量。

2.6  数据仓库实现方法

2.6.1  报表开发的底层数据支持

为报表开发提供数据支持,降低报表开发难度,为业务人员分析业务数据及领导层进行经营决策提供动态数据支持。

2.6.2  业务系统数据共通与口径统一

将各业务系统所产生的业务数据通过金融数据仓库紧密联合在了一起,打破了数据壁垒,提高了数据利用率并降低了业务数据使用困难度,为财务公司大数据价值提取提供了基础。

3  优点

金融数据仓库模型体系具备行业的先进性,可在本项目的实践验证。

3.1  全面性

根据财务公司业务现状,结合财务公司未来业务发展,数据仓库模型可满足以下指标:

(1)上游业务系统对接:完成包括核心、票据、资金、结算、信贷等业务系统的源表和模型的映射工作;

(2)下游数据应用覆盖:满足下游报表、管理驾驶舱、监管报送所需要的接口数据需求;

(3)数据仓库模型业务主题全面,包括十大主题内容。

3.2  整体性

数据仓库模型体系设计项目过程,具备规划、调研、客户化裁剪、培训的完整过程为:

(1)完整的数据仓库模型设计方法论;

(2)完整的分析资本体系设计方法论。

3.3  可操作性

数据仓库模型体系设计的方法和成果,具备可操作性主要體现在:

(1)结合金融数据仓库模型进行操作,以确保数据模型的先进性;

(2)包括数据仓库模型的规划、模型设计方法论、模型落地方法论等内容。

3.4  可落地性

数据仓库模型体系设计阶段参考金融同业的成功经验,匹配财务公司业务特征,保证数据仓库模型的可落地性。

3.5  扩展性

数据仓库模型在设计层面,考虑扩展性要求,包括以下几点:

(1)数据仓库主题逻辑模型和物理模型,支持按照实际业务需求调整模型内容;

(2)数据仓库模型支持在上游业务系统、下游数据需求发生变化的时候有必要的调整机制,做出模型的适应性修改。

4  结  论

数据仓库模型体系是数据类项目的一个重要组成部分,新建设的数据仓库模型体系可提升南方电网财务有限公司的业务创新能力、内部管理能力、风险控制水平、以及经营管理水平。

参考文献:

[1] 李妍.数据仓库的数据建模技术 [J].科技和产业,2005(11):21-23.

[2] 庄琴生.以E-R模型为基础构造数据仓库的概念模型 [J].计算机工程与应用,2004(10):195-197+200.

[3] 王珊.数据仓库技术与联机分析处理 [M].北京:科学出版社,1999.

[4] INMON W H,HACKATHORN R D.Using the Data Warehouse [M].Hoboken:Wiley,1994.

作者简介:杨锐(1982—),男,汉族,海南文昌人,综合部经

理,经济师,政工师,本科,研究方向:经济、金融、数字金融;张荣荣(1984—),女,汉族,湖南常德人,财金应用产品高级工程师,信息系统项目管理师,本科,研究方向:IT项目管理、需求分析。

猜你喜欢
数据模型财务公司数据仓库
基于区块链的微网绿电交易数据模型研究
基于数据仓库的数据倾斜解决方案研究
关于PowerDesigner软件工程技术的研究
新形势下铁路资金集中管理的思考
新常态下财务公司助力集团发展功能优势分析
数据仓库系统设计与实现
财务公司流动性风险管理模式分析
浅析我国企业集团财务公司资金管理问题及对策
ORM工具
数据复用在存储数据仓库中的运用