银行业数据挖掘：一般数据结构的尝试及挖掘应用策略

2016-07-02 07:29王昭彧中国银监会白银市银监分局经济师

信息通信技术与政策 2016年4期

关键词：银行业数据挖掘大数据

王昭彧　中国银监会白银市银监分局经济师

王昭彧中国银监会白银市银监分局经济师

摘要：金融大数据蕴藏巨大价值，但受通用数据结构缺失等历史因素影响，差异化的银行业海量数据目前仍难真正成为“数据资产”，持续创造“经济价值”。为此，本文尝试提出了银行业一般数据结构，并就银行业数据挖掘实践的应用方向与基本策略提出了建议。

关键词：银行业；大数据；一般数据结构；数据挖掘

1　引言

自2012年以来，大数据、大数据分析、互联网金融等概念持续热议，银行业因为拥有海量的电子化数据，且多为结构化数据，为迎接互联网金融的冲击，或被动或主动地加入到数据挖掘的队伍之中，寻觅着隐藏在“数据资产”中的“金矿”。但如果依照KDD进程（Knowledge Discoveryin Database，基于数据库的知识发现）及数据挖掘（DataMining）理论和技术的要求，客观评估银行现有的数据结构与信息处理方式，虽然大数据分析为有效利用点多、面广、非结构化的数据提供了可行之路，但基础性问题的存在，诸如不同产品数据规范不一致、新旧数据标准不兼容、银行业统一数据架构缺失等，明显迟滞了数据价值的挖掘进程。为此，笔者尝试介绍一种银行通用数据结构，并梳理出银行数据挖掘当前实践亟待解决的若干问题，供同业者参考。

2　银行业一般数据结构

2.1以银行为中心的6个考察维度

借鉴业内监管专家与基层骨干的观点，基于银行业通用数据的视角，以单家法人银行为分析对象，在保证与其它银行业机构横向可比的原则下，可以确定以下5个考察维度：

●维度1：客户是谁？

●维度2：产品（服务）是什么？

●维度3：担保方式与担保物是什么？

●维度4：每一笔业务的合同如何管理，业务流程如何操作？

●维度5：每一笔业务在财务会计处理中如何记录、处理？

以上5个维度从既有管理架构出发，全面反映单家银行在特定时点的静态信息。需要说明的是，虽然依照《GB/T32319-2015银行业产品说明书描述规范》的表述，维度2被统称为“产品”，而维度3～5也可纳入产品描述的范围，但考虑到历史因素，本文仍使用上述区分方法。同时，为体现全面风险管理的理念，持续、动态考察银行经营管理，笔者认为应加入第6个维度：

●维度6：全流程管理——银行内控制度建设与执行情况。

从该维度出发，需考察银行现有治理架构、物质资源、制度体系与运行机制是否能满足全流程管理要求，建立基于全面风险管理的内控体系并有效防止系统性风险，该维度同时涉及以上5个维度的全部内容。

2.2维度1～5的概念操作化过程——5个模块

上文提到的5个维度，涉及银行具体业务时内容会有交叉，通过矩阵解析，会包括5个模块（见表1）。

模块一：客户信息

核心是解决“客户是谁”的问题，包括对公客户名称、组织机构代码、规模、财务、信用等级、股权结构、经营范围等信息，自然人客户姓名、职业、性别、收支、信用等信息，对其描述可依据《GB/T31186-2014银行客户基本信息描述规范》。从初始信息的生成与采集渠道，又可分为银行之外生成的“外源性信息”，与银行通过自身业务生成的“内源性信息”两种，从信息覆盖面考察，大致可分以下几个部分：

（1）基础信息

●外源性信息：又可分为两类，一类是客户自身属性，如对公客户组织机构代码、中外文名称、工商执照登记号，税务登记号，注册地址，注册地行政区划代码，主营业务范围，管理层构成、股权结构、关联人情况，主要（或全部）股东的身份证件代码、姓名（名称）；自然人客户姓名，性别，职业，联系方式；另一类是关联（关系）人属性，如客户关联人信息，对公客户法定代表人、董事会及高管人员专兼职情况，自然人的直系亲属信息。另外，还包括以上信息的生效起止日期、时间等。

●内源性信息：客户生命周期信息。例如，银行为唯一识别客户而确定的内部识别码，内部管理客户代码（一个或多个，采自外源性信息或者自定），大中小微客户类型，对公客户、个体工商户、笔者客户类别判定，各项信息生效与失效日期、时间等。

（2）财务信息

●外源性信息：对公客户资产状况，投融资情况，财务报表，审计报告，知识产权等无形资产情况；自然人客户资产，收支，个体工商户经营流水等。

●内源性信息：客户与该银行之间的资金交易往来，逾期、不良、欠息情况等。

（3）信用评级、风险分类

●外源性信息：标普、惠誉、大公等外部评级公司对银行客户的当前信用评级及各期历史变动、评级主要依据，人行征信体系对该客户信用情况（贷款逾期、债券违约等）的调查，涉讼法律判决等。

●内源性信息：银行对客户信用的初始评级及过程信息，各次内部评级变动及过程信息，同一客户不同评级标准下评级结果的对照等。

（4）授信情况

●外源性信息：各银行业机构向客户整体授信的额度，该客户贷款、发行债券的笔数、金额、余额、期限、定价等。

表1　维度1～5的概念操作化过程——5个模块

●内源性信息：该银行向客户整体授信额度，授信方案，客户已用/未用授信的品种、额度等。

模块二：银行产品（服务）的实务性操作

银行已开发的产品（服务），在各流程环节的实际操作中生成的各类信息，主要是内源性信息，包括产品（服务）从启动、授信、用信、资金支付、本息计算、贷后管理、不良资产清收处置、信用敞口控制等信息，涉及产品主要包括：

●表内贷款及垫款。

美国政府高度重视科技创新，率先组织实施各类科技创新计划，如曼哈顿计划、人类基因组计划以及信息高速公路计划等[3]。2007年，美国的次贷危机对美国甚至全球经济产生了巨大冲击，为了激活美国经济，联邦政府于2009年[4]、2011年[5]、2015年[6]相继发布了结合时代背景的《美国创新战略》，对实现美国经济增长和持续创新具有重大的推动作用。以下将对3版美国创新战略进行比较分析。

●表外授信（保函、承兑、信用证）。

●表内其它资产项目（银行购买的客户债券、被动持有的客户股权）。

●同业负债/资产、理财产品等。

模块三：客户提供的担保物（保证）相关实务性操作

●外源性信息：担保物（保证）的种类、名称、标识代码、第三方评估报告等初始登记信息，担保人资质、担保物保单，他项权证登记，信息有效起止时间等。

●内源性信息：担保合同，担保关系，担保物登记、保管，银行对担保物（保证）评估材料，抵（质）押率，资产减记，警示，担保物补充信息等。

模块四：银行产品（服务）的会计处理

银行为客户办理业务、提供产品（服务），均需使用统一的会计制度、会计科目进行核算，保证自身全部独立核算单位的1～3级科目（部分行有5级科目）的总账、分户账、分户账明细的一致性，并据此核算成本，分摊费用，因此形成了科目编码、科目名称、账号、账户名、币种、金额、借贷标识、摘要等账务信息，多为内源性信息。

模块五：客户提供担保物的会计处理

●外源性信息：担保物的市场估值。

●内源性信息：银行对担保物的估值、再估值信息，资产减记、补充担保物的价值评估等，以及所涉及的会计科目设置、会计处理信息。

2.3维度6：全流程管控（内控制度建设）的操作化

之前介绍的模块1～5所涉及的5个维度，均假定业务是在合规环境下办理的，而从内控建设角度来看，为有效避免各类风险，应以信息系统为支撑，通过流程再造，建立全流程管控。而流程中的每一环节，均覆盖模块1～5。据梁国新（2014）观点，合规风险与巴塞尔委员会所确定的信用风险、操作风险等8类风险皆有交集；违规行为既可引发合规风险，也可能诱发信用风险、操作风险等8类风险，而其它风险的合规性监管要求越多，与合规风险的交集也就越多。

笔者认为，在实际操作层面，全流程管控（内控制度建设），即是以合规性要求为目标，在科学设置各业务流程的基础上，分解落实各项指标，通过识别、采集、监测、分析相关数据，为管理合规风险、以及信用风险、操作风险等8类风险而服务的一个完整的控制体系。至于信息科技风险，早期被视为操作风险的一种，后随其重要性上升而分立而成第9类风险，其风险管理的逻辑与之前8类风险相同。

以对公信贷业务为例，在受理与调查、风险评价与审批、合同签订、发放与支付、贷后管理等业务处理的全过程，依照业务处理流程的需求，研究信息系统，设定技术参数，来规范管理流、数据流，通过采集、分析客户信用评级、授信与审批、信贷主合同与担保合同、担保物登记、价值评估、客户类型等数据，为管理信用风险等8类风险，有效减少合规风险提供丰富的信息（见图1）。

图1　8类风险

以上表述的是银行业的一般数据结构，就监管者而言，自2012年以来，银监会先后颁布《监管数据标准化规范（中小银行及农村金融机构）》V1.0与V2.0版，以及《商业银行监管数据标准化规范》，其中包含了机构信息、会计账务、客户基础信息、交易对手、卡业务、信贷管理等11类近2000个数据项，为银行业数据挖掘进程提供了很好的起点。

3　银行业数据挖掘的应用方向

结合对KDD进程的理解与自身实践，笔者尝试为银行数据挖掘下一个定义，即基于各行业信息化建设所采集的金融业海量电子化数据，依托金融数据规范的标准化成果与云支撑平台，通过数据仓库、数据集市、NOSQL等技术手段，实现大数据的物理整合（包括分布式数据仓库）与逻辑整合；由数据分析师通力协作业务/技术人员，运用深度学习等人工智能与神经元网络等计算技术，采用金融经济、货币银行、财务分析、统计学等专业知识，以人机协同、反复迭代方式进行的探索性知识发现过程。其目的在于有效处理海量数据，发现隐藏模式与知识，减少信息不对称，提高数据复用性，为银行业全面风险管理与精细化经营提供支撑，实现“数据资产”的价值最大化。

从实现路径而言，可能涉及以下步骤：

3.1数据采集与数据调查

数据采集与数据调查可说是两个互不可分的过程。现实中，因不同行业的信息化水平不一，同一行业内部不同规模/地域的组织也存在巨大差异，如果误将“差异化”当作“多样化”，就会基于个性化的产品（服务）需求，使得各类数据对象的底层数据架构、采集数据项、格式、实际值域千差万别。为持续、准确地报送统计数据、分析相关信息，在部署长周期统计报表与快速调查时，皆应在事前进行扎实的数据调查，据此提出的采集要求才可能科学规范、切实实际。现实中常能遇到某些快速调查，其涉及机构、业务、时间段、时点、指标种类、定义、计量单位等时常含糊不清，让实际填报人无所适从，只好“差不多、捏数字”，这是数据“脏乱差”的一个重要原因。对于那些不经数据调查、拍脑袋想出来的采集需求，设想很美好，现实很骨感，要么碰壁，要么被应付，实例很多，不必多说。“没有调查研究，就没有发言权”，这一论断对于数据挖掘进程也是同样适用的。

3.2元数据与数据元管理

以上两个概念皆是数据标准化建设的专业术语。数据元是结合数据调查成果，根据分析需求为数据对象设定的，在数据库中实际使用的属性（字段、指标、数据项等），对它的定义需要依据统一、规范的标准来设定，这个标准就是元数据。关于元数据定义的标准化问题，国标《GBT18391.1-2009信息技术元数据注册系统（MDR）》等做出了专门而详尽的规定。某特定领域的元数据标准，如正在起草中的国标《担保物数据采集规范》就是此类标准。在数据采集中经常用到的《GBT4754-2011国民经济行业分类》也可说是此类标准。之所以这样说，是因为该标准2003年制订时，元数据注册系统（MDR）尚未颁布，而《国民经济行业分类》在2011年修订时并未严格依据MDR进行定义，且新旧《国民经济行业分类》门类划分的衔接上也存在多对多问题，因此仍需进一步规范。

3.3数据规范与数据治理

这是另一个十分重要却少人关注的领域。如前所述，要采集一个特定数据对象的信息，需设定采集数据元（指标、属性等），需依照元数据定义数据元，经过这一艰苦细致的分类、解析、定义过程，所确定的一整套关于各数据元之间逻辑关系与业务含义的标准化信息列表就是数据标准（数据规范）。依照有效性级别，可分为国家标准、行业标准、企业标准、某信息系统内标准4种。

就银行信息系统规划与建设的实际情况而言，绝大多数银行都是数据采集在前，数据标准在后，而且计划永远跟不上变化，使得原始数据所依据的数据标准体系含混不清，新旧混杂，且各不兼容。在此基础上，原始数据采集过程十分繁杂，数据的物理整合工作更加繁重，要实现包含历史数据的逻辑整合则面对几乎海量的任务。

以上情况直接导致数据ETL（清洗、转换、加载）过程的低效率。据了解，一个数据挖掘项目至少要花70%～80%的时间与精力是为了实现ETL；而要建立数据结构一致（物理整合）、定义一致（逻辑整合）的数据仓库，基本成为一项不可能完成的任务。现实中，因为畏惧这一过程的巨大成本与不可测性，人们多被动接受着一个又一个、新的替换旧的数据规范的要求，在信息系统上不断“打补丁”，即所谓“应对式数据治理”。

如果不畏繁难，或者信息化建设水平较低，就可以依照各级各类数据规范的要求，本着“规范、通用、可扩展”原则，先整合确定一个总的数据架构，建成本机构“业务数据标准化体系”；再进一步，据此调查原有各系统数据架构与定义，并做好明细对照；从此要求依照业务需求，推进所有旧系统的升级改造、新系统的研发推广时，都必须基于该标准去实现，这就实现了主动式数据治理。

由于数据治理过程的艰巨性，制订数据规范时就必须尽可能科学规范、各业务通用、可以扩展，并向下兼容旧规范，由此又引出了“最小信息集”的概念。此概念最初由美国人提出，意指先研究确定经同行普遍认可，业务含义无歧义的一套数据规范，供大家共享使用，之后根据业务发展与数据调查的成果不断扩展，这一思路值得借鉴。

3.4数据仓库与数据集市

经过以上3个步骤的艰苦工作，终于实现了本机构全部数据的物理整合与逻辑整合，建立了数据仓库，准备进入挖掘与分析环节了，但另一个问题又出现了：“数据太多了，眼花缭乱，分析人员无法入手。”面对这一问题，数据挖掘工程师提供的解决策略是建立针对差异化用户视图的“数据集市”。

首先，为缩小、确定“数据集市”的涉及范围，数据挖掘工程师需面向业务分析人员开展数据再调查，了解特定领域及不同层次分析人员的个性化分析需求。其次，应依照调查成果，将数据仓库存储的海量数据从物理/逻辑上分类拆分为能够满足各类分析人员需求的“数据集市”。为降低物理服务器与计算机网络的运行压力，应积极采用云支撑平台提供的虚拟化技术，基于同一数据源，面向各类用户分类推送，以避免再次出现“数据孤岛”或数据冗余。

3.5数据挖掘与统计分析

KDD（基于数据库的知识发现）研究指出，数据挖掘是一个非平凡过程，这一创造性过程需要一个具有创造性思维的专业团队，其中有人了解编程技术，有人明白底层数据结构，有人清楚业务流程，有人知晓业务风险点与经营关注点，各方专家还应博而专，彼此之间交流时能明白对方在说什么，要求很高。因为要挖掘的是隐藏的、不为人所知的信息，所以就需要采用科学研究的方法，反复试验、迭代，修正思路，过程很艰苦，收获却可能没有，为什么呢？

许多数据挖掘项目终归失败，就是因为掌控进程的数据分析师其实并不了解最终业务需求，数据挖掘如不从信息最终使用者或决策者的客观需求出发，就是“自说自话”。基础科学研究中或许可以“大胆假设”，但在应用科学领域，基于银行实际经营与风险管理视角，漫无方向的“试错”肯定不可以。投入资本就是为了在限定时间、成本之上收回最大价值。

笔者以为，就金融领域而言，无论是风险管理还是经营管理，在各业务领域都已积累了诸多成熟经验，如全面风险管理的8种风险（以及信息科技风险），如衡量银行经营管理状况的资本充足率、ROA、ROE、拔备覆盖率、LCR、NSFR等指标与杜邦公式、MM定理等成果，这些成果体现在对数据的要求上，就是熟悉的统计分析报告与分析报表。

未来源自过去，惟需把握现在。金融数据挖掘的着眼点，确应先依托原有统计分析路径，落实数据质量管理要求，逐步实现统计数据的全面、及时、准确，同时发现与积累海量明细数据与统计指标间的关系与规律性知识，让挖掘尽早出成果，出好成果，方能缩短“数据资产”的变现周期，提升一个经营周期内的数据价值。

3.6知识展示与可视化挖掘

知识展示过去常不为数据挖掘工程师与分析师所重视，他们多认为：与特定知识相关的明细数据既已获得，一般人只要整体了解挖掘过程，就会明了这些数据的业务涵义，没必要再搞统计图（表）等“花样文章”，甚或PPT等动态展示来耗费人工。这一观点值得商榷。

回到KDD的起点，“非平凡的知识发现”，说明这一知识多数人并不熟悉，包括其表现形式；为了便于其他分析者验证，使信息使用者或决策者迅速了解核心内容，数据分析师必须竭尽全力发现好的展示方法，浅显易用的WPS（或EXCEL）的数据透视表/图、专业高端的SASEG多维立方体、TABLEAU图形展示，任何可视化挖掘工具都值得尝试。唯有当数据分析师梳理清晰决策者的需求，并综合使用统计表/图、明细数据与文字描述，便捷、高效地向决策者展示，艰苦挖掘所获得的“数据资产”方能变现。

数据挖掘分析师“自说自话”不行，展示方法不适宜不行，提供的内容决策者不感兴趣也不行，文字描述不简洁明了还是不行，这对分析师提出了很高要求。

4　海量数据的价值实现

“能被计入《资产负债表》、《利润表》、《现金流量表》等财报核算范围的经济资源，必须可使用货币来计量。”笔者理解为，其义是指唯有能为组织带来货币价值的经济资源，才有现实的价值。

大数据所具有的大体量、实时、多维、高价值、低密度等4V特点，决定了对其的利用难度。数据“大”不代表一定有价值，因为组织拥有它并不能在当期产生“经济价值”。唯有基于银行海量数据“脏、乱、差”的实情，积极推动数据标准化进程，方能大幅提升数据预处理的效率，建立数据仓库与数据集市，系统研发数据分析模型，将数据挖掘所获得的知识实际应用到组织活动之中，为组织带来持续、稳定的现金流，获得“经济价值”，海量数据才会成为可以反复使用的“数据资产”。要实现这一目标，可谓任重而道远。

数据结构差异化与海量数据的质量问题，客观反映了各行信息化建设水平，更是其内控体系建设与机制运转情况的客观反映，主动式数据治理可以有效改进信息基础设施，真正实现银行业全面风险管理与精细化管理的要求，潜力巨大。目前，经过数据挖掘各方共同努力，银行业及监管者已在风险管控、经营管理方面开拓了诸多应用领域，通过各方协作，不断探索，就可通过数据资产的近于无限的复用性，让知识持续创造价值。

5　结束语

目前，虽然海量数据正在加速积累，分布式仓储、数据中心、云计算、云服务等先进技术正在成熟，但数据分析师的思维如不能持续进化，“数据财富”依然很难变现成为现实的经济资产。实践中笔者体会到，唯有推动扎实的数据调查，方能加快数据标准化建设进程，主动式数据治理的过程，就是实现流程再造、推动全面风险管理的过程，唯有数据挖掘的大量实践，方能锤炼出具有大数据思维模式和坚实的经济/金融/统计/数据库知识与分析技能的数据挖掘科学家，领先半步、聚焦当下、迭代进化，知行合一致良知，是银行业数据挖掘应始终遵循的基本原则。

参考文献

［1］李雄飞，李军.数据挖掘与知识发现［M］.高等教育出版社，2003.

［2］陈封能，斯坦巴赫，库玛尔著.数据挖掘导论（完整版）［M］.范明，范宏建，译.北京：人民邮电出版社，2011.

［3］张新民，钱爱民.财务报表分析（第二版）［M］.北京：中国人民大学出版社，2011.

［4］梁国新.合规风险检查：以贷款为例［Z］.银监会2014年第五期现场检查业务培训班培训PPT，2014.

［5］郑志明，缪绍日，荆丽丽，等.金融数据挖掘与分析［M］.北京：机械工业出版社，2015.

［6］全国信息技术标准化技术委员会.信息技术元数据注册系统（MDR）：GB/T 18391.1-2009［S］.北京：中国标准出版社，2009.

［7］国家统计局.国民经济行业分类：GB/T4754-2011［S］.北京：中国标准出版社，2011.

［8］全国金融标准化技术委员会.银行客户基本信息描述规范：GB/T31186-2014［S］.北京：中国标准出版社，2014.

［9］全国金融标准化技术委员会.银行业产品说明书描述规范：GB/T32319-2015［S］.北京：中国标准出版社，2015.

Bankingdatamining：testingof generaldatastructureand strategyof miningapplication

WANGZhaoyu

Abstract:Financial data have enormous potential values， but those data are not genuine“data assets”， which can continuously generate economic values， because of historical factors such as lack of general data structure. This paper proposes the general structure of banking data， and suggests applicable strategies for carrying out banking data mining.

Keywords:Banking； big data； big data structure； data mining

收稿日期：（2016-3-25）

银行业数据挖掘：一般数据结构的尝试及挖掘应用策略

1 引言

2 银行业一般数据结构

3 银行业数据挖掘的应用方向

4 海量数据的价值实现

5 结束语

1　引言

2　银行业一般数据结构

3　银行业数据挖掘的应用方向

4　海量数据的价值实现

5　结束语