大数据技术在人民银行金融统计中的应用研究

2019-03-19 12:59米晓文
财务与金融 2019年5期
关键词:人民银行结构化标准化

米晓文

金融统计是人民银行制定和执行货币政策、开展宏观审慎评估的重要依据。运用大数据理念、方法能改进金融统计工作,提供更丰富、更有效的数据信息。2018 年4 月国务院印发了《关于全面推进金融业综合统计工作的意见》,人民银行的金融统计范围实现全覆盖,对金融统计提出更高要求,对大数据的运用也更加迫切。

一、大数据的内涵

一般而言,大数据是指体量特别巨大以至于无法使用传统的数据库工具对其进行分析和管理的数据集。大数据这一概念的内涵大体上分为现象、理念以及技术三个层次。首先,大数据描述了人类社会进入信息时代以来积累了体量庞大的数据集这一现象,这一现象主要有四个特征:一是数据体量大,是大型数据集合;二是处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理;三是数据种类多,包括结构化 和非结构化的数据,无法使用传统流程、工具处理或者分析信息;四是数据真实性高,大数据更加重视原始数据和非结构化数据,而非加工后的结构化数据。其次,大数据是指基于上述现象产生的分析问题的理念和范式,如“对全体数据而非随机样本进行分析”、“重视混杂性而非精确性”以及“探求相关关系而非因果关系”等等。这些观念明显有别于传统的统计学和计量经济学的研究范式,从而成为人们探究规律和统计决策的新方式。最后,大数据是指处理海量数据的技术手段,如云计算、分布式处理、存储以及感知技术等等。依托这些技术才能够落实大数据的理念从而使大数据资源真正发挥其价值。

二、人民银行运用大数据的基本条件

(一)金融业综合统计取得突破。近几年人民银行先后在温州、深圳、安徽省、广东省等地开展金融业综合统计试点,并取得较好的成绩。2018 年4 月份国务院办公厅印发了《关于全面推进金融业综合统计工作的意见》,明确绝大部分工作由人民银行牵头开展。人民银行金融统计监测范围显著扩大,涵盖银行业、证券业、保险业、交易及结算类等金融机构,将对数据采集、分析运用提出更高的要求。确定2022 年前,以金融统计标准为先导,以信息安全为基石,综合运用大数据等现代信息技术手段,加快建设先进、完备的国家金融基础数据库。金融业综合统计将实现“全覆盖”:一是对象全,覆盖所有金融机构、金融基础设施和金融活动。二是业务全,覆盖金融交易的全部链条;三是内容全,做到总量与结构分明、数量与价格兼备、存量与流量并重。

(二)金融数据信息优势凸显。人民银行作为金融业综合统计的牵头部门,拥有全面的金融数据来源。目前商业银行、证券公司等各类金融机构拥有海量的客户信息、交易信息等,具有鲜明的大数据特征。同时人民银行拥有大规模的数据库。如金融信用信息数据库收录了大量自然人、企业及其他组织的信息;国库数据汇集了各级政府财务数据和各级国库管理数据,包括各类结构化和非结构化数据;还有大小额支付系统、反洗钱监测系统等均汇集了大量数据,有待深层次的分析和挖掘。

(三)银行业统计监测体系较为完备。经过多年的积极探索,人民银行已经构建较为完备的银行业金融统计体系,包括货币供应量统计、信贷收支统计、金融市场统计、资金流量统计、各类专项贷款统计、专项调查统计(企业商品价格、景气调查、银行家问卷调查)等,建立经济金融数据库为人民银行宏观调控服务。金融统计监测管理信息系统数据实现集中报送,系统中每年采集和处理的数据总量约10 亿多条,每月采集7000 多项统计指标,数据规模很大。同时积极开展标准化存贷款抽样统计,样本机构逐笔报送存款、贷款各类信息,2015 年初系统中就选取了近300 家法人金融机构的3000 多家支行作为样本,每个月采集1 亿笔左右的存贷款信息。2016年标准化存贷款抽样统计范围进一步扩容。人民银行开展的理财与资金信托统计是以统计标准为基础,以金融产品为统计对象,涵盖产品注册、资金募集、资金投向、产品终止的全生命周期统计,实现了产品信息的逐笔报送及募集等信息的报送。

三、当前人民银行金融统计存在的薄弱点

(一)数据采集和分析运用有待提高。人民银行具有天然的数据属性,数据量大,但与阿里巴巴等电商的数据采集系统相比,数据采集和挖掘方式仍较为落后,大量的数据未深入的分析利用。现阶段金融机构报送的人民银行金融统计报表,基本上是按照人民银行相关金融统计制度填报相关报表,报送的数据量小,粒度大。当前基层人民银行统计人员每月需录入、核对各法人金融机构数据,生成各类报表,工作量较大,且主要侧重于数据的采集,在进行数据统计与分析时,只是做简单的分析。同时金融统计监测管理信息系统偏向于数据计算和汇总,系统分析功能开发使用不足。

(二)非结构化数据待利用。人民银行的数据利用仍集中在结构化数据,对图片和影音视频文件等非结构化数据尚未统一进行数字化处理,缺乏多维度智能分析、展示,缺乏对非结构化数据的处理能力。以结构化报表为主的金融统计在产品与需求之间存在结构性矛盾。例如,金融资源可在全国范围内流动,而由于地理、行政区划的限制,金融统计实行按金融机构属地原则进行统计,区域金融统计产品存在局限性。随着金融机构的业务扩张,一些本地金融机构向异地发放的贷款统计在本地,而外地金融机构向本地投放的贷款未统计进本地,出现地区金融总量与经济总量的统计数据不对称的现象。

(三)金融标准化建设仍待深入。近年来人民银行积极开展金融标准化工作,如发布《银行业标准体系框架》等金融行业标准,发布《统计数据与元数据交换(SDMX)》标准等。但是数据交换过程中缺乏标准化数据模型,且存在语义区别和数据源的不一致的问题,仍有不少业务处理和管理系统缺乏标准化的统一设计,直接导致大数据二次开发难。

(四)统计技术待跟进。当前各类金融信息纷繁复杂、杂乱无章,如何在海量的信息中提取出有价值的信息,对统计技术是个挑战。大数据能够从海量的结构化数据和非结构化数据相混合的复杂类型数据中捕捉传统分析方法无法获取的有用信息。人民银行需要使用数据挖掘、数据可视化分析等大数据技术进行分析,为宏观调控提供更有效的数据。

四、国外主要央行大数据运用情况

(一)美国宏观审慎监管中大数据实践

按照2010 年美国颁布《多德-弗兰克法》的授权,美国成立了金融稳定监管委员会以及金融研究办公室,并明确了金融研究办公室的主要职责是向金融稳定监管委员会以及社会公众提供高质量的金融数据、统一的数据标准以及深入的研究,以维护美国金融体系的稳定。金融研究办公室下设研究与分析中心、数据中心以及金融研究咨询委员会。在金融研究办公室的主导和推动下,美国在微观金融数据整合以及大数据技术的应用方面进行了一系列探索与尝试。

1、金融机构识别方案的提出与推广。2010 年11月,美国提出了为金融市场构建一个标准化的法人实体识别码(LEI)系统,为每一家参与金融市场的法人实体分配一个身份识别码,并制定一套标准化的数据报送准则,在美国境内参与金融交易的各方须严格按照这一标准及时提交并更新相关信息。2012 年以来,美国借助G20 这一平台大力推动全球金融市场LEI系统的建设。全球金融市场LEI 系统涵盖了参与金融市场交易的全部法人实体,从而打破了银行、证券、基金以及保险等传统金融的各个子行业之间的界限,使得跨行业的风险管理在技术上变得可行。

2、金融产品识别方案的研究与探索。自2013 年以来美国金融监管当局开始探索金融工具(产品)的编码与识别的可行性和具体方案。2013 年11 月美国联邦储备银行费城分行以工作论文的形式探讨了从宏观和微观两个层面构建一个标准化的金融工具数据库的可行性和具体步骤,从而为金融产品的识别问题提供了比较清晰的分析框架。同年12 月,美国金融研究办公室提出了构建一个标准化的“住房抵押贷款识别码”这一方案。

3、数据可视化分析技术的开发与应用。可视化分析是一门通过具有交互功能的视频界面实现分析推理的科学,在与信息处理相关的众多领域有着广泛的应用。其强调人类的认知能力和计算机软件处理海量数据的能力相结合,并以前者为主,后者为辅。借助可视化分析技术,研究者能够从类别庞杂、数量巨大的微观数据中以图片的直观形式迅速有效地获得所需的信息,并通过互动界面对数据进行过滤、分割以及组合等操作,将这种信息转化为可应用的知识,从而更好地为政策制定提供参考。2014 年,美国金融研究办公室使用证券交易委员会的月度交易数据对美国大型基金的交易网络进行了大数据分析,并采用可视化分析方法展现了这一分析结果,使用该方法能够便捷地对海量数据进行概览和过滤等操作,从而厘清任何一只基金的交易对手方以及交易金额,该方法还可以应用到商业银行和其他金融机构,从而能够为金融监管当局认定系统重要性机构和实施宏观审慎监管提供重要依据。

(二)欧洲主要国家央行运用数据点模型情况

西班牙、法国等欧洲国家中央银行根据货币统计或其他监管统计要求,通过建立工具分类标准收集受监管机构或信贷机构的公共财务数据、利率统计数据和非金融公司的资产负债数据,并以XBRL(即可扩展商业报告语言,是一种可扩展、标准化的语法格式)分类标准表单作为中央数据仓库,形成能够直接在网页上就实现输入和输出数据的XML(是一种自我描述的、可扩展的、标准化的交换数据方法)标记语言。而在数据仓库中通过运用数据点模型(DPM)来搭建元数据和统计数据之间的数据关系,适时推动标准化统计数据的批量采集、转换、处理和生成,实现元数据输入端到统计数据输出端的直接转换和处理,推动金融统计工作标准化的落地工作。当前,运用数据点模型(DPM)创建XBRL 分类标准已逐渐被欧洲各国中央银行和统计部门所使用。其中,西班牙银行最早于2010 年6 月就开始使用DPM 模型构建XBRL 分类标准。

1、引进多维度、多层次定性信息对元数据进行描述。数据点模型通过引进多维度、多层次的定性信息共同对元数据进行描述,将数据主要信息存放至度量元素中,其他定性信息则以维度或参考信息等形式存在,克服了传统数据模型维度小、层次低及交叉数据难统计的模式。

2、创建标准、开放、可拓的数据点模型结构。一个数据点就代表着一个统计数据需求,数据点结构涵括度量、维度特征和其他参考信息等三大类信息,数据点结构主要具有标准性和开放、可拓性特征。

3、推动统计数据的自动批量信息采集、转换和处理。通过数据点模型格式实现元数据到金融数据的采集、转换和处理。一是金融机构通过将数据点结构运用至其会计、信贷或其他金融统计系统,实现金融机构的各项业务属性均以数据点的形式逐笔统计并存储。二是监管部门通过在中央数据仓库中运用同样的数据点结构,实现对金融部门的批量标准化数据点进行批量接收、存储;再根据统计数据需求设定其维度、区域、币种等条件限制,在中央数据仓库中对符合所有条件限制的数据点进行自动归集、汇总、处理,最终生成所需的统计数据。

(三)欧洲央行运用“定向算法文本分析”方法

在2014 年11 月份的报告中,欧洲央行描述了基于大数据的经济预测方法,其运用“定向算法文本分析”(简称DATA)的新方法和统计手段,DATA 是基于文本数据集内的特定术语搜索。该搜索是以信念叙述理论为指导,信念叙述理论不仅表面上关注人们对经济的感性预期,如”积极/消极”、“乐观/悲观”等,而且深入分析经济决策背后隐藏的人类情感,包括情感的性质及程度。通过采用DATA 方法来直接地、透明地构造情感转移的相关性指标,评估这种相关性是否显著。

(四)运用搜素快速判断宏观经济形势

以前,英国央行通过统计部门发布的房地产销售数据、就业数据等,判断房地产市场和劳动力市场变动趋势,但统计部门的数据一般有数日乃至数周的时滞,不利于对形势的判断。现在英国央行运用大数据对英国房地产市场和劳动力市场趋势作出快速判断。英国央行已通过对一些网络搜索关键词的监控,如“按揭”、“房价”、“职位”等,获取最新的经济运行情况,分析和预测客户及交易对手行为。加拿大央行利用大数据分析并跟踪宏观经济的变化。

五、借鉴及启示

金融业是典型的信息密集型产业部门,大量信息都以种类各异的数据形式被记录、存储和交换。当前人民银行牵头开展金融业综合统计,金融统计任务艰巨,运用大数据的方法开展金融统计工作势在必行。应借鉴国外央行运用大数据的做法及经验。探索大数据在我国金融统计工作的运用。

(一)可参考美国在宏观审慎监管中大数据的做法,推广金融机构标准化编码的运用范围,推动金融工具标准化的研究及运用,同时制定规范的数据报送和分享标准,为厘清金融产品的衍生链条、监测金融风险打下基础。在技术层面,可研究和探索以数据可视化为代表的大数据技术在宏观审慎监管中的应用,开发符合中国金融发展阶段和现实情况的数据系统和大数据方法。

(二)可借鉴欧洲主要国家中央银行数据点模型为我国金融统计系统搭建大数据模型。我国在推进金融统计标准化过程中,在现行的工具分类标准和元数据标准下,可尝试以数据点模型为基准,搭建中央数据仓库。建立以数据点结构为基础的数据模型,并适时开放部分指标端口,提供开放性的数据点结构,扩充最新金融工具分类。

(三)创新数据挖掘和运用方式。人民银行大数据的来源中包括文本、图像等半结构化、非结构化数据,要探索如何挖掘和运用数据,如可将传统的银行家调查问卷,改变为对银行家情绪的收集,利用DATA 的方法,预测银行业机构运营情况。增强数据挖掘与分析运用能力。探索解决内部数据挖掘分析和外部资源的安全整合利用问题。

(四)加强搜索技术运用。如加强网页搜索技术、知识计算(搜索)技术、知识库技术等核心技术的研发,如将百度关键字搜索情况纳入经济金融预测框架中来,提高对经济金融走势预测的灵敏度。

(五)推动金融统计标准化。规范一致的数据标准是对数据进行加工的首要前提,标准不一的同类数据之间是无法进行合并和比较的。当前,各类金融机构间同一指标的统计口径存在差异,要大力推动金融统计标准化,统一规范金融机构、金融工具、金融交易对手方所属经济部门、金融基础设施等基础统计要素的定义、口径、分类和编码等规则。

(六)加强大数据应用的隐私保护和信息风险防范。维护信息安全是金融数据基础设施建设和使用大数据方法的前提。要建立大数据隐私保护制度和信息安全保障体系,构建覆盖从数据采集、数据传输、数据存储到数据销毁各环节的数据安全框架,提高安全防范能力,严密维护信息安全。

猜你喜欢
人民银行结构化标准化
标准化简述
2020年河北省人民银行系统机构、人员情况一览表
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
2019年河北省人民银行系统机构、人员情况一览表
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
标准化是综合交通运输的保障——解读《交通运输标准化体系》
论汽车维修诊断标准化(上)
交通运输标准化