周卫峰
(中国人民银行太原中心支行 山西省太原市 030024)
随着外汇领域数据量的快速持续增长,如何整合外汇数据资源,深入挖掘数据的关联关系,为外汇管理提供全面、高效、智能的数据支撑,值得深入研究。本文基于当前外汇数据实际,结合大数据平台架构与算法,对智能外管大数据分析平台建设的基础、路径和内容进行了探索。
建设大数据分析平台是实施智能外管必需的基础设施,相较于金融机构基于海量历史数据,利用大数据技术建立起自身的应用平台,金融监管机构大数据平台建设相对缓慢。受制于技术成熟度、运维能力、监管目标等因素的影响,外汇局应用大数据技术之初,主要采用按业务条线各自建设的方式,容易产生数据孤岛,无法深入开展跨业务领域的数据分析,难以发挥出大数据技术在数据集成、关联分析、数据挖掘等方面的优势。因此,稳步推进智能外管建设,构建跨业务条线、全局统一的智能外管大数据分析平台势在必行。
建设智能外管大数据分析平台,需要对现有数据进行梳理,当前外汇局数据具有以下特点:一是数据规模大。外汇局系统数据数字化报送以来,积累了海量的登记信息与交易数据。二是数据规范度高。通过外汇应用系统银行端及互联网端申报的数据,数据采集范围和数据格式均采用统一要求。三是安全性高。“安全外管”建设成效明显,实行专线接入,构建“两地三中心”信息安全保障方案,有效保障了外汇数据安全。四是数据广度大。外汇系统数据不仅包括跨境交易数据,还通过数据共享的方式集成了大量的外部数据,如海关数据、工商登记数据、商务部门直接投资数据等,外部数据的扩充有效提升了外汇系统数据的广度。从分析梳理可以看出,外汇系统数据规模大、规范度高、安全性好和广度大的特点为智能外管大数据分析平台的建设提供了坚实的数据基础。但值得注意的是,跨境资金流动中各类市场主体跨市场、跨行业风险不断演变升级,外部风险的不断加大,新时代外汇监管需求对智能外管大数据分析平台的建设提出了更高的要求:一是《民法典》的颁布让民众的隐私权得到了更有效的保护,外汇数据安全问题在满足应用的同时需要进一步考量数据安全使用的问题。二是外汇监管由事前向事后、由定期监测向实时预警的转型,需要加大对数据的挖掘力度,扩展数据的应用需求。三是当前外部数据源有待进一步拓展,如应考虑补充境内人民币数据,进而对某一市场主体跨境资金流动数据进行有效对接,完整刻画市场主体交易脉络和图谱,为高效识别异常交易提供精准信息支撑。总体而言,现有外汇系统数据可以为智能外管大数据分析平台提供坚实的数据基础,为平台的功能应用提供足够的数据资源。同时,在建设中也需要进一步拓展有效数据源,丰富智能建设技术,建立统一的大数据分析平台服务监管科技的总目标。
基于外汇局现有数据特点,智能外管大数据分析平台除需要为“数字外管”平台提供数据的采集、存储、运算、分析等基础性支撑功能外。还应具有以下功能:
(1)提供云计算环境。支持分布式与并行运算,实现对数据存储、计算、建模、可视化等全过程开发和运行,以满足不同的分析需求。
(2)提供基于WEB 的建模功能。建立基于WEB 架构和业务流的大数据建模系统,实现数据模型的实时构建。
(3)提供可视化分析系统。可以通过可视化引擎、数据处理、人机交互等功能,进行互动式数据分析。
(4)支持多源异构数据集成。建立多种数据接口,便于与外部数据、互联网数据采集接口的对接,实现异构采集数据的存储,解决数据广度问题。
(5)建立知识库。包括算法库、建模库与案例库,实现分析成果的全局共享。
(6)系统与数据安全管控。在使用必要措施避免发生数据泄漏和丢失的同时,平台还应对各种操作行为进行实时记录,实现对违规行为的溯源需求。
如图1所示,该架构可以考虑参照目前主流大数据平台系统进行搭建,即采用自上而下多功能层的架构思路,构架主要可分为数据应用层、数据支撑层、数据存储层和数据采集层四个层次,除此之外,还需要贯穿整体的数据安全模块和数据管理模块。结合外汇局信息系统建设实际,可以遵循以下顺序实现智能外管大数据分析平台的搭建。
图1:智能外管大数据分析平台架构
首先,搭建数据存储层,存储层是整个平台的基础,搭建可扩展的 Hadoop (分布式系统基础框架)集群及相关组件,解决大数据平台中最核心的海量数据存储与高速读取问题。其次,通过已有外汇数据建立数据仓库(Datawarehouse)和ETL(Extract-Transform-Load)组件,实现已有外汇数据向大数据平台迁移与增量数据存储。最后,完善应用层,可直接迁移现有“数字外管”平台应用层,实现原有系统在大数据平台上的平稳过渡和高效使用,再逐步强化大数据分析功能,利用大数据分析工具挖掘数据价值,真正发挥大数据平台的智能分析能力。
3.2.1 数据采集
数据采集层是该平台的基础,除外汇局各业务系统现行采集的数据外,还需纳入以下数据:一是其他监管部门(如税务总局)数据。二是被监管方流水数据。三是互联网数据,包括各机构互联网公开公布数据、天眼查(企查查)等第三方平台API 接口数据和爬虫抓取数据。只有打破监管方与被监管方、监管部门之间的数据共享壁垒,才能挖掘出数据背后的价值,发挥大数据平台的真正作用。《金融机构外汇业务数据采集规范(1.2 版)》的发布提高了外汇业务系统数据规范化程度,但由于人员素质、业务熟练程度等因素的影响,部分需由交易主体手工录入的数据仍无法避免出现错误与遗漏,难以从源头上保证数据信息准确完整。外部数据由于数据来源不同,导致数据格式的多样,且需要实现传统数据库到数据仓库的转化。这就要求外汇局应从数据格式入手,结合自身业务特点和场景需求设计数据仓库样式与ETL 程序。
3.2.2 数据存储
数据存储层建立在Hadoop 的HDFS 基础上,主要负责提供多源异构、高扩展、低延迟的数据存储。数据存储层可以存储结构化、半结构化及非结构化数据,其中结构化数据主要是指关系型数据,特点是数据量小、格式固定且需要频繁访问,可使用现存的关系型数据库存储。非结构化数据包括登记备案、违规处罚等非数字型数据,特点是量大、可用率低,要求具有较高的压缩比率和存取速率,可利用Parquet format 的HDFS 进行存储,以提高压缩比率的方法实现快速的存储。半结构化数据介于完全结构化和完全无结构数据之间,如电子邮件、JSON、XML 文档等,大多为日志数据,此类数据易于传输、转换,同时具有较高的可读性,可采用基于Lucene的ElasticSearch 分布式文件系统存储。
3.2.3 数据处理
数据处理层负责数据计算与分析,向下整合各类格式的数据,利用大数据平台的运算和挖掘能力,向上实现数据的共享,提供丰富的应用场景。该层针对大规模海量数据,采用云计算环境下的并行数据处理算法与策略,另外,数据运算应支持流式运算和离线运算,Hadoop 的Map/Reduce 运算架构对现有应用较多的聚类、分类、关联规则算法等进行了改进,在离线和并行运算方面表现突出,但在实现数据实时流运算方面略显不足,实时流运算可采用Spark 架构,Spark 作为一种基于Memory computing 的分布式运算架构,嵌入了多种Machine Learning 运算库,可在保证容错率和高可伸缩性的同时进行实时性的数据处理。同时,数据处理层通过运用大数据平台的存储与运算优势,在对各类数据进行整合的基础上,利用数据挖掘技术,为不同外汇业务提供跨条线的查询检索、分析模型和挖掘算法。
3.2.4 数据应用
数据应用层是大数据分析及相关技术智能应用的直接体现,为用户提供决策支持,为“数字外管”提供智能监管,为各种外部应用提供服务和接口,充分发挥该平台的潜力。数据应用层可以针对不同的数据场景进行数据梳理:
(1)决策支持。运用大数据技术进行深入挖掘和处理,在精准识别有效数据基础上,对跨境资金的主体、性质、形式、用途等进行切片分析。运用决策树分析、神经网络、遗传算法等技术,深挖数据之间的关联关系,发现与跨境风险关联的潜在因素,提早识别出倾向性问题,助力实现国际收支动态平衡。
(2)智能监管方面的事前预警。深入挖掘海量历史数据,搭建边界条件开展模拟验证,分析各参数的压力、临界区间,构建监管预警模型,结合当前形势,对每笔交易进行风险分级,例如地下钱庄、跨境赌博等。
(3)智能监管方面的客户标签。以银行或者企业为主体,用全方位的数据进行主体画像,提取违规企业、银行的特征信息,构建相关规则库,实现违规主体的筛选和监测,实现主体的智能监管。
(4)数据共享。在签署联合监管合作备忘录的基础上,可以充分利用该平台资源,接入公安、税务、海关数据,共享自身数据,实施全面、综合监管,减少重复监管,提高社会总体监管水平。
3.2.5 数据安全
该平台为外汇监管带来便利的同时,亦会存在潜在的风险。一方面外汇数据具有较高的安全性要求,另一方面针对大数据的数据集中、数据量大、数据价值大等新特点产生的安全风险更加突出,一旦数据被非法访问甚至泄露损失更加巨大。平台数据安全模块应遵从合规性和规范化原则,采用国产自主可控硬件,建立全面的基于数据生命周期的安全保护体系。
(1)提供访问控制。对数据进行安全等级划分,建立基于标识的强制访问措施。
(2)提供数据安全审计。充分运用数据访问日志,掌握数据使用情况。
(3)提供数据安全预警。建立数据导出预警机制,防止数据违规使用行为。
(4)提供质量保证机制。对共享数据实施质量控制,全面保障平台数据安全。
3.2.6 数据管理
数据管理功能主要实现异构数据统一管理,围绕数据处理任务进行设计,对于不同来源、类型的数据进行全生命周期的管理,同时在系统和制度方面建立严格的数据管理机制,对系统数据的查询、增加、删除、修改、提取、备份、恢复进行规定,确保数据管理有章可循。