大数据在金融行业的应用与挑战

2017-11-07 22:13盛瀚
科技创新导报 2017年25期

盛瀚

DOI:10.16660/j.cnki.1674-098X.2017.25.117

摘 要:本文从对大数据产业发展进行分析,介绍大数据金融的相关应用及场景案例,并阐述了大数据金融存在的挑战。

关键词:大数据 金融行业 应用

中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2017)09(a)-0117-06

1 大数据概述

1.1 什么是大数据

大数据(Big Data)是一个宽泛的概念,业界没有统一的定义,大数据概念的兴起可以追溯到2000年前后,最初理解为一类海量数据的集合。2011年,美国麦肯锡在研究报告《大数据的下一个前沿:创新、竞争和生产力》中给出了大数据的定义:大数据是指大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集。根据Gartner的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据在通信、金融、教育等各个领域存在已有时日,近年来随着互联网和信息行业的发展进入了快速推广阶段。

1.2 大数据的特征

大数据不仅有传统数据定义的“三个V”,即数量(Volume)、速度(Velocity)和种类(Variety),还包含了更重要的第四个V,价值(Value)。

阿姆斯特丹大学提出了大数据体系架构框架的5V特征,在原有4V基础上增加了真实性(Veracity)特征,包括数据可信性、真伪性、来源和信誉、有效性和可审计性等特性,如图1所示。

1.3 大数据的发展趋势

随着大数据产业的不断发展,各行业的应用解决方案不断成熟,大数据产业迎来了井喷式发展。Wikibon数据显示,2014年全球大数据市场规模达到285亿美元,同比增长53.2%。大数据成为全球IT支出新的增長点,如图2所示。Gartner数据显示,2014年数据中心系统支出达1430亿美元,比2013年增长2.3%。大数据对全球IT开支的直接或间接推动将达2320亿美元,预计到2018年这一数据将增长3倍。

全球大数据市场结构从垄断竞争向完全竞争格局演化。企业数量迅速增多,产品和服务的差异增大,技术门槛逐步降低,市场竞争越发激烈。全球大数据市场中,行业解决方案、计算分析服务、存储服务、数据库服务和大数据应用为市场份额排名最靠前的细分市场,如图3所示。

2 大数据金融

随着大数据技术的应用,越来越多的金融企业也开始投身到大数据应用实践中。麦肯锡的一份研究显示,金融业在大数据价值潜力指数中排名第一。以银行业为例,中国银联涉及43亿张银行卡,超过9亿持卡人,超过1000万商户,每天近7000万条交易数据,核心交易数据都超过了TB级。

一直以来,金融企业对数据的重视程度非常高。随着移动互联网发展各种务和服多样化市场整体规模扩大。对于数据分析带来的主要业务价值,大量参加调研的金融企业表示,大数据分析的价值是可以根据商业分析实现更加智能的业务决策,让企业战略制定更加理性化。依靠有前瞻性的决策,实现生产过程中资源更优化的分配,能够根据市场变化迅速做出调整,提高用户体验以及资金周转率,降低库存积压的风险,从而获取更高的利润。

2.1 金融数据的类型

金融数据从数据类型上进行划分,大致可以分为结构化数据、半结构化数据与非结构化数据三大类。

(1)结构化数据。结构化的数据来源于金融企业运营数据仓储(ODS)和数据仓库(EDW)。EDW为企业提供分析决策服务,ODS主要实现企业数据整合、共享和准实时运营监控等功能。而通过Hadoop等组件的应用可以将数月前甚至几年前的历史数据进行迁移保存。在分布式存储结构下,结构化数据的存储计算可以得到巨大的改善,可对海量离线数据进行离线分析,将离线数据优势最大化,为金融企业用户打造立体用户画像提供最全面的数据支撑。

(2)半结构化数据。半结构化数据的整合在数据整合中是最为复杂的。金融企业可对接来源于外部单位所提供的不同类型数据库或Excel等的数据。“打通”多源异构的数据是项目中遇到的最困难的部分,数据整合完毕可快速进行建模分析。

(3)非结构化数据。金融行业对于非结构化的处理的方法还是比较原始的。非结构化数据涵盖的范围比较广泛,有新闻、视频、图片以及社交网络等数据。

2.2 大数据金融的技术实现

金融数据一般具有“流数据”的特征,需要在短时间内快速处理。与其他行业相比,金融具有逻辑关系紧密、处理实时性要求高、可展示性需求强等特征,通常需要以下几类关键技术。

(1)数据分析技术。包括数据挖掘、机器学习等人工智能技术,主要应用在用户信用分析、用户聚类分析、用户特征分析、产品关联分析、营销分析等方面。金融系统安全性、稳定性和实时性要求比较高,对大数据计算处理能力也要求非常高。

(2)数据管理技术。包括关系型和非关系型数据管理技术、数据融合和集成技术、数据抽取技术、数据清洗和转换等技术。金融行业对数据的实时处理能力要求非常高,需要灵活地进行数据转换配置和任务配置。

(3)数据处理技术。包括分布式计算、内存计算技术、流处理技术等。通过新型数据处理技术更有效地利用软硬件资源,在降低IT投入、维护成本和物理能耗的同时,提供更为稳定、强大的数据处理能力。

(4)数据展现技术。包括可视化技术、历史流展示技术、空间信息流展示技术等。主要用于金融产品健康度监视、产品发展趋势监视、客户价值监视、反洗钱反欺预警等方面。

2.3 大数据金融的场景应用

任何技术的应用都是基于需求产生的,大数据金融的应用也是由金融行业的业务驱动而衍生出来的。具体的应用分类也没有统一的标准。以金融行业最具代表性的银行为例,根据业务驱动应用场景大致可分为精准营销、风险控制、改善经营、服务创新和产品创新等5个方面,如图4所示。endprint

(1)精准营销:互联网时代的银行在互联网的冲击下,迫切地需要掌握更多用户信息,继而构建用户360度立体画像,即可对细分的客户进行精准营销、实时营销等个性化智慧营销。

(2)风险控制:应用大数据技术,可以统一管理金融企业内部多源异构数据与外部征信数据,可以更好地完善风控体系。内部可保障数据的完整性与安全性,外部可控制用户风险。

(3)改善经营:通过大数据分析方法改善经营决策,为管理层提供可靠的数据支撑,使经营决策更加高效、敏捷,精确性更高。

(4)服务创新:通过对大数据的应用,改善与客户之间的交互、增加用户粘性,为个人与政府提供增值服务,不断增强金融企业业务核心竞争力。

(5)产品创新:通过高端数据分析和综合化数据分享,有效对接银行、保险、信托、基金等各类金融产品,使金融企业能够从其他领域借鉴并创造出新的金融产品。

2.4 场景实例

2.4.1 客户全景画像

客户画像应用主要分为个人客户画像和企业客户画像。其中个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等。以银行为例,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论,所以还需要引入外部数据源,包括:运营商数据、主流电商网站数据、上网痕迹数据、SNS软件、生活圈子、网络应用等,从而丰富用户标签,构建一起全面的客户画像,如图5所示。

2.4.2 客户服务优化

通过大数据,金融企业可监控各种市场推广运作情况,将客户行为转化为咨询流,从中分析客户的个性特征、风险偏好,了解客户的金融往来习惯及使用行为,进一步分析及预测客户潜在的需求,将精准行销扩展至服务的创新与优化。

以银行为例,通过大数据资料库,可对下辖分子机构服务柜台及摆设、理财区装饰,甚至座位的设计,依照资料库中机构所在地的人口特征、年龄及交易量复杂度等数据,以及客户在网站、手机银行、微信银行等软件的使用习惯进行分析,为客户提供个性化的服务。具体体现在以下几方面。

(1)针对高龄客户比例偏高的机构,即考虑新增矮柜服务窗口并提供大屏幕显示器提醒。

(2)面对顾客对网银、手机银行的使用习惯,将浏览率高的栏目与浏览率低的栏目进行重新排版设计,以提升客户使用率及忠诚度的目的。

(3)根据不同人群在网络、手机APP访问的记录行为,分析其关注资讯的不同(页面浏览时间、次数、频率等),提供不同需求的咨询和服务。

2.4.3 征信数据分析

大数据的分析对于风险控制有着重要意义,金融机构可通过对工商、税务、司法、公安、行政、运营商、航旅、教育、银联、第三方等多方机构信息进行数据分析,加工碎片数据,形成整合视图,进行风险分析,量化企业的信用额度,更有效地开展金融业务。

同时,在交易欺诈防控中,可以利用银行持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺詐分析,如图8所示。

通过使用各类数据项,进行机器学习和集成学习,从而产生信用评分。

3 大数据金融存在的挑战

3.1 数据的几何级增长,整合困难

目前,全球各行业数据量的增长速度惊人,在我国尤其集中在金融、交通、电信、制造业等重点行业和医保、社保、海关等重要领域,信息化的不断深入正在进一步催生更多新的海量数据。据统计,2015年中国的数据总量达到1700EB以上,同比增长90%,预计到2020年这一数值将超过8000EB。以银行业为例,每创收100万元,银行业平均产生130GB的数据,数据强度高踞各行业之首。但在金融企业内部数据处于割裂状态,业务条线、职能部门、渠道部门、风险部门等各个分支机构往往是数据的真正拥有者,缺乏顺畅的共享机制,导致海量数据往往处于分散和“睡眠”状态,虽然金融行业拥有的数据量“富可敌国”,但真正利用时却“捉襟见肘”。

3.2 数据安全的保障

安全与隐私问题是大数据发展过程中的一个关键问题,多项实际案例表明,即使无害的数据被大量收集后,也会暴露个人隐私。实际上,大数据安全含义更为广泛,人们面临的威胁并不仅限于个人隐私泄露,保护对象不仅包括大数据自身,也包含通过大数据分析得到的知识。

与当前的其他信息一样,大数据在存储、处理、传输等过程中面临安全风险,主要包括数据管理风险和数据运营风险。这里一方面需要技术手段的保护,同时需相关法律法规的完善和金融企业自身的自律。

3.3 大数据标准规范的制定

要实现数据的互联互通,必须包含两个条件,其中互联是技术体系标准,互通是数据体系标准。实现互联可以要求系统使用标准化接口,而实现互通则需要围绕产业链建立跨行业的数据标准结构。目前,各行业的发展长期各施其政,行业间存在较高的壁垒,即使金融行业内部,如银行、证券、保险等行业也采用了不同的标准,遵守不同的行业规范。如何加快元数据、数据交换、数据交易、数据质量、安全保密等重点共性标准的制定是大数据建设的关键。

3.4 人才梯队的培养

与信息技术其他细分领域人才相比,大数据发展对人才的复合型能力要求更高,需要掌握计算机软件技术,并具备数学、统计学等方面知识以及应用领域的专业知识。目前金融行业在可承担分析和挖掘的复合型人才、高端数据科学家以及管理人才方面都存在很大缺口。

4 结语

党的十八届五中全会“十三五”规划建议提出:“实施国家大数据战略,推进数据资源开放共享”。2015年12月16日在第二届世界互联网大会开幕式上,习近平总书记提出:“十三五”时期,中国将大力实施网络强国战略、国家大数据战略、“互联网+”行动计划。大数据已成为驱动经济发展的新引擎,大数据应用范围和应用水平将加速我国经济结构调整、深度改变我们的生产生活方式,大数据金融应用正是改变金融业态,引发金融行业经营模式创新的催化剂和助推器。

参考文献

[1] 陈利强,梁如见,张新宇.金融大数据:战略规划与实践指 南[M].北京:电子工业出版社,2015.

[2] 陈云.金融大数据[M].上海:上海科学技术出版社,2015.

[3] 中国电子信息产业发展研究院.工业和信息化部赛迪智库 [Z].大数据发展白皮书,2015.endprint