大数据技术在银行业中的应用分析

2015-05-11 05:40沈帅奇ShenShuaiqi
互联网天地 2015年10期
关键词:海量结构化数据库

沈帅奇/Shen Shuaiqi

(香港理工大学 香港999077)

1 银行业呼唤大数据技术

随着信息技术的飞速发展,数据正在迅速膨胀并呈现出几何级数的增长,大数据时代已经来到了每个人的身边。大数据的特点可以用所谓的“4V”概括:Volume,数据规模庞大,增长速度快;Variety,数据类型多样,大部分是非结构化数据,构成复杂;Value,数据中的信息价值巨大却隐藏较深,需要复杂的算法提取;Velocity,对数据处理要求速度快、时效性强,并进行实时反馈。大数据技术分析处理海量的数据,并从中提取有价值的信息,大数据技术的应用正在为各行各业带来创新与变革,而其中最重要的应用领域便是银行业。

银行业是天生拥有数据资源的行业,同时也是数据驱动的行业。其业务从储蓄、信用卡、信贷,到各种金融理财产品,都会产生和积累大量数据,反过来这些业务的经营发展也离不开数据分析的支撑。例如,为了提高服务质量,降低贷款风险,提升投资收益,银行需要对客户的各项业务数据进行长期存储、整合和分析,从而对客户产生更全面的了解,例如信用评级、消费倾向等。

长期以来,银行在传统数据库上对结构化数据的处理技术(例如SQL分析)已经趋于完善。然而,传统数据库的信息量并不丰富,也不完整。例如,银行存储有客户的基本身份信息,但对于客户的兴趣爱好、生活习惯、行业领域、家庭状况等其他信息却难以准确掌握。而对于非结构化的数据,例如客户网页浏览行为、资金往来、话音服务记录等,传统的数据库架构难以进行处理,更无法结合多维度信息进行综合分析。尤其值得关注的是,随着银行用户数量的增加、业务和产品的扩张以及近年来互联网金融的兴起,银行的数据产生量也呈现爆发式增长,使数据分析的规模和复杂度都超过了传统数据库的处理能力。数据处理与计算因庞大的数据量而难以及时完成,一些模型甚至由于过于复杂而无法在传统数据库上应用。正因如此,大数据技术在银行业受到了空前的重视。

大数据技术对于银行业最重要的作用在于两个方面:一方面在于能够为其处理日益增加的海量数据,用大数据平台替代结构化关系数据库,解决传统数据技术面临的困境;另一方面,银行需要通过种种算法模型,从数据中挖掘出更多价值,为银行的业务发展带来进一步的提升。

2 银行业大数据的技术架构

银行业的大数据应用,每家有不一样的侧重点和目的,因而有着多种多样的实现途径、技术路线和具体方案,但大多不外乎以下两大类。

建立大数据的数据仓库:利用大数据平台强大的处理能力处理原有的数据分析业务,对大量报表的关联和聚合进行分析。

对数据的进一步挖掘:使用数据挖掘算法开发一些新的应用,从数据中获取更多价值,为客户提供更优质、更具个性化的服务。

2.1 大数据仓库

主要目标是对过于集中的数据库进行分布式改造,建立大数据的存储和备份数据池,大力提高存储、处理海量非结构化数据的能力。数据管理和应用如图1所示,数据存储和备份如图2所示。分布式数据库有如下技术架构。

●通过数据分布实现海量数据处理能力,把这些数据打散到不同的节点,来实现横向扩展以及处理能力的提高。

●数据汇集机制支持本银行全国集中管理模式,通过网络和云计算平台,把数据汇集到总行集中管理模式的应用上。

●通过将数据复制至备份节点实现高可靠性,节点与节点之间也有数据复制的机制,来实现数据出现异常情况下的快速恢复。

●基于硬件的可靠消息总线,每秒能有50~60万消息的处理能力,可以通过增加硬件的设备来提高它的处理能力。

●随着用户规模增长的需要,系统处理能力可以无限横向扩展,理想效果达到可以不断地通过新增加的资源,包括数据中心的资源,来满足业务发展的需要。

●硬件方面:使用大量标准化的硬件,如机房机柜采用的标准x86服务器,目前运行在其上的数据库(TD-SQL)可实现数十万级IOPS的读写能力。

● 软件方面:采用了大量开源软件,如Java、MySQL、Linux等,同时使用包括LVS、TGW、TLinux、TD-SQL、TDW等有实际运营经验的开源软件。

2.2 银行非结构化数据管理架构

IDC研究表明,金融行业未来80%的数据主要呈现为影像、照片、音频、视频等非结构化数据。2010~2020年,非结构化数据将以44倍的发展速度迅猛增长。同时,非结构化数据对传统针对结构化数据的现有处理系统也提出了严峻挑战。如何有效地保存和处理这些海量非结构化数据?其管理架构应主要具备以下4个功能板块。

(1)分级存储功能

根据票据影像文件生成时间与访问频度,合理利用在线、近线、离线存储介质,减少生产存储容量。

(2)自动归档功能

根据归档策略,将访问频度低的文件通过“打包归档”方式实现数据保护,满足监管要求。

(3)自动备份功能

实现“海量小文件”的高速备份,在系统故障和个别文件损毁的情况下,能有效管理数亿的文件,并能够实现数据的快速恢复。

(4)透明访问功能

当应用系统访问已经归档的文件时,方案可以自动将归档数据从近线存储中回调至生产存储,保证应用在等待若干秒后能够访问到所需数据,无需人工干预,操作人员无感知。

2.3 大数据挖掘的平台系统

(1)主流技术之一:甲骨文(Oracle)大数据系统

甲骨文将大数据平台的行为概括为数据获取、数据组织和数据分析,并为这3个阶段开发了不同的产品,而这些产品又与其推出的“大数据机”完全集成到一起。随着甲骨文大数据机的推出,甲骨文成为了以全面、软/硬件集成的产品满足企业关键大数据需求的公司。

甲骨文完整的大数据平台包括Oracle NoSQL数据库、甲骨文大数据连接器、大数据一体机、数据库云服务器、商务智能云服务器等产品。其中,Oracle NoSQL数据库支持水平扩展、弹性配置、透明负载平衡等特性,Oracle大数据连接器实现Hadoop与Oracle数据库和Oracle数据库云服务器的优化集成,大数据机实现软件与硬件的完美结合。整个大数据平台完成了数据的流动、获取、组织、分析和可视化等全过程。

(2)主流技术之二:SAP大数据平台

SAP 大数据平台由 SAPHANA、SAP IQ、Hadoop、高级分析和可视化工具组成。SAP大数据业务涉及4个层面,包括吸收、存储、处理以及展现,针对半结构性数据、结构性数据以及非结构性数据,其中数据处理的SAPHANA是SAP大数据解决方案的核心。

SAPHANA是一个利用内存计算的新型实时数据平台,能够实现在海量数据持续增加的情况下支持实时业务驱动,可以在本地部署,也可以通过云交付。SAP HANA平台可以助力企业的实时业务,包括对运营报表、数据仓库、大数据预测分析和文字分析的实时分析;涉及核心流程加速、计划优化应用和感知响应应用等实时应用以及数据库、移动端、云端的实时平台。

3 典型应用

大数据技术在银行业的应用非常广泛,目前国内多家银行已经开始了有益的尝试,并在业内实现了许多成功的应用案例。主要是在大数据平台上使用数据挖掘算法,开发新的应用,从数据中获取更多价值支撑业务,例如历史交易数据存储查询、客户画像、用户流失预测、精准营销和个性化服务、金融产品个性化推荐、信用卡欺诈检测等。

3.1 历史交易数据存储查询

(1)需求

随着银行交易数据的爆发性增长,传统数据库结构难以对海量历史数据进行长期存储和处理,存储成本昂贵,横向扩展能力欠缺。

移动互联网的发展,使用户可以随时随地对账户进行历史交易数据的查询及分析操作。数据库系统面对高并发数据查询压力激增,响应延迟,亟需提升查询、分析的性能。

(2)方案

使用TDH下的交互式SQL分析引擎Transwarp Inceptor支持银行的数据仓库业务,Transwarp Inceptor采用分布式内存计算方式,将涉及海量数据的复杂任务分割成小任务交给多台机器同时处理,加快计算速度。

TDH采用通过添加服务器的方式来横向扩展(Scale Out)处理能力,保证投入和处理能力的提升是线性关系,扩展性极佳,可以无限提升存储和计算能力,具体如图3所示。

(3)实例:银联实时查询服务系统

银联公司利用上述大数据平台,实现了海量历史交易数据的快捷高效处理,为持卡人提供实时交易查询服务,并提供多维度统计分析,持卡人可通过手机、电脑等不同渠道享受丰富的大数据服务。图4是电子对账单示意。

3.2 图片等小文件数据存储管理

(1)需求

当前,银行日常营业窗口产生大量单据、证件等纸质文件,均需扫描成照片文档在系统上保存。传统的数据库对半结构化、非结构化文档和图片支持较差,现有管理平台性能不足,检索、查询、统计等繁琐而低效,加之数据量庞大,只能分头存放在分行,因此,无法满足数据管理的智能化、集中化要求,亟需利用大数据技术来解决。

(2)方案

一是实现数据文件存储保管的二级索引。二级索引的设计是将记录文件的一级索引与介质一起存放,由介质服务器管理,备份服务器只管理二级索引。这种分布式的索引技术可以支持数十亿文件的高性能管理。

二是实现数据文件查询调用的透明访问。归档操作时,一方面将超过一定时间的数据文件迁移到近线存储,另一方面在生产存储留下相应的存根。该存根指向文件迁出后的实际位置。在应用系统访问已经归档的文件时,就访问到了存根,此时会触发一个将归档文件回调至生产存储的操作,使得应用系统能够读取到该文件。IBM中小银行影像管理基础架构解决方案如图5所示。

(3)实例:中国农业银行票据影像文件管理平台

农业银行数据库中,大量支票、交易票据、证件都以图片存档,大小为50 kB~1 MB不等,每天新增存储量达到2 TB,为此,农行建立了票据影像文件管理平台,利用大数据技术进行了小文件存储的全面优化。

●海量小文件的备份效率提高到每小时数百GB,备份时间约缩短至传统方式的1/10。相对于备份方式,该平台可以支持更高频率的备份,大大提高数据安全性。

●通过数据生命周期思想,有效控制在线数据规模,降低存储采购成本;一站式解决海量文件存储、备份、归档、容灾问题,建设成本低。●实现全自动数据管理,减少大量运维成本与人员投入;索引、文件一体化存储,并融合备份与容灾,简化系统组网,一套平台统一管理;通过软件可视化进行电子影像系统的容灾管理,随时掌控容灾的路径、状态。

●矩阵式多控架构,系统资源支持线性扩展,满足客户未来长期的数据增长需求。

3.3 客户信息挖掘

(1)需求

银行卡交易数据能够反映持卡人消费行为习惯以及消费市场中企业的经营状况。通过对客户的数据挖掘,可以形成特定的客户画像,并为商户提供有价值的关联信息或是出售分析服务,打造新的商业模式,如图6所示。

(2)方案

首先,将银行卡客户的完整消费行为记录,按照多副本进行半结构化数据的分布式存储。在各分布式存储节点的物理机上,部署数据挖掘分析系统、风险分析模型系统和交易报文分析系统,利用相应数学模型、多维指标综合处理系统,在海量数据的基础上进行数据的整理、分析、统计和结果输出。

(3)实例:中国银联客户画像系统

中国银联利用客户信息系统(如图7所示)挖掘银联持卡人历史交易数据中的潜在规律,从多角度形成数据支持,刻画出持卡人的交易行为特征,为精准营销、客户服务等工作提供强有力支持。

同时,挖掘商户之间的关联性,直接(银联的商户服务)或间接(面向收单机构等合作伙伴)为商户提供经营决策支持、合作性指导、竞争性指导等服务,在商圈品牌引进、店铺选址、联合营销等领域有很大的潜在价值。

3.4 利用社交媒体大数据分析开展精准营销

在社交媒体风靡世界各国,引发各阶层、各年龄段、各文化背景的人们大量使用社交软件的背景下,人们对网络社交应用的粘性和依赖性越来越强。微信、微博、Facebook、Twitter等社交媒体上汇集着大量丰富多样的大数据资源,是人们行为特征的最大信息资源池,对大数据分析者们有着巨大的吸引力。当然,银行业经营者也不会放弃这块宝地,纷纷试图从社交媒体上得到用户行为数据和消费规律,从而开展精准营销。

亚太地区的几大银行,如新加坡银行、香港汇丰银行等,已开始创建自己的用户社交媒体活动圈,发布Facebook页面,并创建Twitter账户以及Linkedln档案。他们认识到通过社交媒体不仅能展示自己,更重要的是可与客户开展互动。

营销方法有以下几个方面。

●利用社交媒体分析工具判断消费者情绪。

●利用银行整体品牌分析模型将品牌认知度与客户特定的营销活动相集成。

●利用情绪分析来判断对营销活动的实施响应情况。

获得的成效如下。

●实时了解品牌认知度以及竞争品牌认知度。

●设定新的情感目标,以提高营销活动的反馈率。

●利用情绪知识和有针对性的营销反馈数据提高服务中心参与度。

3.5 客户信用评估

(1)需求

近年来银行信用卡发卡量迅速增长,在大量发卡的同时,申请者和持卡者的风险评估、信用评估等方面面临越来越多的压力。不仅数量庞大、工作量繁杂,而且时效性和准确度要求高。迫切需要一个可拓展、高性能的数据仓库解决方案,提升业务敏捷性,建立对客户信用风险的自动化、智能化评估机制,从而减少不良贷款比例。

(2)方案:Greenplum

银行采用无共享开放平台的MPP架构,将所有分行和支行用于保存已有客户和潜在客户的信用记录、交易特征记录等的服务器、数据库,均通过网络连通,没有磁盘级共享或连接,服务器以完全并行的方式处理每个查询。这种方式更容易添加模块化设备集群,确保现有资源优化,降低初始成本支出。数据集中在同一平台,减少了系统维护工作量。Greenplum架构如图8所示。

(3)实例1:中信银行客户营销和信用评估系统

中信银行自2014年建立起大数据客户系统后,实现了业务数据的集中整合,建立了数据库营销平台。同时,结合实时、历史数据的挖掘分析,建立了统一的客户视图,更清楚地了解客户的价值体系,针对性地开展营销活动。

中信银行根据建立的数据挖掘模型,风险管理部门每天评估客户的行为,并对客户的信用额度在同一天进行调整,从而减少了信用卡的不良贷款比率。

(4)实例 2:阿里小贷征信系统

阿里小贷为客户提供小额贷款业务,无需抵押物和担保人,客户能否申请贷款和贷款额度完全取决于大数据平台计算出的信用值。阿里小贷部门依据贷款者线上经营的信用数据、财务数据,通过对这些海量数据的在线分析,予以授信。

阿里小贷征信系统每天处理上PB的数据量,包括店铺等级、收藏、评价等几百亿个信息项,运算上百个数据模型,甚至需要测评用户对假设情景的掩饰和撒谎程度,对大数据平台的可靠性、安全性以及计算的准确性提出了极高要求。

阿里公司将是否放贷、贷款额度和风险评估完全交给大数据处理平台,无需人工处理,实现“3分钟申请、1秒放款、0人工干预”的高效工作模式。有效识别和分散风险,提供更有针对性、多样化的服务,减少不良贷款比率。批量化、流水化的作业使得交易成本大幅下降。无需抵押物、担保人和繁琐的申请流程,降低了贷款申请门槛,吸引了更多小额贷款用户。

猜你喜欢
海量结构化数据库
一种傅里叶域海量数据高速谱聚类方法
海量GNSS数据产品的一站式快速获取方法
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
海量快递垃圾正在“围城”——“绿色快递”势在必行
数据库
一个图形所蕴含的“海量”巧题
数据库