杨澜
一、大数据分析挖掘科学
(一)大数据分析背景
以大规模、多类型、高速度和高价值为特征的大数据是继互联网、物联网和云计算之后IT行业的又一新兴技术。我们说生活在“大数据”时代,其意思是指我们拥有收集、存储、处理大量信息的能力和工具,而这些信息的规模是我们闻所未闻的。随着电商平台、社交网络和数字媒体的快速发展,网页、图像、地理信息、声音、视频、日志等数据量呈现出井喷式增长。FaceBook的照片存储量已经超过100亿张,超过1PB。淘宝网每天会产生超过数千万条的交易数据,每天数据量总大小超过50TB。国际数据资讯(IDC)公司发布的最新报告显示:全球数据量大约每两年翻一番,预计到2020年全球将拥有35ZB的数据量,其中的绝大多部分是非结构化或半结构化数据。
大数据风潮的涌进对诸如商业银行在内的传统金融机构产生了巨大的冲击。以阿里巴巴为代表的电商平台纷纷利用大数据技术开展精准营销,引导越来越多的消费者体验网购和移动支付的便捷性,加速金融脱媒,致使商业银行传统业务的拓展步履维艰;电子商务市场和金融创新的迅速发展不断挤压着商业银行的市场份额和盈利空间,传统金融机构以净利润差收入为主的经营发展模式面临严峻挑战。互联网银行不再像传统银行那样依靠广设网点去占领市场,而是通过现代数字通讯、互联网、移动通信以及互联网相关技术,借助大数据、云计算等方式为客户提供金融服务。传统银行业必须进行改革,必须想方设法高效的存储和分析这些数据,努力利用数据展开分析、挖掘和预测,让数据产生价值。
(二)数据分析挖掘工具
利用大数据离不开合理的分析挖掘工具,传统的数据分析挖掘工具类型广泛,主要以SPSS、SAS、R为主。然而,这些传统的数据分析挖掘工具在分析中小型数据量时表现出众,但处理GB、TB、PB级以上的数据时的效率几乎是灾难性的。另外,不得不提的一点是,2006年Apache软件基金发布了第一个Hadoop开源版本,加州大学伯克利分校实验室也于2009年研发诞生Spark。这两项技术的诞生和飞速发展无疑相当于在我们面对一份饕餮盛宴无从下手的情况下,给予了我们一副刀叉。
(三)数据分析挖掘算法
就像锉刀和石头本身并不能构成雕像一样,有了工具和数据并不等于能够做有价值的事情。这时我们就需要数据分析科学,数据分析是一门古老的科学,几百年来,经过科学家的探索和积累,研发出了很多经典的数据分析算法,比如:关联分析、聚类分析、回归分析、判别分析、决策树、集成学习、随机森林、神经网络等等。常见的数据挖掘算法有如下几种:朴素贝叶斯分类器Naive Bayes、SVM支持向量机、关联式规则Apriori算法、K-Means算法、PageRank。
二、大数据与金融机构的结合点
(一)金融机构大数据分析的意义
在国内,大数据正如火如荼的發展,众多金融机构纷纷布局。股份制银行成为在大数据发展方面相当活跃的群体,其将大数据技术应用在产品创新、客户营销、运营优化和风险控制等领域。例如,光大银行研发生成“阳光理财”资产配置系统用以整合分散数据、中信银行与银联商务合作开发基于商户信息和POS流水交易数据进行风控的“POS贷”等。为了提高核心竞争力,抢占市场份额,应对来自同业的挑战,金融机构亟需充分利用大数据这把利器,开发特色产品,提高收益,提升影响力。
现实经营数据也时刻提醒着金融机构要勇于应对大数据挑战,掌握大数据核心技术,从海量数据中精准、高效地挖掘出有用信息,自下而上地支持业务转型的现实需要。充分利用企业经营数据,能从根本上提升服务质量,留住高质量客户,提升经营决策水平,实现管理上的精细化、标准化、流程化、自动化。针对挖掘数据的发展方向,进行精准化营销、抢占市场资源、提高利润收入,实现营销上的个性化、体验化和场景化。
(二)金融机构大数据分析现状
在大数据时代,经营数据成为决策中最为重要的参考要素。金融机构在长年的运营过程中积累了海量数据,这使得其在大数据分析方面有先天性优势,如何利用好这个优势是金融机构的重要课题。随着业务管理水平的不断提升和业务经营模式的转型,传统金融机构越来越重视通过数据来辅助决策,对机构内数据管理提出了更高的要求。与此同时,随着业务需求的不断增加、客户数据范围的不断扩大、客户数据之间关系的日趋复杂等现状,利用大数据分析手段,支撑机构高效稳定安全运营是大数据分析的目的和价值所在。
近几年来传统金融机构大力推广“科技推动业务发展”的理念,这契合了目前企业界和学术界所推崇的“数据化运营”的概念,只有数据化运营,才可以满足精细化的效益提升。而数据挖掘和数据分析的高效运用则是数据化运营的技术保障和基础所在。数据化运营有很多方向,例如:网站及移动应用的流量监控分析、目标用户行为研究、精准营销策划与推广、机构运营风险预警及管控等。
三、大数据互联时代下金融机构的挑战与风险
众所周知,金融机构在大数据发展方面拥有天然的优势。因此,近两年金融机构在这方面的发展如雨后春笋般兴起,多家金融机构都积极部署着自己的电商平台。与此同时,很多金融机构也逐渐看到大数据互联下金融机构的发展问题,纷纷与大型互联网公司合作。
虽然大数据互联时代能够促使金融机构更好的服务客户、推荐产品、提高营业效率、防范风险,金融机构也普遍看到了数据的价值,并且努力进行大数据及互联网平台建设。但是,如何进行有效的数据管理和数据应用也成为更严峻和迫切的课题。同时,在金融机构应用大数据互联网产品或者技术时也存在着一定的问题。
(一)基础数据不够全面、质量差、可用性低
金融机构内部数据碎片化严重,存在数据孤岛,各种数据往往存储在不同数据库并由不同部门负责管理,没有办法打通,形成数据孤岛。此外,目前金融机构由于系统设计开发时对预处理不重视、数据检查不规范,导致产生的数据质量差,很大程度上制约了大数据的精算能力。
(二)金融机构竞争版图重组
互联网及大数据行业不断与金融行业融合,一部分互联网及大数据行业将触角延伸至金融业,导致了更激烈的版图竞争。在大数据互联时代下,未来金融机构主要围绕着金融环境、战略和产品三方面展开竞争,三方面的竞争也使得原有的金融机构版图发生变化。谁发展的好,就会占得先机获取更多的利益。相反,谁没有跟上脚步,便可能蚕食原有的规模。
(三)技术架构与技术决策风险
首先,要解决以何种方式构建分布式的数据仓库,并满足可扩展大量服务器集群的需求;探究如何实现实时数据分析处理,实现分钟级甚至是秒级计算分析等问题。此外,大数据的运维还要求在保证数据稳定性、支持高并发性的同时减少服务器的负载。最后,大数据本身也还处于成长期,金融机构在进行大数据建设时技术的失误也会造成选择风险。
(四)安全管理
金融数据规模的不断增长对存储设备的物理安全性要求也越来越高,同时对数据的多副本与容错机制也提出更高的要求。大数据建设需要打通金融机构的各个系统数据流以实现数据资源共享,在这种情况下如何有效地保护客户隐私,也将是一个重大挑战。此外,如何通过合法合规的途径获取外部数据也是金融机构需要考虑的一个问题。
四、金融机构如何在“大数据互聯”时代下更好的发展
有了发展方向,那么金融机构应该在何种方面采取行动,如何顺应大数据互联时代的潮流,发展好自己的业务呢?总体来说,金融机构建设一般认为可以分为四步走:基于数据存储、分布式计算、大数据挖掘与分析和数据服务。此外,还要注意以下三点。
(一)完善数据规范化与安全管控
首先,将数据规范化与安全管控纳入机构整体风控体系中,全面协调各相关部门,共同推动数据安全的建设,实现内部监督与外部约束相结合;其次,细化数据安全建设的指标,将其纳入到各岗位的考核内容中去,达到激励约束;最后,实现对客户的风险提示责任,形成管理合力。
(二)加强与第三方的合作
一方面,在电子信息化时代,电商平台可以以较小的投入换取大量的数据流,而传统的金融机构却无此优势,常常处于信息链的末端,获得信息量较小。因此传统金融机构可以利用自己的规模及客户量优势与第三方电商平台进行合作,在保证客户隐私信息不被泄露的前提下加强信息的共享;另一方面,还应重视网络社交新媒体,通过多渠道获取客户画像。
(三)培养专业人才、建立大数据分析平台
金融机构应重视对新兴产业人才的培养,建立属于自己的大数据分析团队,主要应包括:需求挖掘人员、项目管理人员、架构设计人员、开发实施人员、运维操作人员、测试实施人员等。