刘金忆 凌立刚
(江苏经贸职业技术学院,江苏 南京 210000)
“大数据”是2018年达沃斯世界经济论坛的热点之一,与会各界都对云计算、大数据等驱动经济数字化转型因素进行了讨论和展望。相关专家认为,随着大数据基础设施的不断完善,数据分析和商业智能工具将逐渐成为大数据的主力军,而2018年,产业应用将是全球大数据产业的主旋律。
曾几何时,大数据一度被神化,在很多普通人心目中都是高大上的技术,只有为数不多超强实力的公司才有能力驾驭。现如今自2013年“大数据元年”已将近六年,大数据技术日趋成熟,在各行各业的应用也不断深入,大数据不再是“阳春白雪”,已经开始影响世界的每一个角落。
同大多数先进技术发展过程相同,大数据最先在专业领域内进行讨论与理论研究;具备初步实施可行性理论基础后,在军工,研究所等实力顶尖的包括企业在内的机构进行小规模试点及应用推广;最后,当核心技术与商业模式都慢慢成熟之时,既是大众都可以享受大数据技术带来便利之时了。
诸多行业应用发展如火如荼:如国防行业,美国国防部和情报界使用大数据工具看到并指出罪犯与可能隐藏的恐怖分子之间的个人关系,甚至预测即将来临的战争;医疗卫生领域,2013年谷歌通过大数据提前预防全国大规模流感,比医院病案反馈几乎提前了2周;交通运输领域,我国市民现在出门可以几乎完全依靠手机导航系统时间最短、路途最近地寻找到目的地;零售行业,一位顾客走到商场里,各商家即可立刻知道他个人及家庭情况,包括他的喜好、购买记录及消费能力。
图1 大数据应用成熟度与市场吸引力
目前全球大数据技术发展仅进入了上文所述第二阶段,何时进入第三阶段则需要大数据科学家们的辛苦钻研,也需要一些行业的领先企业带头探索,带动整个社会共同发掘大数据的奥秘。
目前金融行业的大数据应用势在必行,主要基于行业特征的五个方面造成:第一,行业内的数据量庞大,数据类型多样化,银行业每创收100万美元,平均就会产生820GB的数据,在各行业排名居首①;第二,金融数据蕴含着巨大的潜在价值,不可估量;第三,金融行业信息化水平较高,换言之,数据相对容易获取;第四,金融行业具备丰富的处理数据的传统经验;第五,金融行业各机构也有足够的资金引进人才及立项研发大数据系统。天时、地利、人和,促使金融行业成为了大数据在行业中应用的前沿阵地。CCF大数据专家委员会2017年统计的最令人瞩目的应用领域,金融一直排名前三②。
欧美国家的跨国型金融机构起步较早,经过多年的实践,已经可以熟练的通过数据分析获得有价值的商业洞察。而国内金融机构经过多年信息化建设,也通过“先建设数据仓库,后人力开发报表”的传统解决方案积累了大量的数据,但是其产生的有限分析结果却极其有限。如银行最关注的业务问题比如实施欺诈检测和预防、系统性风险分析、盘中流动性分析等,业务部门在内部讨论的时候,部门领导和银行CIO无法识别这些活动的大数据性质,也无法快速准确地找出自己需要的数据。
两个环节前者是技术人员主导,后者是业务人员主导,技术人员很有可能不知道“哪些数据有用”,而业务人员则不清楚“有用的数据在哪”。在数据运营的时候,两方面部门之间相互合作,难免会出现响应慢,灵活差,共享难等问题。
具体总结有三方面问题:
大数据全民化,首先也要有全民的数据。由于金融行业的特殊性,对顾客隐私的保护更为重要,采集数据的难度及存在的问题也更为繁琐。
从现实情况看,金融数据收集面临着四大问题。
1.金融业务中存在大量非结构化的信息。金融行业的数据分析历史悠久、经验丰富,正因如此,积累了大量的以纸质化存在的业务数据,如合同文本等信息。此外,还存在大量的企业软信息,因为不符合商业银行的IT系统要求,客户经理无法将这些信息录入系统,包括业务谈判的过程、客户在金融门店的交互行为等。如何将这些信息转为数据并且存储,是金融数据采集阶段面临的不小的挑战。
2.金融数据分散度较广。以商业银行为例,大量的数据会分散在总行、分行、二级分行等不同的层级中,并不完全集中在总行层面,更不谈不同机构之间的数据共享。
3.信息孤岛现象严重。首先各大金融机构不会自愿将自己掌握数据共享;其次大部分P2P网贷、网络小贷、消费分期平台并没有规范的数据库系统;再次随着互联网的发达,更多的互联网企业也加入了金融业务。随着金融市场的愈加复杂化,金融数据几何倍增加,但是相互之间不连通,对于每一家金融机构而言,他们拥有的仍然是不全面的、结构简单的“小数据”。
4.数据采集标准制定困难。以个人征信业务为例,8家试点机构各自为政,在数据账户标准、数据编码标准、数据接口标准、数据分级标准、数据安全标准等方面都存在较大不一致。
不仅金融行业,如今各行业都开始了大数据平台的建设,希望利用大数据的能力,来实现数字化转型。大数据平台的建设本质上还是数据的建设,传统数据平台碰到的所有问题大数据平台都有可能碰到,金融行业遇到的问题,其他行业也可能遇到。
1.数据不可知。机构内用户不知道大数据平台中有哪些数据,也不知道这些数据和业务的关系是什么,虽然意识到了大数据的重要性,但平台中有没有能解决自己所面临业务问题的关键数据,该到哪里寻找这些数据?
2.数据不可控。数据不可控是从传统数据平台开始就一直存在的问题,在大数据时代表现得更为明显。没有统一的数据标准导致数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,没有能有效管理整个大数据平台的管理流程。
3.数据不可取。用户即使知道自己业务所需要的是哪些数据,也不能便捷自助地拿到数据,相反,获取数据需要很长的开发过程,导致业务分析的需求难以被快速满足,而在大数据时代,尤其是金融行业,业务追求的是快速分析,极速响应,这样漫长的需求响应时间是难以满足行业需求的。
4.数据不可联。大数据时代,企业拥有着海量数据,但企业数据知识之间的关联还比较弱,没有把数据和知识体系关联起来,企业员工难以做到数据与知识之间的快速转换,不能对数据进行自助地探索和挖掘,数据的深层价值难以体现。
金融行业大数据挖掘即大数据应用的两个核心目的,一是风险控制,二是精准营销。
1.风险不易控制。2017年8月3日,中国平安集团董事长马明哲在人民日报刊发文章《金融的核心是风险管控》,风险识别与控制既是金融业运营的核心,也是大数据在国内外金融领域最主要的应用部分。
金融风险大体可分为市场风险、法律风险、信用风险与操作风险。
以时下最热门的互联网金融为例,激烈的行业竞争促使一些互联网消费金融平台在客户还款意愿评估及反欺诈模型设计上较为粗放、客户身份识别及信用共享机制还不够完善的情况下,盲目扩大业务规模,导致识别和有效定位目标客群的难度加大,客户画像的精准性降低。
并且传统的信用评分模型主要使用金融领域的历史借贷数据来预测和判断借款人的违约风险,所以传统模型无法给过去没有发生过借贷交易的人进行信用评分,造成“无记录”的借款人风险无法评估。
操作风险指因为科技的迅速发展推动了技术更新的速度,导致原先技术过时,在这种新旧技术交替的过程中容易出现技术摩擦风险。有一些不法分子可能利用新技术中存在的业务缺陷而展开非法诈骗以及盗取等活动,极大地影响了金融机构的运行与发展的安全性。
2.营销效率低。精准营销真正要做的就是了解客户:客户到底是什么样的?客户是谁?客户需要什么产品?客户有什么产品偏好?客户喜欢哪些产品组合……还有就是如何进行有效营销、如何提升客户价值、保持客户忠诚度等。都需要海量的相关数据进行分析挖掘。
银行等传统金融机构都是以坐销为主,无动力也无方式收集并挖掘如此多的数据。每年金融机构的数据增量中有百分之七十到八十的数据属于非结构化数据,传统IT架构已无法深入挖掘该海量数据的数据价值,造成了严重的浪费。金融企业的分析人员不满足于只看到数据呈现,还希望对数据进行聚类、分类的算法来挖掘数据价值。通过复杂的模型,考量多个指标来判断,哪些属于即将流失的客户,哪些是高价值客户。
随着人工智能技术的发展,自助式服务逐渐兴起。就大数据分析流程而言,数据采集、数据准备、数据分析等步骤都可以低技术门槛的自助式操作来进行。目前市面上出现了“全自助”的数据分析平台——自助式BI,可以让业务用户完成自动数据抽取、自主数据分析、自助数据挖掘、自助数据可视化,甚至可以通过自然语言完成数据探索。
将金融行业杂乱无章的数据变成简明扼要的分析结果及预测,除了在前段设计更优化的UI布局逻辑,在后端搭建数据治理合作平台同样重要。其中的所有流程都需要技术人员与业务人员打破隔阂、亲密无间、通力合作。
可以将其统称为自助式数据分析,其不仅能够胜任大量数据的快速处理,还有足够的智能化,在软件的设计上偏向人性化,其中有一些关键性技术:
我国最早意识到数据治理重要性的行业就是金融行业。金融行业一直非常重视数据平台的建设,经过几代数据平台的验证,发现数据治理是平台建设的主要限制因素。可以说,在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。如何利用大数据平台优化金融产品、流程和服务?如何利用大数据更科学地制定政策、甄别风险?所有这一切,都离不开大数据治理。
具体来讲,大数据治理是企业数据可获得性、可用性、完整性和安全性的部署和全面管理。目前主流的研究方向落实于组织层面,深远来看,大数据既然已经作为我国国家的战略资源,那么同样,大数据的治理体系,不仅涉及到组织,同样也涉及到行业,更涉及到国家。
国家宏观层面本文暂不涉及,就金融业而言,从行业及企业层面还是有很多需要不断完善的地方。
1.金融行业统一制定数据管理制度。在国家相关管理框架下,为了保证金融行业如银行、证券、互联网金融机构等各个主体共同利益和平稳快速发展,需要规范行业管理,相关的组织机构(如银监会)制订行业数据管理制度,制订行业内部数据共享与开放的规则,构建数据共享交换平台。
2.升级金融机构数据管控理念。第一,资产地位的确定。组织层面需要企业通过规定将数据规定为核心资产。第二,面向用户的转变。传统的数据平台阶段,数据治理面向用户仅为数据部门,现在,用户范围已经扩展到全企业。需要成为面向全企业用户的工作环境,以全企业用户为中心,从给用户提供服务的角度,管理好数据的同时为用户提供自助获得大数据的能力,帮助企业完成数字化转型。
3.自服务大数据治理管理阶段划分。第一阶段:全面梳理企业信息,自助化构建企业数据资产库,本阶段主要是对企业大数据的梳理,从而全面掌握企业大数据的情况。第二阶段:建立管理流程,落地数据标准,提升数据质量,从业务的角度梳理企业数据质量问题,形成质量控制能力,形成核心数据标准,并抓标准落地。第三阶段:直接为用户提供价值,向用户提供数据微服务,这个阶段的目标是向用户提供自助化的数据服务,使用户能够自助地获取和使用数据,并且在用户的使用过程中再反过去进一步落地标准、控制质量。第四阶段:智能化企业知识图谱,为全企业提供数据价值,最后一个阶段是将数据沉淀成为知识,形成企业的知识图谱,提供从“关系”的角度去分析问题的能力,从而使数据治理成为整个企业的数据工作环境,强化企业数据与知识体系之间的关联,加快企业员工数据与知识之间的转换效率,让数据的深层价值得以体现。
通过这四个阶段的建设,使数据治理平台由数据部门的工作环境,转变成为全金融企业及行业的数据工作环境,以用户为中心,让用户能够直接使用大数据,并通过用户的使用来管理数据,持续优化数据质量,在达到治理数据目标的同时,也最大限度发挥了数据的价值。
需要收集的数据有来自银行内部的和外部的、静态的和动态的各种金融数据。内部数据来源是互联网金融企业内部数据库,较易得到,可以较好地对客户进行细分、了解金融产品组合特点,预测金融产品发展趋势,辅助进行金融决策。但随着互联网的技术与商业模式成熟,网络支付与互联网金融成为人们日常生活的主流,从整个行业的发展角度来讲,外部金融数据也异常重要。
外部金融数据的来源有多种形式:一是通过与数据拥有方签署合作协议来获取所需金融数据;二是购买金融数据库等方式来获取;三是通过数据采集工具来自行采集获取。
所以在制定一套切实可行的数据采集流程规范以外,还需使用各类金融数据采集工具,如动态采集SDK、日志提取分析工具、外部数据导入工具等。
1.流程优化。该流程主要针对内部金融数据。以客户经理为信息收集的前台,对各层级客户经理在以前的信息收集范围上进行了无限扩大,以前不能上传系统,无法进行量化的非结构化数据,通过大数据手段也可直接上传至银行大数据仓库。
第一阶段,银行客户经理通过收集客户信息,包括结构化信息与非机构化信息。第二阶段,通过银行数据端口上传至行内大数据仓库。第三阶段,数据中心运用大数据工具对数据进行挖掘,得到用于指导工作的信息,为银行管理层出正确的决策与经营方案。
2.数据采集工具。爬虫软件是一种数据动态采集工具,其按照一定的规则,自动地抓取万维网信息的程序或者脚本。主要采集外部金融数据,如包括股票、证券、债券、期货等理财数据,P2P数据,众筹数据,电子商务数据,微博、微信、贴吧等社交平台互联网金融评论数据,新闻财经数据等。
部分金融公司设置了岗位数据采集员,即从事国内外公司、基金、债券、外汇、期货、宏观、行业等各类金融相关数据的收集、整理、录入、挖掘工作。提供全球准确、及时的金融数据。该岗位在银行等机构设置不多,但是在证券、互联网金融等机构较常见。
数据准备是大数据分析流程中非常重要的一环,其结果是数据分析和挖掘的基础。在正式进入数据分析之前,都需要对数据进行数据抽取、数据清洗、数据融合等数据准备工作。
大数据的3V特性在金融行业尤为突出,数量级大,多样性强,时效性高,所以对数据准备工作的专业性要求更高。有效的数据准备能提高数据分析的效率和准确性,更利于决策,同时也有利于梳理各业务规则的实现逻辑,便于后续搭建架构,部署实施,分析处理等工作。
图2 数据准备逻辑图
1.数据准备的作用。数据准备工作主要内容包括:抽样纠偏、抽样过度、降维、清楚变量、处理分类自变量、处理时间变量、处理异常值、极值、缺失值、数据分箱、数据整合等等。
根据数据准备的逻辑图可以看出,数据准备的最大作用是将清洁后的数据通过业务理解后建模,从而应用在业务领域进行数据分析及挖掘。
一个大数据分析系统的工作效率及预测准确度取决于算法模型的优化程度,也受数据质量的制约。恰巧这两个步骤都位于数据准备阶段。
2.自助式数据准备。自助式数据准备,即为自助式BI的一个环节。同样是面向业务人员,在不需要业务人员较高IT技能要求时,也不需要公司IT人员的其他支持。只要IT人员将数据准备好,业务人员就可以自由地、自助地通过可视化的ETL过程,实现数据的清洗、转换,最终生成所需要的数据,然后进行各种数据分析,制作各类报表,进行相应决策。
2017年,全球最具权威的IT研究与顾问咨询公司Gartner发布的数据管理技术成熟度曲线,评估以及预测了数据管理技术的成熟度及生命周期,帮助各企业数据分析高管人员分析并构建企业内部数据管理生态系统。
图3 2017年数据管理技术成熟度曲线③
其中,自助式数据准备位于期望膨胀期的最高峰,且预测该技术在2-5年内达到成熟状态。可见该技术必将在短时间内成为大数据分析领域的热点。
我国金融行业800万从业者,绝大多数是业务人员,面对纷杂的数据,为了准确、及时的得出结论、做出决策,每一位业务人员亲自上阵,低响应时间,精准的从系统中抽取一手数据,可以更快的抢占市场,规避风险。
自助式BI,智能化不可少,这是大数据工具未来发展的一个重要指标,面对海量的数据,除了需要高效的处理(前文已述),通过挖掘出数据深层次的价值,可以得出精准的响应也是科学家们不断研究的话题。
1.用户画像。用户画像可以帮助金融机构分析客户,提高经营效率,优化运营模式,有效规避风险。个人客户画像包括人口统计学特征数据、消费能力数据、风险偏好数据等。从商业角度出发,用户画像目的有两个。一个是在业务场景寻找目标客户,一个是参考用户画像的信息,为用户设计产品或开展营销活动。
各金融机构已经将用户画像作为了数据分析的一个主要应用。但是由于数据库中很多客户的信息并不够全面,数据挖掘的技术积累也不够,所以对用户的画像只能停留在表面。
如果想全面分析这些客户群体,除了引入更为丰富的数据源,如:上网浏览痕迹数据、运营商数据、社交行为等数据外,用户画像绘制的流程同样需要更新:①相关数据的整理与准备;②找到同业务场景的强相关数据;③对数据进行聚类和标签化;④依据业务需求引入外部数据;⑤按照需求进行筛选客户。
2.风险控制。金融的本质是将风险偏好不同的资金供给方和风险不同的资金需求方匹配起来。而大数据风控看两个方面的能力,一个是数据积累,另一个就是技术能力。分析可知,大数据风控模型的基本流程来主要分为四个部分:数据收集、数据建模、构建数据画像和风险定价。
根据数据来源不同,可分为场景内数据,平台自身数据与外部数据。场景内数据为顾客在办理业务时所提供的数据,平台自身数据取决于金融机构自身的积累,大多数数据系统不够健全的机构就要更多寻求外部数据了,第三方如反欺诈、信用评估、数据查询、数据银行等平台。数据模型主要依据于统计学聚类、分类、离群点检测、Logistic回归等方法。建立出企业或个人画像,然后可进行信用评级。
针对于各类风险建立风控策略体系。如信用风险在流程上分为贷前、贷中、贷后。贷前要信息核实、高危人群拦截和批量识别;贷中进行实时交易监控、额度动态升降、盗用风险识别、欺诈风险识别;贷后也需结合人群特征、时间等因素进行风险回顾。
繁杂难懂的软件操作界面,只有经过专业训练的IT人员可以掌握;眼花缭乱的相关数据陈列,只有常年与之共处的数据分析人员可以读懂。
自助式BI工具,无论智能水平再高,人性化也大多得通过可视化来展现。从自助式数据准备,到自助式数据分析的操作界面可视化,直至结论展示的数据可视化,都必须将可视化融入其中。
1.界面可视化。目的是改变IT人员和业务人员的需求响应模式,将数据开放给业务人员,通过操作自己可以理解的、友好的可视化界面,自己在前段处理、加工、分析数据。
大大提升了分析效率的同时,减轻了IT部门的支持压力,以致可以投入更多的研发资源在建模和数据挖掘的工作中。
2.数据可视化。数据可视化技术可以将所有数据的特性通过图的方式呈现出来,数据的图形化呈现可以帮助我们更有效地了解和深入理解数据。
数据可视化最早可起源于1960年计算机图形学,发展至今,运用范围更为广泛,形式更为多样。为了更深入地理解数据,除了传统的柱形图、折线图、饼图、条形图、面积图和散点图等呈现一些简单的信息的原始统计图表。而对于复杂的或较大规模的非结构化数据,则不能完美地呈现出来。
借助各种图像处理技术,网络视频技术,3D建模技术,AR/VR技术等,可将复杂的或较大规模的非结构化数据以生动形象的图表、图形、地图、仪表板、标签云图等方式对数据信息进行高效地、直观地、动态演示且多维立体化地呈现给用户,并可实时了解数据变化的情况。这种方式可以简化目标对象的复杂度,通过将对象可视化,增强研究分析过程中的视觉效果,更有利于各级别客户经理及管理人员对市场及顾客的思考。
金融行业作为一个数据驱动的行业,数据一直是金融信息化的主题词。随着智能化、人性化、可视化成为大数据科学发展的主流方向,金融行业对自助式BI的熟练运用使得其在大数据应用领域带头领跑,也必将带动整个社会进入对大数据应用的探索热潮。
自助式BI正张开双臂迎接全民大数据的到来。
注释
①数据来源:SINIA,NextGen Storage,BDG 等,2015 年。
②CCF大数据专家委员会:2017年中国大数据发展趋势预测及解读https://wenku.baidu.com/view/91dffc0f59fb770bf78a6529647d 7284b7337ed.html。
③资料来源:Gartner(2017年9月)https://blog.csdn.net/dev_csdn/article/details/78296977?locationNum=4&fps=1。
④资料来源:Gartner(2017年9月)https://blog.csdn.net/dev_csdn/article/details/78296977?locationNum=4&fps=1。