赵 博
中国信息通信研究院 北京 100191
近年来,摄像头、可穿戴设备、GPS等传感器收集着大量音频、视频、图像等各类结构化和非结构化数据,随着电子商务、社交、综合信息网站等互联网应用的发展,数据基于网络大量产生并存储,信息量爆发式增长。据IDC的研究显示,全球数据总量年复合增长率50%。这种增长速度意味着未来两年,全球新增的数据量将超过人类有史以来积累的数据总和。IDC预测,到2020年,全球数据总量将达到40ZB(400亿TB),代表地球上每个人平均会产生5TB的数据[1]。
人类正从IT时代走向DT时代,数据是数字化时代的“石油”,大数据就是数字化时代的“冶炼工艺”。通过数据的收集、存储、分析和可视化技术,解决大数据海量、高速、多变、低密度的问题,使数据从散乱的信息,变成知识和智慧,帮助组织解决发展中遇到的实际问题。
麦肯锡公司早在2011年就已经预见到大数据时代的到来,并提出:“各个行业和领域都已经被数据渗透了,目前数据已成为非常重要的生产因素。对于大数据的处理和挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来”[2]。人们已经意识到,通过数据给社会创造价值的能力和用数据盈利的能力将成为所有组织的核心竞争力。
纵观金融行业的发展历史,每次都是科技的创新推动着金融行业的发展与变革。电报技术、互联网技术的推出都对金融机构的服务模式和风控方式产生了重大影响。最近几年,各国政府都在不断加大对科技创新的重视程度。科技创新的速度不断加快,并逐步与金融业务深度融合,以大数据、云计算、人工智能、区块链等为代表的新技术已经逐渐成为金融发展的新动力。
普华永道调研显示,在所有金融科技中,大数据是金融行业投资和应用的首选[3]。首先,从内在需求看,在互联网金融模式的冲击下,整个金融业的运作模式正在重构,行业竞争日益激烈,基于数据的精细化运营需求日益迫切。其次,从应用基础上看,金融行业拥有海量数据资源。金融业是最有意愿进行信息化投入的行业之一,经过多年的信息沉淀,各系统内积累了大量高价值的数据,拥有用于数据分析的基础资源。最后,从产品供应上看,大数据产品已经越来越成熟,技术供给越来越丰富,部署成本直线下降。此外,部分先行者为大数据部署提供了宝贵的应用案例,使得金融大数据解决方案越趋完善。
大数据分析可以帮助金融机构实现以事实为中心的经营方法。大数据可以帮助金融机构,以数据为基础,逐步从静态的现象分析和预测,过渡到针对场景提供动态化的决策建议,从而更加精准地对市场变化做出反应。
金融机构大量使用传统数据库,成本较高,而且对于非结构化数据的存储分析能力不足。通过大数据底层平台建设,可以在部分场景替换传统数据库,并实现文字、图片和视频等更加多元化数据的存储分析,有效提升金融结构数据资产管理能力。
在互联网金融模式的冲击下,整个金融业的运作模式面临重构,行业竞争日益激烈,基于数据的精细化运营需求和产品创新需求日益迫切。大数据可以帮助金融机构更好的识别客户需求,打造良好客户体验,提升综合竞争力。
大数据技术可以帮助金融机构将与客户有关的数据信息进行全量汇聚分析,识别可疑信息和违规操作,强化对于风险的预判和防控能力,在使用更少的风控人员的条件下,带来更加高效可靠的风控管理[4]。
金融云具备的快速交付、高扩展、低运维成本等特性,能够在充分考虑金融机构对信息安全、监管合规、数据隔离和中立性等要求的情况下,为机构处理突发业务需求、部署业务快速上线、实现业务创新改革提供有力支持;因此,金融业一直较为积极地推动云计算的落地。
目前,大型金融机构纷纷开启了基于云计算的信息系统架构转型之路,逐步将业务向云端迁移。大型金融机构普遍青睐混合云架构,将非核心应用迁移到公有云上,再将部分核心应用迁移到私有云平台上,关键业务上继续使用传统的架构。新兴金融机构如蚂蚁金服、微众银行等在诞生之初就把所有的IT系统构建在云上。
金融机构的业务要求大数据平台具有实时计算的能力。目前,金融机构最常使用的大数据应用场景如精准营销、实时风控、交易预警和反欺诈等业务都需要实时计算的支撑。
以精准营销和交易预警为例,精准营销要求在客户短暂的访问与咨询时间内发现客户的投资倾向,推荐适合的产品。交易预警场景要求大数据平台在秒级完成从事件发生到感知变化到输出计算结果的整个过程,识别出客户行为的异常,并做出交易预警;因此,流式计算框架的实时计算大数据平台目前逐渐在金融机构得到应用,以满足低延时的复杂应用场景需求。
客户对服务体验的要求越来越高,需要金融机构随时随地都能提供服务,产品设计要更易用、更直观,响应更快速。金融机构提供产品和服务的重点,也从简单的标准化,转变为个性化。
大数据能够在产品设计和客户服务两方面提高创新能力。在产品设计上,大数据能够更好的利用现有数据,为客户进行全面的客户画像,识别客户的需求。基于精准的客户认知,金融机构可以细分客户的需求,从而针对性的设计出符合客户个性化需求的、场景化的产品。在客户服务上,大数据可以提高产品的自动化程度,从而扩大产品和服务的范围、拓宽客户基础,使得金融机构得以覆盖以前服务不到的长尾客户。此外,产品自动化还能够快速的对客户需求做出反应,提高客户黏性。
金融的核心就是风控,风控以数据为导向。金融机构的风控水平直接影响坏账率、营收和利润。经过长期的数字化改造,金融机构积累了大量的信息系统,通过这些系统积累了海量的数据,但是这些数据是分散在各个系统中,不能实现集中分析。金融机构已经意识到需要有效地管理其日益重要的数据资产,正在主动思考和实践数据资产治理的方法。目前,金融机构正在加大在数据治理项目中的投入,结合大数据平台建设项目,构建企业内统一的数据池,实现数据的“穿透式”管理。大数据时代,数据治理是金融机构需要深入思考的命题,有效的数据资产管控,可以使数据资产成为金融机构的核心竞争力。
在国内,金融机构对大数据的认知已经从探索阶段进入到了认同阶段。普华永道研究显示,83%的中国金融机构表示希望在大数据上进行投资[3]。金融行业对大数据的需求属于业务驱动型。其迫切希望应用大数据技术使得营销更加精准、风险识别更加准确、经营决策更具针对性、产品更具吸引力,从而降低企业经营成本,提高企业利润。随着更多金融机构基于大数据获得丰厚的回报,将进一步打消它们的顾虑,加速大数据的普及。
数据越关联越有价值,越开放越有价值。随着各国政府和企业逐渐认识到数据共享带来的社会效益和商业价值,全球已经掀起一股数据开放的热潮。大数据的发展需要所有组织和个人的共同协作,将个人私有、企业自有、政府自有的数据进行整合,把私有大数据变为公共大数据。
目前,美欧等发达国家和地区的政府都在数据共享上做出了表率,开放大量的公共事业数据。中国政府也着力推动数据开放。一方面,国家带头着力推动政府数据公开。国务院《促进大数据发展行动纲要》提出:到2018年,中央政府层面实现金税、金关、金财、金审、金盾、金宏、金保、金土、金农、金水、金质等信息系统通过统一平台进行数据共享和交换。另一方面,国家还通过推动建设各类大数据服务交易平台,为数据使用者提供更丰富的数据来源[5]。在发改委发布的《国家发展改革委办公厅关于请组织申报大数据领域创新能力建设专项的通知》中明确提到要建设大数据流通与交易平台,用以支撑数据共享[6]。
2015年以前,金融机构主要基于金融行业自有信息进行分析。金融机构主要基于自身静态数据,通过人工对内进行经营分析、产品设计、营销设计等,对外进行客户分析和行情分析。从2016年开始,大数据技术逐渐成熟,数据采集技术快速发展,通过图像识别、语音识别、语义理解等技术实现外部海量高价值数据收集,包括政府公开数据、企业官网数据、社交数据。金融机构得以通过客户动态数据的获取从而更深入的了解客户。
未来,数据流通的市场会更健全。金融机构将可以方便地获取电信、电商、医疗、出行、教育等其他行业的数据,一方面会有力的促进金融数据和其他行业数据融合,使得金融机构的营销和风控模型更精准。另一方面,跨行业数据融合会催生出跨行业的应用,使金融行业得以设计出更多的基于场景的金融产品,与其他行业进行更深入的融合。
新兴技术高速发展,大数据和人工智能技术正在快速地融合。大数据技术强调对数据的采集、存储、处理和展现。人工智能可以在各个阶段助力大数据发挥出更大的作用。
在采集上,图像识别、语音识别、语义理解等人工智能认知技术实现海量非结构化数据采集。在数据的储存和管理上,人工智能技术可以实现自动为数据打标签,自动将数据归类。在数据处理上,人工智能深度学习、机器学习、知识图谱技术可以提高算法模型的数据处理的效率和准确度。数据展现上,智能可视化大屏技术可以实现数据实时监控和可视化呈现。大数据与人工智能正在进行多维度的深度融合,拓展了金融大数据的应用价值和应用场景。
大数据的应用为数据安全带来新的风险。数据具有高价值、无限复制、可流动等特性,这些特性为数据安全管理带来了新的挑战。
对金融机构来说,网络恶意攻击成倍增长,组织数据被窃的事件层出不穷。这对金融机构的数据安全管理能力提出了更高的要求。大数据使得金融机构内海量的高价值数据得到集中,并使数据实现高速存取。但是,如果出现信息泄露可能一次性泄露组织内近乎全部的数据资产。数据泄露后还可能急速扩散,甚至出现更加严重的数据篡改和智能欺诈的情况。
对个人来说,金融信息的泄露会暴露出大量的个人基本信息和消费信息等,大数据技术可以便捷地大批量收集这些信息并进行画像,这使得公民更容易受到欺诈,造成经济损失。
金融行业的数据资产管理仍存在数据质量不足、数据获取方式单一、数据系统分散等一系列问题。一是金融数据质量不足,主要体现为数据缺失、数据重复、数据错误和数据格式不统一等多个方面。二是金融行业数据来源相对单一,对于外部数据的引入和应用仍需加强。三是金融行业的数据标准化程度低,分散在多个数据系统中,现有的数据采集和应用分析能力难以满足当前大规模的数据分析要求,数据应用需求的响应速度仍不足。
金融机构原有的数据系统架构相对复杂,涉及的系统平台和供应商相对较多,实现大数据应用的技术改造难度较大,而且系统改造的同时必须保障业务系统的安全可靠运行。同时,金融行业的大数据分析应用模型仍处于探索阶段,成熟案例和解决方案仍相对较少,金融机构应用大数据需要投入大量的时间和成本进行调研和试错,一定程度上制约了金融机构大数据应用的积极性。而且,目前的应用实践反映出大数据分析的误判率还比较高,机器判断后的结果仍需要人工核查,资源利用效率和客户体验均有待提升。
当前,金融大数据的相关标准仍处于探索期,金融大数据缺乏统一的存储管理标准和互通共享平台,涉及金融行业大数据的安全规范还存在较多空白。相对于其他行业而言,金融大数据涉及更多的用户个人隐私,在用户数据安全和信息保护方面要求更加严格。随着大数据在多个金融行业细分领域的价值应用,在缺乏行业统一安全标准和规范的情况下,单纯依靠金融机构自身管控,会带来较大的安全风险。
在发展规划方面,金融大数据发展的顶层设计仍需强化。一方面,金融机构间的数据壁垒仍较为明显,数据应用仍是各自为战,缺乏有效的整合协同,跨领域和跨企业的数据应用相对较少。另一方面,金融行业数据应用缺乏整体性规划,当前仍存在较多分散性、临时性和应急性的数据应用,数据资产的应用价值没有得到充分发挥,业务支撑作用仍待加强,迫切需要通过行业整体性的产业规划和扶持政策,明确发展重点,加强方向引导。
建议针对产业发展需求和政策空白领域,出台促进金融行业大数据发展应用的指导性政策意见,明确产业发展的目标、方向、路径和要求,完善产业发展的配套保障体系和发展能力评估建设体系。指导和支持金融大数据在产业标准、安全和商业化等多个领域的相关研究。逐步加快发布和形成金融大数据产业应用标准体系和行业规范,以标准促进产业合作,创造更加良好的产业发展环境,增强产业界发展积极性。
针对金融机构数据分散和隔离的问题,建议监管机构牵头,分阶段推进金融行业安全可控的数据开放共享。首先从制定统一数据目录,明确最低开放标准着手,逐步鼓励金融机构创新合作模式,搭建金融行业统一数据平台,克服跨组织数据流通的障碍。未来可鼓励金融机构探索混合所有制,建立独立运营主体,负责金融行业大数据的统一管理和运营,开展跨行业、跨领域应用合作,促进金融大数据在社会经济各领域价值的实现。
建议组织金融行业的各方主体,协同制定统一的金融行业大数据交易规范,逐步明确交易各方的数据安全责任,保障金融大数据市场的健康以及有序发展;制定明确的数据安全使用标准,对金融大数据的使用权限、使用范围、使用方式以及安全机制等,应进行严格的规范化、标准化管理;建立有效的投诉机制和惩罚机制,实施全程全网的数据安全使用管控与源头追诉。
积极发挥以行业组织的平台作用,打造具有品牌影响力的金融大数据交流分享平台,建立金融大数据行业的长效沟通机制,促进金融大数据应用成果的经验分享和互动交流。同时,积极推动金融行业和电信、电商、旅游等跨行业的沟通和合作,通过专题活动宣传和推广,展示金融大数据在各个行业领域的应用成果,增加金融大数据应用的社会关注度。
[1] 国际数据公司.The digital universe of opportunities: China country brief[R].2014
[2] 麦肯锡.Big data:The next frontier for innovation,competition, and productivity[R].2011
[3] 普华永道.2017年全球金融科技调查中国概要[R].2017
[4] 韩涵,何阳,赵博.中国金融科技前沿技术发展趋势及应用场景研究[R].中国信息通信研究院,2018
[5] 国务院.关于促进大数据发展的行动纲要[EB/OL].[2018-03-25].http://www.xinhuanet.com/info/2015-09/17/C_134632375.htm
[6] 国家发展改革委.国家发展改革委办公厅关于请组织申报大数据领域创新能力建设专项的通知[EB/OL].[2018-03-25].http://www.ndrc.gov.cn/zcfb/zcfbtz/201608/t20160830-816375.html