于司吉
互联网金融的大数据分析处理研究
摘要:大数据采集与存储是大数据研究领域的关键技术,也是大数据分析挖掘的基础。随着移动互联网、新型智能终端、新媒体、物联网等技术和应用的快速发展,传统的数据采集与存储已经不能满足海量、异构、实施数据分析的需求,新的产品和技术方案应运而生,并在实践中不断地完善和发展。本文将围绕大数据采集、预处理、存储与管理等方面展开讨论,重点探讨数据采集的策略、原则和技术。其次,结合数据预处理的研究,探讨数据清理、集成、变换和规约的过程;最后,分析数据的存储和管理技术、产品和解决方案,为互联网金融领域的大数据分析奠定基础。
关键词:互联网 金融 大数据 分析 处理 研究
一、大数据应用概述
(一)大数据应简介
随着大数据技术的快速发展,大数据应用已经从探索阶段进入了市场化应用层面。互联网行业作为大数据的主要生产者,已成为大数据应用的重要领域之一。互联网企业都在用大数据优化自身的业务运营,在大数据开放和合作方面,形成线上线下数据的协同,并从中拓展新的商业模式。大数据除了应用在互联网行业之外,随着互联网、通信等技术不断发展,在其他领域也得到了重视和应用。下面以智能工业、医疗卫生、智慧交通、公共安全等方面为例进行分析。
智能工业,在制造业智能化过程中,定制数据达到一定的数量级后,医疗卫生,能够建立疾病诊断和市场需求预测模改进临床实验统计和分析方法,对海量的临床实验数据进行挖掘分析和疾病分型研究,以及基于基因數据分析的个性化诊疗研究等。一些医疗软件厂商也在挖掘、分析医疗大数据的价值,实现其市场竞争核心从卖产品到卖服务的转移,尤其是数据挖掘分析服务。智慧交通,大数据技术在智慧交通中的应用主要通过在城市中部署监控设施.
(二)互联网金融大数据应用研究
大数据应用是金融业的主流方向,已经开展了基于互联网金融的新型业务拓展,积极发挥互联网金融应用。傅志华先生曾在他的“大数据在金融行业的应用”中,针对对大数据的应用进行了分析,具体分析如下。
1.保险大数据应用,在如图1所示。
客户细分和精细化营销:利用风险偏好、客户职业、消费方式等数据的分析对客户进行细分,以实现不同客户之间的差异化服务;利用大数据整合客户线上线下的行为数据,挖掘潜在客户,细化销售重点,预防客户流失;在网络营销中,精细化运营:通过对自有数据和客户的社交数据分析,可以解决现有的风险问题。
2.证券行业大数据应用,进而指导投资者投资。客户关系管理:通过分析客户的账户状态、账户价值、如图2所示。
综上所述,但大数据在金融领域的应用深度和广度尚具有较大的扩展空间,大数据普惠互联网金融,数据作为金融的命门,不断驱使金融行业发展壮大。互联网金融更是如此,它对数据的数量、质量都有很高的要求,而大数据技术不仅可以提高数据的质量和处理能力,更为其创造了新的商业机会和价值。因此,大数据被视为互联网金融快速发展的重要驱动之一,在互联网金融领域中具有非常重要的作用。
二、大数据采集与存储
(一)大数据采集
传统的数据采集又称数据获取,是指从传感器和其他待测设备中自动采集非电量或者电量信号。在互联网和大数据快速发展的今天,数据采集的内涵、范围和形式已经发生了重要的变化。在大数据采集研究领域,数据采集的策略、采集原则及采集技术是研究的重点对象,数据采集策略,传统数据采集的来源相对固定、数据类型较为单一,随着企业信息化和大数据时代的到来,金融领域的数据采集正发生着本质的改变,数据采集已经从简单的业务电子化,逐步向管理数据化和数据化企业的方向发展。业务电子化主要实现对于手工单证的电子化存储,并实现流程的电子化,确保业务的过程被真实记录。在管理数据化阶段,数据采集主要实现了企业内部信息、客户信息、供应链上下游信息等全面采集,并通过数据集市、数据仓库等平台的建立,实现数据的整合。数据化企业实现了数据采集向广度和深度两个方向发展:在广度方面,企业不仅对每个流程的执行结果进行采集,也对流程中每个节点执行的过程信息进行采集。
对不同数据的采集层次分析可知,业务电子化主要关注数据采集的真实性和数据的质量、管理数据化关注数据采集的全面性、数据化企业阶段关注数据的价值。所以在互联网金融领域,如何针对不同的数据采集层次,结合企业本身的战略和业务目标,以及大数据采集对象、范围、方法和技术的特点,制定大数据的采集策略,是数据采集研究的基础。当前的数据采集策略一般有两类。
(二)以数据为中心的采集策略
该策略的目标是尽量多地采集数据,整合到统一平台后分析使用。该策略一般需要两个条件:较大的投入成本和较强的数据专家团队。内外部的数据采集、数据存储和整合都需要较大的信息化基础设施投入,快速有效地甄别数据并发现数据价值是可持续发展的有效支撑。
(三)以业务为导向的采集策略
当业务或管理提出数据需求时,再进行数据采集、分析和处理。该策略能够有效避免投入成本过大的问题,但完全以需求为导向的数据采集,往往无法发现大数据的真正价值,在目标既定的情况下,数据的采集、分析都容易出现思维限制。因此,在互联网金融领域,企业可以根据自身的定位和发展情况,制定不同的数据采集策略。对于完全数字化的互联网金融企业,建议采用第一种采集策略;对于尚处于数字化过程中、数据能力成熟度较低的企业,建议采用第二种采集策略。
(四)大数据的预处理
现实世界中,一方面,数据常常因为“脏数据”、“杂数据”等原因,造成数据的不完整、不一致等问题,从而为数据的决策和预测提供支撑。因此,大数据的预处理作为大数据分析挖掘的基础,具有十分重要的意义和作用。
三、大数据的存储与管理
(一)数据存储的问题和挑战
传统的数据存储解决方案能提供数据的可靠性和安全性保障,但是大数据时代,面对海量的数据及其各种不同的需求,传统的解决方案日益面临越来越多的问题,尤其当数据量呈现出指数级增长的情况下,对存储空间的扩容、存储计算能力等提出了更高的要求。如何在传统存储解决方案的基础上,研究提出多级存储技术来不断适应大数据存储管理或研究提出全新的存储解决方案,是大数据存储与管理需要解决的问题。本节围绕大数据的存储技术展开,首先介绍大数据存储的问题和挑战,然后介绍三种典型的大数据存储方案分布式文件系统、分布式数据库和云存储。
随着大数据及其应用的爆发性增长,大数据已经衍生出了自己独特的技术方案,直接推动了存储、网络及计算技术的发展。数据存储是大数据分析和处理的基础。目前,数据存储的问题和挑战主要表现在数据存储系统性能、数据存储的扩容、数据存储模式和数据兼容集成等方面。(1)数据存储系统性能。数据存储系统的性能主要从准确性、可用性、可靠性和可扩展性这几个方面考虑。对于大数据的存储来说,其准确性、可用性和可靠性主要通过较为简单的多副本(即冗余备份)方式实现。可扩性关注的是容量规划,同时满足现有的存储空间和带宽的需求,更重要的是考虑到系统扩张后的容量升级。
(二)数据存储的扩容
数据存储的扩容一般通过纵向扩容和横向扩容两种方式实现。纵向扩容是指当存储容量不够或者存储磁盘带宽不够时,通过添加磁盘达到增加容量和带宽的作用。在大数据环境下,纵向扩容方式无法满足其需求,主要是因为海量的数据存储规模是无法通过添加硬盘来实现的,即使通过纵向扩容达到更大数据规模的需求,其高额的硬件及管理软件成本也是数据存储管理中心无法承担的。横向扩容是指当存储容量或者带宽不足以满足现有要求时,添加存储节点来达到扩容的目的。横向扩容意味着数据管理软件将要统筹更多的节点,面对更大的压力。例如,如果采用集中式的主节点管理,主节点的能力可能成为整个大数据存储系统的性能瓶颈,尤其是当规模扩大到成千上万个节点时,单管理节点的模式是不可靠的;如果采用分布式主节点群管理,软件的开发成本和系统本身的复杂度也会相应提高。
(三)数据存储模式
传统的存储系统是依赖于SAN或者NAS的网络存储模式,在纵向扩容方面存在一定的瓶颈,更重要的是,SAN和NAS的计算节点与存储节点是分开的,数据的存取速度被限制在网络的瓶颈上,即使通过纵向扩容其存储池容量,也受限于数据处理和存储节点之间的网络带宽,无法满足EB级别数据规模的需求。目前,大数据存储系统普遍采用的是DAS的方式,将计算资源搬迁到存储节点上。这种方式存储管理系统的软件层增加了许多的新问题,例如,通过网络的跨节点数据访问管理、存储数据块的管理等。
(四)数据兼容集成
大数据存储系统的兼容集成特性涉及若干方面。大数据多样性的特点决定了其存储系统需要兼容各种种类的数据,大数据存储需要整合集成各种数据源和数据存储系统,数据交换接口需要兼容各种数据传输机制,大数据应用和服务需要存储系统支持各种上层应用的需求、大数据存储管理需要支持各种介质的存储设备来满足上层各种应用的需求。这些问题都为数据的兼容和集成提出了新的挑战。
(五)分布式文件系统
只需要像使用本地文件系统一样管理和存储文件系统中的数据。分布式文件系统所管理的数据,存储在分散的设备或节点上,存储资源通过网络连接。分布式文件系统是解决当前大数据存储与管理的有效手段之一,分布式数据库必须及时响应大规模用户的读/写请求,
大数据分析与挖掘,大数据分析是指对规模巨大的数据进行分析。因此本节重点分析大数据挖掘。在本节中,我们首先深入研究传统数据挖掘,然后结合大数据的特有特性,重点聚焦其復杂性,再进一步学习和研究大数据环境下的数据挖掘技术。最后,结合经典数据分析挖掘算法的研究,探讨其在互联网金融中的典型应用大数据分析和挖掘概述.大数据的分析技术也以前所未有的速度快速发展。
四、SaaS与互联网金融大数据
(一)资产大多数是非标资产
金融大数据,目前有4个阶段。第一阶段是基于数据存储;第二阶段是分布式计算;第三阶段是大数据挖掘与分析;第四阶段是数据服务。对于商业银行,包括中、农、工、建和交通这国有五大行来说,都处于第一阶段。其中,建行处于平台选型阶段。农业银行已经完成数据存储方面的工作,但还未上线。光大银行项目,在2013年10月上线,是国内第一家真正意义上将金融大数据应用到银行核心业务系统的案例。
无论是传统银行还是新兴的互联网金融企业都需要对现有的数据进行增值挖掘。如果依靠传统的挖掘方式,成本巨大。如果采用现有的大数据分析技术、采用分布式集成框架、采用开源框架,一方面可以降低成本,另外一方面运算性能也有所提升。互联网金融环境的大数据处理之所以难,是因为互联网金融企业的数据具有如下特点。
(二)数据是非结构化数据
大家都知道,结构化数据可以依赖数据库进行快速的分类统计和分析;如果是非结构化的数据,就很难利用传统的数据库来进行快速的分类统计了。另外一个挑战就是金融大数据的安全性,需要提供实时的风险控制,这是很强的安全要求,如图3所示。
图3互联网金融的实时风险控制SaaS即Software-as-a-Service(软件即服务),是随着互联网技术的发展和应用软件的成熟,提供的基于互联网的全新软件服务模式。处于初创阶段的互联网金融企业,很多都会选择在云平台(AWS,阿里云)上搭建自己的SaaS服务,从而节省了不少人力物力。用户按月或者按请求购买服务。当用户量急剧上升的时候,很多服务响应就会变慢,甚至宕机,往往会造成某些大客户无法容忍。我们在搭建多租户SaaS金融服务的时候,由于数据库往往是SaaS系统的瓶颈所在,所以我们通常会根据用户的级别,提供不同水平的服务,一些微型的客户就采用完全共享式的数据库,一些高端的大客户就采用完全隔离的数据模型。
多租户SaaS平台下的数据库共享模式如图4所示,在数据层中有三个级别的资源共享。完全隔离:每个租户均使用单独的数据库。部分共享:共享数据库,但是使用单独的模式。完全共享:使用相同的数据库和相同的模式。
多租户平台的SOA服务化及其功能当用户急剧上升,每天的调用量成指数上升的时候,某些核心服务每天的调用量达到上亿的级别,服务开始变得不可控。这个时候,仅仅靠增加硬件已经不能解决问题了,从服务器到中间件,再到数据库,任何一个环节都可能导致服务变慢甚至宕机。更有甚者,当某一款新的金融产品上线的时候,海量用户蜂拥而来抢购的时候,瞬间就会有数十万或者数百万的用户进来,页面开始堵塞,已经进去的用户无法投资,新来的用户无法登录,开始不停地刷新页面……噩梦开始了,数据库开始死锁,服务进一步僵化,新来的用户越聚越多,雪崩开始了,互联网金融下的服务治理互联网金融的高速发展,为企业带来了诸多的机遇,还是移动互联网应用带来的恶意程序,都为互联网金融应用带来了潜在的风险。另一方面,互联网金融的监管有待完善。
五、物联网金融大数据
(一)物联网金融的应用分析
例如,可以利用丰富的传感器系统与智能监管分析系统相结合,对实物资产进行数字化分析与管理,解决传统动产融资业务中双方信息不对称及诚信的问题,便于银行对抵押物有更好、更全面的了解与监控。在动产质押业务上把原有的人工防范变为全方位的技术防范,从主观评价变为客观评价。从银行的角度来看,物联网技术可以帮助银行更好地控制风险;从融资方的角度来看,数字化后可以
更容易量化实物本身的价值及安全监管,变相提高了信用评价,可以更容易与银行达成融资业务。
传统互联网对用户信息的收集更多的是依赖于用户自身在互联网发布信息的收集,而物联网则可以通过丰富的传感器技术借用不同的实物载体对个体进行主动的全方位多元化的信息收集。保险行业应该是最早享受到物联网金融益处的行业之一,以当前流行的智能可穿戴设备为例,能够做到全天候对人体的各项生理指标和行为模式进行全方位的监控,获取的大量数据可以为电子病历及保险行业带来非常大的价值,例如,可以提前获知个体发生潜在疾病的风险从而提供指导意见,判断投保人可能发生意外情况的概率而对保单进行调整等。同时,当前保险公司和个人的信息是完全不对等的(个人对自己身体状况等信息的了解远多于保险公司),基于分析数据对相关保险进行合理的定价,同时也更容易发现潜在的投保人,从而扩展相关业务。
(二)物联网金融的主要创新模式
在汽车领域,通过对高智能化汽车芯片的数据进行分析并有效评估汽车的整体状况,不仅可以为汽车厂商提供相应的改进修改方案与市场营销方案等,还能为保险公司车险价值评估提供有效的数据支持和指导意见。同时在对驾驶员驾驶行为习惯数据分析后,可以为駕驶员提供相应的安全行车指导意见,从而有效降低道路事故发生率。
宏观来讲,物联网技术带给我们更丰富全方位立体化的,甚至传统互联网不能提供的海量数据,基于这些大数据,我们可以建立起更多的数据模型,实现更多的跨行业跨领域的交互与协作,从而在信息对等的基础上建立起实体流、信息流、资金流三者合一的物联网金融形态。
六、结论
大数据技术起源于互联网行业,目前最成功的应用也在互联网行业,在其他行业的应用还处于初级阶段。我国的各级政府机关和各类传统行业,在日常管理和业务运行中也积累了大量的数据。大数据的真正价值所在是深度价值发现和行业应用,如何推进大数据技术应用,唤醒这些沉睡的大数据资源,实现管理上的科学决策,开创新的业务模式,是这些数据拥有者所关心的问题。
参考文献:
[1]李珺.数据网格环境下的元数据管理技术.武汉:华中科技大学,2017.
[2]尹文燕.元数据发展现状及存在问题研究.中国科学技术信息研究所,2013.
[3]赵庆峰,鞠英杰.国内元数据研究综述.现代情报,2013(11):42-45.
[4]陈进.关于数据仓库元数据管理系统的研究与建立.青岛:中国海洋大学,2014.
[5]赵辉,张英杰,彭洁.CWM技术研发决策支持平台的元数据管理模型研究.中国科技资源导刊,2014,46(4):14-19.
[6]靳丽娟.元数据及其在数字图书馆信息组织中的应用.山西:山西大学,2014.
作者单位:南京理工大学紫金学院