武茗馨
【摘要】随着大数据时代的到来,审计工作在思维模式、技术方法、审计重点等方面发生了重大变化。在金融信息快速增长、金融创新不断升级的环境下,金融行业内部审计部门对大数据技术的需求也在不断增加。本文从金融行业内部审计应用大数据技术的背景出发,通过对大数据及其相关技术的介绍,分析大数据的具体应用,探讨大数据对相关领域的影响,对金融行业内部审计的发展做出展望。
【关键词】大数据 大数据技术 内部审计 大数据
一、大数据及基本技术概述
(一)大数据概述
作为一个新兴概念,大数据至今尚未有明确统一的定义。大数据研究先驱麦肯锡公司(McKinsey & Company)认为,大数据指的是大小超出常规数据库软件的采集、存储、管理和分析等能力的数据集。这一定义包含两方面的意义:第一,随着时间推移和技术进步,符合大数据标准的数据集的大小会有所变化;第二,不一定要超过特定容量值的数据才算是大数据。此外,大数据研究机构高德纳咨询公司(Gartner Group)也对大数据给出定义:大数据是需要高效创新的处理模式来提高洞察力、增强决策力的海量、快速和多样化的信息资产。这一定义提出了大数据的三大特征:大量化(Volume)、快速化(Velocity)和多样化(Variety),简称大数据的“3V”特点。近年来,随着对大数据的深入研究,大数据的特点逐渐由“3V”演变为“4V”甚至更多,包括:真实性(Veracity)、价值(Value)、可变性(Variability)、有效性(Validity)、波动性(Volatility)、复杂性(Complexity)等等,图1.1展示了大数据的特点。
(二)大数据技术
根据大数据处理的生命周期,大数据技术体系中的关键技术包括:非结构化数据采集技术、数据清洗筛选技术、数据分布式存储系统、数据并行计算分析技术、数据可视化技术等。
1.非结构化数据采集技术。大数据时代,数据信息来源十分广泛,包括手机、电脑、网络、卫星、社交媒体、交通工具、射频信号、电子发射器等。从这些渠道所采集的数据往往格式不一,对大量数据进行格式转换的效率低下,并会增加数据采集的难度。据统计,在现有大数据存储系统中,非结构化数据和半结构化数据约占80%,因此,传统的数据采集工具已经无法满足时代的需要,非结构化数据采集技术必不可少。如今,大多数互联网企业都建立了自己的大数据采集系统,例如:Facebook的Scribe系统、Cloudera的Flume系统、Apache的Chukwa系统、Linkedin的Kafka系统等。这些非结构化数据采集系统具有良好的可扩展性和容错机制,并且是开源的系统,用户可以根据不同需要选择适合的数据采集技术。
2.数据清洗筛选技术。在大数据采集之后,需要对海量数据进行简单的预处理,主要包括清洗技术和筛选技术。这两项大数据技术适用于将网络中的大量损坏、冗余、无用的数据进行彻底清理,优化多源数据和多模式数据,对采集来的数据进行整合,将高质量数据转化为信息,并加以提取用于分析。因此,数据清洗筛选技术能够控制不同来源的数据质量,为数据分析提供基础性的技术保障。Hadoop平台正是为了加快数据清理、数据转换、数据加载进程,提高并行数据预处理而开发的。概括来说,Hadoop是一系列开源产品的组合,其核心的内容是:HDFS(Hadoop Distributed File System)和MapReduce,HDFS可以为海量数据提供存储功能,MapReduce则为海量数据提供计算。
3.数据分布式存储系统。非结构化数据存储于分布式文件系统中,因而分布式存储系统在大数据时代相当重要。传统的数据存储系统采用集中的方式,将所有数据存储于一台服务器中,存储服务器的可靠性和安全性成为系统性能的瓶颈,也无法满足大规模数据存储应用的需要。而分布式数据存储系统采用可扩展的系统结构,借助多台服务器分担存储负荷,利用位置服务器定位存储信息,不仅可以提高系统整体的可靠性、安全性、可用性和存取效率,还具备可扩展功能。目前,常见的数据分布式存储系统主要有:GFS(Google File System)、HDFS、Lustre并行分布式文件系统、Ceph存储系统等。以HDFS为例,图1.2展示了数据分布式存储系统的运行模式。
4.数据并行计算分析技术。对于混合负载的大数据库进行分析处理是十分复杂困难的,对海量数据进行依次顺序计算分析不仅费时费力,还存在影响系统安全的风险。表1.1展示了大数据分析技术的基本要求,由此可见,数据并行计算分析技术是大数据分析的关键技术。
非结构化数据主要通过分布式计算结构进行处理分析,基于不同的计算模型。目前,主要的并行计算结构有如下三种:
第一,MapReduce模型。这一模型应用较为广泛,运用映射(Map)和规约(Reduce)函数,将一组键值对映射成一组新的键值对,从而保证所有映射的键值对共享相同的键组,适用于大规模数据集(大于1TB)的并行运算。
第二,Bulk Synchronous Parallel模型,简称BSP模型。这是一种具有可扩展并行性能的并行程序模型,与简单计算模型相似,但区别在于:BSP模型在每次运算过后,对所有节点都会进行同步处理,适用于迭代计算。Google的图算法引擎Pregel即基于此模型。
第三,DAG图模型。这一模型利用无回路有向图(DAG)描述复杂的计算处理关系和过程。微软公司的Dryad项目即采用这一模型。
5.数据可视化技术。数据可视化技术是指利用表格、图像、色彩、动画等形式,对数据信息加以可视化解释的技术。在大数据时代,面对海量数据信息,利用数据可视化技术能够更加直观、便捷的对数据分析结果进行展示,并进一步帮助研究人员进行大数据分析与挖掘。数据可视化技术适用范围广泛,涉及生物医药、气象地理、商务金融、社交媒体、公共服务等众多领域,并处在进一步发展开发阶段。