数据挖掘技术在金融审计中的应用

2013-04-12 21:48杨会朴
合作经济与科技 2013年6期
关键词:数据挖掘金融

□文/刘 莎 杨会朴

(河北金融学院 河北·保定)

一、引言

金融是现代经济的核心,金融安全是保证国家经济安全的防火墙,它关系到国家经济与社会的整体发展。现阶段,我国金融机构的监管体系主要由“一行三会”以及审计机关、社会审计组织、金融机构内部稽核、财政部、国家和地方税务局、司法部门等共同构成。国家审计署2003年12月12日第一次实行审计结果公告制度至今,涉及金融业的共有20个公告,涵盖了人民银行、银监会、国家开发银行、农业发展银行、中国出口信用保险公司、中国人寿保险(集团)公司、中国人民保险集团股份有限公司、四大国有商业银行以及交通、光大、中信、招商等股份制银行等。从这些金融审计结果公告及移送给公安部的重大金融违法犯罪案件可以看到,金融审计在揭露金融领域存在的重大违法犯罪问题和风险隐患方面发挥了重要的作用。然而,伴随着银行等金融机构业务处理高度电子化、数据海量化、控制隐形化、产品衍生化,问题越来越隐蔽,审计环境发生重大变化,审计人员面对海量数据无从下手,审计线索少了,审计经验进入“尾随”状态。

二、金融审计对数据挖掘技术的现实需求

长期以来,金融审计工作基本上全部由国家审计署及驻各地的18个特派员办事处来承担。相对我国地域广阔、金融机构众多,金融审计特有的复杂性和专业程度而言,金融审计面临着审计任务繁重和审计力量薄弱的矛盾。近10年来审计署及特派员办事处对4大国有商业银行进行了审计,绝大多数银行目前只进行了一个年度的资产负债损益审计。审计频率最高的中国农业银行,审计间隔一般在2年左右,审计公告又要延后两年才能报出,审计监督不连续,对及时发现和揭露银行经营中的问题和风险隐患显得势单力薄。

近年来,金融创新不断增加,代收代付、基金托管业务、资产管理等中间业务大力发展,中资银行业务向海外扩展,正如前美联储主席格林斯潘指出的那样:新的技术、工具不断出现和流行带来了金融市场的急剧变化,这意味着一些金融机构资产负债表的墨迹未干,就已经过时了。随着金融业务范围不断扩大,复杂程度加深,金融审计的重点从过去主要摸清家底、关注财务收支的合法合规性,转变为关注银行业务经营、内部控制、有无重大风险隐患等。而我国的金融审计却主要集中在对金融传统业务的审计上,着眼点仍集中在具体类别的经济业务或账户记录及余额。审计范围的急剧变化,使其难以更早地预知金融领域的重大风险。因此,如何提高金融审计效率,对防范金融风险、保障国家金融安全至关重要。

三、数据挖掘技术概述

数据挖掘,比较公认的定义是:“从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。”它区别于当前审计中利用SQL语句、ACL软件等进行数据分析的方法。传统数据分析主要依赖数据库技术、审计经验和电子数据的显著特征来创建索引、检索信息,提取有效的数据。而数据挖掘技术则是在没有明确假设的前提下去挖掘隐含的、未知的信息,帮助审计人员进行数据分析,发现异常信息。

四、数据挖掘技术在金融审计过程中的应用

1、收集审计数据。根据审计对象和审计范围对被审计单位的信息系统中数据文件进行采集,得到数据格式、文件大小等满足要求的数据。对采集到的数据要进行确认,排除遗漏和失误。比较常用的数据传输方法和工具有采取专用导入导出工具将审计所需的数据从对方的大型服务器导入到审计服务器中、在数据量很小的情况下通过网络进行采集、通过移动存储介质进行采集。需要注意的是,审计前对被审计单位业务流程、信息系统及数据库结构的深入了解至关重要。通常在一个数据库中会有很多数据表,各表之间会存在一些必要的关联关系,在对被审计单位业务了解充分的基础上可以根据需要只采集审计人员关注的数据表。否则,可能遗漏一些关键性的数据表,例如数据库系统中有些表虽小,但却是一些代码型文件,这些表是形成审计中间表的基础。

2、数据预处理。数据预处理是把采集到的审计数据转换到审计中间表的一系列操作。原始数据中可能存在的问题有很多种,譬如缺失的或不完整的数据、不一致的数据、重复的记录等,有必要在数据挖掘前对数据进行清洗。主要包括不完整数据和空值的处理、冗余数据的清理、错误值的检测等。识别数据表名、字段名、记录值代码以及表间关系的经济含义,将来源于一个或多个源数据的数据,按照审计目标和审计中间表的要求,进行数据字段层面和数据关系层面的变换、分拆或合并,映射到审计中间表,为实施数据挖掘技术做好数据准备。对数据转换和清理过程要进行验证,以保证数据清理和转换工作没有损害数据的完整性、正确性。

3、数据挖掘技术的具体运用。广义的数据挖掘技术有:决策树方法、神经网络方法、相关规则方法、聚类分析、遗传算法、孤立点分析等。

运用关联分析利用不同会计科目及数据项目之间可能存在的某种对应关系,以及资产负债表、利润表、现金流量表之间的勾稽关系,查找挖掘“不合逻辑”的信息。比如,资金收付金额与企业经营规模明显不符的账户、交易金额、笔数异常的账户,进而审查客户是否通过银行账户从事不法活动、银行是否存在审核不严、违规办理结算业务等问题。

聚类分析是一种无指导的学习,受审计人员的主观影响较小。它将数据分组成多个类,同一个类别中的对象之间具有较高的相似度。对于特定交易记录群的聚类分析可以不同特征划分为不同的特征群,从而描述各个群的特征,得到违反规律特征的类,找出离群孤立点,对其重点分析,确定审计风险,发现审计线索。比如,对银行不良贷款的审计,通过将影响贷款质量的因素以定性或定量的指标加以描述,再借助于建立数据挖掘模型,从中发现其规律性和普遍的特征,区分贷款的级别,发现人为操纵贷款分类结果的现象。

孤立点分析用来发现数据源中显著不同于其他数据的对象,例如部分极端值等。在被审计单位的数据源中经常含有一定数量的异常值,它们与审计数据源的其他部分数据不同或不一致,这些数据很可能就是一些可疑的数据,如可利用孤立点分析对信用卡客户历史用卡行为进行分析,如果检测到不寻常的信用卡使用情况,及时确认交易是否存在欺骗,银行是否予以授权、冻结资金等操作。

决策树法,先根据训练集数据构造决策树,核心是归纳算法,从特殊到一般的过程,这是一种有指导的学习方法。譬如,在商业银行个人贷款业务审计中,利用有问题的个人消费贷款数据,选取所在地区、收入、年龄、婚姻状况、住房情况、是否违约等因素,应用决策树方法进行挖掘,生成客户贷款违约路径规则,该分类规则作为审计的索引。

4、审计处理。审计人员对利用数据挖掘技术发现的可疑数据,进行重点核查,查找交易记录,总结得出审计经验,建立审计经验库,如果有新知识,就更新到知识库中,作为日后新交易数据审计的经验。数据挖掘工作是一个不断重复执行的过程。

五、结语

数据挖掘技术在金融审计中深入应用,首先离不开银行等金融机构信息系统数据结构的标准化,其次需要利用银行业务处理逻辑、数据间的勾稽关系、内部数据与外部数据的关联,把有效的审计思路转化为计算机程序语言,有效统一在分析框架内,使数据挖掘分析方法不再零散而成为体系。目前,数据挖掘技术在商业银行审计中的研究相对较多,而在保险、证券等领域涉及较少,在银行审计方面也主要集中在信贷业务和存款业务中,如理财产品、国际结算、系统内往来等诸多方面没有统一的理论基础和分析框架,尚未形成系统的数据审计方法。

数据挖掘技术对被审计单位的数据数量和质量要求较高,而目前对银行系统内部控制缺少分析、测试和评价,信息系统内部控制的合理性、健全性和有效性又直接影响着数据的真实性、完整性和正确性,进而影响数据挖掘结果的可靠性。因此,亟待探讨针对信息系统本身的审计方法。

[1] Jiawei H,Michel line K.范明译.数据挖掘概念与技术.北京:机械工业出版社,2004.

[2] 陈艳娇,易仁萍.金融审计免疫系统功能实现的路径研究——基于审计结果公告的实证分析[J].审计研究,2009.3.

[3] 常法亮.基于数据挖掘的智能审计系统的设计与实现 [D].电子科技大学,2010.6.

[4] 程广华.数据挖掘技术在商业银行内部审计中的应用研究 [J].新会计,2011.3.

[5] 卢家辉,文华宜,张海燕等.商业银行计算机审计模型研究.北京:中国时代经济出版社,2009.

猜你喜欢
数据挖掘金融
何方平:我与金融相伴25年
君唯康的金融梦
基于并行计算的大数据挖掘在电网中的应用
P2P金融解读
一种基于Hadoop的大数据挖掘云服务及应用
支持“小金融”
数据挖掘的分析与探索
金融扶贫实践与探索
基于GPGPU的离散数据挖掘研究