吕劲松 王志成 王秦辉
摘要:在分析大数据环境下商业银行审计非结构化数据特点的基础上,结合当前大数据领域处理和分析非结构化数据的主流技术,提出商业银行审计云平台构建过程中在非结构化数据应用分类、采集存储、处理分析等方面的数据规划标准,为大数据环境下规范商业银行非结构化数据审计提供参考。
关键词:大数据;审计;商业银行;非结构化数据
DOI:10.13956/j.ss.1001-8409.2017.01.30
中图分类号:F239文献标识码:A 文章编号:1001-8409(2017)01-0141-04
Abstract: This paper analyzes the characteristics of unstructured data of commercial bank auditing in big data environments, combined with the mainstream technology of processing and analyzing unstructured data in the current field of big data, and proposes the data planning standards of application, classification, acquisition, storage, processing and analysis of unstructured data in the process of constructing the cloud platform of commercial bank auditing. In the end, it provides reference for standardizing the unstructured data audit of commercial bank in big data environments.
Key words:big data; audit; commercial bank; unstructured data
当前商业银行审计中对数据的研究和分析仍以结构化数据为主,隋学深等构建了基于支持向量机的银行贷款风险等级分类模型来识别贷款风险等级分类的真实性[1],吕劲松等构建了商业银行信贷资产质量审计的数据挖掘算法体系[2],随着国家审计不断推进大数据环境下的数据审计建设,吕劲松等提出依托商业银行建立审计数据分析平台,形成“总体分析、发现疑点、分散核查、系统研究”的审计模式[3],陈伟等探讨了大数据环境下电子数据审计的方法,给出了大数据环境下开展电子数据审计的相关建议[4]。然而大数据的激增更多地来自非结构化数据,国家审计对非结构化数据的研究和运用还处于简单的文本检索阶段[5],在大数据环境下,尚未有系统性地对非结构化数据进行综合利用和审计分析的研究。国家审计在构建商业银行审计云平台的过程中,深刻认识到仅包含结构化数据构建标准的云平台是不完整的,因此,在构建商业银行审计云平台的背景下研究大数据环境下非结构化数据规划具有重要意义。
1大数据环境下商业银行非结构化数据特点
大数据是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合[6]。商业银行本身就是生产大量数据的传统行业,随着其各类业务虚拟渠道的拓展和交易实时性的需求增长,商业银行数据更加凸显出海量性(Volume)、多样性(Variety)、价值密度低(Value)和高速性(Velocity)的四V特征,其中占绝大多数的是非结构化数据[7]。
非结构化数据是数据结构不固定,没有预定义的数据模型,无法用数据库二维逻辑表来表现的数据,非结构化数据种类繁多,商业银行基本上拥有涵盖所有类型的非结构化数据,既包括系统自己产生的,也包括与客户交换产生的,也有通过爬网、购买等手段获取的,这些数据按照格式分为电子文档、图像、音频、视频、XML或HTML等类别。
非结构化数据类型多样,各家商业银行同种类型的非结构化数据也有很大的差异,为了能够在整合各家商业银行非结构化数据的基础上进行数据分析挖掘,實现各审计场景对非结构化数据的利用,需要在对非结构化数据应用、采集、存储和处理分析等方面构建利于审计实现的标准。
2商业银行审计非结构化数据应用与分类标准
在审计过程中,结构化数据和非结构化数据的应用一直是相辅相成的,通过对被审计单位的非结构化数据进行分析,有助于正确评价被审计单位内部控制的健全性、合理性和有效性;评估被审计单位控制风险水平;掌握被审计单位重大经济决策情况,发现违法违纪线索,确定审计重点。
对电子文档类数据,如业务审批文件、规章制度、会议纪要及记录等,在审计大数据云平台架构下,通过构建统一的检索平台,实现对所有数据资源的智能化检索,有助于全面掌握相关信息,打开思路进行关联分析;通过对所有文本进行挖掘分析,获得文本内容的摘要,并对重要信息进行提示,提高对文本类数据进行分析的效率;通过文本去重技术,能够快速识别相似文本,锁定疑点范围。
对系统日志、应用日志类文件进行分析,可以追溯可疑的系统操作,借助关键字告警、信息分析统计,模式识别等技术,在海量日志信息中挖掘潜在的安全风险、及时发现安全隐患及系统违规操作,发现疑点。
对网络信息,包括新闻资讯、博客论坛、社交媒体等渠道的数据进行舆情监控,通过语义分析,自动识别相关负面信息,结合审计事项,为判断疑点提供数据支持。
对图片、图像、音频、视频等多媒体数据的分析,主要用于真伪鉴别、身份鉴定等方面,比如通过语音识别技术,将会议录音转换为文本进行挖掘处理;通过印章、笔迹图像的自动提取和比对,发现伪造的文书、合同;通过声音识别、人脸识别等技术鉴定人员身份等。
3商业银行审计非结构化数据采集与存储标准
31采集标准
商业银行审计中,面对的非结构化数据主要来自被审计单位生成、采集或购买的数据,以及一些必要的外部数据,比如来自互联网的相关信息等。对于已有的商业银行非结构化数据,审计可以利用系统接口传输或者批量复制数据的方式进行数据采集,对于来自互联网的外部数据,可以采用网络爬取的方式采集数据。
(1)建立特定系统接口传输数据。对于商业银行的信息系统产生的非结构化数据,在保密性要求不高的情况下,可以考虑在该信息系统中设置特定的接口供审计云平台连接和访问,便于根据审计需求,按照一定的频度、内容、范围等限定条件,实现非结构化数据的自动采集。
(2)批量复制。在保密性要求很高的情况下,出于数据安全考虑,对于此类非结构化数据,可以采用批量复制到移动存储设备中,再从移动存储设备复制到审计云平台中对应的商业银行子云的方式实现数据采集。
(3)网络爬取。对于外部网络资源数据,可以采用爬网技术,例如使用Nutch、Heritrix等工具,通过网络爬虫或网站公开API等方式,根据设置好的爬网作业从指定的网站将非结构化数据抽取出来,通过相应的转换处理,以结构化的方式存储到审计云平台中[8]。此种方式也支持图片、音频、视频等文件或附件的采集,并将附件与正文进行自动关联。
32存储标准
早期的非结构化数据主要存储在数据库表的大对象字段或者以文件的方式存储在文件系统中,为了解决非结构化数据增长带来的问题与挑战,目前基本上都采用分布式系统来实现面向查询、分析的海量非结构数据存储,比如分布式文件系统[9]、分布式键值系统[10]等。
图1是商业银行审计云平台系统架构规划,该平台将系统和数据进行集中,提供统一的存储环境,从而为跨行,甚至今后的跨专业数据分析和深度挖掘提供支撑条件。在这个架构中各商业银行仍然存储本行的数据,其数据库可以是同构的,也可以是异构的,审计云平台通过数据抽取、转换、加载后,将结构化数据及非结构化数据分别存储到不同的存储平台,并按照不同银行,或者不同业务品种(如个人贷款、对公贷款等)来建立集群。在应用层,除了可以通过联机方式向审计集群进行数据查询并展现查询结果外,还可以将数据进行抽取并加载到分析挖掘环境,提供分析挖掘功能。此外,通过报表平台将分析或挖掘结果加工形成报表,传输给管理层驾驶仓可以为管理决策者提供直观易览的图形化结果。
审计云平台中,非结构化数据的存储采用Hadoop[11]分布式处理架构,该架构结合了MapReduce(并行处理)[12]、YARN(作业调度)[13]和HDFS(分布式文件系统)[9]。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,该架构实现对商业银行海量业务数据的PB级数据存储。
文本类非结构化数据常以二进制大对象字段存储在数据库中,便于管理;对于规模巨大的商业银行非结构化历史性数据,如电子影像文档等,一般采用磁盘文件、光盘、数据库(存放索引)等多种技术平台实现该类数据的存储与查询访问。
4商业银行审计非结构化数据处理与分析标准
41處理标准
非结构化数据处理的目的主要是构建干净完整的非结构化数据集,剔除垃圾数据。对于纯粹的非结构化数据,例如影像、图片等,无法简单地从存储内容中提取有用信息,一般对其进行的处理是提取相应的元数据;对于大量的半结构化数据,如系统日志等,因其具有一定的结构,可以通过特定方法和工具将其转换为结构化数据。
411四面体模型
为了对不同类型的非结构化数据进行处理,需要对这些非结构化数据进行统一描述,基于描述性信息实现对非结构化数据内容的管理和操作。对非结构化数据的描述分为三类,分别是基于关键字的语义描述、基于底层特征的描述和基于概念的语义描述。所以非结构化数据可以由基本属性、语义特征、底层特征以及原始数据四部分构成,而且这四部分的数据之间存在各种联系,称为非结构化数据的四面体数据模型[14],如图2所示。审计云平台通过构建四面体模型抽取出非结构化数据的语义特征、基本属性、底层特征等元数据进行存储。
(1)语义特征:以文字表达的非结构化数据特有的语义属性。如对会议纪要、规章制度等数据而言,语义特征一般指内容摘要、主题说明等。该属性非必备属性。
(2)基本属性:指非结构化数据都具有的一般属性,这些属性不涉及数据的语义。包括名称、类型、创建者、创建时间等。
(3)底层特征:通过各种专用处理技术(如图像、语音、视频等处理技术)获得的非结构化数据特性。例如电话录音的格式、时长要求、比特率等相关技术属性。
(4)原始数据:非结构化数据的原生态文件。
412中间层模型建设标准
根据上述四面体模型对商业银行各类非结构化数据构建统一的数据管理模型标准,从语义特征、基本属性、底层特征几个方面来刻画所有非结构化数据所具有的特征,实现对来自不同银行、不同类型的非结构化数据的统一存储与处理,该非结构化数据中间层模型如表1所示。
在此标准下,将不同类别的非结构化数据的特征抽取出来,实现对所有非结构化数据以统一的数据模式进行存储和处理,例如,对于某文本类数据“某行第二次行长办公会议纪要.doc”可抽取出如表2所示特征,形成四面体结构。
四面体模型的特点在于语义特征与底层特征进行一体化表达的集成性;图像、文本、视频、音频等多种异构数据表达的统一性;支持语义特征、底层特征动态变化的可扩展性和简单性。基于四面体模型构建的非结构化数据管理模型,能够实现异构数据的统一存储与关联操作,从而更好地支持大数据的深度处理。
42分析标准
由于非结构化数据的形式多样、格式多样,必要的算法和工具是挖掘非结构化数据价值所不可或缺的。目前较多应用是对文档、网页等其中蕴含的文字说明进行分析,对于如影像、语音等数据进行深度分析挖掘的应用较少(即使挖掘,一般也是先转换为可识别的文字描述)。在此以文本类数据作为重点进行分析。
要实现对文本的处理分析,首先前提是对文本进行预处理,预处理包含分词和去重。分词是将文本切分成词汇的组合,结合补充了审计专业词汇的词库,对词汇进行统计分析,在对词汇的含义及词汇间关系分析的基础上,实现语义分析,使得机器能够更好地理解词汇组成的文本;去重是去除相似文本,减少后续文本分析过程中不必要的重复分析成本,避免统计分析时重复统计导致误差,去重可以通过相似哈希算法快速对海量文本相似程度进行计算,找出内容相同或者相似的文本。
预处理后,再对文本利用词频统计、语义分析、文本特征提取等技术进行处理,实现对文本的相似性检索等操作。此外通过文本主题分析模型、关联关系分析模型、文本分类分析模型、情感分析模型等多种语义模型的组合分析,能够深度挖掘文本信息中的价值。
文本主题分析模型:从文本中提取主题预测能力最强(TF-IDF值最大)的若干特征词作为主题词来描述文本的主题[15]。其中TF-IDF值表示特征词在文档中的权重(TF表示特征词在当前文档中出现的频率,出现得越多,权重越大;IDF代表特征词在所有文档中出现的频率,出现得越少,说明特征词的区分度越大,权重越大)。以某银行一篇文章的内容“关于借记卡小额账户管理费的一点建议”为例,其中“借记卡”“小额账户”“管理费”在文中出现次数较多,且在所有文本中出现的次数较少,将成为该文本的主题词。
文本关联分析模型:通过文本关联分析,找出文本之间、特征词之间的潜在语义关联。方法为建立文本-特征词矩阵,其值为特征词在文本中根据TF-IDF方法计算得到的权重值,之后根据文本-特征词矩阵,以特征词为维度建立多维向量空间模型[16],通过在多维空间中构建文本特征向量,向量的长度代表文本长度,方向代表了文本主题特征,计算两个文本向量的夹角余弦值(余弦值为1,两文本方向一致,主题一致;余弦值为0,两文本方向垂直,主题无关),代表语义关联度,从而得到主题相关联的文章集。
文本情感分析模型:建立情感词典,目前互联网上已有不少公开资源,主要分为正面词、负面词、程度词等。从文本中提取情感词汇,根据词汇的出现频率、在所有文档中的区分度及情感程度,计算情感词在文本中的权重。将各情感词的权重累加即可得到文档的情感倾向数值。
文本分类模型:通过朴素贝叶斯方法构建具有学习能力的自动分类器[17]。人工对一定数量的文本进行分类,用已标注分类的文本对分类器进行训练,统计文本中的特征词在分类中出现的概率,基于贝叶斯定理计算一篇文档属于一个分类的概率,通过比较概率,最终判定文档的分类归属。
对XML数据可以将其转换为结构化数据进行分析,对图像、音频、视频等类型数据主要通过相应的识别技术,提取其原始特征、物理特征或者语义特征作进一步的分析应用。
5结论与研究展望
大数据环境下,为了构建商业银行审计云平台,实现对海量非结构化数据的高效处理和挖掘分析,本文较全面分析了商业银行审计中可能应用到的非结构化数据类型和场景,从审计工作需要角度,结合当前大数据处理的主流技术,提出以四面体为基本存储模型、以Hadoop为基本存储架构、以文本挖掘为基本分析方法的商业银行审计非结构化数据采集、存储、处理、分析的数据规划标准,为大数据环境下商业银行审计对非结构化数据的处理和分析提供參考。
本文为商业银行审计云平台构建提出了非结构化数据规划标准建设的思路和框架,尚未进行实证研究,具有一定的局限性。对该框架的实现和验证是接下来的一项核心工作,此外建设大数据审计云平台,充分拓展非结构化数据尤其是多媒体数据的分析应用领域,推进数据规划标准建设从理论到实践仍需进一步深入研究。
参考文献:
[1]隋学深,乔鹏,等. 基于支持向量机的贷款风险等级分类真实性审计研究[J].审计研究,2014(3):21-25.
[2]吕劲松,王志成,等.基于数据挖掘的商业银行对公信贷资产质量审计研究[J].金融研究,2016(7):150-159.
[3]吕劲松,王忠.金融审计中的数据分析[J].审计研究, 2014(5):26-31.
[4]陈伟,SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学, 2016, 43(1):8-13.
[5]赵辉,范志城,许永池.基于关键字检查的方法在非结构化审计数据分析中的运用[J].中国内部审计,2010(10):58-61.
[6]Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity[R]. McKinsey Global Institute, 2011.
[7]Overpeck J T, Meehl G A, Beny S, et al. Dealing with Data[J]. Science, 2011,331(6018):639-806.
[8]Pesaranghader A, Mustapha N. Web Focused Crawlers[M]. LAP LAMBERT Academic Publishing, 2013.
[9]K Shvachko, et al. The Hadoop Distributed File System[C]. 26th IEEE (MSST2010) Symposium on Massive Storage Systems and Technologies, New York, USA, 2010. 1-10.
[10]Zhu H, Zhou M, Xia F, et al. Efficient Star Join for Column-oriented Data Store in the MapReduce Environment[C]. Washington DC, USA: Web Information Systems and Applications Conference(WISA), 2011 Eighth. IEEE, 2011.13-18.
[11]Borthakur D. The Hadoop Distributed File System: Architecture and Design[J]. Hadoop Project Website, 2007, 11(11):1-10.
[12]Wikipedia. Map Reduce[EB/OL]. http://en.wikipedia.org/wiki/Map Reduce, 2016-6-5.
[13]Vinod Kumar Vavilapalli, Arun C Murthy, Chris Douglas, et al. Apache Hadoop YARN:Yet Another Resource Negotiator[C].Santa Clara, CA, USA: The Fourth ACM Symposium on Cloud Computing,2013.1-16.
[14]Li W, Lang B. A Tetrahedral Data Model for Unstructured Data Management[J]. Science China Information Sciences, 2010, 53(8): 1497-1510.
[15]Anil K, Probal C. On Visualization and Aggregation of Nearest Neighbor Classifiers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1592-1602.
[16]张东礼,汪东升,郑纬民. 基于VSM的中文文本分类系统的设计与实现[J].清华大学学报(自然科学版),2003,43(9):1255-1291.
[17]Levent K, Thomas A, Hahram S. A Network Intrusion Detection System Based on a Hidden Naive Bayes Multiclass Classifier [J]. Expert Systems with Application, 2012, 39(18):13492-13500.
(責任编辑:石琳娜)