数据挖掘技术在 财务舞弊识别问题中的可行性研究

2021-12-05 07:32郭月
大众投资指南 2021年7期
关键词:离群舞弊数据挖掘

郭月

(太原旅游职业学院,山西 太原 030032)

财务舞弊长期危害我国经济社会的正常发展,如何识别财务舞弊一直是学术界和实务界的研究重点之一。财务舞弊的危害范围极广。站在投资者的角度,在确认投资之前,需要较为全面客观的了解上市公司的财务状况、经营成果等信息,而财务报告则是最直接、最有效的证明资料。但是,财务舞弊通过粉饰财务数据,掩盖了上市公司所存在的问题,最终可能导致投资者的投资失败。站在国家的角度,财务舞弊打破了资本市场的正常运行,降低了资本配置的效率,更有甚者会直接影响投资者对于我国资本市场的投资信心。

随着财务舞弊现象的频繁发生,如何及时识别并有效防止财务舞弊现象的发生成为政府和学术界的研究重点。早期的财务舞弊手段较为简单,主要通过检查财务报表相关项目之前的勾稽关系进行识别。但随着财务舞弊手段的逐渐复杂,较为隐秘的财务舞弊问题已经无法通过简单的财务数据关系进行识别,因此,有学者将统计学工具引入财务舞弊识别研究中,通过建立模型进行分析,大大提高了识别的准确性。然而传统的识别模型仍然存在局限性,主要体现在:一是统计学模型大多建立在财务指标的基础上,而对于非财务指标的舞弊问题则无法引入模型;二是依靠统计的预测性分析反映事物的共性规律,而部分特性问题则无法被识别;三是模型大多研究的是线性关系,而实务中的舞弊路径更为复杂,因此会降低预测结果的准确度。

随着现代信息技术的发展,数据挖掘独有的特点被越来越多的引入到科学研究当中。数据挖掘的优势在于,通过从数据池中筛选出的有效信息,并利用计算机高效的信息处理能力进行不同算法的学习,从而得到一个或多个数学模型,利用得到的模型进行分类和预测,克服了传统统计学模型的单一线性要求,大幅度提高了识别的有效性。

神经网络是最早运用到财务舞弊识别中的数据挖掘技术,与统计学模型不同的是,变量之间的线性关系并不是神经网络技术的必要条件,因此,模型的适用范围更广,总体的预测正确率也较高。但是,由于神经网络内部结构类似于“黑箱”,无法对连接权重进行明显的解释,因此不能确定结果的统计可信度。选择其他数据挖掘技术并应用于财务舞弊识别问题成为未来研究的重点方向。

一、数据挖掘技术的基本思想

“大数据”已成为当今社会的“高频词”,在数据爆炸的时代,有效地对海量数据进行捕捉、存储、管理和分析能够推动整个社会的信息化发展。大数据之于政府,是提升效能的手段;大数据之于经济,驱动增长的新动力;大数据之于人们,将改变传统生活模式。正如爱德华·戴明所说:“任何人都必须用数据来说话。”因此,毫不夸张地说,大数据战略将是争夺全世界的下一个前沿。

托马斯·H·达文波特曾说:“每一个组织都需要选定分析软件,用它来挖掘数据的意义”。数据挖掘(DataMining,DM)的概念最早出现在1995年的美国计算机年会(ACM)上,其实质是利用计算机系统,对相关数据进行处理。整个过程设计多种学科,是一项综合性的技术。数据挖掘的核心是利用计算机算法对已知有效的输入数据和输出数据进行训练,并对训练得出的模型进行反复验证,使得模型能够在一定程度上反映出输入数据和输出数据的关系。由于该模型经过了大量的练习和验证,因此具有一定的科学依据。再利用得到的模型,对新的数据进行计算,从而得到新的预测结果,这就是数据挖掘的基本原理。

二、数据挖掘的主要内容

数据挖掘的主要内容可以概括为六个方面,即关联、回归、分类、聚类、预测和诊断。它们不仅在挖掘的目的和内容上不同,所使用的技术差别也很大,所以通常也将数据挖掘的技术按照这六个方面来分类。

关联:数据关联是旨在从大量的数据当中发现特征之间或者数据之间的相互依赖关系。关联是指多个不同变量在取值范围之间存在一定的规律性。对数据进行关联分析主要是为了解决数据之间隐藏的相关关系。有时数据之间的关联关系并非凭借经验可以得出,因此关联分析生成的规则具有一定的科学性和可信性。

回归:回归是确定两种或两种以上变数间相互定量关系的一种统计分析方法。回归是数据挖掘中最为基础的方法,一般应用于量化型的问题。常见的回归函数分为四类,根据因变量的个数不同分为一元回归函数和多元回归函数;根据函数类型分为线性回归函数和非线性回归函数。另外还有两种特殊的回归方式,一种是在回归过程中可以调整变量数的回归方法,成为逐步回归。另一种是以指数结构函数作为回归模型的回归方法,成为Logistic回归。

分类:在数据挖掘中分类是最为常见的问题,其典型的应用就是根据事物在数据层面表现的特征,对事物进行科学的分类。对于分类问题,人们已经研究并总结出了许多有效的分类方法,到目前为止,已经研究出的经典分类方法主要包括;决策树、神经网络、贝叶斯分类、K-近邻算法、判别分析、支持向量机等分类方法。现实生活中许多领域都需要对对象进行分类。例如,在银行业务中,按照风险评价体系构建客户信用分类模型,据此决定是否贷款;电子政务数据,客户保持、工业生产领域等。挖掘财务舞弊的识别过程就是分类的过程,将影响财务舞弊行为的因素加入模型当中,通过各种分类算法生成最有效的模型,以区分是否发生财务舞弊。

聚类:聚类分析又称群分析,是对大量样品进行分类的一种多元统计分析方法。首先分析出各自的特性,在没有任何规则可供参考的情况下,将数据分类到不同的类或者簇中,因此,相同的类或簇中所包含的样本具有极大地相似性,不同的类或簇中包含的对象则存在极大地相异性。根据聚类原理,可将聚类算法分为以下几种:划分聚类、层次聚类、基于密度的聚类、基于网络的聚类和基于模型的聚类。

预测:预测是预计未来事件的一门科学,它包含采集历史数据并用某种数学模型来预测未来,它也可以凭借主观思想对未来进行预期。预测的意义在于它能够在根据客观规律,借助大量的数据信息和不同情况,勾画出事物未来的发展方向,人们在这种大致的轮廓中提出多种具有替代效果的方案,这样就使人们具有了战略眼光,并且这种战略眼光并非臆想而出,而是具有一定的理论基础。

诊断:在数据挖掘中,诊断的对象是离群点或称为孤立点。离群点是不符合一般数据模型的点,它们与数据的其他部分不同或不一致。产生离群点的原因主要有两点:一是由于度量或执行错误所导致的,二是固有数据可变性所造成的。大多数据挖掘算法都不同程度地减小离群点的影响,甚至排除它们。但是信息是否有噪声往往是相对的,一个人的噪声信息可能是另一个人的有效信号,一味地删除离群点可能导致隐藏的重要信息丢失。这种离群点探测和分析简称为诊断。

近年来,有不少学者从关联规则、模糊集和人工智能等其他方面出发提出了新的离群点诊断算法,比较典型的有基于关联的方法、基于模糊集的方法、基于人工神经网络的方法、基于遗传算法或克隆选择的方法等。

三、数据挖掘技术应用于财务舞弊识别问题中的主要优势

在大量数据日新月异的年代,分析数据成为一种重要的需求,寻找从海量数据中分析得出有用信息的方法成为当下研究的重点和难点。数据挖掘技术作为统计学习的应用将会在今后的科学发展观和技术应用中发挥越来越大的作用。使用数据挖掘技术,可以帮助人们发现数据之间隐藏的规律。数据挖掘应用于财务舞弊识别模型的主要优势体现在以下几个方面:

首先,数据挖掘是处理海量数据的有效方法。现实中的数据不但规模大,而且常常具有不确定性,数据挖掘技术往往是处理这类数据最强有力的工具。它在海量数据或者数据池中筛选出有用的信息,通过各种不同的计算方法学习到一个或者多个数学模型(计算机完成),再利用这个模型进行分类或者预测。我们知道,要识别财务舞弊需要通过大量的数据进行分析求证,充分考虑潜在的影响因素,而不是靠经验去判断。数据挖掘是在传统统计分析方法基础之上的升级,克服了多种假设条件,使得生成的模型更具有实践性和可应用性。

其次,通过前文的理论分析可知,人们的心理、行为和环境等外部定性因素越来越成为研究财务舞弊问题的出发点,而这些定性因素很难用定量的指标精准描述出来,因此传统统计分析手段显得捉襟见肘。而数据挖掘则很好地弥补了这块短板,通过海量数据的集成,寻找这些因素的共同特征,通过不断地机器学习和试验,可以近似定量地准确定描述出指标的特征,从而满足研究的需要。由此可见,对财务舞弊这类无法定量描述的社会现象,完全可以借助数据库和计算机进行深入研究。

最后,使用数据挖掘技术的数据库模型则更侧重于实验的真实性。在传统的统计模型之中,人们通过经验分析做出假设,在假设的基础上进行统计分析。此时,变量和模型已经确定,人们只是关注模型拟合的优劣及指标选取对趋势的影响。但严格意义来说,确定的解释变量往往不全面,在回归分析时往往忽视了其他解释变量对模型的影响,而数据挖掘可以很好地对此进行补充和完善。

单一使用传统数据分析方式和数据大算法都无法达到高准确度的预测模型结果,需要将两者有机结合,进一步对复杂数据进行规律研究,数据挖掘技术为构建财务舞弊模型奠定了先进的技术可行性。本文通过阐述数据挖掘技术的基本思路和主要内容,分析其在财务舞弊识别问题中的优势及应用。通过将数据挖掘技术应用于财务舞弊识别问题中,可以对企业是否存在财务舞弊进行进一步的甄别,提高了报表信息使用者对财务舞弊的识别能力,有利于引导资本的合理配置,维护资本市场的健康发展。

猜你喜欢
离群舞弊数据挖掘
浅谈财务舞弊与防范
会计电算化环境下会计舞弊的应对策略
基于并行计算的大数据挖掘在电网中的应用
离群数据挖掘在发现房产销售潜在客户中的应用
我国上市公司财务舞弊识别模型初探
一种基于Hadoop的大数据挖掘云服务及应用
离群的小鸡
应用相似度测量的图离群点检测方法
一种基于核空间局部离群因子的离群点挖掘方法
基于GPGPU的离散数据挖掘研究