刘以堂 张述成
摘 要:本文介绍了数据仓库、数据挖掘以及知识发现的概念,详细分析了关联规则算法,对纳税人特定属性与纳税人异常行为之间的关联关系进行了分析研究。
关键词:知识发现数据挖掘关联规则算法税收征管
中图分类号:F 文献标识码:A 文章编号:1674-098X(2012)06(b)-0027-02
近年来,税务系统信息化水平迅速提升,核心征管系统的数据实现了省级大集中,经过多年的应用积淀,信息系统中积累了海量的涉税数据。如何从这些海量的数据中寻找有用的信息,并将信息转化为情报,用于识别、分析纳税人的涉税风险点,促进税收征管质量和效率的提高已成为当前税务部门急需破解的难题,数据仓库和数据挖掘技术的出现,可较好地满足这一应用需求。
1 数据仓库
数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库是一个计算机存储系统,但更是一种管理技术,是一个动态的、工程的概念[1],它通过各种方法从联机事务处理(OLTP)的数据库中抽取细节数据,并进行综合、集成和再加工,以适当的数据结构组织存储,从海量数据中提取出有用的信息,服务于企业和组织的决策支持和数据分析。
数据仓库支持多维数据分析,通过对实体多个维度(属性)的分析,从不同的角度进行比较和理解,是数据挖掘技术的基础。
1.1 数据挖掘
数据挖掘DM(Data Mining)是整个知识发现过程的一个步骤,是知识发现的深层次过程,它在可接受的计算效率的限制条件下,从大量数据中发现潜在的数据模式,生成关于模式的表达[2]。
数据挖掘通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
1.2 知识发现
基于数据库的知识发现KDD(Knowledge Discovery in Databases)表示将低层数据转换为高层知识的整个过程[3]。可以将KDD简单定义为:KDD是确定数据中有效的、新颖的、潜在有用的、基本可理解的模式的特定过程。知识发现过程包括以下步骤:问题的理解和定义、相关数据收集和提取、数据探索和清理、数据工程、算法选择、运行数据挖掘算法、结果的评价。
2 关联规则
数据挖掘采用的主要分析方法有7种: 分类(Classification)、估值(Estimation)、预言(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚集(Clustering)、描述和可视化(Description and Visualization)、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)。
下面重点介绍关联分析算法。
在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事:“尿布与啤酒”的故事。美国沃尔玛超市拥有世界上最大的数据仓库系统,它集中了其各门店的详细原始交易数据。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。利用数据挖掘方法对这些数据进行分析和挖掘,意外的发现:“跟尿布一起购买最多的商品竟是啤酒!”再经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。关联规则可以挖掘发现大量数据中项集之间有趣的关联或相关联系。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析是为了挖掘出隐藏在数据之间的相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则。
一般用三个参数来描述一个关联规则的属性:支持度、可信度、作用度。
设是一组物品集,W是一组事务集。W中的每个事务T是一组物品,TR。假设有一个物品集A,一个事务T,如果AT,则称事务T支持物品集A。关联规则是如下形式的一种蕴含:A→B,其中A、B是两组物品,AI,BI,且A∩B=。
用P(A)表示事务中出现物品集A的概率,P(B|A)表示在出现物品集A的事务中,出现物品集B的概率,则以上三个参数可用公式表示,如表1。
可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。
支持度说明这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。
作用度描述了物品集A對物品集B的影响力的大小。作用度越大,说明物品集B受物品集A的影响越大。一般情况,有用的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才说明A的出现对B的出现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大于1,则此关联规则也就没有意义了。
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小可信度两个门槛值,在此假设最小支持度min_support=5%且最小可信度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据“尿布,啤酒”关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
3 数据挖掘在纳税异常行为分析中的应用
在日常的税收管理中,纳税人可以根据不同的标准被分类成若干静态的属性,同时也会发生很多种动态的异常纳税行为,我们想寻求的是:哪些具有静态属性的纳税人更易于发生动态的异常纳税行为,受到沃尔玛超市“尿布与啤酒”故事的启发,我们将纳税人视为“顾客”,将纳税人的静态属性和动态行为视为“购物事务”,从庞杂的税务信息系统的数据中去发现这些属性和行为之间的关联规则。
首先,我们把纳税人按照行业、地区、企业类型、规模、注册资本等标准将纳税人分成不同的类别,其次,将纳税人曾被查补、自查、加收滞纳金、被移送稽查、发生发票违章处理、连续三个月零负申报等六种行为归并成纳税异常行为。把一个纳税人在一个纳税期限内的纳税行为作为一个事务,相当于一个超市购物者的购物行为。我们对近两年的纳税数据进行迁移、清洗,建立数据仓库。分析当某个纳税人属于某个分类时,具有纳税异常行为之间的关联规则,即对每一个类别,计算出可信度、支持度和作用度,以期发现两者之间的关联度。
以按照企业类型分类为例,纳税人是国有企业的,有纳税异常行为的作为事务,根据关联规则相关属性的定义可得出以下的等式:
可信度=国有企业纳税人纳税异常行为数/国有企业全部的纳税行为数
支持度=国有企业纳税人纳税异常行为数/全部企业的纳税行为数
作用度=(国有企业纳税人纳税异常行为数/国有企业全部的纳税行为数)/(全部纳税人纳税异常行为数/全部企业的纳税行为数)
其中纳税异常行为数就是在两年的纳税期间发生上述六种异常行为的数量,纳税行为数就是在两年共24个纳税期间内纳税人的纳税行为总和,即∑24*6*(纳税人数量)。
通过对数据的清洗、加工和计算,得出如下结果。
同样,可以计算分地区、规模、注册资本等不同口径下的纳税人与异常行为的关联指标,得出他们之间的关联模式。以上两表为例,从表2可以看出,国有与集体联营企业在近两年的纳税行为中发生异常的概率是总体纳税人的纳税异常行为发生概率的3.8倍;从表3可以看出,行业为烟草制品业的企业发生税务异常行为的概率是全部纳税人发生纳税异常行为概率的27.44倍。有了这些“挖掘”的信息,业务部门可以通过进一步分析这些指标,从中发现某些规律性,并指导税源管理部门对这些“高风险”的企业有针对性的加强管理。
4 结语
随着数据仓库技术和商务智能技术的发展,关联规则等数据挖掘分析方法在税务信息化建设中将得到更为广泛的应用,对税收管理的决策支持作用将更加凸显。
参考文献
[1] 胡彦.基于数据仓库的决策支持工具的比较研究.计算机应用[J],2000.
[2] 宋兴彬、徐力、王刚.数据挖掘技术在税务系统中的应用.网络与计算机技术应用[J],2001.
[3] MBA智库.百科.