(陕西财经职业技术学院,陕西咸阳,712000)
基于数据仓库技术的企业纳税评估模型构建
黄 敏
(陕西财经职业技术学院,陕西咸阳,712000)
本文借助具有集成、面向对象功能的数据仓库技术构建企业纳税监控系统,同时以其中的一个子系统作为研究对象,并利用数据挖掘技术,构建了企业纳税评估模型,以此加强对企业纳税的监控。
数据挖掘技术;纳税评估模型;OLAP服务器
随着我国税务体系的不断完善和发展,各级地方税务部门积累大量的数据。但是,税务和其他行业一样,随着税务的发展,各个不同省、市其各自的税务系统不同。虽然近几年实行了统一的税务制度和增值税改革制度,但是,还是存在规范不统一,行业混乱的等问题,从而给税务部门对整体的监控带来不便。本文以山东省为例,利用数据参仓库技术,设计并实现了税务监控系统,并以其中的某个子系统为例,借助数据挖掘技术建立纳税评估模型,以实现对企业的纳税监控。
山东省国税下辖17个市局(其中青岛单列)和山东潍坊税务学校,139个县、市局实行垂直管理。随着山东省财税系统的发展,山东省在税务系统的信息化建设方面取得了长足的发展,各种不同的业务系统被逐渐的推广,从而使得山东省的税务建设和数据分析取得了较大的成绩。但是,在数据量不断增大和山东省企业不断发展的同时,税务部门和省、市之间的数据共享变得越来越差,数据的利用率也越来越低。因此,建立统一的税务监控数据分析平台成为现实的需求。而总结现阶段山东省的业务系统,主要有21各不同的业务系统,如CTAIS中国税收征收管理系统、金税二期系统、市局CTAIS分析及辅助决策系统、个体双定业户定额核定管理信息系统、出口退税审核系统、关联企业监控系统。同时设计Sybase、Access、SQL、oracle等不同的数据库,导致数据复杂,集成难度非常大。
对该系统的建设,主要涉及21家不同的全省业务系统中积累的各项不同数据,同时其主要的结果是面向山东省税务管理的领导和管理层对整个山东省的税务进行监管。因此该系统主要具备以下的功能:
1)通过数据的交换和共享,利用数据仓库系统建立统一的数据中心,从而实现各省、市不同业务数据的对接和整合,从而形成可被展现的综合性的数据,以便为管理层提供数据决策支撑。
2)通过数据仓库技术,为山东省建立统一的税务应用平台。
3)将省市数据进行汇总,并通过数据仓库技术中的多维形式进行存放,以解决当前稽核系统、防伪税控网络版等效率低下的问题。
4)可实现统一的CTAIS、外贸企业和生产企业退(免)税审核系统以及金税二期各个不同的子系统中异常数据的检测分析,以此更好的监督出口骗税等问题。
5)利用纳税申报的数据和企业财务管理的数据、发票等对企业中存在的骗税、偷税等进行评估,从而为税务稽查提供资料,以此加强对外监控。
6)实现对不同税源的一站式采集,并从多个不同的角度对应征、欠税等进行分析,并可通过数学模型,实现对未来税收的预测。
7)试下对税收的一站式查询。通过该平台,可对多个不同的业务系统的相关业务进行查询。
根据数据仓库技术的系统部署,我们将整体的监控系统分为4层:数据源层、数据交换层、展示层、数据中心层。其具体的系统部署如图1所示。
图1 系统整体架构设计
其中,数据交换层主要由省、市数据平台的集成,从而形成可覆盖全省的数据系统。实现该系统的集成是通过在省、市建立ODS数据抽取的源适配器的方式,以此对数据进行统一的平台,在省局中建立ODS目的适配器,从而形成数据采集平台;而数据中心平台则由ODS、数据仓库中的OLAP服务器、J2EE服务器组成,通过应用适配器将集成的采集到的数据放到ODS中,并通过时间或者是批次的方式统一存放到数据仓库,而部分会回流到ODS中;展示层是由web服务器、展示工具等组成,其目的是将决策分析的报告结果或查询结果进行展现。
图2 系统功能分析
数据仓库作为一个面向主题的、集成的系统,其属于动态变换。因此,在对整体进行设计之后,必须对数据仓库的边界和功能进行定义。本文主要从税收的收入、税收监控信息和队伍建设入手,因此,将功能划分为以下部分,具体如图2.
5.1纳税评估概述以及流程设计
在完成对监控系统的统一设计之后,可实现对数据的收集和分析。而所谓的纳税评估是指税务机关通过纳税人提交的申报资料,日常的征管信息等进行综合的审核分析,并及时对税务缴纳进行评定和处理。而为了设计的方便,我们采用企业税负率这个指标来对模型进行设计。因为企业税负率在会计中的定义是指企业应缴纳的税费和企业的应税销售收入的比率。纳税评估的流程设计具体如图3所示。
图3 纳税评估流程设计
5.2数据挖掘技术算法的确定
数据挖掘是针对特定的数据而进行的分析和处理的一个过程。因此,选择不同的数据挖掘技术,其根据是对所选取的结果的挖掘。本文选用Apriori 算法,来实现对企业税负率和企业违规等之间的关联挖掘。
APrfori算法是有R.Agrawal等人在上个世纪90年代提出的,其主要用在大型数据库上的数据快速挖掘。其主要采用逐层迭代的搜索方式,使用候选项集来找频繁项集的过程。其基本的思路是首先找出所有频繁1-项集ffffdb,然后用ffffda找出频繁2-项集ffffd9,在利用ffffd8找出ffffd7,这样反复找到的K,在第K+1项集是不能找到的过程,并且在这其中利用最小支持度进行筛选,再通过最小置信度与频繁项集产生的关联规则。
在选择上述的数据挖掘算法之后,对其参数进行设置。所谓的参数主要是指min_conf与min_sup。并通过模型对进行挖掘。
5.3算法的验证
通过模型计算我们可以得出以下的结果:批发行业中为退税企业并且其税负率小于2.5的主要集中在类1;退税企业并且其税负率大于2.5主要集中在类2;不是退税企业and税负率小于2.5的企业主要分布在类3;不是退税企业and税负率大于2.5的企业主要分布在类4.
同时我们采用收集不同行业样本,对评估模型进行验证,从而得出其平均的阀值为2.57,误差为2.8%说明评估模型有效。
纳税评估模型被广泛的应用于企业、政府等各个不同部门。因此,利用现在计算机技术,加强对企业纳税评估的建设和推广,对维护我国的税务环境具有重要意义。
[1] 徐菁,刘宝旭,许榕生.基于数据挖掘技术的入侵检测系统设计与实现[J].计算机工程,2002,06:9-10+169.
[2] 刘慧平.行业纳税评估模型构建问题研究[J].湖南税务高等专科学校学报,2010,03:10-12.
[3] 刘晗,余小清,万旺根,马秀丽.基于粗糙集理论与支持向量机的纳税评估模型[J].计算机仿真,2009,12:253-256+364.
The data warehouse technology enterprise tax assessment model based on
Huang Min
(Shaanxi Vocational College of Finance and Economics Shaanxi Xianyang,712000)
In this paper,with the construction of enterprise tax monitoring system data warehouse technology integration,object oriented function,and at the same time,one of the subsystems as the research object,and using the data mining technology,constructs the enterprise tax assessment model,in order to strengthen the supervision of enterprise tax.
data mining;tax assessment model;OLAP server