基于数据仓库的综合治税数据分析系统设计

2015-06-24 06:34赵晓鹏常晓冰
软件导刊 2015年6期
关键词:决策支持数据仓库

赵晓鹏 常晓冰

摘要:为提高综合治税涉税信息利用水平,实现对各类综合治税数据的整合分析与关联比对,为数据分析提供应用支撑,在分析系统业务需求的基础上,设计了基于数据仓库的综合治税数据分析系统,探讨数据自动交换、ETL、数据建模、联机分析处理等关键技术。

关键词:综合治税;数据仓库;决策支持

DOIDOI:10.11907/rjdk.151175

中图分类号:TP319

文献标识码:A 文章编号:16727800(2015)006011303

作者简介作者简介:赵晓鹏(1979-),男,河北石家庄人,河北省综合治税领导小组办公室工程师,研究方向为财税数据分析;常晓冰(1984-),男,河北石家庄人,河北财华信息技术有限公司助理工程师,研究方向为管理信息系统。

0 引言

近年来,随着综合治税工作的深入开展,涉税信息目录及采集范围不断扩大,税收征管、行政许可、建设项目、注册登记等各类涉税信息数据规模快速增长,特别是综合治税信息系统在省市县三级的推广与应用,为综合治税数据分析与决策支持提供了规模庞大的数据资源。研究如何基于这些海量数据开展数据分析,从中获取与综合治税相关的信息与价值,为各级税务部门加强税源控管、堵塞税收漏洞、实现信息管税提供支撑,具有重要的理论和现实意义。

数据仓库是一个面向主题的、集成的、非易失且随时间变化的数据集合,用来支持管理决策[1],是实现数据整合和分析利用的最佳解决方案。目前,综合治税信息系统所使用的数据库,是按照联机事务处理(OLTP)的要求进行设计的,其数据结构、内容用法与数据仓库有很大不同,无法满足复杂查询和数据挖掘的需要。例如,复杂查询所涉及的多表链接、汇总排序等操作,会很大程度上影响系统相应速度[2]。因此,构建综合治税数据仓库,以数据仓库为基础开发综合治税数据分析系统,是充分利用综合治税数据资源,提升涉税信息利用水平的有效手段。

1 功能需求分析

根据综合治税数据整合与应用需求,数据分析系统建设应以信息管税为目标,按照“覆盖广泛、详实可靠、开放共享、安全高效”的原则,依托数据仓库技术,逐步将税收征管、行政许可、建设项目、注册登记等各类涉税信息接入系统,构建集信息采集交换、审核校验、统计汇总、分析预测、应用发布为一体的综合治税数据仓库,实现第三方涉税信息整合分析与深度应用,包括以下主要功能:

(1)涉税信息采集交换。按照综合治税信息共享目录的要求,依托现有综合治税信息系统,通过人工报送和自动交换两种方式采集原始涉税信息,形成综合治税数据仓库初始数据。此外,系统应提供异构数据源支持,支持半结构化和非结构化数据采集导入功能。

(2)建立综合治税数据仓库。按照数据仓库设计、建设要求,按照统一编码体系,对原始涉税信息进行抽取、转换、装载(即ETL过程)。此外,系统应能根据数据仓库的数据处理流程,按照数据质量控制标准对数据进行校验和审核,保证数据正确性。

(3)涉税信息报表和查询。根据综合治税工作需要,按照规范的数据统计口径,建立综合治税数据统计报表体系,定期生成各类统计报表。同时,系统应提供直观的查询功能,能够对报表数据进行钻取操作,实现从汇总数据到明细数据的分层下钻和逐级浏览。

(4)税收风险评估。以第三方涉税信息整合应用为出发点,建立风险评估模型,通过模型将各类涉税信息与税务部门的征管信息进行比对分析,及时发现税收管理的薄弱环节,查找定位税收风险点,堵塞税收征管漏洞,为提高税收征管水平提供数据支撑。

(5)重点税源监控。依托涉税部门提供的企业生产经营信息以及税务部门的税收征管信息,建立重点税源监测指标,对重点纳税人的经营与纳税情况进行监控,并以图形、表格等形式进行展现,直观地反映微观经济主体的运行状态,为制定税收优惠政策、促进企业发展提供参考。

(6)税收收入预测预警。基于综合治税数据仓库所整合的历年度税收数据,建立数据挖掘模型,将税收收入与相关宏观经济指标进行关联分析,对二者的相关性进行深入挖掘。此外,借助计量经济学模型,对税收收入未来走势和波动幅度进行科学预测,为税收政策的制定和领导决策提供依据。

2 系统架构设计

系统整体架构如图1所示,分为4个层次:数据采集层、数据服务层、应用分析层、信息展现层。

(1)数据采集层。数据采集层是整个系统中涉税信息的统一入口,该层能够屏蔽异构数据源的差异,使系统中后续数据处理基于统一的数据接口,降低技术复杂性。系统采集的各类涉税信息,首先在这一层中进行保存,既能减少对数据源性能产生影响,又能在数据ETL失败时再次加载,从而提高系统效率。

(2)数据存储层。数据存储层根据分析主题的要求,采用星型结构对业务数据进行建模,形成数据仓库逻辑模型和实体模型。在数据处理方面,数据存储层先通过ETL处理从数据采集层获取原始数据,再按照数据模型结构对原始数据进行整合,形成一系列事实表和维表。此外,部门数据分析所需数据集市也在该层进行设计和实现。

(3)应用分析层。应用分析层基于数据存储层中的模型数据,对信息展现层提供不同类型的数据分析服务。其中,即席查询服务通过语义层映射机制,可以为涉税信息自定义查询提供支持;报表服务通过定义报表模板,提供可扩展报表生成和查询服务;OLAP通过建立多维数据结构,为复杂数据分析操作提供快速响应服务;数据挖掘服务通过封装特定算法,对综合治税数据进行关联分析,为风险评估、预测预警等系统功能提供支撑。

(4)信息展现层。信息展现层按照数据分析需求,将数据仓库中的数据以及应用分析结果,通过数据展现工具以图形、报表、文字等形式呈现到用户面前。此外,还提供管理维护界面,完成包括用户管理、权限分配等系统管理功能。

3 关键技术实现

3.1 数据自动交换

涉税信息采集是进行数据分析的前提和基础,信息采集的质量直接对数据分析结果产生影响。因此,对于信息化程度高、业务数据集中存储的涉税部门,应当建立数据自动交换平台,实现涉税信息的自动采集,提高数据的完整性、准确性和及时性。

数据自动交换技术的实现模式主要有两种:一是数据库复制模式,其优点是交换双方数据库结构相同,交换数据的内容能够保证较好的一致性和实时性,缺点是扩展性和适应性不足,对异构数据交换的支持较差;二是前置机模式,其优点是支持数据库、文件、接口服务等多种接入方式,有较好的适应性和扩展性,数据交换流程可配置、管理和监控,缺点是数据较难实时同步,交换服务程序对硬件要求较高。本系统采用前置机模式,在各涉税部门部署数据交换前置服务器及软件工具,利用XML文件对异构数据格式进行转换,在保持数据库相对独立和自治的基础上,实现涉税信息的自动提取、整理、传输和保存[3]。

3.2 ETL

ETL是建设数据仓库的重要步骤。在完成不同部门、不同类型涉税信息采集后,涉税信息需要经过抽取、转换、加载进入数据仓库,形成一系列维表和事实表,为后续数据分析与挖掘提供数据基础。在数据抽取环节,系统采用触发器的方式,在数据采集层保存涉税信息的同时,启动对应的数据抽取处理,实现数据采集与ETL的有效衔接,确保采集的涉税信息及时进入数据仓库;在数据转换环节,要对涉税信息的有效性进行检查,然后对照税收收入、纳税人登记信息等事实表,以及区划、行业、税种等维表,经过数据变换、清理、集成、聚集和概括等处理,形成格式一致的事实表和维表数据[4];在数据加载环节,要将转换完成的事实表与维表,批量存储到综合治税数据仓库中。

3.3 数据建模

在数据仓库数据建模中,星型模式能够提高查询性能,降低维表复杂度,因而得到广泛应用[5]。在此模型中,根据数据分析的主题构造事实表,用于存储分析数据的度量值和维度值;根据数据分析的角度构造维度表,用于存储分析数据的维度值(包括历史版本)。事实表和维表以主外键的形式进行关联,形成主题分析所需的星型模型[6]。例如,分产业税收分析主题所对应的数据模型如图2所示。

3.4 联机分析处理

联机分析处理(OLAP)是数据仓库的主要应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。在应用分析层,OLAP服务利用数据仓库的模型数据,根据主题分析需求建立多维分析模型(CUBE多维立方体),并以ROLAP方式进行存储,可从不同层次、阶段共享、存取和分析涉税数据[7]。在信息展现层,系统采用Cognos组件,按照用户的分析需求,以报表、图形、记分卡、仪表盘等多种形式,把CUBE的数据和分析结果展现给最终用户。

4 结语

建设综合治税数据仓库,并以此为基础构建综合治税数据分析系统,是充分利用综合治税数据资源、提升综合治税信息价值的有效手段。本文从应用角度,阐述了综合治税数据仓库及数据分析系统的功能、架构和关键技术。综合治税数据的深层次数据挖掘功能及其实现等问题,还有待进一步研究。

参考文献:

[1] [美]荫蒙(Inmon,W.H).数据仓库[M].王志海,译.北京:机械工业出版社,2006.

[2] 林建明,琚春华,李军.基于数据仓库的财政综合信息分析系统研究与设计[J].计算机时代,2008(9):2426.

[3] 张丽华. 基于XML的异构数据交换技术研究[J].苏州科技学院学报:工程技术版,2010(6):7779.

[4] 黄容,党齐民,陈宝树.财政数据仓库的设计开发[J].计算机工程与应用,2003(32):190193.

[5] 陈荣保,何伟华,戚维田.基于数据仓库的财政收支多维分析系统设计[J].常州信息职业技术学院学报,2008(1):1315.

[6] 张军占,陈光伟.基于数据仓库和OLAP的城市财税分析系统的构建[J].计算机与现代化,2008(9):126128.

[7] 陈晓瑜,乌志平.基于数据仓库技术的财税在线分析系统的研制[J].微型电脑应用,1999(15):4345.

责任编辑(责任编辑:陈福时)

猜你喜欢
决策支持数据仓库
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
管理会计在我国高校财务管理中的应用探析
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
关联规则在网络学习平台中的应用研究
基于数据仓库的数据分析探索与实践