汪东起 王 珂
税务大数据分析的技术和典型应用
汪东起 王 珂
浪潮软件集团有限公司,山东 济南 250101
主要说明了如何搭建适合于税务业务应用的大数据分析平台,并进一步分析了运用大数据开展业务应用的过程、建模方法和数据处理方法。通过对比大数据与传统信息化建设方式的差异,说明了大数据将为税务机关的信息化建设带来全新的突破,提供更为有力的业务创新手段。
税务;大数据;技术架构;数据分析
税务机关是我国信息化建设起步较早的领域,特别是随着以“金税工程”为代表的信息系统的实施,各省税务机关基本上都实现了业务信息化的全覆盖,积累了庞大的数据资源。以云计算、大数据、移动互联网为代表的新一代信息技术,提供了全新的技术、渠道和方法。通过与传统业务的融合创新,正在给世界带来巨大变化。这些新技术也为优化税务业务带来了新的发展机遇。
传统的信息技术主要是辅助业务,而大数据已经远远超出了技术领域,其力量体现在与业务相结合,优化现有的业务,甚至进行颠覆性的创新[1]。这样的案例每天都在各个领域发生。税务机构同样可以利用大数据预知未来的发展动态,推动业务的转型升级,优化管理和服务模式。大数据平台的总体框架分为:数据源层、数据处理层、应用支撑层、业务应用层。
大数据分析不仅需要税务机关内部的业务系统数据,而且需要丰富多彩的外部机构数据,这些数据有助于解决更为广泛的业务问题。
税务机关内部的数据通过数据同步/抽取工具汇集到数据中心;外部机构的数据通过对应的采集工具,交换到税务机关内部的数据中心。为了应对呈指数增长的非结构化数据,在云平台上搭建NoSQL数据库,用于存储和处理庞大的数据。
按照业务分析的要求,建立相应的数据模型,在平台中封装了各种分析算法组件和展示模板;为支撑不同的业务应用场景,提供基础的分析工具(如数据挖掘、网络分析、可视化等),提供统一的管理工具(如基础数据管理、数学模型管理、标签管理、运行维护等)。
针对具体的业务场景,建立众多基于大数据平台的“小应用”,解决具体的业务问题;各个“小应用”具有各自的分析功能和展示界面,甚至与社会服务渠道相融合,针对不同的用户对象提供相应的功能。
随着“金税工程”的不断深入,税务数据资源的种类不断丰富,数据量快速增长,特别是近年来飞速增长的电子票据、视频、网页等非结构化数据,已经超出了目前的处理能力。如何采集、存储和利用庞大的涉税数据,进而从海量的数据中挖掘有价值的信息,已然成为税收信息化面临的一个重大课题。从结构化数据转向大数据是下一步发展的必然选择。税务机关在选择大数据平台时,主要应考虑与具体业务应用场景相关的一些因素,具体情况如下:
大部分厂商的大数据平台都是建立在Hadoop之上的发行版,附加了一些工具和服务支持。不同于结构化数据库,大数据工具的选择取决于要处理哪种数据,不可幻想有一个大数据平台能够适应各种应用场景。另外,政府机构还必须把是否国产软件列入考虑因素。
很多大数据平台非常适合非结构化数据处理,但是在结构化数据处理方面却远逊于传统的结构化数据库[2]。目前税务机构的业务数据主要是海量结构化数据,对结构化数据的处理效率是必须关注的一个重点问题。
税务领域的业务应用场景非常广泛,涉及的数据类型和来源也非常丰富,因此对数据的加工处理、分析挖掘能力的要求也比较高。
税务领域的数据源非常广泛,很多应用场景需要进行实时分析,但是数据源经常会发生变化,直接影响采集的数据质量,因而需要有工具监测数据源和采集数据的异常情况,及时采取纠正措施。
经过20多年的信息化建设,某省税务局目前正在使用的应用系统超过100个,主要的系统有金三系统、社保系统、发票在线、自助终端、12366服务热线等,基本覆盖了税务管理各方面的工作内容[3]。其中,金三系统、社保系统等每天都会产生数百万笔业务数据。另外,税务业务还涉及工商、质监、交易中心等政府部门的共享数据以及来自移动互联网、网络社交媒体等方面的外部数据。数据格式覆盖了文件、地理信息、日志、图片、流媒体等多种形态。丰富的数据源,为开展大数据分析奠定了坚实的基础,而众多五花八门、来源各异的数据源,也带来了非常复杂的数据清洗工作。信息化建设较为发达的省级税务局一般都建立了数据中心,实时将业务系统的数据(大部分是结构化数据)同步到数据中心,大部分非结构化数据则存储在原业务系统中,局外的数据通过数据交换接口传输到内网,集中存储到数据中心。具体的业务分析应用,通过数据接口将涉及的数据从省级数据中心抽取出来,对这些多源、异构、海量的原始业务数据进行清洗、转换、对碰等预处理,将数据存储到大数据库,形成针对不同业务分析的数据集。
大数据与税务业务相融合,应用的范围和发挥的作用都远超以往信息化建设的成果,成为带动税务深化改革的利器。例如,纳税人涉税风险评估、税收政策效果测度、面向纳税人的精准服务、办税流程优化等。以前很多情况都是凭借经验做出决策,而采用大数据技术和方法,就可以根据积累的数据,分析得出采取某项措施后可能带来的影响。在某省税务局的大数据分析项目中,利用大数据技术和方法小试牛刀,在采集整合各业务系统、各办税服务渠道和外部机构数据的基础上,构建能够实时、全程、多元反映纳税服务运行状态的业务模型,完成了政策影响分析、办税事项业务量预测、面向纳税人的精准服务等应用场景,取得了非常好的效果。
综上所述,大数据在税务领域的应用,目前还处于起步阶段,在项目中只是在大数据分析方面做了很小的尝试,还有非常丰富的业务场景有待发掘。
[1]于众.大数据环境下税收数据深度利用探索[J].经济研究导刊,2016(13):78-79.
[2]维克托·迈尔,舍恩伯格,肯尼斯·库克耶.大数据时代——生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.
[3]孙懿.大数据时代对税务工作的挑战与对策[J].学术交流,2015(6):133-139.
Technology and Typical Application of Big Data Analysis
Wang Dongqi Wang Ke
Inspur Software Group Co., Ltd., Shandong Jinan 250101
The paper mainly explains how to build big data analysis platform suitable for tax business application, and further analyzes the process, modeling method and data processing method of using big data to carry out business application. By comparing the difference between big data and traditional information construction mode, it shows that big data will bring new breakthroughs to information construction of tax authorities, and provide more effective means of business innovation.
tax; big data; technical architecture; data analysis
F812.42;TP311.13
A
1009-6434(2017)12-0080-02