曹越
摘要
本文从大数据相关概念入手,结合税务信息化建设现状,探讨了何为税务大数据,并依托安徽税务信息化建设基础,简要介绍了妥徽税务搭建税务大数据平台工作思路和过程实践,最后就如何深入推进税务大数据应用,提出相关策略性思考建议。
【关键词】大数据 税务
毋庸置疑,当前我们正身处大数据时代,数据是基础性核心资源已经成为普遍共识,对全量数据的深入发掘揭示了许多经济社会现象背后的奥秘,进而推动世界经济社会形态发生复杂而又深刻的变革。对于我们税务人,如何掌握税务大数据的“制数权”,修炼出更为深刻敏锐的洞察力、深入了解纳税人经营动态、时刻把握经济发展先机进而极大提升治税能力是一项亟待研究的重大课题。
1 税务大数据的研究现状
1.1 税务大数据研究意义
历经二十余年的信息化建设,税务系统已经初步建立了“稳固强大的信息体系”,实现了税收业务和行政管理两大领域的信息化全覆盖,沉淀了海量的数据资源
税务系统早期的信息化往往存在“单打独斗”的问题,建成了一大批“烟囱式”应用,普遍存在不共享、不一致、不完整、不精确等数据质量问题,严重制约了税收数据分析决策向纵深发展。
2015年国家税务总局在《“互联网+税务”行动计划》中倡导“运用大数据技术,开发和利用好大数据这一基础性战略资源,支撑纳税服务、税收征管、政策效应分析、税收经济分析等工作,优化纳税服务,提高税收征管水平,拓展税收服务国家治理的新领域。”国家税务总局提出这一倡议,既是对国务院印发《促进大数据发展行动纲要》中要求的积极响应,又是税务系统应对大数据时代背景下面临一系列挑战的内在需要,这些挑战包括:
(1)纳税人生产经营形态的日益复杂,税务机关越来越难以掌握纳税人经营动态;
(2)纳税人核算方式呈现团队化、专业化趋势,逃避缴税手段越来越丰富;
(3)涉税话题越来越敏感,税务机关及时发现、妥善处理涉税敏感问题以及迅速回应社会公众关注的时效性要求越来越高。
1.2 税务大数据研究现状
发达国家的税务部门普遍对大数据工作极为重视,有的甚至成立专门的机构专职开展税收大数据工作。美国国内收入署(IRS)成立了研究分析和统计司(RAS),负责税务数据的收集、研究、分析和统计,为决策提供参考建议。英国皇家税务海关总署成立知识、分析和情报理事会(KAI),开展数据分析、实证分析,为制定税收政策、改进纳税服务提供数据支撑。
在国内,税务大数据研究的热潮刚刚兴起,从国家到地方税务大数据平台建设方兴未艾,国家税务总局建立了税务总局大数据平台,以全国集中数据为基础,面向全国税务机关提供查询服务,并己开放了增值税发票查询分析、纳税人关系云图、票流分析、风险情报、企业画像、纳税人关系分析等应用;北京、广东、江苏、江西、四川、贵州、陕西等多地税务机关己建成或正筹建各自税务大数据平台,积极开展相关研究。
近年来,安徽税务积极筹划运用大数据技术,汇聚安徽税务“数据海”,构建安徽税务大数据平台,实现对海量涉税数据的采集、存储、加工、挖掘、应用。
2 安徽税务构建大数据平台的探索实践
2.1 安徽税务大数据平台建设思路
安徽税务大数据平台按照“统筹规划、适度超前、开放共享、持续演进”的原则构建,整合税务系统内部数据、外部数据、互联网数据和情报数据,具备可按需扩展平台数据处理方式、提升数据处理效能的能力,为各类税务大数据应用提供有力的数据处理支撑
(1)建立规范统一的大数据管控体系,以大数据平台为核心,解决数据分散、数据来源多样化和数据结构复杂的问题。
(2)用“数据治理”的理念,统一管理数据全生命周期,实现数据标准、数据来源、数据采集、数据存储、数据服务和元数据等数据治理过程的流程化、可视化和体系化,提升数据资产的质量和价值。
(3)基于微服务架构,建立和完善数据服务的分层体系,提高共享利用率、标准化程度,形成全局业务全景视图,集中管理,分散使用。
(4)结合业界最新大数据采集存储技术、大数据分析挖掘方法和机器学习技术构建成熟、可靠、高效的分布式“大数据引擎”,为互联网时代下税收管理的有效提升、纳税服务水平的持续改善,打下坚实基础。
2.2 税务大数据平台架构功能
基于现有信息化建设的技术积累,安徽稅务大数据平台总体层次结构以及应用架构规划如图1所示。
2.2.1 数据源
数据来源主要包括税务系统内部数据、第三方涉税数据、互联网涉税数据以及其他形式的涉税数据等,数据形式涉及结构化、非结构化和半结构化数据。
2.2.2 数据采集层
基于分布式数据采集平台,融合Sqoop、Flume等数据采集工具,实现税务系统内部数据、第三方涉税数据、互联网涉税数据以及其他形式的涉税数据的采集,并将采集到的数据装载至大数据平台;对互联网涉税数据,通过爬虫工具采集并转化为结构化数据装载至数据存储层。支持对实时数据、增量数据和全量数据加载的方式进行数据采集与解析。
2.2.3 数据存储与计算层
数据存储主要完成多源数据的融合存储,数据存储主要基于分布式文件系统(HDFS)和列式数据库(HBase等),辅以内存数据库来实现流式计算的输出存储,通过关系数据库实现元数据、用户、权限配置等数据的存储管理。数据计算主要包含并行计算框架(MapReduce)、分布式通用计算引擎(Spark)、流式计算引擎(Spark Streaming或storm),并提供基于Spark MLlib的机器学习引擎等。
2.2.4 数据服务层
数据服务层主要提供税务大数据平台的数据资源服务和数据计算服务。通过数据服务标准化开放访问,实现应用和数据分离。数据资源和数据计算封装成RESTful格式对外提供服务,以便于上层应用进行增值开发利用,体现数据价值,并应支持机器学习算法分析服务。
2.2.5 涉税业务应用
安徽税务大数据平台初步建设了三个示范性大数据应用,包括:税收收入动态展示、互联网数据采集与展示和发票数据查询与分析,以数据驱动进一步提升税收征管数字化、网络化、智能化水平,建设“智慧税务”。
2.2.6 平台管理
平台管理主要指大数据平台的整体性管理,包括用户权限、管理流程、服务部署、平台安全、数据提供等业务的统一调度。
2.2.7 数据治理
数据治理应贯穿于数据生成、存储到销毁的全生命周期,统领数据源、数据采集层、数据存储与计算层、数据服务层和涉税业务应用,绘制全景数据视图,全面反映数据的采集、加工、存储、安全、共享和应用的过程。
2.3 税务大数据平台安全设计
安徽税务大数据平台严格遵循信息系统安全等级保护制度和国家税务总局《税务应用系统网络安全审核指南(试行)》总体要求,着力构建稳固、安全、可信的大数据环境。
针对外网业务区域采用的安全技术策略和对应的技术措施如表1所示。
针对内网业务区域采用的安全技术策略和对应的技术措施如表2所示。
2.4 税务大数据平台建设成效
目前安徽税务大数据平台己初步建成,整合数据库、文档、图片、音频、视频等多源异构的税务大数据资源约20TB,为税务大数据的进一步分析与利用提供了数据支撑,并研制了三个示范性大数据应用:
(1)税收收入动态展示,借助大数据流式计算引擎和数据可视化工具,集中展示全省税务系统税收收入状况,并实时跟踪和演示其动态变化,为领导决策提供可视化的数据支撑。大数据平台能够基于区域、行业、类型等为分类方法的税收收入完成情况、收入质量、征管质量的图形化展示,可以实现企业排名,地区排名,行业排名,并能进一步钻取数据。
(2)互联网数据采集与展示,采用自动化、可扩展和安全高效的网络信息采集工具,从互联网抓取纳税人相关数据(包含但不限于财经新闻、公告、财务报表等信息),并完成数据的分析、匹配,按户构建情报池并进行数据展示。现己从互联网上抓取了省内上市公司在证券交易所的公告信息、招标采购网站成交公告信息、公共资源集中交易信息和部分市局房产交易信息等内容。
(3)发票数据查询与分析,整合多源头、多渠道的发票数据,形成统一发票数据池,为纳税人提供快速、高效的发票信息查验服务,下一步将面向税务系统工作人员提供发票数据检索、分析和挖掘计算等服务。
3 推进税务大数据应用的若干思考
安徽税务大数据平台虽已初步建成,然而这仅仅是大数据应用的新起点,如何用活、用好大数据,助力安徽税务提升治税能力,服务好税务部门“放管服”工作大局,需要深入思考和坚持探索。
3.1 税务大数据怎么用
大数据是新概念、新方法、新技术,需要我们采用新思维,树立正确的大数据理念,并在工作实践中持续深入研究。
3.1.1 技术引领、业务驱动
推进大数据应用。在这个过程中,大数据平台通过数据挖掘、机器学习算法和数据可视化报表等先进技术去激发用户想象力、激活分析应用需求,大数据应用的成效则反向推动大数据平台不断优化完善。
3.1.2 摆正大数据应用地位
既不能认为大数据无所不能,将其神秘化,也不能将所有数据应用工作都贴上大数据标签。将其神秘化往往会造成应用设想和现实成果落差太大,影响信心。将大数据应用标签化,则会停留在现有的数据应用水平。
3.1.3 和总局大数据平台关联
总局大数据平台存储全国的涉税数据,在纳税人风险识别、发票流向等方面比省级大数据平台具有天然的优势,但在数据分析的灵活性,外部数据获取的便捷性上效率不够。因此,将总局和省局的大数据平台的优势结合,才能充分发挥总局、省局两级上下联动的效果。
3.1.4 “摸着石头过河”
为力求实效,建议采用“课题、案例、产品”的路径分层递进:先提出应用需求,以课题形式进行研究,发现问题,积累经验;课题研究成果经过税务工作实践初步检验后,形成应用案例,在局部领域持续观察、进一步验证;应用案例经过时间的沉淀后,再固化為成熟的产品推广应用、扩大成果。
3.2 税务大数据谁来用
大数据应用取得成效的关键在人,由于税务大数据的复杂性,既需要精通税收业务与计算机技术,又需要熟练掌握会计、数理统计等知识,还要通过涉税数据之间的相关性分析深挖数据背后的价值。这样的人才在税务系统少之又少因而必须借助团队的力量。
(1)成立大数据应用课题组,从系统内招募税收业务骨干、税收分析人才和计算机编程高手,在工作实践中训练和培养大数据人才。
(2)借助大专院校、科研机构和科技公司的外部力量,深入开展数据分析合作。
(3)充分鼓励基层创新,大数据分析往往需要各种出其不意的想法,应研究省、市局集中式分析团队与基层分析小组的混合布局,既能统筹管理又有各地的发挥空间。
3.3 税务大数据安全保障
海量数据的集中同时也意味着信息安全风险的高度集中,如何保障信息安全是大数据应用不容回避的首要问题。而大数据平台和应用涉及网络环境、计算平台和存储载体等方方面面,因此按照信息安全等级保护制度强化大数据安全保障能力,是解决大数据安全的唯一出路。
(1)用安全可信的私有云承载大数据,保障物理环境安全。
(2)严控大数据网络边界,保障网络通信安全。
(3)做好主机和存储安全防护,保障大数据设备和计算安全。四是强化安全日志审计,保障应用安全。五是建立大数据专项安全管理制度,保障管理安全。