深度学习技术作为人工智能领域机器学习算法的一个分支,近年来越来越受到大数据学界和政府、企业等实践部门的重视。信息化时代,税务部门不仅是大数据的拥有者,工作属性使其天然具有纳税人及纳税信息的海量数据,而且是大数据的应用者,执法属性要求其对这些海量数据进行归集、整理、保护、防控。在这些过程中,深度学习技术将能发挥重要的作用。
对于大数据时代浩如烟海的数据量,我们需要及时对信息进行分析并正确处理,挖掘其自身的固有价值,数据挖掘技术由此诞生。数据挖掘技术就是通过统计、分析、机器学习等算法从大数据中搜索隐藏在数据中的信息,其中机器学习算法效果较好,而深度学习是机器学习的一个分支,自2006年此算法被正式提出后,经过不断的发展和改进,在最近十几年得到了快速发展,目前已经成为人工智能领域最重要的技术之一。
深度学习算法起源于人工神经网络技术,该技术是模拟人脑神经元决定过程的一种抽象网络。深度学习的基本模型分为3类:多层感知机模型、深度神经网络模型和递归神经网络模型。其代表分别是深度信念网络、卷积神经网络、递归神经网络。深度学习技术的核心是采用一系列非线性变换从数据中提取多层特征,具有很强的泛化能力,因此被广泛地应用于各种预测方面。
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
IBM提出,大数据有5V的特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
1.技术层面。主要体现在以下七个方面:
(1)访问数据。大数据技术应用的第一项工作是获取所需的海量数据,可以包括关系数据库、文档和电子邮件、社交媒体、第三方数据、日志文件、机器传感器、公共云、私有云等。
(2)集成数据。大数据技术应用的最难工作是整理各种数据结构和格式。为了持续实施分析,需要建立一个用来集成和规范所有这些数据的流程。
(3)清洗数据。为了保证数据分析的可靠性,必须清洗数据,删除重复数据、错误数据、不准确数据和不完整数据。集成的数据越多,保持较高的数据质量就越重要。
(4)保护数据安全。处理的不同数据集往往具有不同的安全规定和要求,海量数据会分散在数百个数据存储中,需要熟悉敏感数据所在的位置,并通过加密来确保其数据源的安全性,然后对有权访问该数据的人员加以控制。
(5)分析数据。分析流程取决于分析师、分析工具以及业务要求。这一流程应随着时间和经验的累积变得速度更快、成本更低,更具有可扩展性。
(6)分析业务需求。这项工作非常关键,但几乎总被忽视。我们需要建立一个明确的流程来分析业务需求。如果把握不准业务的脉搏,努力就会付诸东流。
(7)运用分析结论,实现持续改进。我们需要清楚地认识大数据项目会产生哪些业务影响,并将其传递到最需要它们的业务中去,利用大数据分析出的结论指导相关业务部署,将数据分析的成果落到实处,并通过修正数据收集模式,收集范围,分析和应用,持续改进大数据技术应用。
2.实践层面。目前的大数据技术主要有Apache-Hadoop、R语言 、 Cascading、 Scribe、 Elastic-Search、 ApacheHBase、 ApacheCassandra、 MongoDB、ApacheCouchDB等9种,这些大数据技术涵盖数据收集、存储、处理、分析、展现等各个方面,被广泛应用于各种互联网或电信公司,同时政府也掌握了海量的信息,不少国家都积极投身到大数据的时代热潮里,利用手中的海量信息优化政府服务、提升行政效率。
2017年12月8日国家主席习近平提出:实施国家大数据战略,加快建设数字中国。大数据已然成为了新时代不可或缺的关键词,悄然改变着我们的工作方式、生活方式和思维方式。在税收方面,大数据也逐渐体现出不可替代的作用来。税务机关可以依靠海量涉税信息,建立数据仓库,强化税源监控、减少税收流失,使税收征管效率得以大大提高。税收数据范围从税源的“样本数据”到税源的“全体数据”;税收数据的收集从过去过度地追求精确性,转变为较宽容地接受数据的纷繁复杂性;税收数据分析从“因果关系”分析逐渐转换为“相关关系”分析。为了发挥数据资源的价值,更加有效的识别纳税人风险、发现纳税人之间的各类关系,更加便捷的支撑各级税务人员对税源深入管理,提升管理质量,深入挖掘大数据以服务税收势在必行。
目前,我国税收数据从总体来看,有数据量增长迅速、数据结构多样性、数据关系逻辑复杂化、数据计算量巨大四个特点。从总量上看累积纳税人记录数1.9亿条,自然人记录数16亿条,申报记录数80多亿条,发票记录数102亿条,生产系统结构化数据每月以T级增长。数据结构包括核心征管数据,保留系统数据等结构化数据,电子档案等非结构化数据,互联网数据,实名认证图片数据,视频数据等。数据逻辑关系包含了70家原国地税单位核心征管的2771个表单,7多万数据项,4仟多张数据表,3万多个字段,1万多种数据关联。而数据计算包括统计分析、信用评定、风险扫描、预测分析等。我国税务机关依托现代化信息技术建立的,由政府为主导、以政务信息共享平台为依托的全社会基础数据统一交换平台于2016年9月启动建设,截止目前已经开发完成了十多个应用系统以及算法模型的设计和开发。
目前的风险管理中,推送的风险都沿用了原有的基础数据阶段的“数据—指标—风险信息”模式,根据有限的,孤立的采集数据,依据业务逻辑设计一些指标,然后判断可能的风险进行推送。税收风险管理系统通过收集整理数据,然后根据提前设定的指标、模型筛选出符合条件的企业,逐条分析每个企业的涉税数据,并按照风险分值的大小从高到低排序,再指派相应的风险人员进行处理,最后再对数据进行评估反馈。
这是相对初级的一种数据利用方式,每批推送的都是某个纳税人孤立的风险点,发票是发票风险、增值税是增值税的风险,房产税是房产税的风险等等,同一纳税人的风险分几次推送,不仅增加了基层的工作量,也增加了对纳税人打扰。
其中的难点就在于,与税收风险相关联的数据采集来源范畴很广,要全面收集每个企业的征信、交易信息有一定难度,而风险判断和识别这一步骤则大量需要有丰富工作经验的税务干部结合相关规章制度和征管规范进行比对和判断,对税务干部的工作经验和判断能力都有较高要求。
图1 风险应对流程
其中,数据收集难度高的问题可以依托正在建设的大数据云平台与外部门进行交互联动来解决。而在税收风险分析中,如果面临的工作量比较大,就有可能变成抽样的模式,这样也会与实际的情况存在一定的差异,但是在应用人工智能技术之后,可以有效地克服审计工作量大的缺陷,实现将抽样检测变为全面检测的模式。在未来的发展过程中有可能在人工智能技术的冲击下,出现大规模的记账中心。通过这些记账中心的运转,能够实现对众多企业财务风险工作的同时进行,做好资源调配,切实以税收风险管理来帮助社会更好地进步,维护金融领域的健康发展。
目前国内将大数据在税务工作中的运用尚处于初级阶段,平台架构还不成熟,我们的工作主要着眼于数据入口的收集工作,即如何与外部门及时联动、互通有无。而税收风险防控和其他需要深度学习的工作,更多的依托传统数据收集模式和分析模型,对海量数据的挖掘和使用部分存在一定的技术空白。
针对税收风险防控里的数据收集和数据分析问题,大数据与深度学习恰好能完全匹配这两个问题。正在建设的互通有无的云平台能够有效收集和整理财政、金融、环保、国土资源等系统中涉及纳税人的信息,并通过深度学习,由机器自主进行数据清理、数据集成、数据选择、数据变换、数据挖掘和模式评估等环节,最终以纳税人风险等级分级表或实时风险分布图的方式输出评估结果。广州市税务局就借助爬虫技术,海量抓去互联网涉税数据,拓展第三方数据资源,切实解决了征纳信息不对称问题。在分析中,可以多运用语义分析系统、终端传感采集、移动应用数据等技术多渠道采集网络舆情或中介报告中存在的风险疑点指向明确、时效性强的第三方数据。
从人工智能在税收领域的具体实践看,其已经有了较成体系的应用。世界上首个应用于税收领域的人工智能“沃森(Watson)”诞生于美国的IBM公司,沃森是一个多领域应用的认知技术,目前美国布洛克税务公司已经雇佣了沃森并利用其强大的人工智能系统帮助其准备纳税申报等相关工作。沃森的智能性主要体现在:它能通过学习消化美联邦的税收代码,吸收布洛克税务公司的税务人员与客户之间的对话,通过分析会话模式以确定纳税人客户是否可能失去节税机会,并在税务师通过文书与客户进行交流时随时跟进,同时检测是否有潜在的扣除项目或信用丧失的风险从而及时提醒,以实现为纳税人提供更为合理的纳税方式的目的。
而风控领域数据挖掘同样是一个循环迭代的过程,只要我们在前期将大量征管规则和规则以及对已有纳税人案例的分析结果输入系统,在人工智能成功进行深度学习后,就能够自主选择更合适的风险模型对纳税人进行分析评估。有效做到加强事前预测,避免事发之后才开始控制,同时进行事后总结,防微杜渐,防患于未然。
当然,机器分析的结果还是要为人服务。我们应当正确对待模型分析的结果与专家经验之间的关系。计算机决策不能替代人脑决策,一些分析结果可能受制于数据或分析工具等得不出合理的结果,这些都需要专家的检验判断作为辅助,只有将二者有机结合才能得到相对科学合理的结论,从而有效地辅助决策,提升税收征管质量。