●胡晓北 岳书铭
浅析税收风险管理中大数据技术的运用
●胡晓北 岳书铭
大数据(Big Data),又称为巨量资料,指的是数据类别特别大的数据集,并且数据集无法用传统数据库工具对其内容进行抓取、管理和处理。狭义上来说,大数据也指舍弃随机分析法或抽样调查的捷径,而对可能搜集采用到的所有数据进行分析处理。
随着社会现代信息化步伐的不断加快,大数据正逐步蜕变为现代社会基础设施的重要组成部分,就像交通、水利、电力和网络通信一样不可或缺,并对经济学、政治学、社会学和许多门类科学产生巨大的影响。目前,我国税收风险管理的重要依据来自于大量的涉税数据,税收数据的采集和利用贯穿税收风险识别、税收风险评价等各个环节,将大数据理念引入税收风险管理,确保数据信息的准确、完整、全面,并改变以往的数据应用思维,是提升税务机关风险控制水平,提高税收征管效率的必由之路。
提高数据准入要求,确保数据信息准确、完整,是开展大数据分析的基础,海量数据的良莠不齐是大数据时代进行精确分析的一大难题。同样,在税收风险管理过程中,采集的数据信息是否准确和完整,直接影响着税收风险分析的准确度和全面性,进而影响税收风险处置和税收风险评价的正确性,如果税收风险识别所需的信息不完整、不准确,会使税收风险管理的效率大打折扣。
目前,我国税务部门釆集的涉税信息主要来源于税务机关征收采集和纳税人自行申报,涉税数据信息采集范围小,纳税申报表及附列资料的内容单一。在信息釆集的整个过程中,依靠的主要是纳税人自行填写,税务人员的指导很有限,因而纳税人的文化水平直接影响到涉税数据的真实完整性。同时,税务机关在工作过程中对历史数据的导入、错误操作等行为也会产生大量的不规范数据、垃圾数据和缺失数据。部分办税员和管理员对涉税信息的重要性认识不够,税收管理员队伍老龄化现象较为严重,计算机应用水平十分有限,很多时候仍停留在纸上办公,这与现代税收征管工作的信息化要求有较大差距。这些不良因素带来的涉税数据采集不规范的问题,对涉税数据的分析利用,乃至对征管质量都有不利影响,极易引发税收风险。在实际工作中,数据信息采集不规范的问题时常发生,进入税务机关核心征管系统中,如果查询纳税人的登记信息,会发现有些纳税人的注册资金空白或为0;有的纳税人的身份证号位数不对,14位、17位身份证号码大量存在;有的纳税人的经营注册地址不完整,没有精确到街道门牌号等;有的企业法人或办税人员的联系电话要么位数不对,要么为空,要么可以看出来明显是编造的,甚至不同的纳税人用同一个电话号码;除了以上这些纳税人填写的基础信息外,其他如车船产权、土地出让、房屋产权、会计账簿等附列信息采集也存在各种各样的问题,这些信息基本上都是空白,没有按要求填写,甚至存在纳税人在后期办理纳税申报时发现没有税种认定信息的现象。
大力推进税源管理的科学化、精细化进程,要以全面、真实、准确的税收数据信息为基础。在税收风险管理的实际工作中,高质量的基础数据是工作的前提和关键。只有不断提高基础数据的准确、完整、可靠,才能保证税收风险识别的精准性,为下一步的税收风险评价和处置提供坚实可靠的依据。总体上看,可以从以下几个方面努力把握好数据质量关:一是研究制订科学合理的数据采集标准,提高信息接入质量门槛。严格的数据标准是确定数据是否合规的准则,是进行数据相关管理工作的基本规范要求。科学合理的数据标准对采集规范信息、录入系统标准等具有实际操作指导性,有利于加强数据信息质量管理,也有利于数据交换和外部信息共享。当前正在运行的税源征管信息系统对涉税信息录入要求较低,应逐步制定实施全省(市)统一的数据采集标准,用于规范和约束基层税务机关工作人员的数据采集工作。二是完善征管数据审核审计子系统,建立数据审计平台功能,总结归纳数据审计校验规则,开发相应的数据审计软件,加强对已采集数据逻辑关系的审核。通过该系统可以对已采集的数据进行完整性、全面性和逻辑性进行检查,包括税务登记、税种认定、发票发售和验旧、申报征收、税务注销等多个环节的数据审核,并制定统一数据格式标准,指定存放区域,全过程把好数据质量关。三是建立涉税信息质量管理长效机制,加强涉税信息考核管理。税务机关电子税务部门应安排专人对信息数据进行监控,并实行问责机制,将数据的准确性和完整性列入绩效考核当中,切实引起税务工作人员的重视。同时,加大对征管信息库基础数据的维护,及时清理垃圾信息,安排专人负责纳税人涉税基础信息的釆集和维护工作,建立电子数据信息釆集维护的长效跟踪机制。
在过去很长一段时间里,准确分析大量数据是一种很难完成的挑战,因为记录、存储和分析数据的信息化工具达不到要求,我们只能采集少量数据信息进行分析运用,即使目前突破了条件限制,在过程中仍会自然地将数据进行删减,人为限制了数据量的搜集,但大数据时代中我们可以处理的数据量已经大大地增加,全面而庞大的数据可以让我们对事情的看待更为准确和宏观。同时,我们所处社会的关联程度日趋复杂,个体不可能独立于社会而存在,数据的记录也是全方位全过程的,不存在任何死角,对蛛丝马迹的线索运用将更为广泛和普遍。
就目前税务机关涉税信息采集来看,普遍存在两点局限:一是采集信息要求不高,纳税人填写税务登记表格时往往只需要填写部分内容,大部分表格都是以空白形式存档,对涉税信息采集只求局部,不追求全面;二是采集信息途径单一,信息来源往往仅限于纳税人本身,以及国税、地税、工商、银行等少数部门之间简单的信息交换,而不是实现真正意义上的信息共享。税收风险管理从本质上来讲就是对纳税人进行信息采集和审核,如果纳税人有关的所有信息很难采集完整,不利于对纳税人进行风险分析,极易引发涉税风险。反之,税务机关对企业的生产销售情况了如指掌,运筹帷幄,将会不再局限于“管中窥豹”。以房地产行业为例,企业销售未完工开发产品取得的预收收入,应按预计计税毛利率(15%、10%、5%、3%)分季(或月)计算出预计毛利额,计入当期应纳税所得额。开发产品完工后,企业应及时计算结转计税成本,计算此前销售收入的实际毛利额,同时将其实际毛利额与其对应的预计毛利额之间的差额,计入当年度企业的应纳税所得额中。如果房管局的信息可以与税务机关共享,那么企业预售房屋收入的准确性就有保障,大大降低少计收入风险;如果国家土地储备中心的信息可以与税务机关共享,那么企业的土地成本就可以准确计算;如果银行的信息可以与税务机关共享,那么企业账外收入的情况就有迹可查;如果自来水公司、供热公司、电力公司的信息可以与税务机关共享,那么企业配套设施建设费用就能一目了然,等等。
在欧美国家,信息化技术发展较快,信息采集和共享制度比较完善,税务机关可以采集利用到比较全面的企业涉税信息。如澳大利亚税务局已经建立完善了纳税人的基本信息资料库,这些数据的来源包括进出口管理部门、银行等金融机构、移民管理部门、股票交易市场、房产土地部门、车管部门等,使得它的风险管理系统能够运用大量的外部相关信息进行多角度、全方位的综合性分析,风险评价的准确性得到极大的提高。因此,我国各级政府部门应借鉴国际税收先进经验,打破部门之间存在的“信息壁垒”,逐步建立以地方政府为主导,各相关部门协作配合的公共部门信息共享平台,将住房与城乡建设委员会、房屋管理局、人民法院、财政局、海关、审计局等政府机关,及银行、各行业协会等机构,包括电视、网络等新闻媒体吸纳进来,制定规范统一的数据交换标准,建立便捷畅通的信息获取渠道,充分利用电子网络快速获取所需的数据信息,确保各经济实体的相关涉税信息都能及时准确地纳入税收风险管理系统,为开展税收风险识别和税收风险评价提供可靠、有效的信息来源。同时,应不断提高税务机关内外部信息共享协作机制的运行效率,达到及时发现风险、及时处理问题的效果,更好地解决税收工作中征纳双方涉税信息不对称问题。建议政府将第三方信息共享平台纳入各部门目标责任制考核内容,防止“自比自划”的情况发生,确保责任单位间达成共识,保证数据的充分、及时、有效共享。同时,各税务部门需要狠下力气,从上至下打破内部之间职责相对独立的弊病,整合办公系统软件,对信息采集进行统一规划和科学分工,形成一种长效的交流反馈机制,努力拓展和畅通信息获取渠道,做好税务系统内部信息的比对工作,充分发挥已有涉税信息的最大化采集利用。
一直以来,我们总是习惯把提取样本、分析样本、制定模型、模型运用等流程,当做分析和解决问题的基本思路。但是通过模型的制定,以部门代表全体的方法只是基于少数样本的选取,代表性没有根本保障,同时该方法的运用也会因为对象个体的差异性而受限,具有一定的局限性。如今,技术环境已经有了很大的改善,在大数据时代我们可以对每一个样本进行分析,制定出针对个体的指标体系,从而进行精细化的监督和管理。当然,在某些特定的情况下,我们依然可以使用模板分析法,但它正逐步被“私人定制”散发出的光芒所掩盖。
在税收风险管理工作中,我们期望能够通过部分企业的风险管理总结开发适用于某一行业或具备某些相同特征的企业的风险管理模型,对模型的制定往往投入很大的精力,模型建成后又以该模型为样板,推广应用到该行业的风险管理中,并期待着良好的效果,以求达到毕其功于一役的目的。这种以样本推测总体,以部分代表全部的思维模式,已经逐步显露弊端。同一行业中的每个企业都是独立的个体,出现的问题各不相同,均有其自身的特殊性。以房地产行业为例,仅其未按预计计税毛利率确认收入一项,各企业的处理就存在很多差异:甲公司将预收房屋款项计入其他往来款中,未按计税毛利率计入当期应纳税所得额;乙公司预售收入2010年仍按15%计税毛利率计入当期应纳税所得额,而法规规定2010年应按25%预征利润率计算应税利润,出现10%的差额未计入企业所得额;丙公司的情况则是自2004年至今一直按照预计毛利率进行预缴,开发产品完工后仍未结转成本收入。相比而言,不同的行业之间则更加没有可参照性,所得税法规定房地产企业销售未完工开发产品取得的收入计入预收账款,这与其他的行业企业的税务处理有着天壤之别。
前任苹果公司总裁乔布斯治疗癌症的过程对这种“私人定制”思维在现实生活运用十分具有代表性。医生将乔布斯身上所有DNA和肿瘤DNA进行排序,进而得到了整个基因密码的数据文档,然后基于他的特定基因组成,按所需的效果有针对性地进行治疗。在治疗过程中,如果癌症病变导致所用药物失效,医生就及时更换另一种药物继续救治。虽然最终没能治愈,却已将他生命延续多年,这已然取得了巨大的胜利。同样的,作为税务部门,我们所做出的每一个行业模型不可能完全适用于每一个企业,就像是产生于样本实验中的医疗药物不一定适用于相同症状的病人一样。我们应该尊重企业情况的特殊性,在行业特征的指导下,对所有企业的信息进行系统分析,制定出适用于该企业自身的税收风险管理体系,而不是单单依靠模型中的通用指标测算。假设税收风险管理工作单纯按照某种特定模型去进行工作流程,结果必然会出现因为忽视企业特殊性的存在而忽视更大的税收风险点。这就需要我们在税收风险管理过程中,注重不同企业的特殊性,考虑到更多的因素,在充分利用大数据的情况下寻找更具客观性、实用性、针对性的数据分析方法,树立更具开创性的数据使用理念。
(作者单位:山东农业大学经济管理学院)