◎文/张雨乾
财政是国家治理的基础和重要支柱,财政收入作为财政管理的重要内容,地区财政收入的增加或减少对于财政支出有极其重要的影响,稳定的、可预期的财政收入对于政府机构运转、教育医疗养老等社会民生领域有着极其重要的作用。2015年国务院就印发 《关于实行中期财政规划管理的意见》,要求加快建立现代财政制度、改进预算管理和控制,全面推进中期财政规划管理,研究未来三年涉及财政收支的重大改革和政策事项,并测算收支数额。科学合理地对财政收入进行预测,有助于准确把握未来的财政收入,建立合理的预期,可以更加合理、有效地安排财政支出计划,实现财政业务的精细化管理,有效促进跨年度的预算平衡。
鉴于财政收入对于国计民生的重要性,不少学者都对此进行了研究,取得了不少成果。谢珊、汪卢俊(2015)将当前财政收入预测方法归纳为三类:一是利用宏观经济数据与财政收入数据构建的线性回归模型。二是采用当前先进的灰色关联模型、BP神经网络、支持向量机等模型进行预测。三是利用财政收入数据进行预测的时间序列模型。除此之外,还指出对中期预算框架下我国财政收入预测应充分考虑可能存在的非线性模型。王华春、刘清杰(2017)运用格兰杰因果检验发现中国的财政收支存在长期均衡并且收入引起支出,符合以收定支的预算编制原则,利用ARIMA模型对中国财政收入进行了预测。安秀梅、肖尧(2017)采用主成分分析、时间序列、组合预测模型等模型对北京市的财政收入进行了预测。蒋锋、张婷、 周琰玲 (2018) 运用Lasso-GRNN神经网络模型对青海省海西州的财政收入进行实证分析,首先运用Lasso选取自变量,之后运用GRNN神经网络模型进行预测,取得了较好的预测效果。
综合上述文献,本文通过Lasso方法选取影响天津市财政收入的主要变量,采用XGBboost模型进行财政收入预测。
本文使用数据来源于国家统计局主要城市年度数据以及2021年天津统计年鉴,其中地方一般公共预算收入(income)数据时间范围为2002—2021年,其他变量的时间范围为2001—2020年。表1为变量统计性描述。
表1 变量统计性描述
Lasso方法是一种压缩估计,Lasso回归可以使得一些变量系数变小,甚至一些绝对值较小的系数变为0,可以较好地解决变量间的多重共线性,特别适合变量筛选。因此本文采用Lasso回归方法来选择自变量,减少变量个数,解决变量间的多重共线性问题。
表2为Lasso回归的结果,去除Lasso回归系数小于等于0.01的变量,选取其中13个变量作为影响天津市财政收入的主要影响因素,分别是国内生产总值、常住年末总人口、在岗职工平均工资、房地产开发投资额、地方一般公共预算支出、城乡居民储蓄年末余额、邮政局(所)数、固定电话用户数、社会商品零售总额、货物进出口总额、普通本专科学生、居民消费价格指数、R&D经费支出。
表2 Lasso回归系数
XGBoost基于梯度提升决策树,是一个优化的分布式梯度增强库,可以快速准确地解决许多数据科学问题,主要是用来解决监督学习问题,目前已经在众多机器学习和数据挖掘比赛中得到广泛认可(ChenT,Guestrin C,2016)。
XGBoost的目标函数:
目标函数包含两个部分:训练误差和正则化。第一部分训练误差 l是一个可导的凸损失函数,测量预测值与实际值yi之间的差。为模型对训练样本的预测值,yi为训练样本的真实值。第二部分Ω为正则化项,定义了模型的复杂程度。其中,γ和λ为人工设置的参数,ω为决策树所有叶子节点值形成的向量,T为叶子节点数。
首先将样本数据分为两部分,一部分为训练数据,一部分为测试数据。之所以将样本数据分为两部分,原因在于防止出现过度拟合现象。如果将全部样本都用XGBoost算法进行迭代训练,得出的预测模型对于样本数据当然是最优的预测也是最准确的,但是如果将样本之外新的数据代入这一预测模型,得到的财政收入预测值是否接近真实数据,则是值得怀疑的。因此通过提取一部分样本作为训练数据,经过算法迭代得到最佳的财政收入预测模型,再通过测试数据代入模型来验证财政收入预测模型的有效性,可以极大地提高财政收入预测模型的可信性和适用性。
训练数据主要目的是通过XGBoost算法进行迭代训练得到财政收入预测模型。选取2001—2017年自变量数据以及 2002—2018年财政收入数据作为训练数据,通过训练得到财政收入的预测模型。由于模型主要目标是财政收入预测,如果同时使用同一年的自变量和因变量进行模型训练,无法实现预测下一年财政收入的作用,除此之外部分自变量还缺少2021年数据,因此对财政收入变量采取滞后一期进行分析。比如使用2018年财政收入代替原来样本中的2017年财政收入数据作为因变量,而自变量还是使用2017年数据;2017年财政数据代替2016年财政收入数据,以此类推,这样通过训练得到的模型可以进行下一年度的财政收入预测。
训练数据使用XGBoost算法进行迭代训练,训练目标是使得模型预测值最接近实际的财政收入。
表3为当财政收入的预测模型为最优时,XGBoost算法得到的模型预测值和财政收入的实际值,可以看出实际值与预测值两者之间已经十分接近,说明训练结果比较准确可靠。
表3 2002—2018年财政收入的模型训练结果
测试数据用来模拟在真实环境下,财政收入预测模型的准确性、可靠性。将2018—2020年自变量数据测试数据代入预测模型中,得到模型的收入预测值,再通过比较模型收入预测值与真实收入数据差别,可以验证在真实环境下财政收入预测模型的有效性,如果预测值和真实值差别越小,则说明模型的预测值越准确,模型越可靠。
从表4中可以看出,使用XGBoost模型得到的2019—2021年之间的财政收入预测值与真实值比较接近,尤其是考虑到近年来在疫情影响下天津市财政收入波动明显,但2019—2021年的财政收入预测值还能比较接近真实值的数据。这充分说明了基于Lasso-XGBoost的财政收入预测模型可以在实际应用中取得良好的效果。
除此之外,使用Sequential模型(Keras中的一种神经网络框架)进行财政收入的预测,得到的预测结果详见表4。通过分别比较Sequential模型和XGBoost模型的预测结果与真实值之间的差别,可以明显看出XGBoost模型得到的预测结果更加精准,误差更小。
表4 2019—2021年财政收入预测值
在实际经济生活中影响地方财政收入的因素较多,并且可能存在变量之间的多重共线性问题以及变量的非线性关系。本文通过Lasso回归方法得到变量的系数,从众多变量中选取影响财政收入的主要变量,在此基础之上使用XGBoost模型得到财政收入的预测值,之后通过比较XGBoost模型和Sequencial模型与真实值的差别,发现XGBoost模型可以比较可靠的、精准的实现对天津市财政收入的预测。
通过分析Lasso回归变量的系数(表2)可以看出常住年末总人口对于天津市财政收入具有最重要的影响。常住人口数量的增加,往往代表着有更多的人来该地定居、工作和生活,促进消费增长,同时人口的增加也意味着劳动力资源更加丰富,可以促进当地经济发展和财政收入的增长。因此吸引更多外来人口来天津,增加本地常住人口数量可能会对天津市财政收入增长产生比较好的正向作用。
固定电话用户数这一变量对于天津市财政收入也有比较重要的正向作用,这一点初看可能有些出人意料,因为就个体日常生活中的体验可以发现个人及家庭用户已经很少使用固定电话,造成这一现象的深层原因可能在于固定电话数量在一定程度上代表了企业的数量。当固定电话数量越多,一定程度上意味着企业数量越多,说明经济越具有活力,也会产生更多的税收等财政收入,当然会对地方财政收入有重要的正向影响。
本文采用 Lasso-XGBoost组合方法开展财政收入预测,具有较高的实用性和精准性,可以为以后财政部门开展财政收入预测以及编制中期财政规划管理提供一定的帮助,也可以为今后的财政收入预测相关研究提供一定的参考。