从发票数据到GDP：理论关联与实证检验

2023-01-03 13:45国家税务总局甘肃省税务局兰州大学课题组

财会研究 2022年11期

■/ 国家税务总局甘肃省税务局兰州大学课题组

一、引言

目前，关于如何合理地对GDP 进行预测，学术界主要存在两种逻辑观点：一是从GDP 自身预测GDP，二是从外部数据对GDP进行预测。第一种观点的支持者认为，GDP未来的趋势是其历史信息的反映，因此，可以通过历年GDP 的自身数据实现其后续预测。如张梓（2022）基于1978-2020 年的GDP 年度数据，采用ARIMA 模型对贵州省2021-2025年的GDP进行了预测；申佳帆、黄云开（2022）基于1978-2020 年GDP 数据，采用ARIMA 和VAR模型预测了云南省十四五时期的GDP 走势；当然，也有部分学者基于大数据分析的方法对GDP 进行预测（马静雯等，2022）。第二种观点的支持者认为，从外部数据探索GDP 走势是更为可行的路径之一，如邓春亮等（2022）探索了中国民航运输与GDP的关系；高灵子（2022）分析了企业会计信息在宏观经济预测中的作用。

不可否认，虽然GDP 确实是历史趋势的反映，但在不同历史时期有不同的外在经济发展条件，导致单纯的依靠历史数据很难对GDP 进行现实意义上的准确预测。从外部数据的角度预测GDP 虽是更为合理的路径之一，但目前的研究却主要集中于经验证据层面，缺少理论的支撑，使其应用价值受限，由此也进一步导致所选择的外部数据具有一定的随意性，与GDP 的契合度不高，致使研究结果误差较大。事实上，作为经济发展水平的直观反映，纳税人在经济活动中使用的发票面额和开具金额直接体现了社会的各项经济活动，发票数据在一定程度上也代表着经济活跃程度，以发票数据为切入点，探索其与GDP 的关系，在理论层面更具有可行性。此外，发票数据实时性与动态性特点说明了其与GDP 关系的研究具有现实意义，这也是当前较多实践部门从实证的角度探索发票数据与GDP 关系的重要原因。但遗憾的是，当前缺乏理论研究的经验证据很难从学理角度证明其可行性，由此也丧失了实践推广的基本依据。鉴于此，本文以发票数据和GDP 的关系作为研究对象，首先从相似研究的综述入手，分析现有研究的常见方法，并提出其存在的问题，在此基础上进行理论层面的分析，明确发票数据与GDP 的理论关联，然后依据二者的理论关联形成本文有数理逻辑的方法论基础，最后以甘肃省2019 年和2020 年的数据为基础进行实证分析，以期为GDP 的合理预测提供一个新颖的视角。

二、文献综述

鉴于发票数据与GDP 之间的经验关系，已有一些研究就如何用发票数据对GDP 进行预测做了一些探索。尽管这些测算方法实现了用发票数据对GDP 进行预测的目标，但其存在的共性问题是缺乏理论支撑。由此也形成了一个关键问题：没有理论支撑、单纯依靠方法或数据导向的预测是无法做出因果推断，也可能导致其结果出现“巧合”而无法应用推广。因此，本文从发票数据预测GDP 走势的主流方法论角度入手进行文献回顾，并对每一种方法的优缺点进行评述，以求在理论层面探索二者的关系，并在此基础上形成本文的方法论。

（一）基于PAC和VAR模型的预测方法

成都市国家税务局课题组（2018）采用了主成分分析法（PCA）和向量自回归模型（VAR）相结合的方式研究了发票数据与经济发展之间的关联性。该方法首先构建一个发票综合指数，通过发票综合指数与GDP 之间的关联性来预测GDP。发票综合指数的构建采用了主成分分析法，即运用多指标作为数据输入，通过降维的方式形成发票综合指数，在此基础上的GDP 预测则采用了向量自回归模型。关于发票综合指数的构建，该文使用了三个二级指标，分别为增值税专用发票指数、增值税普通发票指数以及税收发票发售指数。其中，增值税专用发票与增值税普通发票指数都包含了发票使用份数、开具金额、纳税人行业等数据；税收发票发售指数包含发票发售份数（分类型）、发票发售时间等数据。构建发票综合指数的好处是可以将更多的发票指标信息在一个综合的指标中反映出来，从而提高对现有发票信息的利用率，并最终提高预测效率，但该文在实际构建发票指数时却仅使用了发票份数和发票金额数据，并将其分为工业和商业两个部分，这种做法的实质相当于把一个指标拆分为两个指标，再把已经拆分的两个指标再次合为一个指标，但需要注意的是，由于主成分分析的应用机理，这种一分一合的指标构建方式可能使得合并后的发票综合指数无法涵盖原始数据中的所有信息，导致信息量的缺失和结果准确性的下降。尽管这种做法可以将发票份数的信息纳入到指数中，但在发票总额已知的情况下，分析发票份数并无实际意义，GDP综合指数的构建也存在类似问题。在进一步采用发票指数预测GDP 指数时，该文采用了向量自回归模型，虽然该模型是在经济预测过程中常用的方法之一，但该文的结果表明，实际的预测精度并不理想，尚不如直接用发票数据与GDP 数据之间测算系数的准确性。基于上述分析，该方法实质上并不适合利用发票数据对GDP进行预测。

（二）基于投入产出法的预测方法

国家税务总局福建省税务局税收经济分析处课题组（2020）使用了投入产出法来研究发票数据与GDP 的关系，其目的在于分析新冠肺炎疫情对福建省GDP 的影响。相比于第一种方法而言，这种方法更为复杂，并且使用的是投入产出法，有一定的学理基础。该课题组的做法是根据发票数据的双重含义（既表示销售情况，也表示购进情况）来构建不同产品间的投入产出关系。与第一种方法相比，这种方法相对较为精确，但仍没有摆脱方法导向的弊端。从其具体应用而言，主要存在两大缺陷：第一，中间投入品的核算过程存在问题，致使预测结果偏差较大；第二，其预测结果缺乏理论基础，难以理顺发票数据与GDP的理论关系。

从第一个缺陷来看，第三产业中的一些行业，如批发和零售业、房地产开发经营业、保险业等行业在国民经济的总产出核算并不是服务标的价值，这些行业在投入产出表核算中，在中间使用、中间投入的内涵和开票金额、受票金额等方面差异很大，直接用发票数据测算的GDP 会与真实核算的GDP存在较大差异，尤其是批发和零售业开票额占开票总额的比重大，远超其总产出或增加值占比，需对这些行业的数据进行特别处理，否则既不符合GDP的核算要求，也会导致较大的测算偏差，因此，该课题组对于这些行业中间品投入的估计十分粗略。该文依据所编制的投入产出表，预测了新冠疫情期间的福建省GDP，从全省而言预测精度尚可，但在产业间存在明显差异：第二、三产业的GDP 预测误差很小，但第一产业的预测误差约有10%。该测算方法适用于经济波动较大时对GDP 的预测。在经济运行稳定时，用较为常规和简单的方法就可以取得良好的预测效果。就第二个缺陷而言，该测算方法缺乏严谨的经济关系基础，即使测算准确，也难以解释发票数据与GDP 之间的关系，特别是其理论关系，难以给出令人信服的结果。

（三）基于弹性的预测方法

在经济学中，弹性表示某个经济变量对另一个经济变量变化的反应程度。因此，弹性也经常被用于经济预测过程中。从现有的研究来看，尚未见到直接用GDP 发票弹性来预测GDP 的研究，但已有学者尝试用GDP 税收弹性对GDP 进行预测（邢树东，2010）。鉴于税收是发票数据的组成部分，因此，可以借鉴该方法用发票数据预测GDP。GDP税收弹性可以表示为：eT=。根据该公式，如果假定GDP 税收弹性不变，当期的税收数据可以直接获取，那么就可以根据该公式利用前期数据测算出的GDP税收弹性来预测GDP的变动率。借鉴GDP税收弹性，进一步可以构建GDP发票弹性，GDP 发票弹性可以表示为：eF=。如果假定GDP 发票弹性不变，那么GDP 发票弹性公式就可以用来预测GDP。虽然这种预测方法简单且易于实现，但该方法存在两个明显的缺陷：第一，该方法假定GDP 发票弹性是固定不变的，这个假设在现实中成立的条件不够充分，这可以直接从公式中看出，根据弹性公式，要使eF保持不变，就要求分子和分母中四个变量保持不变或者保持协同变化从而保证总体不变，但这在现实经济活动中基本无法控制；第二，该方法只能预测GDP的单位变化，不能直接预测GDP或者GDP增长率，预测结果应用价值小。这两个缺陷限制了该方法的应用。

三、发票数据与GDP关系的理论建构

现有的预测方法为本文提供了丰富的技术参考，但也存在较为明显的欠缺，即由于缺少发票数据与GDP 理论关系的论述，导致以发票数据对GDP进行预测无法提供严密的数理逻辑支撑，致使现有研究的科学性和准确性大打折扣。本文将从发票数据与GDP 的理论关系建构入手，提出一个有理论支撑的预测方法，以期突破现有研究的经验导向，完善其理论支撑基础，实现理论与实践的有机衔接。

从定义来看，增值税发票是兼记销货方纳税义务和购货方进项税额的合法证明，也是记录商品交易行为的一种凭证，反映了纳税人在经济活动中将一个产品从最初生产到最终消费之间货物或劳务等各环节联系的基本情况。因此，可首先假定每一项经济交易活动都以发票作为凭证，那么增值税发票数据与GDP 之间就存在一一对应关系。实际上，从增值税发票数据构成来看，增值税发票数据由产品价值和税收两部分构成。这表明增值税发票数据与GDP 之间并不是简单的等式关系，必须要考虑税收的影响。因此，本文将从税收出发建模，以推导发票数据与GDP 之间的关系。假定地区总税收为T，总税收是各行业税率和行业增加值的乘积，即：

上式中，下标i 表示行业类别，n表示行业数，ti表示分行业实际税率，yi表示各行业GDP。但上式仅反映了总税收与分行业GDP 之间的关系，并没有反映GDP与税收之间的关系。为了分析GDP与税收之间的关系，将上式变形为：

进一步，可将（2）式写为：

上式中，Y 表示GDP，si=表示各行业GDP 占总GDP 比重。这样，总税收就是分行业实际税率与各行业份额乘积之和与总产出乘积。与（1）式相比，该式不仅反映了总税收和总GDP 之间的关系，还反映了地区的产业结构，纳入了地区的产业结构信息。因此，用该式探讨税收与GDP 的关系更能反映地区特征。在实际计算中，只要确定了总税收，分行业税率以及行业份额，就可以计算出GDP。但在现实中，由于税收漏损、税收减免等因素的影响，测算行业实际税率十分困难，而发票数据则更为直观。此外，相比于发票数据，税收总额远低于GDP，通过税收测算GDP产生的测算误差会对预测的精准性产生很大影响和干扰，所以用发票数据代替税收测算GDP就具有相对优势。在理想情况下，发票数据、总税收和GDP之间应满足以下关系：

（4）式中，F 为发票数据，σ 表示GDP 中应该纳税的比例，σY 表示应税产出或应税GDP。如前文所述，在实际经济活动中，发票会存在不开、漏开、虚开等现象，而GDP 核算中也存在重复核算等问题，所以发票数据与应税GDP 之间就不存在一一对应关系。这种情况下，（4）式就不再成立，即发票数据就不再等于税收总额和应税GDP 之和，而应是应税GDP 的一部分与税收之和。从现实的发票和应税GDP 数据结构来看，发票数据和应税GDP在行业之间存在差异，但当不存在产业结构的快速变迁时，σ 值一般较为稳定。进一步来看，本文假定应税GDP内未体现在发票数据中的部分为θσY，那么（4）式就可以转化为：

将（3）式带入（5）式，可得：

（6）式将发票数据与应税GDP 的关系转化为发票数据与GDP 之间的关系。从（6）式可以看出，发票数据与GDP 之间存在稳定的联系，可以用发票数据对GDP 进行预测。因此，在明确发票数据F 的情况下，如果能够计算出（6）式等号右边中括号内的部分，就可以在不涉及税收的情况下，直接算出GDP。由此，根据理论分析，可以有两种预测方法。

第一，在经济运行稳定的条件下，当期GDP 可以用上一期GDP 与发票数据的比值再乘以当期发票数据测得。公式如下：

值得注意的是，用（7）式预测GDP 有一个较大的前提是经济运行需保持稳定。这种稳定主要体现在经济结构的稳定，即GDP 构成、发票构成以及行业税率的相对稳定。

这种算法虽然简单可行，且有理论基础，但存在明显缺陷是无法给出统计学意义上的显著性检验，即无法计算出预测精度，也难以计算出GDP 或者发票的边际效应。为解决这些问题，可以进一步对（6）式两边取对数，并加上残差项，得到可行的另一个改进预测方法。

第二，线性回归法（OLS）。公式如下：

具体做法是，首先用历史数据按照（8）式进行回归，测算出截距项和回归系数β。然后，代入当期的发票数据和求出的相关参数值，计算当期GDP。对比（6）式和（8）式可以发现，（6）式等号右边中括号内的部分在（8）中变为了右边“和式”中的第一项，也就是回归结果中的截距项。在回归方程中，截距项反映了核心解释变量和被解释变量之间的固有关系，即GDP 和发票之间的固有关系，一定程度上反映出前文数据对比分析中指出的发票数据与GDP数据之间的差异性。（8）式中，回归系数β反映了二者之间的相关影响关系，即一个指标变化一个单位，另一个指标会相对变化的单位数量。同时，使用OLS方法还能给出截距项和回归系数的统计显著性，这就能回答预测精度问题。此外，残差项的加入可以减少如宏观经济波动、疫情影响等其它因素对二者关系的影响，从而减少误差干扰。

综上，本文认为使用OLS回归方法可以实现基于发票数据对GDP 的预测。该方法有坚实的数理基础，也可以扩展到不同地区。并且，该方法基于统计学理论，可以有效回答预测精度的问题。此外，该方法简单易行且效率高，省去了构建大型系统的繁杂计算。因此，本文选取该方法来实现发票数据对GDP的预测。

四、以甘肃省为例的实证检验

为检验本文理论分析的合理性，本文使用甘肃省2019 年和2020 年的真实季度发票数据和GDP数据进行实证检验。需要指出的是，尽管本文的理论模型不要求发票数据与GDP 之间的关系是绝对稳定的，在时间序列数据够长的条件下可以通过控制时间趋势和求时变系数的方式来解决二者之间的跳跃关系问题，但在时间序列数据较短的情况下，要想使预测结果较为准确，那么就要求二者之间的关系是大致稳定的（需要说明的是，本文所选取的时间范围是在考虑了“减税降费”政策影响的基础上确定，若进一步将数据追溯至2019 年以前，发票数据存在较大波动而影响预测结果）。图1 显示了甘肃省2019 年至2020 年季度发票数据与GDP 之间的经验关系，从图中可以看出，尽管2019至2020年甘肃省发票数据和GDP数据存在一定的季度差异，但分季度变化趋势却基本一致，这表明发票数据与GDP 之间存在大致稳定的关联关系，可以使用本文提出的方法来通过发票数据预测GDP。

图1 2019-2020年甘肃省发票数据和GDP季度变化趋势情况

由图1 中发票数据和GDP 数据的趋势分析可知，本文所使用的算例较为符合上述的预测方法要求，因此，本文将使用该算例数据和上述预测方法做实证检验。表1给出了按照（8）式进行实证检验的回归结果。

由表1回归结果可知，GDP的自然对数与发票数据自然对数的回归系数在5%的显著性水平上显著为正，且截距项的回归系数也显著为正，二者具有统计学意义。根据该回归结果，发票数据与GDP的数量关系就可以表示为：

表1 回归结果

根据（9）式，在发票数据已知的条件下，就可以预测出对应时间的GDP数据。表2给出了按（9）式预测的GDP和真实GDP以及根据两组数据计算的相对误差。

从表2 可以看出，根据本文的预测方法，除2019 年第一季度以外，预测的GDP 与真实GDP 之间误差的绝对值都在10%以内。除去2019年第一季度和第四季度，预测GDP 与真实GDP 之间误差的绝对值都保持在4%以内。2019 年第一季度预测差异较大的可能原因在于，预测数据受内外部经济环境条件变化所引起的政策性应对的影响。在该时期，国际国内经济下行压力增大，供给过量与需求不足结构性失衡引发商品市场的均衡被打破，进一步致使国内较多企业，特别是小微企业的盈利能力受限、生存空间压缩，对国内劳动力市场（尤其是非技术性劳动力市场）产生较大冲击。为缓解就业问题，财政部和国家税务总局相继下发了《关于实施小微企业普惠性税收减免政策的通知》（财税〔2019〕13 号）和《国家税务总局关于实施小型微利企业普惠性所得税减免政策有关问题的公告》（国家税务总局公告2019 年第2 号）两个文件，大幅下调小型和微利企业税负，以期降低其生产成本，保住小微企业、保住民生就业。与这一国内政策性大背景相对应，甘肃省内小型和微利企业数量较多，导致整体而言政府的财税让利空间较大，遂使发票数据受明显的制度性冲击而产生较大波动，进而使该季度GDP 的预测产生较大的相对误差。对于2019年第四季度预测效果而言，差异较大的原因可能在于，2019年年末突然受到新冠疫情的影响，在没有提前准备的情况下，突发重大公共卫生危机，明显形成了对经济发展的外在冲击，导致预测效果偏差较大，在疫情常态化或可预期范围内，这一偏差则明显回落，2020 年三个季度的预测结果可提供一定的佐证。上述结果也在一定程度上表明本文的测算结果有较高的准确性。

表2 估计结果及对比

为保障本文理论逻辑以及实证分析上的合理性，本文进一步采用VAR 模型和基于弹性的计算方法，再次对前文实证结果进行分析，通过对比不同模型分析的结果及其相对误差，以期得出更为稳健的结论。基于VAR模型的预测结果如表3所示。需要说明的是，投入产出分析法要求相对较高，既需要投入产出表，也需要更多投入指标，但由于本文数据条件的限制，加之本文从理论到实证的研究目的，此处不再考虑投入产出分析法。

表3 基于VAR方法的预测结果

由表3 分析可知，与本文所采用的方法相比，基于VAR 模型的测算结果具有两个典型特征：其一为相对误差较高；其二为相对误差波动较大，且在一定程度上很难有规律可循，也难以用经济学的基本规律进行解释。从相对误差来看，基于VAR模型的预测结果，其相对误差的绝对值高于10%的预测结果接近总预测结果的一半，且整体而言，不同季度预测结果的相对误差明显高于OLS 模型估计结果。从相对误差的波动性来看，2019 年底开始的新冠疫情冲击明显导致相对误差走高，这一结果尚在情理之中，但随后的预期内疫情影响却并未明显降低预测结果的相对误差（最小误差为8.52%，仍明显偏高），很难用经济学的一般规律解释。实质上，这一结果也在一定程度上体现了缺少理论支撑的实证研究很难推广的原因，即完全以经验为导向的预测结果带有较强的随机性和偶然性，难以体现用以指导实践的应用价值。

为保证所采用不同方法之间的可比性，本文进一步采用OLS 方法测算出GDP 的变化率，从而与基于弹性的计算方法形成对比，结果如表4所示。

表4 GDP变化率

从不同季度之间的波动性来看，差距1的波动性明显较高，再次说明了本文所采用的研究方法较为合理。

通过上述不同研究方法的对比结果可知，在有理论依据的情况下，预测结果可以与经济发展的客观现实较好对接，但在完全以经验为导向的实证分析下，预测的结果由于其自身缺乏规律可循，导致对现实经济发展的指导性明显弱化，也并无理论依据。

五、结论与讨论

面对当今经济社会发展的高度不确定性（特别是疫情常态化的影响），快速且准确预测GDP 对国家和政府管理部门及时制定和调整经济政策至为重要。本文首先在理论层面明晰了发票数据与GDP之间的关联，在此基础上从方法论的角度比较分析了现有利用发票数据预测GDP 的实践研究，形成了本文的方法论基础，最后利用甘肃省2019年和2020年的季度数据进行了测算。研究结果表明，发票数据与GDP 之间存在理论关联，用发票数据预测GDP 走势在理论层面可行；测算结果精度较高，该结果可以为有关部门政策制定提供实证支撑。现实意义方面，本文充分利用了发票数据实时性、动态性的特点，以期通过预测GDP 走势来为政府部门提前研判经济发展形势和出台相应政策奠定基础。

当然，需要说明的是，本文的预测结果脱胎于一个一般化的理论模型，这也意味着本文的理论分析乃至于预测方法有向不同地区推广的坚实基础，且本文理论分析所提出的预测方法相对简便且易于操作，进一步提升了本文的推广价值。但本文所提出的模型也存在一些缺陷，需要后续研究改进和补充。一是影响发票数据的因素还有很多，这些因素由于数据限制等原因，都被囊括在回归模型中的残差项中。尽管这种做法在预测GDP 时影响不大，因为可以假设这些因素在预测期没有发生大的变化，但在理解发票数据和GDP 之间的关系时就会存在较大误差。因此，要在数据层面更加清楚的理解发票数据和GDP 之间的关系，就需要统计部门提供更为细致的其他数据。二是根据本文的理论模型，本文的截距项中包含了产业结构、税率等信息，这些信息在回归方程中无法直接提取，限制了本模型的使用深度。如果以上信息能够被有效甄别或显化，那么该模型就可以进一步扩展研究产业结构变动、税率变动（如“减税减费”政策、“营改增”政策）对发票数据和GDP的影响。