梁平汉 郭宇辰
关键词:中国政府采购;数据使用;采购公告
DOI:10.19313/j.cnki.cn10-1223/f.20221213.001
一、引言
近些年来,随着营商环境优化改革的深化与“数字政府”建设的深入进行,“政府采购”一词频繁地出现在公众视野。财政部发布的数据显示,在2002 年至2020 年期间,中国政府采购规模从1 009.6 亿元增长到36 970.6 亿元,其中2020 年政府采购规模占全国财政支出和GDP 的比重分别为10.2%和3.6%①。政府采购成为了一种重要的政府经济政策工具,发挥了调控经济的作用。2020年10 月,财政部与工信部联合发布了《政府采购促进中小企业发展管理办法》,强调政府采购在支持中小企业发展中的重要作用,各地也开始逐步为中小企业加大预留采购份额。2020 年末,财政部与住房和城乡建设部联合发布了《关于政府采购支持绿色建材促进建筑品质提升试点工作的通知》,促进了绿色建材行业的发展。2021 年5 月,财政部与多部门共同发布了《关于运用政府采购政策支持乡村产业振兴的通知》以支持乡村振兴事业。此外政府采购也是世界银行营商环境(Doing Business)和宜商环境(Business Enabling Environment)评比的重要组成部分。
已有研究发现,政府采购对企业提高信息获取能力(Chen等,2021)、提升盈利能力(Cohen和Li,2020)、有效抵御外部冲击(Goldman,2020)以及助力小企业发展等方面有积极作用(Nakabayashi,2013),但是也存在投标过程被操纵(Porter 和Zona,1993;Conley 和Decarolis,2016)、采购成本支出超额(Flyvbjerg,2003)、偏袒有政治联系的地区(Mironov和Zhuravskaya,2016;Baranek 和Titl,2020)及政客和投标人之间的勾结(Coviello 和Gagliarducci,2017)等负面现象。
中国政府采购制度起步较晚。自中国政府采购网建立以来,其逐渐成为政府采购信息公开的主要平台,一些国内外学者也开始使用中国政府采购网(www.ccgp.gov.cn)的采购公告信息数据(以下统称:中国政府采购数据)研究政府采购行为对于不同领域的影响,取得了许多重要的成果,如企业创新(姜爱华和费堃桀,2021)、精准扶贫(武威等,2022)、人工智能技术发展(Beraja 等,2020)、政企关系(Fang 等,2022)等。
政府采购信息的公开极大便利了经济学研究者。但值得注意的是,已有研究的数据来源基本都是采用网络爬虫技术手段在中国政府采购网获取公告文本信息,由于文本收集和整理方法不同,所形成和使用的数据集质量相差较大。若研究者无法察觉到这些数据在使用过程中可能存在的问题,将会对实证研究的结果产生不确定影响,甚至导致错误结论。已有研究存在以下主要问题:第一,在目前的相关研究中,由于不同省份政府采购信息披露程度不同,中国政府采购数据在时间上的合理使用范围并没有达成一致。部分研究采用2015 年财政部《关于做好政府采购信息公开工作的通知》文件发布之后的采购公告进行研究,另一部分则仍然使用2015 年之前的数据信息,而2015 年前后之间由于采购信息公开政策的变化,可能导致样本的代表性不同。第二,同类型研究之间使用的政府采购公告样本量差异较大,并且缺乏明确的说明。第三,对于政府采购数据与其他数据库之间的匹配问题、特殊订单数据的处理及数据剔除等问题并没有界定清楚。鉴于此,本文首先回顾了相關研究对于中国政府采购公告数据的使用现状,并据此详细说明目前研究中存在的数据问题;然后针对这些问题,对中国政府采购数据的公开政策过程、基本信息、地方政府上传情况进行梳理;整理了截至2021 年底中国政府采购网上可获得的全部1 300 余万份采购公告,展示了各省份历年采购中标公告数量的分布,发现其呈现明显的空间集聚特征。本文还整理了各省级政府采购分网中采购中标(成交)公告的样本信息,通过与中国政府采购网信息进行比对,发现采购公告上传率在2015 年财政部相关采购信息发布文件出台之后大幅上升至80%以上,因此采用2015 年以后的中国政府采购数据进行研究更为合适。本文还针对特殊类型公告的识别与清理、缺失字段的补充、采购金额变量的提取以及同区域和企业层面数据库之间的匹配进行了总结与讨论。
二、政府采购数据使用现状
随着政府采购规模的逐步增加,中国政府采购网披露的信息越来越丰富。近年来一些学者也关注到中国政府采购数据,但由于文本数据半结构化、高维、数据量大的特性,该数据在文本的整理、关键变量识别与关键变量提取方面存在着不小的难度,目前而言使用该数据的研究并没有很多。
在目前的相关研究文献中,创新是最受到研究者关注的主题之一。有市场需求就会带来创新(Edler 和Georghiou,2007),而政府采购正是创造这一需求的关键因素。姜爱华和费堃桀(2021)手工整理了2015-2019年的政府采购数据,利用公告中供应商的名称与上市公司全称进行匹配,剔除重要财务指标缺失的样本并进行缩尾处理,最终得到了13004个企业年度观测值,发现企业获得政府采购订单能够显著促进企业创新。基于分行业视角,肖建华和谢璐华(2020)利用中国政府采购网2013-2017年的174 718 份采购合同,以其采购合同的金额的对数衡量政府采购政策,探究在不同竞争强度的行业中,政府采购政策对于创新影响的省际差异。武威和刘玉廷(2020)基于本地政府与异地政府的视角,将2015-2017 年中国政府采购数据与企查查等企业数据匹配,剔除样本中包含的非企业供应商与供应商信息不完整样本,最终得到15948份采购公告,发现本地政府采购与异地政府采购对企业创新产生不同的效应。聚焦于中国人工智能的创新,Beraja等(2020)基于2013-2019 年290 余万份政府采购合同,与中国人工智能企业进行名单匹配,得到28023份政府人脸识别采购合同样本,发现政府采购对人脸识别相关的人工智能专利的增长起到了推动作用。
在政企关系研究方面,Fang等(2022)利用中国政府采购网2013-2020年的380余万份采购公告与工商注册企业数据进行匹配,发现当本地官员处于激烈的政治竞争中时,本地政府将更少地向竞争地區的企业进行采购,这造成了市场分割,影响了资源分配。Lu 和Wang(2022)则利用中国政府采购网2016-2020年数据与上市公司匹配,获取了93917份政府上市公司采购合同,分析发现政治关联对企业获得政府采购合同存在显著积极的影响,经济意义上看,存在政治关联的企业会多获得约1537万元政府采购合同。
还有研究关注于政府采购作为政府影响企业的一种手段对于社会公共价值的作用,如政府采购影响企业履行企业社会责任(韩旭和武威,2021)、中国特色精准扶贫(武威等,2022)、经济发展(武威和刘国平,2021)等。此外,还有研究单独使用政府采购数据测量经济生产生活。江鸿泽和梁平汉(2022)基于政府采购公告整理了各地的公共视频监控系统使用情况,Liu 等(2022)则抓取了2013-2021 年超过350 万份政府采购公告,用以识别企业的政治联系。
这些研究对于中国政府采购数据的使用没有达成一致。首先,对于中国政府采购公告的使用时间范围不一致,部分研究以《关于做好政府采购信息公开工作的通知》(财库[2015]135 号)文件中新的信息公开要求为依据,使用文件颁布后的样本,认为这部分样本更齐全,但另外一部分研究仍然使用2015 年之前的样本进行分析。其次,各类研究所涉及到的样本量相差较大,具体从千位至百万级样本不等。某些研究者还使用数据服务公众号所提供的政府采购合同样本作为数据来源,其数据整理形成过程和样本量存疑,整体不可靠,样本缺失严重,不足以支持严谨的学术研究。最后,对于政府采购数据与其他数据库之间匹配的原则、样本剔除的原因及特殊合同处理①等数据预处理问题并没有界定清楚。例如,很多文章使用合同数量作为研究对象,但是对于一个采购公告中包含多个分包合同项目时是否进行拆分合同处理并未界定。
三、政府采购数据公开相关政策
从政府采购制度的发展来看,我国的政府采购制度始于1995年在上海、深圳等地区的试点。1999年财政部颁布的《政府采购管理暂行办法》与《政府采购运行规程暂行规定》等,使得政府采购制度逐步完善。图1 展示了政府采购信息公开政策的发展过程。
为加强政府采购信息公告管理,提高政府采购工作的透明度,便于公众和有关部门实施监督,根据《政府采购管理暂行办法》和《政府采购招标投标管理暂行办法》的有关规定,中华人民共和国财政部于2000年9月11日制定了《政府采购信息公告管理办法》。该办法共分为五个章节,分别为第一章总则,主要阐述信息公开的原则与监管工作的规定;第二章信息公告管理,对信息发布的渠道以及各类信息的发布格式进行了详细的界定;第三章信息公告程序,注明了对信息提交、发布与修改的流程;第四章违规处罚,罗列了在政府采购工作过程中可能存在的违规行为以及惩治措施;第五章附则,规定了中央部门政府采购信息公告管理工作按照该办法执行,并于发布之日2000年9月11日起生效。
同年,为加强政府采购信息网络建设,在全国范围内建立起统一、规范的政府采购信息发布渠道,提高政府采购工作的公开性和透明度,财政部于2000年12月31日正式开通“中国政府采购网”,并于2001 年上半年为各地方政府开通了中国政府采购网的各地方分网。2001年开始,各地方政府陆续开始在“中国政府采购网”上公布采购信息,但2001年仅有6条采购公告的公布,随后2002年以及2003年虽然公布采购公告数量分别达到了5735条与10263条,但这与全国总体政府采购数量依旧相差甚远。2004年9月11日,财政部废除了2000年9月11日颁布实施的《政府采购信息公告管理办法》,并同时颁布了新的《政府采购信息公告管理办法》。
2004年的管理办法主要在进一步规范政府采购信息发布媒体上做了新的规定。第一,对于发布信息平台进行了更加严格的规定,尤其是对于地方政府,要求“地方的政府采购信息可以同时在其省级财政部门指定的政府采购信息发布媒体上公告”。而2000年的管理办法则指出地方政府可以自行指定发布平台,规定“省级政府采购管理机构还可以指定其他报刊和网络等媒介公告信息”。第二,要求更全面更透明地发布各类公告。例如在中标信息中,2004年的文件要求对于评委会成员名单完全公布,并且新增了对于投诉处理决定公告的发布要求。第三,新管理办法中新增单独一章,内容是关于政府采购信息指定媒体的管理,对于发布媒体的管理流程以及管理过程中可能存在的违规行为进行说明。
为深入贯彻落实党的十八届三中、四中全会精神,按照深化财税体制改革、实施公开透明预算制度的总体部署,财政部于2015年7月24日发布了《关于做好政府采购信息公开工作的通知》(财库[2015]135 号),文件对于政府采购信息的公开渠道进行了更加严格的规定:“为了便于政府采购当事人获取信息,在其他政府采购信息发布媒体公开的政府采购信息应当同时在中国政府采购网发布。”该规定确定了中国政府采购网为政府采购信息发布的总平台的功能。2017年5月8日财政部发布《关于进一步做好政府采购信息公开工作有关事项的通知》,再次强调了对于财库[2015]135号文件规定的执行,并在此基础上加强对政府采购信息公开工作的考核与监督,其中包括加强监督检查、实施动态监管和大数据分析以及委托第三方开展评估。2019年1月8日,财政部国库司公开了第三方委托机构对于政府采购信息公开情况的评估结果,结果显示政府采购透明度持续提升,但部分地方政府采购信息公开仍然存在薄弱环节,这主要体现在地区间差异较大、采购项目信息细节公开还存在欠缺、部分地区网站服务功能仍然不完善。
2019年11月27日,财政部对2004年颁布的《政府采购信息公告管理办法》作了修订,新办法于2020年3月1日起实施。此次修订的主要内容包括了四大方面:一是,关注信息发布管理。删除了上一版本中有关政府采购信息公开范围和内容的具体规定,重点对政府采购信息发布行为进行规范。二是,剔除与政策法规文件不一致的内容。比如依照政府采购法有关集中采购目录及标准由国务院和省级人民政府公布的规定,而在上一版中注明的却是关于集中采购目录及标准由财政部门公告的规定。三是,明确财政部门的信息发布责任。规定除政府采购项目信息外,监督检查处理结果、集中采购机构考核结果等监管信息也应在指定媒体上公告。四是,突出网络公开主渠道作用。将中国政府采购网及其省级分网明确为政府采购信息的汇总平台,要求政府采购信息应当在中国政府采购网或其省级分网发布,同时删除了上一版本中明显指向报纸、杂志等纸质媒体的规定。
通过回顾相关政策不难看出,随着中国政府采购体系的逐渐完善,政府对于采购信息的公开度、透明度、完善程度、监督力度都提出了更高的要求。除去以上政策文件,还有一些政策文件也涉及关于信息公开的要求,例如《财政部关于中国政府采购网有关管理问题的通知》(财库[2000]28 号)、《中华人民共和国政府采购法》总则第十一条指明政府采购信息应当及时发布在指定媒体上以及《政府采购公告和公示信息格式规范(2020 年版)》对公开信息进行格式规范化等。本文仅就对采购数据质量影响最大的几个政策文件进行论述。
四、政府采购数据库基
本信息本节主要介绍中国政府采购数据的基本情况。中国政府采购网(www.ccgp.gov.cn)是由國家财政部建设的网站,它的数据来源于中央各部门的公开采购公告以及各地方政府上传的采购公告,时间跨度为2001年至今。截至2021年12月31日,中国政府采购网发布的采购公告为1330余万条(其中PPP 项目约2万)①。采购公告共分为12种公告类型以及PPP项目公告,这12 种公告类型分别为:公开招标公告、询价公告、竞争性谈判公告、单一来源公告、资格预审公告、邀请公告、中标公告、更正公告、其他公告、竞争性磋商公告、成交公告、终止公告。占比较多的分别为中标公告(30.8%)、公开招标(26.11%)、更正公告(8.85%)以及竞争性谈判公告(7.46%)。根据《政府采购非招标采购方式管理办法》,中标公告为一般招标方式交易达成结果公告;而成交公告为非招标采购方式交易达成结果公告,如竞争性谈判、单一来源采购和询价采购方式。
除对于采购公告按照类型进行细分,中国政府采购网还将公告分为中央公告与地方公告两种类别,其中中央公告与地方公告分别占比5.38%和94.62%。针对采购项目具体类型,细分为货物类、工程类和服务类三类品目,并为公告标注采购所属地区(省、自治区、直辖市)。但是,中国政府采购网未对每一条政府采购公告都做出如此清晰的标记,部分公告在采购所属地以及采购项目的品类信息方面存在缺失。
根据政府采购项目公开信息要求,我们对主要的几种公告所需包含的信息进行说明,如表1 所示。通过对各类政府采购公告发布内容的梳理,我们归纳出其中一些关键信息,同时列举一些特殊情况:
第一,采购人信息与代理机构信息。各类公告均要求对于采购人与代理机构的名称、地址以及联系方式进行披露。利用采购人与代理机构的名称、地址以及联系方式等信息有助于我们匹配到具体的政府部门或地区层面的信息,如与城市统计年鉴信息进行匹配等。
第二,采购项目信息。虽然采购项目信息在各类公告中呈现的形式不一,但公告均需注明所需采购项目的详情。例如,项目名称、金额(预算金额/中标金额)、数量、规格、供应商的资格要求等。这些信息可以帮助我们掌握采购的规模,了解采购项目的类型(货物类、工程类或服务类)。值得注意的是,采购公告中也存在着一些特殊的案例,部分涉密公告并未公开采购方与供应商信息。
第三,供应商信息。供应商信息一般包括供应商名称、供应商地址与联系方式,利用供应商名称与供应商地址可以与现有数据库中企业经营状况等信息进行匹配。但供应商信息仅在部分类型公告中才存在,如中标、成交公告以及单一来源公告。
我们对于中国政府采购网2001年至2021年期间各类型公告的样本进行了收集并整理汇总,详见附录。为了解各地方政府采购情况,本文以2013-2021年采购中标公告为例,针对中标公告中的采购方地址进行了计算机自然语言识别并归纳,部分公告中未涉及到采购方详细地址的,本文以高德地图查询采购单位并对地址进行补充,最终展示了历年地方政府采购中标数量前五名与后五名地区,如表2所示。
总体来看,随着时间的推移,大部分地方政府的采购数量不断增加。各省份采购量增速平稳,购买行为的地区特征明显,与经济增长情况、行政区划和人口数量等特征存在重合。东部沿海城市的采购量高于中西部城市,并在东部地区呈现出一定程度的空间聚集,在环珠三角和环京津冀地区的采购量也明显高于其他东部地区,而在西部地区,没有出现此类聚集现象。此外,在东部地区,地级市数量较多的广东省、山东省、河南省采购量均大于全国其他省份。最后,人口密集的省份,采购需求明显高于全国其他城市,广东省、山东省、河南省、河北省等人口大省采购量长期位于高位。这与财政支出的省级层面分布也是比较一致的。
五、各地政府采购数据上传情况
财政部于2015年发布的《关于做好政府采购信息公开工作的通知》(财库[2015]135号)对地方政府采购数据的上传汇总进行了一定程度的规范化,部分已有研究也以此为依据进行研究样本的选择,但各地方省级政府的执行情况例如执行力度、上传数据情况是否在2015年前后有较大变化仍值得细究。由于各地方采购网站对于采购公告的分类标准不一,但对于中标(成交)公告的分类却颇为一致,并且中标(成交)公告体现了实际发生的政府与企业之间的交易行为,为此,在接下来的讨论中,本文将集中以中标(成交)公告为例进行讨论。
表3整理了各省级政府采购分网政府采购中标(成交)公告的起始发布时间以及可以获取的总样本量。由于各地政府网站更新和运营商更换,不同地方采购分网现可追溯时间不一。重庆市于2007年6月7日在重庆市政府采购网发布的中标(成交)公告是截至目前可在互联网上追溯的最早的地方中标公告;而北京市政府采购网只能追溯到2022年初。从发布公告数量上看,政府采购地方分网中山东省发布公告数量最多,从2015年1月29日至2020年5月30日发布了56万多条采购中标(成交)公告,而宁夏则发布公告数量相对较少,从2016年3月24日至2022年5月30日仅发布了6000多条采购中标(成交)公告。由此可见,就目前可查询到的信息而言,各个地区之间的政府采购信息公布的可查询的时间范围和公布的采购信息量相差较大。
为比较2015年财库[2015]135号文件发布前后中国政府采购网上各地方政府招标信息上传情况的变化,本文基于公告的可获得性(参考表3),同时考虑公告的可追溯时间,在各地区分别选择一个省份(自治区/直辖市)①的地方政府采购公告样本与中国政府采购网数据比对,探究2015年前后地方政府采购公告数据上传是否存在显著的增长。具体操作如下:第一,收集并整理对应省份的中标(成交)公告完整信息。第二,在2013-2016年间逐年随机抽取1000份样本。第三,提取公告中项目编号与中国政府采购总网中的项目编号进行匹配,对于项目编号缺失的样本,通过利用标题文本相似度进行匹配,最终计算年度的上传率。如此重复步骤二和步骤三100次,最终结果如图4 所示。图中某一个点的纵坐标代表某一年随机抽取样本计算得到的上传率。总体来看,2013年地方政府采购公告上传率仅为50%左右,而2014 年后地方政府公告信息上传率显著增加,超过70%,2016年更超过了80%。一方面,这验证了《关于做好政府采购信息公开工作的通知》(财库① 分[2015]135号)文件起到的规范作用;另一方面,这说明2015 年之前中国政府采购网中地方政府采购公告信息缺失较为严重,而2015年后的样本相对更完整,验证了部分已有研究采用2015年之后样本的可靠性。
为保证地方政府采购信息上传至中国政府采购网的规范化与效率化,财政部于2014 年进行了网站系统划分的工程,这为2015 年中央规范地方政府采购信息上传的行为奠定了技术基础。拥有更便捷的上传系统便解释了为何2014 年与2015 年地方政府采购信息上传率差异并不大:便捷的系统更有利于地方采购信息上传;地方政府通过采购网站的变化提前感知到中央升级系统的目的,并提前采取行为以符合中央规定。因此,在研究中使用2014 年政府采购公告数据在一定程度上也是可以接受的。
六、政府采购数据使用过程中的挑战
中国政府采购数据以其样本量大、采购内容多样等特点给应用计量的研究者提供了很多宝贵素材,但是该数据在应用到研究过程中也存在诸多问题。我们尝试利用数据处理经验,对处理过程中可能存在的样本选择、指标缺失、变量提取和数据匹配问题进行说明,并提出可供参考的处理手段与方法,目的是给数据使用者提供解决问题的方法建议与思路指引。
(一)样本问题
第一个问题是对于特殊公告样本的识别与提取。对于实证研究而言,拿到一份数据最开始的工作通常是针对研究问题,对数据进行清理。中国政府采购网虽然对于公告类型有着详细的分类,但其中也存在着分类不准确的情况。例如,在中标公告这一分类中会掺杂着招标失败公告。在进行地方政府本地与异地采购行为等涉及到合同数量的研究时,就有必要在中标公告中识别和筛选这些招标失败公告,剔除流标公告①。通过对中国政府采购网2013年1月1日至2021年12月31日所有中标公告核对,我们发现中标公告中流标公告约占7%。
第二个问题是样本缺失。财政部财库[2015]135号文件中,规定了对于地方采购数据上传的流程,其中规定“为了便于政府采购当事人获取信息,在其他政府采购信息发布媒体公开的政府采购信息应当同时在中国政府采购网发布”。这意味着2015 年之前财政部对于地方政府采购公告并未做出强制集中上传的规定,因此这一期间中国政府采购网中的采购公告存在样本缺失问题。根据本文第四部分的分析与比较,我们建议研究采用2015 年及之后的中标(成交)公告样本。
(二)定义指标缺失
中国政府采购网对于公告的已有定义字段包括公告类型、上传时间(精确至分秒)、采购人、代理机构、进行采购的地区(省、直辖市、自治区)、采购的品目类型。但网站并不会对于每条公告都清晰描述了这些字段,可能会存在部分字段的缺失。对于某些研究而言,这些指标可能是不可或缺的。
我们尝试提供对于存在缺失的字段进行补充的方法。首先,如果缺失的字段是进行采购的地区,对于政府采购公告而言,公告的标题或是公告具体内容中通常会注明采购方地址,研究者就相应的地理信息进行识别提取即可,对于公告中无采购方地址信息的,我们建议利用地图定位采购单位来识别地址信息。其次,如果缺失的字段是采购的品目,中国政府采购网对于采购的品目大致分为货物类、工程类以及服务类三种大的类型,但是部分公告分类存在两种特殊情况:第一,部分公告会在这三类的基础上再进行更细致的类型划分,例如,货物类/通用设备/办公设备/投影仪,当然也不是对于品目的分类越细致越好,如何选择分类层级取决于具体的研究问题,根据研究需要提取对应的分类层级。第二,存在缺失该品目分类字段的问题。对于缺失的情况,可供参考的解决办法为采用自然语言处理的方式,利用机器学习进行文本分类,如Beraja 等(2020)对于人脸识别系统相应采购的分类;如若研究所需样本不大,可以以人工整理替代。
(三)文本变量提取
除了中国政府采购网上已经定义的公告字段外,采购公告中仍然有很多变量值得研究者自行提取,由于篇幅有限,本文不能对所有可能变量进行一一论述,在此仅以研究者普遍关注的采购金额变量为例进行说明。
政府采购公告并不像各级法院的裁判文书有固定的写作格式,各地方的公告撰写手法、信息排列顺序、命名格式等都存在不同程度的差异,这增加了变量定位、识别与提取的难度。政府采购金额在公告文本中大致有以下几个方面的不同:第一,金额在公告中分布的位置不同。部分公告在文本中某一处会注明预算金额或是中标(成交)金额;部分公告则是存在多个分包的情况,公告中只写明每个分包的金额,并无汇总金额。第二,金额的撰写格式不一,公告中主要存在三種金额的书写格式,分别为中文大写数字、中文小写数字以及阿拉伯数字。第三,金额数字的单位不统一。元、万元、百万元等皆有出现,也会出现结算的金额货币的不统一现象,部分会出现以美元或欧元进行结算(约占0.15%)的情况。第四,部分公告存在金额数值的明显异常以及金额相关信息并未在公告正文予以公布的情况。这都给我们的变量提取工作带来了很多亟待解决的难点。
(四)数据匹配问题
在样本清理与有关变量识别提取后,研究者通常会将采购数据同与研究问题相关的其他成熟数据库进行匹配。采购数据既可以与宏观区域层面的数据进行匹配,也可以与微观企业层面的数据进行匹配。数据与数据之间的匹配通常需要两个数据之间存在一个或多个具有唯一识别特征的变量,然后根据该变量与年份两个维度进行数据匹配。例如中国工业企业数据在不同年份之间的匹配,主要依赖于企业代码与企业名称这两个具有高度唯一识别特征的变量进行匹配(Brandt 等,2012;聂辉华等,2012)。
政府采购公告数据在与城市层面的数据进行匹配时,采购方的地理信息即为唯一识别特征变量。但值得注意的是,部分公告由于其涉密性质,对于采购单位与地址进行保密,致使此类样本无法进行匹配。而当政府采购公告数据与微观企业数据进行信息匹配时,例如天眼查数据(Beraja 等,2020),企业名称企业地址以及企业联系方式则为具有高度唯一识别特征的变量。但也存在一些特殊情况需要讨论,例如,一个采购公告同时涉及好几家不同的企业的情况。此时需要根据研究问题进行处理,如研究问题是地方政府本地与异地企业采购数量差异时,可采取的办法是对该公告根据供应商数量进行人为的拆分。但对于大样本的情况,人为的识别与拆分的方法便难以维持,需要借助计算机技术,这同样是数据匹配过程中的难点之一。
七、总结与研究展望
本文从多个方面梳理了中国政府采购数据相关内容以供研究讨论。首先,为了帮助研究者了解中国政府采购数据,本文回顾了中国政府采购数据的数据公开政策的发展过程,整理了截至2021年底中国政府采购网全部1300余万份公告,采用多种文本识别方法提取了基本数据信息,并展示了各省份历年采购中标公告数量的分布情况。其次,为界定中国政府采购数据在时间上的合理使用范围,本文通过与各省级政府采购分网发布的公告进行比对,发现采购公告上传率在2015年财政部相关采购信息发布文件出台之后大幅上升至80%以上,因此,采用2015年以后的中国政府采购数据进行研究更为合适。最后,为厘清中国政府采购公告数据的数据清理问题,本文还针对特殊类型公告的识别与清理、缺失字段的补充、采购金额变量的提取以及同区域和企业层面数据库之间的匹配进行了总结与讨论。
中国政府采购数据的出現,提供了更多的研究可能,但是目前使用该数据的研究还不多。通过对文献的梳理以及数据梳理过程中的经验总结,我们尝试从以下几个方面探讨该数据未来可供研究的视角:第一,可从地区政府采购层面探讨地方政府行为,如Fang等(2022)探究地方政府保护主义所导致的市场分割,Liu等(2022)则度量了企业的政治联系。第二,从采购部门层面探讨各部门行为模式,政府采购数据为进一步理解政府部门职能提供可能,如公共安全部门的采购行为是否影响到地区犯罪情况(江鸿泽和梁平汉,2022)。第三,从合同层面讨论特定类型采购合同的经济影响,如Beraja等(2020)利用人脸识别采购合同探究政府对于人工智能企业发展的支持。诚然,中国政府采购数据因其数据量大、所包含的信息量多,除上述研究视角外,其可进行研究的主题仍有待进一步的挖掘与丰富。