企业数据质量对实证研究结论偏差的潜在影响
——来自2015年中国企业-员工匹配调查的经验证据

2016-07-25 10:28程虹许伟李唐武汉大学质量发展战略研究院湖北武汉430072
关键词:数据质量随机性多元性

程虹,许伟,李唐,武汉大学质量发展战略研究院,湖北武汉430072



企业数据质量对实证研究结论偏差的潜在影响
——来自2015年中国企业-员工匹配调查的经验证据

程虹,许伟,李唐,武汉大学质量发展战略研究院,湖北武汉430072

摘要:近年来,国内外经济学文献已日益重视对我国企业数据的实证运用,然而,通过对现有主要企业数据来源的分析发现,现有企业数据普遍存在样本信息时效性不强、抽样缺乏随机性和指标多元性不足等质量缺陷,这或对实证研究结论的准确性、科学性和政策指导价值产生一定影响。为此,在广东开展的2015年中国制造业企业-员工匹配调查(CEES),与现有数据相比,本次调查在样本信息时效性、抽样随机性和指标多元性等方面均做出了较大的质量改进。运用上述调查数据,本文选取企业家创新精神与企业经营绩效、出口企业的“生产率悖论”、信贷约束与企业经营绩效等三大研究热点领域为例,首次从实证角度验证了企业数据质量缺陷对研究结论偏差的实际影响。结果发现:现有企业数据样本信息缺乏时效性,影响了研究结论对于当前中国经济真实状况的准确判断;抽样缺乏随机性,影响了研究结论对于中国企业总体状况的科学推断;指标多元性不足,造成了实证研究对企业部分经济行为的测度存在统计定义误差,对研究结论的精度造成一定影响。

关键词:数据质量;时效性;随机性;多元性

一、问题的提出

数据是实证研究的基础,数据质量的好坏直接决定实证研究的价值。最近十多年来,越来越多的国内外主流经济学文献运用企业数据进行实证研究。对于中国经济学研究而言,随着“上市公司数据库”“中国工业企业数据库”和“中国海关贸易数据库”等大规模企业数据资源向研究者开放,中国经济学者越来越重视基于国内企业数据的实证研究。仅以中国知网(CNKI)收录的国内影响因子排名前五①上述5个期刊分别是《经济研究》、《经济学(季刊)》、《世界经济》、《中国工业经济》、《数量经济技术经济研究》。的经济学期刊发表的研究论文计算,自2007年以来基于国内企业数据的实证研究就有418篇,占同期上述期刊发文总数的近10%,并且这一领域的文献数量还在以年均16.5%的增长速度递增。不仅如此,中国经济学者还在信贷约束与中国式增长[1]、资源误配与企业全要素生产率损失[2]、公司治理与政治关联[3]、经济发展与环境污染[4]等领域取得颇具国际影响力的研究成果,广泛发表在顶级国际经济学术期刊上②上述四个期刊的影响因子排名,均位列全球经济学术期刊前5行列,期刊分别是:Quaterly Journal of Economics、Journal of Economics Literature、Journal of Finacial ECONOMICS、American Economics Review。据统计,自2007年以来,发表在上述国际学术期刊上基于中国企业数据的实证研究共计13篇。。

然而,在中国企业微观实证研究繁荣的现象下,现有企业数据存在的质量缺陷却不容忽视。第一,现有企业数据均为非学术机构所发布的工作数据,数据更新周期较长,普遍存在4~8年的时间滞后,这或造成实证研究受调查样本的时段约束而难以追踪经济活动的最新变化,对研究结论的时效性和政策价值产生影响;第二,现有企业数据多为非随机抽样调查数据,仅能反映如上市公司、规模以上企业或出口企业的部分状况,而无法依据样本信息对企业总体进行数量特征的推断,并对不同经济变量之间因果关系的实证检验造成了困难[5]。第三,现有企业数据的多元性存在缺陷,多为企业的基本信息和财务指标加之部分研发创新和出口数据,而较为缺乏详细刻画企业金融和公司治理的细分环境指标。这造成现有文献的统计误差问题难以规避,对实证研究结论也造成了一定程度的影响。

尽管实证研究已倾向于采用工具变量法、双重差分法和断点回归等日趋精确的因果效应测度方法[6],但是企业数据质量的缺陷却对基于上述计量方法的测算结果造成了一定的干扰。从理论层面,现有文献已关注由于企业数据质量缺陷所造成的研究结论偏误,即所谓的二次统计误差[7][8][9]。进一步地,部分文献还关注我国企业数据多为非学术机构的二手调查数据,而实证检验发现统计人员素质不高、质量控制手段不严对企业数据质量造成了较大影响[10]。由于缺乏入企调查过程,研究者无法从研究问题出发进行针对性的样本搜集,从而难以规避调查问卷设计和统计实施过程中的统计定义误差、记录误差、理解误差和计数误差等问题[11]。与国际经济学界多年来一直运用一手调查数据进行企业实证研究相比[12][13][14],我国企业微观实证研究仍与国际主流存在一定差距。本文实证研究数据质量缺陷对研究结论偏差的具体影响。

为研究上述问题,武汉大学联合香港科技大学、清华大学和中国社科院等三家专业机构,开展了2015年广东省制造业企业-员工匹配调查(China Employer-Employee Survey,简称CEES)。与现有企业数据相比,本次调查在样本信息的时效性、抽样的随机性和统计指标的全面性上均有了较大的突破。研究方法上,文章选取部分有代表性的研究热点领域,通过对现有实证文献与基于本次调查的研究结论的对比,拟从实证角度就数据质量缺陷对研究结论偏差的影响进行针对性的讨论。

本文篇章结构安排如下:第一部分为问题的提出;第二部分是文献评述,分析现有企业数据存在的质量缺陷,并从理论上探讨其对研究结论可能造成的偏误;第三节是数据说明,首先对本次调查的设计、实施与数据回收过程进行简要介绍,并对样本分布代表性问题进行数据说明,在此基础上,基于描述性统计对企业数据质量缺陷对研究结论偏差的影响进行初步的分析;第四节是实证检验,采用与现有文献一致的计量模型,对描述性统计的分析结果进行深入的实证验证;第五节为结论。

二、文献评述

通过对近年来国内影响因子排名前五的经济学期刊中发表的企业微观实证研究的文献分析,本文发现,运用上市公司数据库、中国工业企业数据库和中国海关贸易数据库等前三类企业数据的研究文献共计319篇,占2007年以来全部抽样企业微观实证研究的76.36%。由于研究数据来源的同质性,上述三类企业数据存在的问题能在较大程度上反映企业数据质量对于实证研究结论偏差造成的可能影响。因此,本节以上述三类企业数据为重点,运用文献分析的方法对现有企业数据的质量缺陷及其对实证研究结论偏差的影响进行理论探讨。

(一)样本信息的时效性问题

实证研究是对现实经济活动中经济变量复杂关系的科学判断,实证检验所得出的定量关系则反映了其所运用的样本调查时段内经济变量间的即时影响,因此,样本信息的时效性决定了实证研究具体结论的政策价值和现实意义。然而,通过对现有企业微观实证文献所使用的数据样本的调查时段进行分析,我们发现,现有企业数据的样本信息时效性不强,致使研究结论难以及时反映当前企业经济活动的真实状况。表1对纳入本文分析的全部418篇文献所应用的企业数据的最近更新时间进行了统计。其中,除中国企业家调查系统的企业调查数据更新到2015年外,其他数据库存在3年以上的时间滞后。尤其值得注意的是,对于实证文献应用最为集中的上市公司数据库、中国工业企业数据库与中国海关贸易数据库而言,数据更新周期则更为滞缓,基本为4~8年。

表1 主要微观企业数据来源的最近更新时点和时滞周期

数据的时滞造成现有文献的计量模型所实证检验的经济关系只能反映多年前中国企业行为的历史状况,其研究结论对于现实经济的预测价值较为有限。许多文献均指出,大多数经济变量都具有渐近独立性(asymptomatic independence)特征,即数据的历史信息与现实状况的相关性将随着时间跨度的延长而趋近于0[15][16][17]。同时,当前中国经济正处于“换档升级”的关键时期。经济增速探底下行[18]、“人口红利”逐渐消失[19]、制造业成本优势日趋削弱[20]、全要素生产率的经济贡献度不断下降①根据世界银行经济学家的估算(Louis Kuijs,2009),中国全要素生产率对提高劳动生产率的贡献度,从1978-1994年间的46.9%,大幅降低到2005-2009年的31.8%。他进一步预估,中国全要素生产率对劳动生产率的贡献度在2010-2015年间会进一步降低为28.0%。[21][22]等宏观经济的结构性矛盾已成为不容回避的核心问题。作为微观经济活动的重要细胞,中国企业的实际状况也与4~8年前有了较大差异。样本信息的时效性不强,对研究结论的时效性和政策价值或造成一定影响。

在此,笔者以企业家创新精神与企业经营绩效的实证研究为例,针对样本时效性对研究结论偏差的可能影响进行理论探讨。自Young[23]开始,较多国外文献都在关注中国企业家创新精神的作用研究。学界对企业家创新精神对于全要素生产率、劳动生产率等企业经营绩效的实证关系展开了大量研究[24][25][26][27][28][29][30],研究表明,企业家创新精神作成为推动中国经济长期增长和改善企业经营绩效的重要动力[28][31][32][33][34]。然而,上述实证研究所使用的企业数据多为1998-2007年的中国工业企业数据,部分研究甚至为1998-2004年的中国工业企业数据。多年前的调查样本恐较难反映当前我国企业家创新精神对于经营绩效的真实影响。同时,部分理论文献表明,企业家创新精神要充分发挥其经济效应,则必须考虑企业家个体特征与市场竞争环境、产权交易条件等外部特征的匹配性[35][36][37][38]。随着三十多年的改革开放,中国的市场竞争环境和产权交易条件已发生较大变化,原有的企业家群体也面临代际传承的关键期,当前企业家精神与外部经济环境的匹配性究竟如何,则须依靠时效性较强的调查样本对此做出新的实证检验。

(二)样本抽样的随机性问题

实证研究的关键目标在于通过调查样本的计量检验从而对总体的数量特征和因果效应进行基于样本概率分布的统计推断[39][40]。从实证研究的目标来看,研究结论能否准确把握经济活动的总体真实状况,取决于样本抽样是否采取严格随机的方式。然而,现有企业数据存在样本抽样随机性不足的质量缺陷,为研究结论对于经济变量间总体关系的科学推断造成了障碍。表2对纳入本文分析的418篇文献所应用的企业数据进行了描述性分析,使用上述企业数据的实证研究占全部样本文献的95.66%。我们发现,除世界银行企业调查等四个数据库明确介绍了其随机(普查)抽样方法外,其余微观企业数据来源均为非随机抽样,基于非随机抽样数据的实证研究文献占全部样本文献数量的87.84%。

表2 现有主要微观企业数据来源的抽样方式和统计范围

由于现有企业数据在样本抽样方式上的非随机性,数据样本所对应的概率密度函数、累积分布函数是未知的,因而造成研究结论只能准确把握基于调查样本的实证关系,对于总体真实状况进行统计推断和理论预测的科学价值将有所削弱[41]。本文以出口企业的“生产率悖论”问题为例,对样本抽样的随机性、对研究结论偏差的可能影响进行理论探讨。近年来,国内不少企业微观实证文献都关注中国出口企业的“生产率悖论”问题,即中国出口企业的绩效是否低于非出口企业,从而出现违背新-新贸易理论“出口提高企业生产率”的理论假定的问题[42]。控制加工贸易因素后,出口企业的“生产率悖论”现象并不存在[43][44][45][46][47]。但是,上述实证研究仅反映了规模以上企业出口行为与经营绩效的实证关系,对上述问题的实证检验,也只有依靠大样本的随机抽样调查数据才能进行。

(三)样本指标的多元性问题

关注不同企业所面临的金融、政治关联和公司治理等问题对于企业经营绩效的影响,是近年来企业实证研究的重要进展[48][49][50]。通过对现有主要企业数据的指标类型分析,我们发现,现有企业数据的样本指标除企业生产、销售、总产值、增加值和人员投入的基本指标外,仅涵盖企业股权、董事会结构、研发投入等少数指标,较为缺乏直接描述企业金融、政治关联和公司治理的相关指标。样本指标多元性的欠缺,造成现有企业实证文献在研究某些较为前沿的选题时,由于数据限制而较难采用直接的代理变量来描述企业的经济行为,致使统计定义误差较为显著,影响了某些领域实证研究结论的精度[51]。

在此,本文以信贷约束与中国企业经营绩效的实证关系为例,针对样本指标的多元性问题对研究结论偏差的可能影响进行了理论探讨。自Song等[1]开创“信贷约束与中国式增长”的研究选题以来,信贷约束与中国企业经营绩效的实证研究日渐成为十分重要的研究热点,近四年来仅在国内影响因子排名前五的经济学期刊中发表的该领域研究文献就有25篇。现有文献认为,企业信贷约束会造成企业研发创新的资金投入缺乏[52]、固定资产投资过度依赖内部现金流和商业信用[53][54]、劳动者收入缺乏向上调整的弹性造成效率工资激励不足[55]等问题,信贷约束对于企业经营绩效具有显著为负的实证效应。然而,由于现有企业数据缺乏测度信贷约束的直接变量,上述文献在衡量企业信贷约束时只能采用利息支出与现金流比重[56]、内部融资比重[57]和投资-现金流敏感性方法[58]等间接测度的方式。然而,除内部融资比重外,其他测度信贷约束的方法或受到统计区间限制,或对于计量方法的敏感性较大,造成信贷约束变量的测度误差较为严重。由于除上市公司外企业现金流数据获取难度较大,内部融资比重在实际研究中的可测性并不好,因此,较近的实证研究认为,采用企业经营者直接感知到的外部融资压力是测度信贷约束较优的代理变量[59]。但是除2005年《中国投资环境调查》外,已有近10年未搜集上述样本信息(表3)。因此,由于现有数据存在统计定义误差的问题,对上述问题的实证检验须依靠最新准确测度信贷压力的调查数据才能进行。

表3 现有信贷约束测度方法及存在的问题

三、数据说明

(一)数据来源

为从实证角度验证企业数据质量对研究结论偏差的可能影响,CEES最初启动于2012年,经过两年的问卷设计、试调查以及沟通协调,并通过2014年10月-2015年5月的先后五次实地仿真调查及总结试错经验,最终于2015年5-8月份完成实地调查工作。问卷调查由200余名调查员(含辅助人员)通过“直接入户、现场填报”的方式完成;企业问卷覆盖企业基本情况、销售、生产、技术创新与企业转型、质量竞争力、人力资源状况等6大维度的175项指标;与之匹配的劳动力调查问卷则囊括个人基本信息、当前工作状况、保险与福利、工作历史和个人性格特征等5大维度的262个问项(图1),有效搜集受访企业在2013-2014年度的相关指标。调查指标的及时性和全面性,有效弥补了现有企业数据在样本信息时效性和指标多元性上的缺陷。

图1 2015年广东制造业企业调查的问项分布情况

本次调查选择我国经济总量最大、制造业规模最大、地区经济发展水平差距显著的广东省作为调查区域①根据2015年各省统计公报计算,2014年广东经济总量占全国10.66%、进出口总额占全国25.01%、制造业就业人数占全国的16.4%,均处在所有省份的第一位。并且,通过将广东珠三角地区、粤西地区和粤东地区的经济发展水平与其他各省进行对比,我们发现广东省内的区域经济异质性是十分显著的。2014年珠三角地区人均GDP为10.03万元,与上海(9.75)、江苏(8.20)和浙江(7.30)等经济发达省份相近;粤西地区人均GDP为3.66万元,与中部省份河南(3.71)、安徽(3.45)相似;粤东地区人均GDP为2.93万元,甚至低于西部云南(2.63)、贵州(2.73)等省份(括号内单位均为万元)。,从而保证调查对象具有较好的样本代表性与异质性。与现有企业数据相比,本次调查采用了严格的随机分层抽样方式,即根据等距抽样原则,从广东省21个地级市中随机抽取13个地级市,并从13个地级市下辖的区(县)中,最终等距抽选出19个区(县)作为最终调查单元。为保证研究结论的稳健性,本调查对企业进行按就业人数加权的随机抽样。抽样的总体是广东省第三次经济普查的30.09万家制造业企业,发放企业问卷874份、员工问卷5 300份,回收有效企业问卷571份、员工问卷4 988份,共计5 999份问卷。具体抽样步骤是:首先将企业编号并按编号随机排序;将企业人数加总形成整体抽样框(M),将其除以50作为抽样间距(N);抽样间距乘以一个(0,1)的随机数并取整,将其作为抽样的第一个样本;然后顺次加上抽样间距,确定对应序号的企业,如果在抽样间距内选取的为同一家企业n(即出现企业人数大于抽样间距时),则向下选取相邻的第n+1家企业,依次直至选取到50家企业。在实施调查时,按样本顺序前36家为调查样本,若36家企业中有不存在或无法找到的情形,则按次序依次向下补足36家样本。在36家存在的企业中,按顺序依次联系,若出现企业拒访,则按顺序向下递补,直至完成25家企业样本。这一调查程序最大程度上降低了样本“自选择①随机抽样可能出现的“自选择”偏误是指样本集中在容易接受调查的企业,而调查者无法从统计上得出容易接受调查的企业与不容易接受调查的企业存在何种显著性差异。”(self-selecting)偏误的可能性。对于员工的抽样,是根据企业提供的全体员工名单,首先将中高层管理人员和一线员工分类,然后分别在每一类中进行随机数抽样,中高层管理人员占30%,一线员工占70%。基于严格的随机分层抽样方式,本次调查企业的概率分布特征与企业总体的真实分布较为一致,图2-图4分别给出了本次调查企业样本与统计年鉴数据在行业、规模、注册类型和地区分布的比较情况,结果表明本次调查样本的代表性较好。

图2 行业抽样与全省统计数据的对比

图3 企业规模分布与注册类型分布

图4 基于工业增加值和工业总产值的企业地区分布对比

此外,在样本数据的质量控制方面,本次调查获得了主管工业企业的广东省质监局支持,同时还获得各市区县特别是乡镇(街道)、村(社区)等熟悉企业的基层政府工作人员的行政支撑。同时,通过对调查员长达1年的培训,使调查员对本次调查指标问项都有准确的了解。通过上述方法,本次调查在“问卷填写、数据回收”环节避免了统计人为误差的干扰。在此基础上,通过后期“数据回访、变量逻辑检验和交叉检查”等质量控制方式,对原始数据的异常值进行了全面的修正。本文遵循Nunnally[60]的数据有效性和可靠性检验方法对全部调查数据进行了信度和效度检验,总体数据的Cronbach系数为0.875,表明本次调查数据具有良好的内部一致性[61]。

(二)描述性统计

基于前文关于现有企业数据质量缺陷对实证研究结论偏差可能影响的理论探讨,本部分运用2015年广东省制造业企业调查数据,选取企业家创新精神与企业经营绩效、出口企业的“生产率悖论”和信贷约束与企业经营绩效等三个代表性的研究领域,运用描述性统计方法对本次调查的数据结果与现有文献的主要结论进行初步的比较,从实证角度探讨现有企业数据在样本信息时效性、抽样随机性和指标多元性的质量缺陷对于研究结论的可能影响。

1.企业家创新精神与企业经营绩效

现有文献多采用企业获得的专利数量的自然对数值作为企业家创新精神的代理变量,并基于1998-2004年、1998-2007年的中国工业企业数据,认为企业家创新精神对于以全要素生产率为代表的企业经营绩效具有正向的因果效应[28]。本部分运用2015年广东省制造业企业调查数据,分别运用国内外专利总数、国内专利总数、国内发明专利数量和国外专利数量等四个指标作为企业家创新精神的代理变量,测度其与全要素生产率①本次企业调查数据呈现较为明显的短面板结构特征。根据王兵等(2006)和鲁晓东等(2012),我们选择序列DEA方法测算企业全要素生产率,并运用企业工业增加值、固定资产投资总额和劳动力数量三项指标进行计算。的相关性,图5和图6给出了基于简单OLS回归的线性拟合结果。如图所示,基于本次调查所搜集的2013-2014年的企业样本信息,企业家创新精神对于全要素生产率的影响不具有统计显著性,并且采用国外专利数量测度的企业家创新精神指标甚至与全要素生产率呈现弱的负相关性。这或许表明,企业家创新精神对于企业经营绩效的经济贡献度或有所减弱。

图5 国内外专利总数的自然对数值与TFP的相关性

图6 国内发明专利数量、国外专利数量的自然对数值与TFP的相关性

2.出口企业的“生产率悖论”

基于规模以上企业的非随机样本,现有文献发现,中国出口企业的全要素生产率要显著低于非出口企业,而加工贸易企业普遍偏低的全要素生产率水平是造成出口企业“生产率悖论”的关键。我们发现,出口企业与非出口企业的全要素生产率差距并不显著,2013年出口企业的TFP均值仅比非出口企业略低0.5%,2014年两者的差距甚至不到0.08%;而2014年加工贸易企业与非加工贸易企业在全要素生产率上的差距也仅为0.62%。根据王兵等[62]和鲁晓东等[63],我们选择序列DEA方法测算样本企业的全要素生产率,并运用企业工业增加值、固定资产投资总额和劳动力数量三项指标进行计算。表4和表5表明,对于年销售额500万元以下、500万-2 000万元等两类规模以下企业而言,2013-2014年出口企业的全要素生产率均值要大于非出口企业,加工贸易企业的全要素生产率均值也要大于非加工贸易企业,因此,基于本次广东制造业企业调查数据,企业总体层面的出口企业“生产率悖论”现象较不明显。

表4 出口企业与非出口企业的TFP均值(2013-2014年)

表5 加工贸易企业与非加工贸易企业的TFP均值(2013-2014年)

3.信贷约束与企业经营绩效

采用利息支出与现金流比重[54]、内部融资比重[55]和投资 -现金流敏感性方法[56]等间接测度的方式,现有文献对信贷约束与企业经营绩效的实证关系展开了大量研究。现有研究结论认为,信贷约束对于企业经营绩效具有显著为负的因果效应。本部分基于2015年广东省制造业企业调查对于经营者面临外部融资压力的主观评价指标分析。表6和表7表明,有信贷约束和无信贷约束企业的全要素生产率差距不大,2013年销售额在2 000万元及以上规模的企业中,有信贷约束企业全要素生产率仅比无信贷约束企业全要素生产率略低0.6%。值得注意的是,2014年销售额在2 000万及以上规模的企业中,有信贷约束企业的全要素生产率甚至比无信贷约束企业全要素生产率高出0.15%。描述性统计结果的上述差异,说明现有企业数据由于缺乏信贷约束的直接测度指标,统计定义误差较为明显,从而在实证结果上一定程度放大了信贷约束对企业经营绩效的不利影响。因此,从本次调查数据来看,信贷约束对企业经营绩效的影响有所削弱。

表6 2013年信贷约束与企业TFP

表7 2014年信贷约束与企业TFP

四、实证检验

通过描述性统计,前文已从实证角度对现有企业数据在样本信息时效性、抽样随机性和指标多元性等三个方面的质量缺陷对研究结论偏误的可能影响进行了初步分析。考虑对于时间效应、行业效应和地区特征因素的综合控制,上述企业数据质量缺陷是否仍在大样本的一致性估计条件下对研究结论的偏差产生显著影响?为此,本节将采用双向固定效应模型的计量方法,并综合运用2015年中国制造业企业调查和统计年鉴的相关数据,选取企业家创新精神与企业经营绩效、出口企业的“生产率悖论”和信贷约束与企业经营绩效等研究领域为例,对现有企业数据的质量缺陷对研究结论偏误的可能影响进行更加稳健地实证研究。

(一)企业家创新精神与企业经营绩效

1.模型构建

根据 Wong et.al[27]、Glaear[28]和李宏彬等[61]等文献的实证分析范式,本文对企业家创新精神与企业经营绩效的计量模型设定如下:

其中,TFPijdt为第i个企业在第t期的全要素生产率,我们以此作为企业经营绩效的代理变量; j和d分别代表该企业样本所属的行业与行政区(县)。由于2015年广东省制造业企业调查获取了来自19个区(县)、27个制造业行业分类代码(GB/4754-2011)的571个企业2013-2014年主要财务数据的有效样本,数据结构呈现较为明显的短面板特征。在现有数据结构下,基于序列DEA这一非参数估计方法测算的全要素生产率将较好地规避传统索罗余值方法由于模型设定、变量间联立性偏误而造成的测度误差问题。lnpatentijdt表示企业家精神,根据现有文献的分析范式,我们分别采用样本企业所获得的国内专利数量、国内发明专利数量、国外专利数量和全部专利数量作为代理变量。根据稳态条件下长期经济增长计量模型的一般设定要求,上述指标均取自然对数值。X'是一组控制变量,其中企业特征的控制变量分别为外资股权占比、企业人力资本水平(大专以上员工数量占企业全部员工的比例),上述企业特征控制变量均来自于本次制造业企业调查的样本指标。地区控制变量方面,我们分别控制第一产业增加值占地区GDP比重、固定资产投资总额占地区GDP比例和外商直接投资总额占地区GDP比例,上述地区控制变量均整理自《广东省统计年鉴》。Dj、Dd和Dt分别为行业、地区与时期的固定效应。

2.回归分析

根据式(1)的模型设定,进行基于面板数据的回归。表8表明,无论以国内专利数量、国内发明专利数量、国外专利数量还是以企业专利总数作为企业家创新精神的代理变量,企业家创新精神对于企业经营绩效的影响系数始终统计不显著。在面板数据回归中,上述实证效应统计不显著,甚至其影响系数的符号为负。我们基于2015年广东省制造业企业调查的实证研究结果与现有企业家创新精神的实证研究结论存在较大不同,而这种差异的本质体现在企业数据样本信息时效性的差异上。2015年广东省制造业企业调查所搜集的企业样本信息,反映的是处于经济下行压力逐渐增大、制造业成本优势趋于衰减和“换挡升级”关键期的企业家行为,这一时期企业家创新的能力和动力均明显不足。这表明,企业家创新精神并非一成不变的静态常量,而是与市场竞争环境、产权制度安排乃至企业家个人因素有紧密关系的经济变量。随着近年来市场需求环境、经济增长方式正在发生深刻的变化,原有企业家群体与现实经济形势的不匹配性或逐渐凸显,企业家精神代际更新的必要性可能与以往相比更为突出。

表8 企业家创新精神与企业经营绩效的实证检验(2013-2014年)

(二)出口企业的“生产率悖论”

1.模型构建

根据李春顶[43]、赵伟等[44]、金祥荣等[45]、戴觅等[46]和于娇等[47]等现有文献的实证分析范式,本文对出口企业“生产率悖论”问题的实证检验模型设定如下:

其中,TFPijdt为样本企业的全要素生产率,计算方法同式(1);PROCijdt、Exportijdt和 BOTHijdt分别为企业是否从事加工贸易出口、企业是否从事一般出口贸易、企业是否同时从事加工贸易与一般贸易出口的虚拟变量。根据现有出口企业“生产率悖论”问题的实证研究,我们预期在控制BOTHijdt的前提下,PROCijdt和 Exportijdt分别对于企业全要素生产率具有显著为负及显著为正的实证影响,即加工贸易出口企业对于出口企业的全要素生产率具有拉低作用,而一般出口贸易企业的全要素生产率仍然高于非出口企业。控制变量组X'分别涵盖外资股权占比、企业人力资本水平等企业特征变量,以及外商直接投资总额占地区GDP比例、进出口贸易总额占地区GDP比重等地区控制变量。Dj、Dd和Dt分别为行业、地区与时期的固定效应。

2.回归分析

根据式(2)的模型设定,进行基于全样本企业的回归。表9数据表明,即使按照现有文献的通常做法控制了加工贸易企业因素后,出口企业的“生产率悖论”现象也并不显著。表9的全样本回归结果检验出口企业“生产率悖论”的核心变量Exprotijdt的影响系数在大部分回归结果中均为统计非显著的。之所以出现与现有实证研究结论具有较大差异的研究结果,一个关键的因素在于,我们所依据的2015年广东省制造业企业调查数据是一个基于随机抽样方式的研究样本,上述研究数据反映了截止2014年底以广东为代表的制造业企业基于不同规模类型条件下出口行为的真实变动状况。与基于2009年以前规模以上企业数据所得出的研究结论有所区别的是,中小出口企业的市场竞争压力更大,因而更难对冲成本上升、国际市场需求波动等外部环境变化。

表9 出口企业“生产率悖论”现象的实证检验(全样本回归)

(三)信贷约束与企业经营绩效

1.模型构建

根据郭丽虹等[53]、张杰等[54]、邵敏等[55]和孙浦阳等[56]等现有文献,本文对信贷约束与企业经营绩效的计量模型设定如下:

其中,TFPijdt为样本企业的全要素生产率,计算方法同上述。Creditijdt为信贷约束的代理变量,根据2015年广东省制造业企业调查对企业经营者的主观问项“您认为融资成本、融资途径是否妨碍了企业经营发展”整理而来。该问项涵盖“1、无;2、较小;3、中等;4、较大和5、完全”等5项主观评价指标,上述指标均由受访企业的董事长、总经理、执行副总裁等经营决策层填列。如样本企业的经营者对上述问项选择“4、较大”或“5、完全”,则Creditijdt记为1,否则记为0。控制变量组X'分别涵盖外资股权占比、企业人力资本水平等企业特征变量,以及外商直接投资总额占地区GDP比重、商业银行存贷款总额占地区GDP比重等地区控制变量。Dj、Dd和Dt分别为行业、地区与时期的固定效应。

2.回归分析

根据式(3)的模型设定,进行基于面板数据的回归。表10的数据表明,在面板数据回归中,信贷约束对企业经营绩效的影响系数始终统计不显著。我们基于2015年广东省制造业企业调查的实证研究结果与现有关于信贷约束的实证研究结论存在较大的差别。进一步分析表明,样本指标多元性的差异是造成研究结论差别的关键。基于本次调查数据,我们采用企业经营者直接感知的外部融资压力作为信贷约束的代理变量,从而避免由于采用利息支出与现金流比重、内容融资比例和投资-现金流敏感性方法由于受到统计区间限制、数据可获性较差、计量方法敏感性较强等弱点而造成的统计误差问题。同时,该信贷约束变量除反映企业在商业银行、股票市场和债券市场等正规金融部门的融资能力之外,也测度企业在民间信贷、“影子银行”等非正规金融部门的融资能力。信贷约束也是一个与经济周期具有明显正向关联的经济变量。本次企业调查搜集了在当前经济增速放缓的形势下,企业家所真实感知的信贷压力的最新状况。

表10 信贷约束与企业经营绩效的实证检验(2013-2014年)

五、结论

本文以企业家创新精神与企业经营绩效、出口企业的“生产率悖论”现象、信贷约束与企业经营绩效等三个研究热点领域为例,首次从实证角度验证了企业数据质量缺陷对研究结论偏差的可能影响。由于2015年广东省制造业企业调查在样本信息时效性、抽样随机性、指标多元性等方面的数据质量改进,通过该一手调查数据的研究结论与现有文献结论的科学对比,我们可更加深入、直观地认识现有企业数据存在的质量缺陷。

第一,现有企业数据在样本信息时效性方面的质量缺陷,影响了研究结论对于当前中国企业真实状况的准确判断。通过文献回顾发现,现有企业数据普遍存在4-8年的时滞周期。考虑经济变量的时序变化因素,对于现有基于历史数据的实证文献而言,其研究结论对当前中国经济真实状况的科学推断价值将不可避免地有所影响。本文以企业家创新精神和企业经营绩效为例,分析发现,基于本次调查所搜集的2013-2014年度企业经营活动的最新样本,企业家创新精神对于当前企业经营绩效的推动作用并不显著。因此,只有加快现有企业数据的更新周期,实证研究才能及时追踪中国经济活动的最新变化,从而增强研究结论对现实经济状况的政策指导价值。

第二,现有企业数据在抽样随机性方面的质量缺陷,影响了研究结论对中国企业总体状况的科学推断。现有企业实证文献中,占全部文献数量87.84%的实证研究所使用的企业数据均为非随机调查数据,且仅涵盖上市公司、规模以上企业或规模以上出口企业等部分企业类型。随机性的缺失,造成数据样本的概率分布与企业总体的真实分布存在较大差异,从而使研究结论从局部样本向企业总体的统计推断缺乏充分的经验证据支持。本文以出口企业的“生产率悖论”现象为例,分析发现,基于本次调查所获取的涵盖不同企业规模类型的随机性样本,我国出口企业的“生产率悖论”现象在企业总体层面并不明显。因此,只有加快现有企业数据在样本抽样方式上的调整,研究结论才能从研究样本出发更加准确地把握中国企业总体的真实状况。

第三,现有企业数据由于样本指标多元性不足,造成实证研究对企业部分经济行为的测度存在偏差。本文对现有主要企业数据来源的指标类型进行了全面分析,结果发现,现有企业数据除在财务数据、生产要素投入数据等方面相对完整以外,对企业金融、政治关联和公司治理等行为的指标问项则较为缺乏。这造成现有文献在进行上述选题的研究时,由于数据限制而往往只能采用基于财务指标的间接代理变量进行替代,使统计定义误差问题难以规避,对研究结论的准确性与科学性造成了制约。本文以信贷约束与企业经营绩效为例,采用企业经营者直接感知的外部融资压力作为信贷约束的直接代理变量,避免间接测度指标因未能全面反映企业在正规金融市场和非正规金融市场的融资环境而造成的统计定义误差。因此,只有加强现有企业数据在指标问项上的全面性,才能推动实证文献对于企业行为研究进一步深入和拓展。

综上所述,现有企业数据在样本信息时效性、抽样随机性和指标多元性等方面的质量缺陷对实证研究结论偏差产生了不容忽视的影响。与国际经济学界多年来一直关注运用高质量一手企业调查数据进行实证研究相比,我国以学术研究为目的、以专业机构为主导的一手调查数据尚不多见,并仍存在较大的质量改进空间。数据的质量缺陷已成为制约我国企业实证研究进一步发展的重要短板,为此,2015年中国制造业企业(CEES)调查在企业数据质量方面做出了一定程度的有益探索。只有充分重视企业数据的质量问题,加快建设一批具备较高质量水平、具有较大学术影响力的企业调查数据,中国的企业实证研究才能迎来又一次新的跨越。

参考文献:

[1]Song,Zheng,Storesletten,Kjetil and Zilibotti,Fabrizio. “Growing Like China”,American Economic Review,2011,101(1):196-233.

[2]Hsieh C.T.and Klenow P.J..“Misallocation and Manufacturing TFP in China and India”,Quarterly Journal of Economics,2009,124(4):1403-1448.

[3]Piotroski J.D.and Zhang T..“Politicians and the IPO Decision:The Impact of Impending Political Promotions on IPO Activity in China”,Journal of Financial Economics,2014,111(1):111-136.

[4]Zheng S.and Kahn M.E..“Understanding China's Urban Pollution Dynamics”,Journal of Economic Literature,2013,51:731-772.

[5]金勇进:《抽样技术》(第三版),北京:中国人民大学出版社2012年版。

[6]Angrist,J.and J.Pischke.Mostly Harmless Econometrics:An Empiricist's Companion,Princeton,New Jersey:Princeton University Press,2008.

[7]聂辉华、江艇、杨汝岱:《中国工业企业数据库的使用现状和潜在问题》,载《世界经济》2012年第5期。

[8]刘小玄、李双杰:《制造业企业相对效率的度量和比较及其外生决定因素(2000-2004)》,载《经济学(季刊)》2008年第3期。

[9]钱雪亚:《中国区域经济差异源于FDI——析二次统计误差的形成》,载《统计研究》2007年第3期。

[10]钱海婷、李凤:《企业统计数据质量影响因素的实证分析》,载《统计与信息论坛》2014年第7期。

[11]辛金国、严兴良:《网络直报条件下企业统计数据质量影响因素分析》,载《统计与决策》2013年第13期。

[12]Peterson M.and Rajan R.G..“The Benefits of Firm -Creditor Relationship:Evidence from Small Business Data”,NBER Working Paper,1994.

[13]Sullivan D.and Abela A.V..“Marketing Performance Measurement Ability and Firm Performance”,Journal of Marketing,2007,71(2):79-93.

[14]Barlet M.,Briant A.,and Crusson L.“Location Patterns of Service Industries in France:A Distance-Based Approach”,Regional Science and Urban Economics,2013,43(2):338-351.

[15]Hayashi,F..Econometrics,Princeton,New Jersey: Princeton University Press,2000.

[16]Wooldridge,J..Econometric Analysis of Corss Section and Panel Data,2nd edition,Cambridge,MA:MIT Press,2010.

[17]陈强:《高级计量经济学及Stata应用》(第二版),北京:高等教育出版社2014年版。

[18]刘树成:《防止经济增速一路下行——2015~2020年中国经济走势分析》,载《经济学动态》2015年第3期。

[19]蔡昉:《人口转变、人口红利与刘易斯转折点》,载《经济研究》2010年第4期。

[20]辛永容、陈圻:《中国制造业成本竞争优势——基于ARIMA与PSONN组合模型的预测分析》,载《系统工程》2014年第8期。

[21]Louis Kuijs.“China through 2020-A Macroeconomic Scenario”,World Bank China Research Working Paper,2009.

[22]杨汝岱:《中国制造业企业全要素生产率研究》,载《经济研究》2015年第2期。

[23]Alwyn Young.“Lessons from the East Asian NICs:A Contrarian View”,European Economic Review,1994,38 (94):964-973.

[24]Acs Z.J.&Audretsch D.B.“Innovation in Large and Small Firms:An Empirical Analysis”,American Economic Review,1988.78(4),678-690.

[25]Aghion P.“How High Are the Giants'Shoulders:An Empirical Assessment of Knowledge Spillovers and Creative Destruction in a Model of Economic Growth:Comment”,NBER Macroeconomics Annual,Chicago:The University of Chicago Press,1993.8,74-76.

[26]Acs Z.J.,Carlsson B.&Thurik R.Small Business in the Modern Economy,Oxford:Blackwell Publishers,1996.1-62.

[27]Wong P.K.,Ho Y.P.&Autio E.“Entrepreneurship,Innovation and Economic Growth:Evidence from GEM data”,Small Business Economics,2005.24(3),335-350.

[28]李宏彬、李杏、姚先国、张海峰、张俊森:《企业家的创业与创新精神对中国经济增长的影响》,载《经济研究》2009年第10期。

[29]程虹:《我国经济增长从“速度时代”转向“质量时代”》,载《宏观质量研究》2014年第4期。

[30]程虹、宋菲菲:《新常态下企业经营绩效的下降:基于企业家精神的解释:来自2015年广东制造业企业-员工匹配调查的经验证据》,载《武汉大学学报(哲学社会版)》2016年第1期。

[31]刘剑雄:《企业家人力资本与中国私营企业制度选择和创新》,载《经济研究》2008年第6期。

[32]郑江淮、曾世宏:《企业家职能配置、R&D与增长方式转变——以长江三角洲地区为例》,载《经济学(季刊)》2009年第1期。

[33]吴延兵、刘霞辉:《人力资本与研发行为——基于民营企业调研数据的分析》,载《经济学(季刊)》2009年第4期。

[34]刘青、张超、吕若思、卢进勇:《“海归”创业经营绩效是否更优:来自中国民营企业的证据》,载《世界经济》2013年第12期。

[35]云鹤、舒元:《企业家合约与经济增长》,载《经济学(季刊)》2008年第4期。

[36]邓可斌、丁重:《中国为什么缺乏创造性破坏——基于上市公司特质信息的经验证据》,载《经济研究》2010年第6期。

[37]谢洪明、罗惠玲、王成、李新春:《学习、创新与核心能力:机制和路径》,载《经济研究》2007年第2期。

[38]庄子银:《创新、企业家活动配置与长期经济增长》,载《经济研究》2007年第8期。

[39]Baum,C..An Introduction to Modern Econometrics Using Stata,College Station,Texas:Stata Press,2006.

[40]Greene,W.H..“Econometric Analysis”,7th ed,Upper Saddle River,New Jersey:Prentice Hall,2012.

[41]Hsiao,C..Analysis of Panel Data,2nd edition,Cambridge,UK:Cambridge University Press,2003.

[42]Melitz Marc J..“The Impact of Trade on Intra-Industry Reallocations and Aggregate Industry Productivity”,Econometrica,2003,71(6):1695-1725.

[43]李春顶:《中国出口企业是否存在“生产率悖论”:基于中国制造业企业数据的检验》,载《世界经济》2010年第7期。

[44]赵伟、赵金亮、韩媛媛:《异质性、沉没成本与中国企业出口决定》,载《世界经济》2011年第4期。

[45]金祥荣、刘振兴、于蔚:《企业出口之动态效应研究——来自中国制造业企业的经验:2001-2007》,载《经济学(季刊)》2012年第3期。

[46]戴觅、余淼杰、Madhura Maitra:《中国出口企业生产率之谜:加工贸易的作用》,载《经济学(季刊)》2014年第2期。

[47]于娇、逯宇铎、刘海洋:《出口行为与企业生存概率:一个经验研究》,载《世界经济》2015年第4期。

[48]魏志华、林亚清、吴育辉、李常青:《家族企业研究:一个文献计量分析》,载《经济学(季刊)》2013年第1期。

[49]许年行、江轩宇、伊志宏、袁清波:《政治关联影响投资者法律保护的执法效率吗》,载《经济学(季刊)》2013年第2期。

[50]周阳敏、高友才:《回归式产业转移与企业家成长:“小温州”固始当代商人崛起实证研究》,载《中国工业经济》2011年第5期。

[51]贾俊平、何晓群、金勇进:《统计学》(第5版),北京:中国人民大学出版社2012年版。

[52]张杰、芦哲、郑文平、陈志远:《融资约束、融资渠道与企业R&D投入》,载《世界经济》2012年第10期。

[53]郭丽虹、马文杰:《融资约束与企业投资-现金流量敏感度的再检验:来自中国上市公司的证据》,载《世界经济》2009年第2期。

[54]孙浦阳、李飞跃、顾凌骏:《商业信用能否成为企业有效的融资渠道——基于投资视角分析》,载《经济学(季刊)》2014年第4期。

[55]邵敏、包群、叶宁华:《信贷融资约束对员工收入的影响——来自我国企业微观层面的经验证据》,载《经济学(季刊)》2013年第3期。

[56]Nickell S.And Nicolitsas D..“How does financial pressure affect firms?”,European Economic Review,1995,43(8):1435-1456.

[57]Poncet S.,Steingress W.and Vandenbussche H..“Financial constraints in China:Firm-level evidence”,China Economic Review,2010,21(3):411-422.

[58]Hoshi T.,and Scharfstein D..“Corporate structure,liquidity,and investment:evidence from Japanese industrial groups”,Finance&Economics Discussion,1989,106(1):33-60.

[59]阳佳余:《融资约束与企业出口行为:基于工业企业数据的经验研究》,载《经济学(季刊)》2012年第4期。

[60]Nunnally J.C.(1978).Psychometrics Methods,New York,McGraw-Hill Company.

[61]吴明隆:《问卷统计分析实务——SPSS操作与应用》,重庆:重庆大学出版社2010年版。

[62]王兵、颜鹏飞:《中国的生产率与效率:1952~2000——基于时间序列的DEA分析》,载《数量经济技术经济研究》2006年第8期。

[63]鲁晓东、连玉君:《中国工业企业全要素生产率估计: 1999~2007》,载《经济学(季刊)》2012年第2期。

责任编辑胡章成

Impact of Enterprise Data Quality on Empirical Research Conclusions——From 2015 China Employer-Employee Survey

CHENG Hong1,XU Wei1,LI Tang1,2

(1.Institute of Quality Development Strategy,Wuhan University,Macro-quality Management Collaborative Innovation Center in Hubei Province,Wuhan 430072,China; 2.School of Political Science and Public Administration,Wuhan University,Wuhan 430072,China)

Abstract:In recent years,economics literatures at home and abroad have emphasized on using corporate data to do empirical research.However,the analyze of the data source of the literatures on the listed company shows that the existing enterprise data has three defects:lack of timeliness,lack of randomness,and lack of diversity,which possibly have great impact on the accuracy,science and policy guidance of the research conclusions.Therefore,Wuhan University organized Hong Kong University of Science and Technology,Tsinghua University and the Chinese Academy of Social Sciences to make 2015 Guangdong manufacturing enterprise survey.Compared with the existing data,we have made a big improvement on the sample timeliness,randomness and diversity.This paper chooses three research fields:entrepreneurship and business performance,export enterprises“productivity paradox”,and credit constraints and business performance,to validate the impact of enterprise data quality on research findings.The results show that:lack of timeliness of enterprise data influences the researchers'judgments on Chinese economy;lack of randomnes influences the researchers'judgments on the overall situation;and lacks of diversity of the research findings appear systemic bias.

Key words:data quality;timeliness;randomness;diversity

作者简介:程虹,经济学博士,武汉大学质量发展战略研究院院长、教授、博士生导师,宏观质量管理湖北省协同创新中心主任,研究方向为经济发展质量和宏观质量管理;许伟,武汉大学质量发展战略研究院博士生,研究方向为质量数据挖掘;李唐,经济学博士,武汉大学质量发展战略研究院讲师,政治与公共管理学院博士后研究人员,研究方向为宏观质量管理与计量经济学。

基金项目:教育部哲学社会科学研究重大课题攻关项目(15JZD023);国家科技支撑计划课题(2015BAH27F01);科技部公益性科研专项(201310202)的研究成果;中央高校基本科研业务费专项资助(2014115010202)

收稿日期:2016-01-10

中图分类号:F019.6

文献标识码:A

文章编号:1671-7023(2016)03-0067-14

猜你喜欢
数据质量随机性多元性
库淑兰剪纸艺术中的多元性探究
“瑞狮壶”的艺术构成与文化多元性分析
浅析电网规划中的模糊可靠性评估方法
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
适用于随机性电源即插即用的模块化储能电池柜设计
对“德育内容”渗透“随机性”的思考
梁漱溟思想中的多元性与混杂性
传统中国画重彩材料的多元性探究