工业企业规模标准划分问题研究

2019-07-26 09:35金勇进姜天英
统计与信息论坛 2019年7期
关键词:样本量主营业务个数

金勇进,姜天英

(中国人民大学 a.应用统计科学研究中心;b.统计学院;c.调查技术研究所,北京 100872)

一、问题的提出

工业发展事关国家发展大计,是衡量国家生产力水平与经济发展的重要依据。为全面科学掌握中国工业发展的基本情况,按照当前的统计制度,以年主营业务收入2 000万元为划分标准,将工业划分为规模以上工业和规模以下工业,其中规模以上工业是指年主营业务收入2 000万元及以上的工业法人单位,通过联网直报进行全面调查;规模以下工业则为年主营业务收入2 000万元以下的工业法人单位和全部个体经营工业单位,采用按企业名录库的一阶段分层随机抽样和按行政区划的分层随机整群抽样相结合的方法进行抽样调查。

但是,随着经济的快速发展,在市场竞争机制的作用下,工业企业新增消亡加快,升规降规现象频繁,工业调查制度暴露出了诸多问题。本文将主要讨论其中两个问题:一是工业企业规模划分值的合理性问题,即2 000万元的划分值与目前的工业发展是否匹配。目前所采用的规模划分值是2011年制定的2 000万元,但2011—2017年国内生产总值增长约75%,工业增加值增长约49%,而该划分标准并未调整,所以2 000万元的划分标准是否合理需进一步评估。如果当前的标准不合理,则将规模划分值调整为多少才能与当前的工业发展相适应也是急需解决的问题;二是规模划分指标的科学性问题,即年主营业务收入是否是最合适的划分指标。当前所选取的划分指标为年主营业务收入,虽然从理论上讲,年主营业务收入能直接准确地反映企业规模,但在实际操作中,一方面,由于该指标较为敏感,部分企业本着“报少不报多”的思想,为避免“露富”,可能出现瞒报的现象;也有部分企业为夸大企业效益,可能出现虚报多报的现象。另一方面,由于部分企业的财务制度不健全等原因,可能出现错填乱填的现象。这些现象都将导致收集到的数据存在偏差,真实性有待考究,进而影响后续对目标量的估计。因此,通过统计学的方法寻找最优的工业企业规模划分标准对工业统计具有十分重要的意义。

为更好地解决以上问题,本文以湖北省为例,通过对数据的测算,确定最优的工业企业规模划分标准,从而合理地展现工业发展的实际情况,为统计制度提供科学依据。

二、文献回顾与研究思路

自工业统计调查实施以来,国家统计局对工业规模划分的标准有过多次的修改和调整。1996年按照《工业统计定期抽样调查试点方案》对全国范围的工业统计进行试点调查,该方案规定的限额指标为工业总产值,限额值为500万元;1998—2005年,将限额指标调整为年产品销售收入,限额值仍为500万元;2006年将限额指标修改为年主营业务收入;2011年将500万元的限额值提高到了2 000万元。工业统计调查自实施以来,规模划分标准虽然已有过多次调整,但调整过程相对缓慢,因此国内对于工业企业规模划分的研究也在不断进行中。从问题研究角度看,《规模以下工业抽样框问题研究》课题组在对规模以下工业抽样框存在的问题研究中,提出了年销售收入的指标是否合适以及500万元的限额值对各省市来说是否科学的问题,并提出可以允许各省市按照某一指标(GDP、销售收入等)的累计比重来确定规模划分的界限[1];曾五一等在2011年对工业统计调查制度进一步做了研究,通过对福建省规模以上和规模以下工业的产值结构比例测算,指出随着经济发展和价格变动,500万元的规模划分标准急需修订[2];许宪春曾在2011年指出,适当地提高工业规模划分标准有利于集中力量严审数据,提高数据质量[3]。总的来说,从问题研究的角度上看,主要讨论的就是划分指标的合理性和划分值的全国统一标准与提高的问题;从方法研究的角度上看,主要是考虑如何确定规模划分标准以及评估方法等[2,4]。

鉴于以上讨论,本文的研究将借鉴诸多评价方法,从问题研究的角度对工业企业规模划分标准进行研究,即选取最优划分指标和确定最优划分值。一方面,在最优划分指标的选取上,本文预先选定了两个指标:年主营业务收入和从业人数。其中,年主营业务收入是当前的划分指标,因此仍将其保留作为一个备选指标;而选取从业人数作为另一个备选指标是因为,该指标被广泛地应用于国外的诸多调查中,如英国的年度商业调查(划分值为250人)、奥地利的经济结构调查(工业类划分值为20人)以及印度的工业调查(划分值为100人)等[5-7]。对于最优指标的评价上,本文从离散性和稳定性两个方面考虑,选取了离散系数和指标增速来判定,从而选取两个指标中较为稳定的一个。另一方面,即在最优划分值的确定上,我们立足于以下目标:规模以上和规模以下工业企业各自占全部工业的年主营业务收入比重恰当,能有效控制规模以下工业企业调查的样本量和抽样误差以及不同规模划分值下的离散性,运用边际理论、样本量与抽样误差的关系以及离散系数来判定。在本文的研究中,为了更全面地展示两个指标的差异性,首先讨论的是两个指标各自的最优划分值确定,然后研究在两个指标中选取较优的划分指标。

三、数据说明及数据处理

本文研究的是工业企业规模标准划分问题,故所需数据涉及规模以上工业企业和规模以下工业企业。以下所用数据均已经过脱敏处理。其中,规模以上工业企业依据2017年《湖北统计年鉴》和湖北省统计局的调查数据结果,指标为年主营业务收入(单位:千元)和从业人数(单位:人)。由于规模以上工业企业调查的方法是联网直报的全面调查,剔除数据中年主营业务收入为0的企业,湖北省2016年规模以上工业企业共计15 972家。为了与规模以上工业数据匹配,依据国家统计局湖北调查总队的调查数据结果,规模以下工业企业数据的指标也选取年主营业务收入(单位:千元)和从业人数(单位:人)。规模以下工业企业数据是由抽样调查得来,共有1 166家样本企业被抽中,剔除年主营业务收入为0的企业,仅有630家有效样本企业。

为了更全面科学地讨论工业企业规模标准划分问题,需要采用规模以上工业企业和规模以下工业企业的总体数据来进行测算,从总体的角度对离散性、稳定性等进行评估。规模以上工业企业是通过联网直报的全面调查获取数据,因此有完备的2016年湖北省规模以上工业企业的总体数据;但规模以下工业企业采用的是抽样调查获取数据,仅在经济普查年份有总体数据,因此需要对规模以下工业企业数据进行模拟,得到2016年湖北省规模以下工业企业的总体数据。由于抽样调查年份的规模以下工业企业总数量未知,且规模以下工业调查的抽样框是保持5年不变的,因此本文将2016年湖北省规模以下工业企业抽样总体规模设定为34 880家企业(2013年普查数据),样本量为1 166家企业,由此可得到抽样比为0.033。需要注意的是,总数量34 880家企业的设定稍有不足,因工业企业每年都会有新增和消亡,该总数量是处在不断变动中的,但并无官方数据的数量增长情况,因此为简化计算,则将2016年规模以下工业企业数量设置为34 880家。

在由样本模拟总体的过程中,考虑计算样本的统计特征,检验其所属分布,得到样本分布的具体信息。用样本分布模拟出总体分布,可以得到34 880家规模以下工业企业总体数据。模拟得到的规模以下工业企业总体信息用于后续测算离散系数、样本量和抽样误差以及增速等。

对于年主营业务收入这一指标,运用非参数方法检验样本所属分布,与对数正态分布类似,因此考虑将数据进行对数变换,直观上QQ图呈现一条直线,符合正态分布,运用K-S检验方法检验正态性,得到检验结果P值为0.35,大于0.05,不拒绝原假设,可以认为对数变换后的数据服从正态分布,计算其参数得到μ=6.6,σ2=2.5,即原分布服从对数正态分布Ln(6.6,2.5)。

对于从业人数这一指标,运用非参数方法检验样本所属分布,与对数正态分布类似,因此考虑将样本数据进行对数变换,直观上看QQ图呈现一条直线,符合正态分布,运用K-S检验方法检验正态性,得到检验结果P值为0.42,大于0.05,不拒绝原假设,可以认为对数变换后的样本服从正态分布,计算其参数得到μ=2.2,σ2=0.9,即原分布服从对数正态分布Ln(2.2,0.9)。

根据样本分布信息模拟总体,对规模以下工业企业进行样本扩充,最终得到34 880家规模以下工业企业。将得到的34 880家规模以下工业企业与15 972家规模以上工业企业结合,即为2016年湖北省工业企业总体数据,共计50 852家企业。为了验证数据模拟效果,计算湖北省规模以上工业企业年主营业务收入占所有工业企业年主营业务收入的比重,由实地调研了解到该比重约为93%,由模拟后的工业企业总体数据计算得到的湖北省规模以上工业企业年主营业务收入占总体年主营业务收入的比重为94%,可知模拟效果接近实际。接下来,将基于这50 852家企业数据进行湖北省工业企业最优规模划分指标和最优规模划分值的测算。

四、实证分析

(一)最优划分值的确定

为了更全面地展示两个指标的差异性,本文先讨论规模划分值,而后再研究规模划分指标。随着经济的发展,2011年制定的2 000万元的规模划分值与经济发展已不相适应,从实地调研来看,湖北省规模以下工业企业的年主营业务收入占所有工业企业的比例不到8%,规模以下工业企业所占比例过低,将对规模以下工业企业的抽样调查造成较大影响。因此,我们认为,当前的年主营业务收入2 000万元的划分标准过低,急需对其进行重新调整。对于备选指标中的从业人数这一指标,不仅考虑到该指标在国外调查中的广泛应用,也考虑到该指标与年主营业务收入相比,可能相对稳定,能在一定程度上减少地区差异,避免各地区因经济发展水平不同导致年主营业务收入作为划分指标时各地区的差异较大的问题。在对最优规模划分值的测算时,本文采用了三种方法:边际理论方法、样本量与抽样误差以及离散系数,下面将分别进行说明。

1.边际理论方法。首先研究年主营业务收入的划分值,探究企业个数与工业企业年主营业务收入之间的关系。首先按50 852个样本企业的年主营业务收入降序排序,以工业企业年主营业务收入的累计比重为纵轴,企业个数的累计比重为横轴,绘制累计分布曲线图,用来展示随着企业个数的增加,年主营业务收入的累计情况,如图1所示。因为对于规模以上工业企业,样本量的成本主要来自于开展定期报表调查的成本,此时假设每个样本单元的调查成本一致,该成本曲线应是一条从原点出发的45度对角线。这条对角线可以称为绝对平等线,即是若各工业企业的年主营业务收入完全一样,年主营业务收入的累计分布曲线将完全等于这条对角线,那么将工业企业按规模划分进行统计调查则没有实际的意义和必要。而在实际中,按照该方式绘制的累计分布曲线图是一条上凸的曲线。此时引用边际理论,最佳的规模划分值是该累计分布曲线与45度成本曲线平行线的切点,也即一阶导数为1的点。在此点左侧的工业企业,每增加一定比例的企业个数,都会带来超过该比例的年主营业务收入信息;而在此点右侧的工业企业,每增加一定比例的企业个数,都会带来不足该比例的年主营业务收入信息。该点即为最佳划分临界点,从图1圆圈点左边曲线可见,企业个数虽不多,但年主营业务收入累计比重大,应进行全面调查,同时对这部分上报数据加强审核检查,保证原始数据质量,由此可保证整个工业企业数据的绝大部分质量;而图1圆圈点右边曲线,由于其信息携带较少,可采用抽样调查的方式,从而减少企业调查数量,降低费用和成本,而又不至于损失太多信息。

图1 2016年湖北省企业累积分布曲线图

由图1可知,一阶导数为1的点由圆圈所示,表示湖北省工业企业的最佳规模划分值大约在工业企业年主营业务收入累计比重为80%~85%处最为适合,此时规模以上工业企业个数占所有工业企业个数的比重大约为14.0%,通过计算可得,此时规模划分值为年主营业务收入1亿元。由表1可知,规模在1亿元以上各组中,企业个数占总体比重均小于工业企业年主营业务收入占总体的比重;而在8 000万元至1亿元组中,企业个数占总体的比重略大于工业企业年主营业务收入占总体的比重;在8 000万元以下的各组中,企业个数占总体的比重都远大于工业企业年主营业务收入占总体的比重。也就是说,当企业规模在1亿元以上时,每增加1%的调查成本(企业个数)都可获得比1%多的工业企业总年主营业务收入信息,其成本收益呈递增趋势;当企业规模在1亿元以下时,增加1%的调查成本(企业个数)只能获得不到1%的工业企业总年主营业务收入信息,因此年主营业务收入1亿元的划分值能够使得规模以上和规模以下企业所占年主营业务收入的比重恰当。表1所示的分组划分方法可以研究企业个数和工业企业总年主营业务收入的关系,即相当于样本量与调查效率的关系,对于最优规模划分值的确定有十分重要的理论意义。

表1 2016年湖北省全部工业企业按年主营业务收入分组数据分布表

注:分组区间为前闭后开区间,例如[0,2 000)。

运用从业人数这一指标可以从另一个角度划分企业规模,从业人数和年主营业务收入的相关程度较高,一般越大型的企业其从业人数就越多。对于从业人数这一指标的划分值测算仍按照边际理论,采用按从业人数分组的数据分布表,见表2。通过计算可得,此时从业人数为80人,规模以上工业企业个数占所有工业企业个数的比重大约为18.6%。由表2可知,规模在80人以上各组中,企业个数占总体比重均小于工业企业年主营业务收入占总体的比重;在规模70~80人组中,企业个数占总体的比重略大于工业企业年主营业务收入占总体的比重;在70人以下的组中,企业个数占总体的比重都远大于工业企业年主营业务收入占总体的比重。也就是说,当企业规模在80人以上时,每增加1%的调查成本都可获得比1%更多的工业企业总年主营业务收入信息,其成本收益呈递增趋势;当企业规模在80人以下时,增加1%的调查成本只能获得不到1%的工业企业总年主营业务收入信息,因此从业人数80人的划分值能够使得规模以上和规模以下企业所占年主营业务收入的比重恰当。

表2 2016年湖北省全部工业企业按从业人数分组数据分布表

注:分组区间为前闭后开区间,例如[0,20)。

2.样本量与抽样误差。通常情况下,抽样误差是由于抽取样本的随机性造成的,且无法消除,但可对其进行计量并加以控制。最根本的方法是改变样本量,在其他条件相同的情况下,样本量越大,抽样误差越小。抽样误差与样本量的算术平方根大致呈反比关系,抽样误差在开始时随着样本量的增加而显著降低,但经过一定阶段后便趋于稳定,如果继续增大样本量,只会有较小程度的抽样误差降低,从成本角度来说是不合算的[8]。该思想与边际理论思想有一定的相似性,因此我们将最佳的临界点定为样本量与抽样误差关系曲线的“拐点”。在该最佳临界点的左边,样本量的增加可很大程度地降低抽样误差;在该最佳点的右边,样本量的增加对降低抽样误差仅有较小的作用。因此,样本量的适当选取,可在一定程度上较为理想地控制抽样误差,从而用较低的成本获得较高的估计精度。

因此,从成本和估计精度的角度出发,本文考虑研究工业企业的样本量与抽样误差的关系。在现有的抽样方案和抽样比的情况下,选取估计量的标准差来表示抽样误差,分别对不同划分标准下的规模以上工业进行全面调查,对规模以下工业企业进行抽样调查,计算总样本量(规模以上工业企业数量与规模以下工业企业样本量之和)与抽样误差,并通过总样本量与抽样误差关系图中的“拐点”来寻找最优划分值。为保证抽样结果的稳定性,本文对每一次规模划分值调整后的抽样都重复进行500次,抽样误差则是500次的平均值。由计算结果可知,可将规模划分值定为年主营业务收入1亿元或者从业人数80人。也就是说,当企业的年主营业务收入达到1亿元以上或者从业人数超过80人可定义为规模以上工业企业。直观上讲,与年主营业务收入2 000万元相比,年主营业务收入1亿元的规模划分值更加稳定,也即在规模划分值附近频繁跳动的企业数量要少,升规降规现象发生频率要低。

3.离散系数。离散系数也是一种常见的最优划分值确定的方法,它的基本思想是对于高度倾斜总体,由于“离群值”的存在,其总体离散程度通常会很大,但由于其右偏的性质,在剔除部分“离群值”后,剩余总体的离散程度会逐渐减少,最终会趋于稳定。剔除的“离群值”越大,总体离散系数减少的幅度就越大,随着剔除的值越来越“不离群”,离散程度的减少就会越平缓[9]。由该离散系数确定的最优划分值,一般视情况而定,因此比较主观,本文将其设定为0.15~0.2之间。

对于年主营业务收入这一指标中,首先按总体50 852个样本企业的年主营业务收入降序排序,计算年主营业务收入的总体离散系数,然后依次剔除总体中该指标数值最大的样本企业,重新计算总体离散系数。为简便起见,我们将规模划分值以上的数据作为“离群值”,例如若年主营业务收入划分值为2 000万元,则剔除年主营业务收入2 000万元以上的所有样本企业,对剩余企业计算离散系数得到该划分值下的总体离散系数。同样地,在从业人数这一指标中,按总体50 852个样本企业的从业人数降序排序,计算从业人数的总体离散系数,然后依次剔除总体中该指标数值最大的样本企业,重新计算总体离散系数。不同规模划分指标的总体离散系数情况如表3所示,若总体离散系数值定在0.15,则年主营业务收入8 000万元及从业人数60人是最优的规模划分值;若总体离散系数定在0.2,则年主营业务收入1亿元及从业人数80人是最优的规模划分值。因此可知,在离散系数这一评判标准上,年主营业务收入8 000万~1亿元或从业人数60~80人作为规模划分值具有一定的操作性。

表3 不同规模划分指标的总体离散系数

综合以上三种测算方法来看,结论基本相同,可将最优规模划分值定为年主营业务收入1亿元,或者从业人数80人。

(二)最优划分指标的选取

上文中讨论了年主营业务收入和从业人数这两个指标的最优划分值,下面将选取这两个指标中较优的一个,作为最合适的规模划分指标。为此,本文将采用两种方法来进行评估:离散系数和指标增速,分别从分布的离散性和随时间变化的稳定性角度进行说明。

1.离散系数。通常情况下,一个稳定的指标,其分布的方差较小,分布较集中,离散程度也较低。在统计量中,离散系数是离散程度的归一化度量,是一个无量纲量,可综合考虑方差和均值,离散系数越小说明离散程度越低,因此被广泛地应用于测度离散性。本小节的离散系数与上一小节中的离散系数不同,这里计算的是样本离散系数,即按照不同的规模划分值,对规模以上工业企业进行全面调查,规模以下工业企业进行抽样调查(与前文相同,按照每个不同的规模划分值重复500次,最终的结果是500次的平均值),对所得的全部企业计算离散系数,用来比较两个指标的离散程度。不同规模划分指标在不同规模划分值下的样本离散系数情况,详见表4。

由表4可知,这两个指标都随着规模划分值的提高,样本离散系数逐渐变小,符合实际情况;并且,在任一种划分值下,年主营业务收入的离散系数都大于从业人数,因此从离散系数的角度上看,从业人数指标较为稳定,离散程度更小,更适合作为工业企业规模划分指标。

表4 不同规模划分指标的样本离散系数

2.指标增速。为了比较两个指标的稳定性,也可以从时间维度上分析年主营业务收入和从业人数这两个指标随时间的变化情况。在最优指标的选取上,稳定性十分关键,规模划分值在长时间保持稳定变动的指标更适合作为规模划分指标。这里计算规模以上工业企业的指标增速,数据来源于2017年《湖北统计年鉴》。2000—2016年,湖北省企业个数、年主营业务收入和从业人数总体上显示为增长趋势,这也印证了进入21世纪以来中国经济发展的现状;但指标增长幅度各不相同,本文计算工业企业的年主营业务收入和从业人数均值(即分别用两个指标除以企业个数得到均值),绘制如图2所示的年主营业务收入和从业人数均值的同比增长图,可以看到年主营业务收入这一指标同比增长率远大于从业人数。这说明在时间维度上,年主营业务收入随着时间的推移变化幅度较大,作为规模划分指标时会面临每隔数年就必须更新规模划分值的问题,而频繁的更换规模划分值,将导致数据可比性下降,影响数据分析结果。而从业人数这一规模划分指标则较为稳定,通常不易因为经济形势的改变而发生巨大变化,因而更适合作为工业企业规模划分指标。

图2 不同规模划分指标均值同比增长图

综合来说,在对年主营业务收入和从业人数的稳定性比较上,从业人数表现较优,更适合作为工业企业规模划分的指标。

五、结论

本文研究的是工业企业规模标准的界定问题,以湖北省数据为例,通过多种方法的测算,确定最优的规模划分指标和规模划分值。一方面,在最优划分值的确定上,分别运用边际理论、样本量与抽样误差的关系和离散系数三种方法来确定最优划分值;另一方面,在最优划分指标的选取上,对年主营业务收入和从业人数两个指标进行稳定性的对比,以离散系数和指标增速来进行评定。通过以上分析,本文得出当规模指标为年主营业务收入时,规模值可设定在1亿元左右;当规模指标为从业人数时,规模值可设定在80人左右。这两个规模划分方案可使得规模以上工业企业和规模以下工业企业各自占所有工业企业的比重合理,充分发挥规模以上工业企业全面调查的优势,合理降低成本;同时也保证了规模以下工业企业抽样调查方案得以合理实施。

对于年主营业务收入1亿元这一划分标准,在实际操作中具有重要意义。规模划分标准的提高使得规模以上工业企业数量减少,这有利于更好地对数据填报进行核实审查,从而做好质量监控,提高原始数据质量。规模划分值的提高也会使得企业在规模划分值附近跳动的频率降低,相比于年主营业务收入2 000万元,年主营业务收入1亿元附近的企业,其经营状况也更为稳定,有助于减少因企业频繁跳动造成的误差。同时,规模以下工业企业数量增多,依据抽样原理,在保持相同精度的条件下,样本量只需少量的增加,这在一定程度上提高了抽样效率;同时,规模以下工业企业所占年主营业务收入的比重提升至15%左右,抽样调查能涵盖更多的企业,使得规模以下工业企业抽样调查变得更有意义。对于从业人数这一指标,可以有效解决使用主营业务收入这一指标存在的数据偏差问题。相较于年主营业务收入,企业从业人数这个指标的敏感度更低,有助于获取更真实的数据;而且该指标也更为稳定,可在一定程度上减少因经济发展需不断调整规模划分值的可能性;同时该指标在一定程度上可消除地域影响,避免因各地区企业产值差异较大导致的地域差异性问题。

2018年是第四次全国经济普查年,本文讨论的内容对于经济普查后的数据分析,以及更进一步为建立科学、合理的工业企业划分标准具有重要的现实意义。

猜你喜欢
样本量主营业务个数
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
农产品加工业主营业务收入与农民收入关系的实证分析
医学研究中样本量的选择
怎样数出小正方体的个数
等腰三角形个数探索
怎样数出小木块的个数
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
怎样数出小正方体的个数
2017年1-7月塑料制品行业主营业务收入利润率5.82%