工业源重点调查单位分界点的确定

2014-04-25 03:48:54周景博安海蓉董广霞

中国环境监测 2014年3期

王鑫，周景博，鲍劲，安海蓉，董广霞，李巍，丁凯

1．中国环境监测总站国家环境保护监测质量控制重点实验室，北京100012

2．中国人民大学环境学院，北京100872

中国环境统计制度始建于1980年，经过30多年的发展，已有一定的基础，尤其是第一次污染源普查和其后隔年一次的污染源普查动态更新调查，为及时和准确了解污染源及污染物产排情况提供了良好的信息支持。但随着对污染源情况的准确把握，现行环境统计中存在的一些问题也暴露出来，其中一个技术问题就是工业源重点调查单位的筛选原则问题，即重点污染源与非重点污染源的分界点确定问题［1］。分界点的确定直接关系到环境统计数据质量，根据工业污染产排的实际情况来确定新的分界点，是环境统计实务的切实需求，但在研究领域，尚未有对这一研究需求的回应，文章从理论和实证层面的探索是首次。

按目前环境统计制度规定，工业企业污染排放及处理利用情况的调查方法为对重点调查单位逐个发表填报汇总，对非重点调查单位的排污情况实行整体估算，其中，重点调查单位的定义是其主要污染物排放量占各地区(以区县为基本单位)全年排放量的85%以上。85%这一分界点的确定由来已久，且根据环境统计要求最基层环保部门的统计重点调查范围的排放量达到85%的要求，下级筛选的重点调查单位名单中必须包括上级重点调查单位名单中位于本辖区的企业，结果造成市、省和国家级统计中重点调查单位所占比例的逐级升高，继而在非重点调查单位估算中仍按照15%的比例估算，造成环境统计数据偏大的问题［2］。

目前分界点确定存在的主要问题，一是缺少明确的统计理论支持，二是未能反映污染产排的现实情况。针对这些问题，文章首先基于统计分布和抽样调查基本理论，提出工业重点调查单位分界点确定的基本思路:确定目前工业污染物产排指标的分布情况，确认将污染源区分为重点和非重点的目录抽样调查方法的可行性，进而，采用离散系数法和分组法来确定分界点，并将之与现行环境统计调查的分界点进行比较;之后，采用河南污染源普查动态更新调查数据(2010年数据)进行实证研究，确定新的分界点。

1 数据与方法

应用河南省数据进行实证研究，数据来源于中国环境监测总站于2011年开展的全国污染源普查动态更新调查，数据时点为2010年，数据质量经过核查，较为可靠。数据为企业数据，包括45 213家工业企业。河南省是中国工业大省，工业部门较齐全，工业污染源产排情况在全国有一定的代表性。文章选择了38个指标，如表1所示，涵盖了几乎全部污染物产排指标。指标包括两类，一般指标和重点监察指标，对于一般指标，按现行环境统计制度，以产排累计量85%为分界点区分重点单位和非重点单位;对于重点监察指标，则凡有产排的企业均计为重点单位，参与全面调查。

表1 工业污染源污染物产排指标清单

确定分界点的基本思路是，首先要分析总体分布特征，确定其是否适合于通过选择分界点来区分重点和非重点污染源;其次，分界点的确定方法有多种，要通过比较来选择合适的分界点。

总体分布特征是决定环境统计调查方法的前提，确定分界点的目的是为了采用目录抽样法来进行调查。目录抽样是全面调查和抽样调查相结合的一种调查方法，对重点单位进行全面调查，对非重点单位进行抽样调查;目录抽样也是一种特殊的分层抽样，将总体分为重点和非重点两层。理论上说，目录抽样适合于高度偏斜总体，即总体由指标值较大而数目较少的单位和指标值较小而数目较多的单位两部分组成，只有这样的总体才适合把重点和非重点区分开，对不同的样本采用不同的调查方法［3］。现行环境统计制度把污染源区分为重点和非重点，本质上是目录抽样的思路，但是否适用这种思路，还是需要首先来对总体是否符合偏斜总体的特征进行确认。

对全部38个指标的总体分布进行描述统计分析，发现所有变量均为尖峰(峰度大于3)、右偏(偏度大于零)分布。进一步的分析表明，所有污染物产排指标都呈现高度偏斜，以SO2产生量指标为例，如表2所示，可以看到，0.34%的企业产生了25%的SO2，29.11%的企业产生了95%的SO2，意味着70.89%的企业产生了5%的 SO2。其他指标也有类似特征。即，各污染物产排指标的总体均大致包括两个部分:少量指标值非常大的单位，大量指标值非常小的单位。这种特征非常适合于采用目录抽样，将总体分成两层，少数指标值较大的单位构成重点单位层，大量指标较小的单位构成抽样调查层，前者进行全面调查，后者进行估算。下一步的关键就是找到和选择分界点。

表2 SO2产生量与企业数累积比例比较 %

目录抽样方法有效应用的关键在于寻找出一个最优的分界点，来划分企业的重点(大)和非重点(小)界限。确定分界点的主要方法有主观判断法、图示法、离散系数法、分组法和偏度、峰度测度法。无论哪种方法，其基本目的都是一致的，即把具有大指标值的重点单位和具有小指标值的非重点单位区分开，但具体做法有差异。其中，主观判断法和图示法都在很大程度上依赖于主观判断，偏度、峰度测度法对历史数据需求较高且必须有相应的软件或程序支持，否则工作量庞大无法接受［3］。因此，主要采取离散系数法和分组法来确定分界点。

离散系数法的基本思路是，高度偏斜总体的离散程度很大，这主要是由极端值(重点单位指标值)的存在引起的，随着极端值的逐步剔除，总体的离散系数将呈减少趋势，剔除的极端值越大，总体离散系数减少得越多越快，当全部极端值剔除后，继续向外剔值(非重点单位指标值)，离散系数仍将继续减少，但减少的速度和幅度都比剔除极端值时大。因此，可以根据离散系数下降的情况来确定分界点。具体做法是，先将总体按指标值大小排队，计算总体离散系数Vσ=σ/X。其中，Vσ表示总体离散系数，σ表示总体标准差，表示总体均值。在总体呈高度偏态分布时，Vσ必然很大。从总体中剔除指标值最大的单位，重新计算。逐个剔除指标值大的单位，直至Vσ变动成稳步减少为止。离散系数法对稳步减少并没有严格的界定，一般由分析者根据具体情况来定。这里，定义稳步减少为离散系数的减少幅度很小(小于1%)且减少的幅度和绝对值保持稳定、缓慢变动。

分组法首先也是将总体按指标值大小排队，然后将之分为离散程度相当的若干组(一般最多分为6组)，将其中标志值最大的组作为重点单位组，全面调查，其余的组作为非重点单位组。要找到这一分组，首先需要将总体等距分成较多的层，然后不断调整，直至将总体划分为离散程度相当的组。分组法的算法分为2种，样本含量(容量)的最优配置法(下称为分组法1)和总体分布函数已知时的最优分层法(分组法2)，两者计算复杂，这里不赘述，具体算法详见参考文献［4］。

哪种方法更理想，理论界和应用界都无定论，最终将在比较具体计算结果的基础上进行选择。

2 结果与讨论

采用离散系数法、分组法1和分组法2来分别计算分界点，同时，基于现有环境统计制度，把污染物产排累计量85%(对于重点监察指标，这一比例为100%，只是为了叙述方便，下文未做区别)也作为一个分界点确定的方法作为与其他3种方法的对比，这里称之为累计比例法。即，该文共采用4种方法来确定分界点。

理论上说，分界点应为污染物产品量的具体数值，譬如，COD排放量指标的分界点为500 t，表示COD排放量大于500 t的企业为重点调查单位，小于500 t的企业为非重点调查单位。但为了与目前环境统计制度保持叙述一致，采用累计产排量比例来表述分界点，即，如果COD排放量指标的分界点为500 t，则计算全部COD排放量大于500 t的企业的排放量之和，然后计算这个合计值占全部企业COD总排放量的比例，假设这一比例为50%，则以50%来作为COD排放量分界点的表述。即，对于COD排放量指标而言，重点调查单位的定义是COD排放量占地区总排放量的50%以上。

几种方法的计算结果如表3所示，表中列1～列3依次为离散系数法、分组法1、分组法2的计算结果;列4为前3种方法计算结果的离散系数，即3种方法计算结果的标准差与均值之比，用来反映这3种方法计算结果的差异;列5为前3种方法计算结果均值;列6为作为对比的现行环境统计制度的分界点;列7为累计比例法结果与前3种方法结果均值之差，用来反映新方法计算结果与现行统计制度的平均差异。对多数计算和比较结果，还计算了最大值、最小值、标准差和均值，在表3最末4行。

比较几种方法的分界点计算结果，可以看到:

1)对不同指标，采用不同方法计算得到的分界点有差异，但差异不大。列5离散系数最高为0.27，最低为 0。

2)3种方法比较而言，分组法1得到的分界点平均最高，为87.10%，也略高于现行环境统计制度，离散系数法和分组法2得到的分界点相对较低，分别为77.92%和73.82%，都明显低于现行环境统计制度85%的分界点;如果不考虑需要100%全面调查的重点监察指标，则分组法1得到的分界点平均最高，为84.22%，略低于现在的85%，离散系数法和分组法2的分界点近似，分别为72.19%和73.05%。

3)离散系数法得到的分界点差异相对较大(标准差为17.20和16.68)，分组法1和分组法2得到的分界点差异相对较小(标准差分别为10.47、11.16 和 8.84、8.69)。

4)3种方法计算得到的分界点均值最高为95.82，出现在汞产生量指标(现行统计制度在这一指标上的分界点为100%)，最低只有57.82%，平均为79.61%，近似为80%，不考虑重点监察指标的话，为76.49%。

表3 分界点计算结果(指标值累计比例) %

3 结论

根据污染源现实情况来验证、调整或修正已有环境统计制度，是污染源普查和更新调查的重要目的。污染源普查动态更新调查数据是目前较能反映工业污染源产排现状的信息，该研究基于河南省的实证研究，有以下结论和政策建议:

1)对工业污染物产排指标分布特征的考察表明，所有污染物产排指标都呈现出高度右偏分布，因此将工业污染源区分为重点污染源和非重点污染源的目录抽样方法，对重点污染源进行全面调查，对非重点污染源进行抽样调查(或其他估算方法)，仍是适合于环境保护现实的正确调查方法。

2)在具体的分界点的确定上，按照统计科学方法所确定的分界点一般要低于85%，根据几种方法的平均值，这一分界点可以适当下调。根据3种方法计算结果，可以调整到80%甚至更低。这种变化与中小企业特别是小企业的发展所导致的污染源格局变化有一定关系。在环境统计制度制定之初，少数大型企业的污染物产排量占据了污染物总产排量的绝大部分份额，但随着中小企业的发展，这个份额会有所下降，因此有必要根据污染格局的变化来修正这个分界点。

［1］董广霞，董文福，周冋，等．污染源普查动态更新调查技术问题及解决对策分析［J］．中国环境监测，2012(1):99-101．

［2］齐珺，魏佳，罗志云．对我国环境统计制度的思考和建议［J］．环境与可持续发展，2011(2):66-69．

［3］栾文英．目录抽样调查方法研究［J］．上海统计，2001(6):17-19．

［4］张倩．如何确定目录抽样中全面调查对象与抽样调查对象［D］．天津:南开大学，2000．