刘孝富,张志苗,王莹,刘柏音,邱文婷,罗镭
中国环境科学研究院环境信息研究所
第二次全国污染源普查(简称二污普)是我国在“十三五”期间开展的一项重大国情调查,普查成果为我国打赢污染防治攻坚战乃至“十四五”规划提供强有力的支撑。数据的真实、准确、可靠、符合逻辑是普查质量的灵魂,为此数据审核发挥着至关重要的作用。二污普分为清查、全面入户调查、产排污核算3个阶段,每个阶段数据审核侧重点有所不同,但异常值的识别始终是数据审核的重要内容[1-2]。二污普数据审核中的异常值识别方法包括直接对比法、专家经验法、排序法、占比法、平均值法、直方图法等,每种方法都有各自的优劣势。如直接对比法是将某些指标与排污许可、环境统计或工业统计等资料中相同指标进行对比;专家经验法是依据专家的知识直接判断数据是否异常,既可以判断单个指标,也可以判断两两指标相互关系的异常情况;排序法是将同行业的普查对象进行升序或降序排列,识别出极大或极小值;占比法是排序法中的一种,将生产活动水平或者产排污量占同一区域或流域较大的普查对象识别出来;平均值法是通过设置一个阈值,将远离行业平均水平的普查对象识别出来;直方图法是依据统计学规律设置置信度,将不在置信区间的普查对象识别出来。以上方法存在不同程度的局限性,或是在设定阈值、距离值、置信度等方面存在主观性,或是需要较多的统计样本。笔者介绍一种相对客观、可适用于不同普查阶段的数据审核方法——象限分析法,以期通过相关案例研究为各地开展二污普数据审核提供思路,也为下一次污染源普查以及其他普查工作的开展提供借鉴。
象限分析法是根据事物的2个重要属性进行分类分析,从而找出解决问题的方法。象限分析法的第一步是找出影响事物的2个属性(筛选2个指标),将一个属性(指标)作为x轴,另一个属性(指标)作为y轴,在坐标轴上对指标进行划分,形成不同的象限,常见的有四象限、六象限、九象限(图1)等,分析每个象限的特征从而找出规律,识别出异常事务或者需要重点关注的事务。当前,象限分析法在人才选拔[3]、防洪减灾[4-5]、国土资源评价[6-7]、健康调查[8]等领域应用较广,比较著名的应用包括时间管理的四象限法[9]以及描述基础研究和应用研究关系的巴斯德象限[10]。
图1 象限划分示意Fig.1 A sketch of quadrant division
1.2.1筛选评价指标
象限分析法要求至少筛选2个指标开展评价,且2个指标之间存在一定的相关性。如分析二污普数据中产品产量数据是否填报错误,可以通过分析产量与原料使用量是否一致来确定,因此筛选出产量和原料使用量2个指标。
1.2.2绘制多个样本散点图
象限分析法不依赖专家的经验和知识,而是通过多个样本的指标相关性趋势来判定异常情况。因此需获取多个样本的属性数据,分别以2个属性为x轴和y轴绘制散点图(图2)。
图2 象限分析散点图Fig.2 Scatter diagram of quadrant analysis
1.2.3象限分类及特征分析
根据所获取的样本数量决定需要划分象限的数量,最少4个象限,样本数量较多时可以设定9~16个象限,以平均每个象限样本数占样本总数的10%为宜。分析每个象限的基本特征,如图2所示,第1象限表示产量低而原料使用量高,第9象限表示产量高而原料使用量少的普查对象。
1.2.4聚类划分
确定象限数量之后,对x轴和y轴进行分割,也称之为聚类。聚类的方法有多种,包括K-means聚类[11]、层次聚类[12]、密度聚类[13]等方法。如图2所示,x轴和y轴分别被划为D、E、F和A、B、C各3类。K-means聚类算法如下。
(1)从N个样本中随机选取K个聚类中心,如果是分成3类就选择3个样本作为聚类中心。
(2)对各样本与聚类中心间的距离进行计算,按照最近距离原则将样本归属最近的聚类中心。
(3)计算聚类中心样本的平均值,以此作为新的聚类中心。
(4)迭代第(2)~(3)步直至新的聚类中心与上一迭代的聚类中心相等或小于指定阈值,结果呈现收敛特征,则算法结束。
1.2.5异常值识别
落在特征象限的点位表示数据有明显异常,如图2所示,分布在第1象限或第9象限的普查对象,存在产量或原料使用量填报错误的可能性较大,需重点核实。
在二污普清查阶段,各地上报了工业源、农业源、集中式污染治理设施、生活源锅炉、入河(海)排污口5类源的数量和位置,各类源是否存在漏报是该阶段数据审核的重点。通过各地上报污染源数量与相关统计数据是否一致来判定是否存在漏查行为,如工业源的上报数量与固定资产投资、工业增加值、工业产品销售产值是否匹配;各类畜种规模化养殖场数量与生猪出栏量、猪肉产量、牛奶产量、肉牛出栏量、牛肉产量和禽蛋产量是否匹配;污水处理厂数量与生活污水处理率、垃圾填埋场数量与生活垃圾集中处理率是否匹配;生活源锅炉数量与人口、住宿餐饮企业、医院、学校数量是否匹配;入河(海)排口与污水处理厂数量、工业废水治理设施数量是否匹配等。
以工业源数量与固定资产投资为例,采用象限分析法来说明清查阶段数量审核过程。表1显示某省30个地市上报的工业源数量以及各地市近10年工业固定资产投资情况。
表1 某省各地市工业源数量与固定资产投资统计分析
采用九象限分析法来识别工业源数量上报异常情况。首先根据30个地市的属性绘制散点图(图3),采用K-means聚类法将y轴清查上报工业源数量分割为A、B、C 3类,分割阈值为13 937和41 263,将x轴的近10年工业固定资产投资分割为D、E、F 3类,分割的阈值为1 407亿和3 493亿元。AF象限表示清查上报数量少,而固定资产投资高的地区;CD象限表示清查上报数量多,而固定资产投资少的地区。在清查阶段重点关注漏查行为,因此落在AF象限的点位清查数据存疑最大,即编号为13、15和30的地市。
图3 工业源清查数据审核象限分析Fig.3 Inventory date audit of industrial source by quadrant analysis
在二污普的全面普查阶段,普查表中与产排污量核算密切相关的关键指标是数据审核的重点。如工业源中的产品产量、原料使用量、燃料(煤炭、电力、天然气、汽油等)使用量、取水量、排水量、工业总产值等;农业源中畜禽养殖业的出栏量、存栏量、栏舍面积、粪污资源化利用率等。多数情况下,普查表中的指标之间具有一定的相关性,如产量与能源消耗量,产量与原料使用量,产量与产值、养殖量、栏舍面积等,可以通过指标之间相互关系来识别指标填报的异常情况,象限分析法在其中发挥着重要作用。
表2为某行业33家企业填报的产品产量和燃煤使用量的情况,同样采用九象限法来识别异常值。根据33家企业的属性绘制散点图(图4),采用K-means聚类法将y轴燃料使用量分为A、B、C 3类,分割阈值为2 110、6 116 t;将x轴产品产量分为D、E、F 3类,分割阈值为2 245、9 380 t。在普查阶段重点关注落在AF象限和CD象限的点位,AF象限表示产品产量高但燃料使用量偏低;CD象限表示产品产量低但燃料使用量偏高,落在这2个象限的点位数据异常的可能性最大,需重点核实。从图4可以看,落在AF象限的点位,CD象限的点位有1个(编号为22的企业)。落在BF、BD、CE、AE象限的点位数据异常的可能性也较大,需进一步核实。
表2 某行业企业产品产量与燃料使用量统计分析
图4 工业源产品产量与燃煤使用量数审核象限分析Fig.4 Output and coal usage audit of industrial source by quadrant analysis
在污染源普查数据审核中,与其他异常值识别方法相比,象限分析法具有普适性、客观性较强的特点。主要表现在以下几个方面。
(1)象限分析法可弥补行业专家的缺失。如根据行业专家经验判断,生产1 t粗钢的燃煤消耗量为0.49~0.56 t(以标煤计)[14],当企业填报的粗钢煤耗与该值偏差较大,则产量数据或燃料使用量数据填报错误。污染源普查中行业门类较多,行业的平均数据普遍缺乏,无法完全靠行业专家来审核全国百万计的污染源,在这种情况下可汇聚同行业的样本,采用象限分析法来识别数据填报异常情况。
(2)象限分析法避免了趋势拟合的不确定性。如图5所示,常规的分析方法是依据横、纵坐标的属性进行拟合,与趋势线距离越大的点位数据异常可能性越大[15-16]。但在选择拟合方程时,存在较大的不确定和主观性,可能是线性也可能是非线性。象限分析法避免了趋势拟合选择函数的主观性,通过象限的特征来识别异常情况。
图 5 象限分析法与拟合法对比Fig.5 Comparison between quadrant analysis and trend fitting
(3)象限分析法避免了阈值选择的主观性。如图5所示,与趋势线的距离相差多少被定义为存在异常,有一定的主观性。采用排序来识别异常值时,也存在极大、极小值判定标准制定的问题。象限分析法无阈值制定的环节,横纵坐标分割采用非监督聚类法,最大程度保证评估结果的客观性。
(4)象限分析法对统计样本的数量没有太多要求,可依据样本的数量来选择象限的数量,样本数量较少时可采用四象限,样本数量较多时可采用九象限及以上。如采用直方图法来识别异常值,则需要的样本数量较多,数量较少时无法统计直方区间。
象限分析法因其高效、便捷、简单、客观性较强、所需样本数量少等特点,特别适合污染源普查的数据审核。污染源普查所含的行业门类多、填报数据专业性强,象限分析法可在一定程度上弥补行业专家的缺乏,在数据审核中发挥着重要作用。象限分析法也存在一些不足,当样本数量和象限数量不匹配时,可能会导致识别出的异常点位偏高或偏低。当存疑最大的象限没有识别出异常点位时,可能会掩盖一些异常值。充分发挥各种数据审核方法优势,因地制宜采用象限分析、趋势拟合、排序、直方图、专家经验等多种方法,可以达到事半功倍的效果。