周海波 吴宗培 李海员 王占立 王雁慧
【摘 要】在诸多影响空气质量的污染源中,钢铁企业大气排污是最重要的因素之一。如何利用数据采集和上报的排污数据,客观分析大气排污数据与空气质量之间的关系,是智慧环保的重要问题。论文采集了2018年1月1日至2021年5月31日的钢铁企业大气排污指标数据,通过数据治理、清洗及融合,对钢铁行业大气排污数据与空气质量数据之间的相关性进行了深入分析。结果表明,河北省的空气环境质量与钢铁行业大气排污指标PM10的相关度极大。
【Abstract】Among many pollution sources affecting air quality, air pollutant discharge from iron and steel enterprises is one of the most important factors. How to use data collection and pollutant discharge data reported to objectively analyze the relationship between air pollutant discharge data and air quality is an important problem of intelligent environmental protection. The paper collects the air pollutant discharge index data of iron and steel enterprises from January 1, 2018 to May 31, 2021, and deeply analyzes the correlation between air pollutant discharge data of the iron and steel industry and air quality data through data governance, cleaning and fusion. The results show that there is a great correlation between the air environmental quality of Hebei Province and the air pollutant discharge index PM10 of the iron and steel industry.
【关键词】空气质量;大气排污;相关性分析;SO2;PM10;NO2
【Keywords】air quality; air pollutant discharge; correlation analysis; SO2; PM10; NO2
【中图分类号】X51 【文献标志码】A 【文章编号】1673-1069(2021)10-0113-05
1 引言
空气污染是中國当下最受热议的环境问题。化石能源燃烧是我国空气污染的重要原因之一。钢铁、水泥等重工业企业的生产过程消耗了大量化石能源,也因此排放了大量污染性气体,成为空气污染的“主要元凶”。
改革开放以来,我国的经济水平以迅猛的速度提升,伴随着产业结构的变化,持续增长的钢铁产量对经济发展有着尤为重要的作用,钢铁产业也成为支撑着国民经济的基础产业,其中,河北省的钢铁产量更是位于全国钢铁产量的领先地位,也极大地促进了当地的经济发展。据统计,到2019年,河北的粗钢产量已经达到了2.4亿吨,占全国产量的四分之一。根据2020年的数据显示,河北钢铁集团在全球的钢铁企业榜单上也名列前茅[1]。然而,近年来,由于钢铁行业的高能耗、高排放等问题,行业发展造成的环境污染是不可避免的,频繁引起国内诸多行业的关注,问题主要集中于废弃物质的产生根源、减排方法以及治理方向,尤其要对工业末端排放的废气对于大气环境质量的影响进行探究[2]。钢铁生产的废气主要是来源于炼铁厂中运送原材料引起的粉尘、炼铁高炉出铁时产生的有机废气包括粉尘、SO2、CO等以及高炉煤气的放散和高纯石墨碳的有机废气,此外,还包括烧结厂和轧钢厂生产流程中产生的有机废气[3]。钢铁工业的废气大多是烟尘废气,颗粒小而且吸附能力较强,使得废气的治理难度增大。考虑到经济发展带来的环境影响,党中央在十九大上作出了打赢蓝天保卫战的重要决策,作为污染防治攻坚战的首要任务,对提高人民的生活质量有着重大意义。此外,产业集中更会导致区域污染加重,对于以钢铁产业为支柱性产业的河北省更是如此。现如今,除政府外,其他各行各业也应齐心协力共同合作解决难题,而随着信息化时代的到来,大数据技术不断发展,数据存储、挖掘的技术日益成熟,积累了大量存在值得深入挖掘的信息的数据,通过科学的方法对数据进行采集处理以及精准和有效的分析,可以更好地对环境进行监控而后达到治理的目的[4]。将大数据技术应用于环保领域已成为一个新趋势。
目前,国内已有学者通过分析大数据技术在生态环境保护领域中的应用,得出实践中需要把握生态环境信息化的大数据需求,要从多维度出发挖掘有价值的信息以服务环境保护工作[5]。有学者通过灰色关联分析法对京津冀的经济指标和空气质量之间的相关性进行了分析研究,并对改善空气质量提出合理建议[6]。也有学者全面分析了河北省的AQI时空分布特征,通过结合统计分析与空间分析法分析了河北省大气污染的变化趋势[7]。还有学者通过研究总结全国地级行政单元的面板数据,讨论了人口迁移随城市空气质量的变化[8]。
本文利用了河北省钢铁行业的大气排污数据,经过对数据的一系列处理包括数据清洗和融合等,数据中包括PM10等影响空气质量的指标,利用主成分分析、规范相关分析方法探究了其与空气质量的关系,更好地分析得出河北省各钢铁企业的排污强度、分布及其对周围环境造成的影响,有利于从根本上把握污染物质的变化规律,可以对河北的空气质量检测与管理决策发挥至关重要的作用,利用大数据技术对空气质量进行监管预警,可以向大众普及环保知识,强化人们的环保意识,环境数据的透明化也使得人们对环保部门的工作有了进一步认识,起到了监督作用,彰显了大数据技术在环境保护方面的作用[9]。
2 数据采集与相关性分析方法
本文技术框架如图1所示。
所涉及的方法主要有:①主成分分析(PCA,Principal Component Analysis);②规范相关分析(CCA,Canonical Correlation Analysis);③判别极小保持投影规范相关性分析(Discriminant Minimal Preserving Canonical Correlation Analysis)。
其中,PCA是一种最常见的相关性分析方法,其基本思想是将高维空间的数据映射到低维空间,并且能够保持数据最大方差和协方差结构,该方法目的是在尽可能保持原始数据信息的情况下降低原始数据维度,得到独立性较高的投影数据。
若有数值化输入,数据表如下:
X==(X1 X2 … Xp) (1)
其中Xi代表采集到的第i个指标数据,p是一个整数,代表指标个数;n是一个整数,代表数据采样的排污企业数。该算法首先对数据表进行数据标准化。其目的是消除p个特征量纲差异带来的数据差异。通常采用的标准化公式如下:
x=(i=1,2,…,n;j=1,2,…,p) (2)
其中,j=x,var(xj)=(x-j)2。
根据标准化后的数据,计算指标之间相关系数:
r=
得到相关系数,数据表如下:
R=
计算相关数据矩阵R的特征值:
λ1≥λ2≥…≥λp≥0
根据给定的阈值,按照下面的计算式确定最优主成分:
m*=arg ≥α
其中,m*是一个整数,代表最优成分;α是一个经验参数,本文中α取0.95;“arg”和“min”是两个机器学习常用代号,分别表示取出最优参数和极小化风险函数。
然后根据m个特征值计算相应的特征向量:
β1=β11β21βp1,β2=β12β22βp2,…,βm=β1mβ2mβpm
按照如下公式得到投影后数据:
Z=βTX
β是投影矩阵,由上面的分量β1,β2,…,βm组合而成。
规范相关分析(canonical correlation analysis,CCA)考虑两组指标间的最大相关性实现高维数据向低维数据的投影,使得两组指标的相关系数最大,其关键思想如下。首先将输入数据分组:
X=[X1,X2]
计算两组数据之间的协方差矩阵:
V=
CCA的目标是求得一对最優的投影变换矩阵(P*,Q*),使得在分组意义下,数据相关性极大,按照如下模型计算:
(P*,Q*)=arg ,
投影后数据为:
Y=[P*TX1Q*TX2]。
DMPCCA是融合局部结构信息和全局判别规则的规范相关分析改进方法。其理论和CCA一致,但是充分考虑数据类别内部的相关性,其模型如下:
(P*,Q*)=arg
其中,B是保证类间间隔大,具备强分类性的类内相关性矩阵;S11、S22是2个类内局部保留矩阵,其投影后数据仍然使用Y=[P*TX1Q*TX2]得到。
3 环境质量预测模型
SVM支持向量机(Support Vector Machine)是一种基于结构风险最小化的线性分类算法。目的就是基于训练集D在样本空间中寻找一个划分超平面,这个划分超平面要求其产生的分类结果是鲁棒的。
在样本空间中,下面的线性方程用来表示划分超平面:
L=ωTx+b
其中,ω=(ω1,ω2,…,ωd)是超平面的法向量,法向量确定了超平面的方向;b表示位移项,其含义是原点与超平面之间的距离。可见,如果确定了法向量ω和位移b,那么超平面就可以被唯一确定。为提高便捷性,将法向量为ω,位移为b的超平面记为(ω,b)。样本空间中任意一个点x与超平面(ω,b)之间的距离记为:
r=
假设超平面(ω,b)能将训练样本正确分类,即对于(xi,yi)∈D,若(xi,yi)∈D,若yi=+1,则有ωTxi+b>0;若yi=-1,则有ωTxi+b<0。令:
ωTxi+b≥+1,yi=+1ωTxi+b≤-1,yi=-1
与超平面距离最近的几个训练样本点使上面不等式组的等号成立,则这些样本点称为“支持向量”,两个异类支持向量到超平面的距离之和为:
r=
如果能找到满足上面不等式组中约束的参数ω和b,使得r=最大,那么就能找到具有最大间隔的划分超平面。将最大化问题转换为最小化问题,要想最大化超平面的间隔,仅需最小化‖ω‖2,即:
‖ω‖2
s.t. yi(ωTxi+b)≥1,i=1,2,…,m
4 相关性分析
4.1 指标间相关性分析
通过数据治理,本文从钢铁行业大气排污数据中抽取指标数据,如表1所示。
为说明数据规律,本文随机选取3个企业,将响应数据展示如下,选取的企业代码如表2所示。
3个企业X1~X8,Y1~Y4这13个指标的时序图如图2~4所示。
4.2 空气质量数据相关性分析
图5~7是选取的3个企业的相关分析图。
图5~7中均有3个图,第一个图表示X1~X8以及L两两之间的相关性,第二个图表示Y1~Y4以及L两两之间的相关性,从相关性可视化图形中可以看出,分析出来的排污指标之间无明显相关性,不同的企业,相关性不同,但是相关性规律不明显。
对代码为130281000281的企业数据做PCA变换,通过方差下降曲线选取降维后的维度,图8是方差下降曲线图。
通过观察方差下降曲线图,本文将数据维度降低到7维,图9是做PCA数据变换后的7维数据的时序图。
对代码为130481000171的企业数据做PCA变换,通过方差下降曲线选取降维后的维度,图10是方差下降曲线图。
通过观察方差下降曲线图,本文将数据维度降低到6维,图11是做PCA数据变换后的6维数据的时序图。
对代码为130481000395的企业数据做PCA变换,通过方差下降曲线选取降维后的维度,图12是方差下降曲线图。
通过观察方差下降曲线图,本文将数据维度降低到6维,图13是做PCA数据变换后的6维数据的时序图。
5 相关性分析结果与预测结果分析
对于CCA和DMPCCA,对表1得到的属性划分集合进行特征融合和维数约减,PCA则直接对整个数据集进行主成分分析,提取有效特征。为了比较CCA、PCA、DMPCCA在特征提取上的优势,本文在约减后的特征集上选择相同的维数进行实验,保证了实验的可比性。用CCA()、PCA()、DMPCCA()表示三种降维方法。下面以DMPCCA的操作步骤为例,具体操作过程如下:
①计算各自的投影向量:
[Wxdmpcca,Wydmpcca]=DMPCCA(X,Y)。
②投影向量与样本相乘:
dmpcca_X=Wxdmpcca×X,dmpcca_Y=Wydmpcca×Y。
③降维后的特征集合可用以作为SVM的输入,需要将两部分合并,形成新的降维后的特征集
[xdmpcca_X,ydmpcca_Y]。
SVM完成分类任务。原始数据集经CCA、PCA、DMPCCA处理之后,提取到的特征作为SVM分类器的输入,输出结果为0/1,1表示环境质量恶化,0表示不恶化或者好转。
表3给出了经过数据数约后,SVM用于预测环境质量的分类结果对比。
6 结语
通过数据治理,本文得到了钢铁行业高质量的大气排污数据,从结果来看,PM10、SO2、NO2的排放与环境质量的相关度超过了0.8,属于强相关性,可以根据PM10、SO2、NO2的排放量等数据,建立环境质量等级的预测系统。
【参考文献】
【1】郭晓杰.新中国成立以来河北钢铁产业组织形态的历史变迁及未来发展趋势[J].经济论坛,2020(8):17-22.
【2】蔡九菊.钢铁工业的空气消耗与废气排放[J].钢铁,2019,54(4):1-11.
【3】国家环境保护局.钢铁工业废气治理[M].北京:中国环境科学出版社,1992.
【4】谭静仪.大数据及环境保护大数据的应用意义浅述[J].电子技术与软件工程,2018(11):211.
【5】孙永鹏.试论大数据技术在生态环境保护领域的应用架构及相关技术[J].中小企业管理与科技(下旬刊),2021(2):162-163.
【6】张翠芝,安海岗,刘沅灵.京津冀及周边城市群空气质量与经济发展规模的关联性分析[J].中小企业管理与科技(中旬刊),2021(7):51-52.
【7】何振芳,郭庆春,刘加珍,等.河北省大气污染时空变化特征及其影响因素[J].自然资源学报,2021,36(2):411-419.
【8】曹广忠,刘嘉杰,刘涛.空气质量对中国人口迁移的影响[J].地理研究,2021,40(1):199-212.
【9】李祥芹.大氣环境监测中大数据解析技术应用研究[J].中国新技术新产品,2021(5):122-124.