王有帅,陈 梅,陈艺丹
(兰州交通大学 电子与信息工程学院,兰州 730070)
空气是人类赖以生存的宝贵资源,近年来遭到严重的破坏,空气污染已成为一个亟待解决且严重威胁人类健康生活的世界性问题.据科学报告[1-3],人类因呼吸疾病导致的死亡率与空气污染加剧具有明显的相关性关系,尤其是可吸入颗粒物,如PM2.5、PM10、SO2、NO2及O3等,可浸透入肺部和心血管系统导致中风和肺癌等严重疾病[4].因此,对空气质量进行评估可让人们了解自己所处的空气质量情况.在户外时做好防护准备,从而提高人们的环保意识,减少污染排放.
环境研究者们为解决空气污染问题曾提出了多种空气质量评估系统.Dionova 等提出利用模糊推理系统进行环境室内空气质量评价系统[5],该系统采用4 种室内空气污染物(IAP)和4 种热舒适污染物(TCP),使用室内空气质量指数(EIAQI)对污染状况进行量化,采用聚类算法对模糊逻辑控制器的IAQI 值和TCI 值进行划分,从而有效区分室内空气和热舒适污染物.Jasim等提出集成化智能算法和地理信息系统建模的城市空气质量评估系统[6],使用机器学习和地理信息系统建立空气污染模型,并用主成分分析算法和支持向量回归对该模型进行优化,对空气质量进行有效的评估.Xu 等提出基于云模型的空气质量评估系统[7],使用云模型空气质量评估方法对空气质量数据进行定性和定量分析,结合熵值和超熵值对分析结果的模糊性和随机性进行深入分析,得出大气污染等级.张澍一等提出气象调整下的区域空气质量评估[8],使用一种消除气象干扰的时空调整方法.通过控制气象条件调整污染物的时空平均浓度,捕捉到潜在排放量的变化,从而规避因气象条件造成的污染物浓度的变化.Xu 等提出的中国城市空气质量预警系统[9],采用“分解与集成”理论,结合数据处理技术、支持向量机、仿生优化算法和留置一权决策策略提出了一种混合预测模型,该模型与模糊评估方法共同组成了空气质量的评价系统,在预测和评估方面具有一定的优势.上述提到的空气质量评估方式在某些特定的情况下,评估效果较好,但不能大规模使用,具有一定的局限性.
本文针对上述空气质量评估系统评估形式单一、准确度欠佳等缺点提出了空气信息管理评估系统,旨在应用多样化方法提高空气质量评估准确度和以多种方式展示评估结果.在文中介绍了空气质量数据收集、加工处理及空气质量评估展示,实现了空气质量数据一站式处理,评估结果多样化展示.文中对系统的架构设计、系统功能、主要技术及系统展示进行了详细的介绍.
本系统针对现有系统评估形式单一,准确度低,评估范围有限等缺点设计的一套集数据预处理、标准化及多样化评估为一体的空气质量评估系统.系统采用BS 分层架构,具有开发及维护成本低,分布性和共享性强,访问简单等优势.如图1所示,该系统由3 部分组成:数据预处理、数据标准化和空气质量评估.数据预处理是对原始数据进行抽取、清洗、单位转化等;数据标准化是将数据进行多种标准化处理;空气质量评估是通过按时、日、月、采集点和污染物等多种检索方式对空气质量进行评估展示.
图1 系统架构图
系统流程图如图2所示,系统运行由数据导入开始.检测数据是否有缺失值和无效值,若有则根据图3进行缺失值填充或图4 进行无效值替换.然后根据式(1)-式(4)对数据进行标准化处理.标准化处理后的数据可以通过检索进行空气质量评估展示,也可以保存至本地数据库或以文件的方式导出.
图2 系统流程图
图3 缺失值填充
图4 无效值替换
空气质量智能评估系统的核心目标是实现各种空气质量数据的统一收集、处理、存储及对空气质量的评估展示.功能主要有数据导入、数据加工、数据存储、导出及空气质量评估展示,数据流图如图5所示.
图5 数据流图
(1)数据导入.将从空气质量检测站、空气质量数据网站或行业共享等收集到的空气质量数据导入系统.按业务需求将数据分发给数据加工模块,也可以存储在数据库或以文件的形式导出.
(2)数据加工.按需求对接收到的数据进行抽取、清洗、标准化、单位转化、污染物分类等,提交给空气质量评估模块,也可以将处理后的数据存储在数据库或以文件的形式导出.
(3)空气质量评估展示.通过对数据加工后的数据进行计算空气质量指数,然后按时、日、月、监测站位置及污染物种类等检索方式对空气质量进行评估展示.
本文采用Flask 框架[10]开发,该框架为Python 语言中轻量级框架,具有核心简单、灵活、轻便高效和使用文档完整等优势.空气质量数据存储的难点在于数据量大、维度高、内容复杂及存取频繁等.传统的关系型数据库MySQL[11],Oracle[12]等无法实现动态扩容,且在数据量较大时,存取效率低,读写成本高.本文采用MongoDB 文档数据库[13]进行数据存储,具有高扩展、弱一致性、支持大容量存储、读写高效及具有failover 机制[14]等.
空气质量评估的关键在于空气质量数据,为了全面和准确的评估该地区的空气质量情况,需要选择最具代表性的数据来源.通常情况下,空气质量数据从环境监测网站或行业共享获得,从网站采用网络爬虫爬取,行业共享是通过大气研究人员共享获得.以上两种方式获取的数据各有特点,网站爬取的数据量大,标准不统一,数据缺失严重等,需要经过严格的清洗、补充等预处理.行业共享获得的数据已经过预处理,只需要标准化处理.以兰州市为例,通过行业共享和网络爬虫获得了兰州市多年的监测数据,涵盖了兰大榆中校区、兰苑宾馆、师范大学、生物制品所、职工医院、舟曲中学、西固环保局和铁路设计院等遍布兰州市的空气检测站,如图6所示.
图6 兰州市空气检测站布局
在通常情况下,空气检测设备收集的污染物种类繁多,数据量巨大,难免会收集到无效值和缺失值,在本文中对数值为0 的数据视为无效值.如图4所示,无效值替换是指对数值为0 的数据统一替换为0.01.缺失值补充采用前5 后3 处理[15],如图3所示,前5 后3 指取缺失值的前5 位和后3 位相加求均值进行补充.
在本文中使用的数据标准化方法有0-1 标准化、Z-score 标准化、小数定标标准化和均值归一化,下面进行详细的介绍,
(1)0-1 标准化[16],按式(1)将原始数据缩放到[0,1]区间内.
其中,x为原始数据,xmin为总体数据中的最小值,xmax为总体数据中的最大值.
(2)Z-score 标准化[17],利用总体数据的均值和标准差对原始数据进行标准化,如式(2)所示.
其中,μ为总体数据的平均值,σ为总体数据的标准差.
(3)小数定标标准化,通过移动数据小数点的位置对原始数据进行标准化,如式(3)所示.
其中,a为使max(|x|)<1的最小值.
(4)均值归一化[18],通过原始数据得到的均值、最大值和最小值对原始数据进行标准化,如式(4)所示.
其中,μ为总体数据的均值,xmax为总数据中的最大值,xmin为总体数据中的最小值.
根据中国环境部门2012年发布的《环境空气质量指数(AQI)技术规定(试行)》(HJ633-2012)[19]和《环境空气质量标准》(GB3095-2012)[20]规定,采用空气质量指数AQI衡量空气质量.通常情况下,空气污染物含有很多种类,如PM2.5、PM10、SO2、NO2及O3等,首先用各污染物的实测浓度值,按式(5)分别计算空气质量分指数IAQI(individual air quality index)[19]:
其中,IAQIp为相应地区的污染物P的空气质量分指数;Cp为相应地区的污染物P的浓度值;BPHi为空气质量分指数对应的污染物浓度限值表中与Cp相近的污染物浓度限值的高位值;BPLo为空气质量分指数对应的污染物浓度值限制表中与Cp相近的污染物浓度限值的低位值;IAQIHi为空气质量分指数对应的污染物浓度限值表中与BPHi对应的空气质量分指数;IAQILo为空气质量分指数对应的污染物浓度限值表中与BPHi对应的空气质量分指数.在得到各个污染物空气质量分指数后,由式(6)计算空气质量指数[19].
其中,IAQI为空气污染物分指数,n为污染物.由式(6)可得,AQI取污染物分指数IAQI的最大值.当AQI大于50 时,IAQI最大的污染物为首要污染物;若IAQI最大的污染物为两项或更多时,并列为首要污染物;当IAQI大于100 时,该污染物为超标污染物.如表1所示,本文根据当地AQI值给出当前空气质量等级、类别、表示颜色、对健康生活影响及对各类人群应采取的措施等.
表1 空气质量指数对照表
依据如图1所示的系统架构设计,本文系统功能如图7所示,空气信息综合管理评估系统由数据预处理、数据标准化处理、空气质量评估和系统管理4 个模块构成.其中,数据预处理模块由数据导入、缺失值填充和无效值替换构成;数据标准化处理模块由0-1 标准化、Z-score 标准化、小数点定标标准化和均值归一化组成;空气质量评估由按时、日、月、监测站位置及污染物种类空气质量评估组成;系统管理模块由用户管理、日志管理和自定义管理组成.
图7 系统功能
本文系统空气质量评估采用多样化检索方式,由按时、日、月、监测站位置及污染物种类评估组成.下面对系统运行效果的部分功能进行展示.图8 是在多个监测站按污染物种类以饼图、柱状图和折线图的检索方式展示以月为单位的环境污染物浓度情况,用户按需求选择污染物及展示方式.
图8 部分监测站按需求展示结果
图9 是空气质量数据进行如图3、图4 的无效值和缺失值处理后的展示;图10 是对经过如图9 处理之后的数据进行0-1 标准化、Z-score 标准化、小数定标标准化和均值归一法数据标准化展示;图11 是对标准化后的数据进行按时空气质量评估展示;图12 是对标准化后的数据进行按日空气质量评估展示.
图9 缺失值及无效值检测处理
图10 数据标准化处理
图11 按时计算空气质量指数
图12 按日计算空气质量指数
在得到污染物的空气质量指数后,参考表1 获取空气质量评估信息.如图13所示,计算空气质量分指数IAQI,获取IAQI中的最大值为空气质量指数AQI,经分析得首要污染物为PM2.5,无超标污染物,当天空气质量指数级别为三级、属于轻度污染;易感人群症状有轻度加剧,健康人群出现刺激症状;建议儿童、老年人及患有心脏病或呼吸系统疾病的人应减少长时间、高强度的户外锻炼.
图13 按日空气质量评估
在本文评估系统中,按需求选择检测站,按月评估为根据当月的空气质量数据,计算空气质量等级为优、良、轻度污染、中度污染和重度污染的天数,及其所占的概率.如图14所示,在铁路设计院空气监测站某年1月份的空气质量评估结果中,空气质量等级为优和重度污染的天数为0、良为16 天,轻度污染为14 天及重度污染为1 天.以扇形图表示空气质量等级,等级为优和重度污染占0%,等级为良占51.62%,等级为轻度污染占45.17%,等级为中度污染占3.23%.
图14 按月空气质量评估
本系统已开发完毕,且已在2021年6月挂载在阿里云服务器,访问地址为http://47.242.77.108:5001/,目前使用于兰州市空气质量评估,使用效果较好.运行环境为1 vCPU,16 GB 内存,40 GB 高效云盘,1 Mb/s 带宽及Linux 操作系统.
空气信息综合管理评估系统构建了集数据预处理、标准化及多样评估为一体的多功能评估平台.主要进承担了各地的空气质量评估,为用户提供实时的空气质量情况及出行建议.并对系统进行优化处理,响应速度快、功能完善、界面友好,为空气污染数据处理、空气质量评估提供了良好的支撑,得到众多大气污染相关科研人员的一致肯定,接下来的研究工作是进一步扩充完善系统功能,提升数据支撑和评估能力.