徐学龙
摘 要 在新的历史时期为了能够降低客户端和服务端之间远程过程调用通信,提升已存储空气质量监测数据表格区间统计效率,文章提出一种基于协调处理器的大数据区间统计方法,旨在通过特定的协议来将区间统计参数从客户端传递到服务端,在信息经过流通和分析之后得到最终的区间统计结果。经过试验研究证明,使用终端协处理器进行空气质量监测能够提升空气质量统计效率。
关键词 空气质量;监测;大数据;区间统计;HBase
城市环境空气质量管理遭遇的瓶颈问题是面源管控难,加上城市污染来源复杂、种类多、污染溯源和靶向治理难和环境空气监测点源自动化监测设备少的影响,无法对空气质量进行清晰有效的预测和预警,使得环境空气监测信息化水平不高,无法满足大气污染治理的总体需求。HBase0.92 版本支持下的终端协调处理器能够在服务器的终端完成计数、求和、求最大数值等统计工作,在统计分析之后能够将结果数据重新返回到客户端,减少客户端到服务端的RPC调用,从而提升数据信息的统计查询效率。
1 空气质量监测大数据区间存储模式的设计
HBase0.92 版本支持下的终端协调处理器存储设计模式如图1所示,经过实践操作证明这种存储模式能够有效对空气质量监测数据进行存储,从而满足当地空气质量监测和分析需要[1]。
2 空气质量监测大数据区间统计协调处理器
空气质量监测大数据区间统计协调处理器一般可以划分为终端模式和观察模式两种。终端处理器能够将数据检索统计过程在服务器的终端完成,在这个过程中减少客户端到服务端远程操作过程数据调用所产生的一系列费用,从而在最大限度上提升数据信息的统计效率和统计有效性。
空气质量监测大数据区间统计协调处理器的数据区间统计步骤如下所示:①实现对EMCStat.pro-to文件内容的定义,按照protobuf协议定义区间统计协处理器的请求数据信息格式和RPC服务格式。第二,定义协处理器类EMCStat End Point,应用get EMCStat 方法实现对区间统计数据信息的协调处理。第三,在EMCData 表中额外加载EMCStat Endpoint 协议处理器。第四,客户端综合调用EMCStat Endpoint 协处理器,对分布在不同Region上的数据信息进行区间统计分析,并将统计数据信息及时输出结果数据。
2.1 Protobuf协议统计分析
HBase0.92 版本支持下的终端协调处理器应用专门的协议来定义客户端和服务端的通信数据信息,并根据 EMCStat Request 协议的基本模式和要求向协议处理器传递经过处理的参数信息,具体包含区间统计数据信息、站点编码数据信息、不同操作时间段的数据信息等,在统计完这些数据信息之后将其编订成一个完整的数据信息集合列表。在按照协议规定获得指定的参数数据之后执行区间统计程序,按照 EMCStat Request 协议格式将统计结果重新返回到客户端[2]。
2.2 区间统计协议处理器的是吸纳
EMCStat Request 协议为区间性的逻辑协议模式。区间范围内的统计协议处理器能够对每一个Region进行统计,并根据实际情况判断Region是否参与到最终的统计分析中。在区间统计的Start Key 和End Key 大小相差太多的时候可以直接跳过Region区域。整个Region的统计逻辑如图2所示。
2.3 客户端的调用
客户端区间统计业务逻辑按照 EMCStat Request的消息格式来定义处理器统计过程中所需要的各类参数信息,之后以Batch Call 方式调用 EMCData 表格区间统计协议处理器的信息。考虑到Batch Call 仅仅能够对对应的Region区间数据信息进行统计分析,为此在统计数据信息的时候还需要对每一个Region区间范围内的数据统计结果进行综合汇总输出处理[3]。
3 空气质量监测大数据区间的统计实验分析
空气质量监测大数据区间实验统计环境和设备安装和文献中所规定的内容一致,模拟数据信息会被录入到每一个监测项目程序中,之后按照每小时40到60实时数值的顺序写入到 EMCData 表格中。在对数据信息进行综合统计分析之后自动计算和评价数值。在数据信息录入的过程中在Region数量分别为奇数1/3/5/7/9/11的时候,对存储二氧化氮浓度数据列的RTData可以按照每立方米0~41μg、43.05~82.00μg、84.05~123.00μg、125.05~164.00μg、166.05~205.00μg进行计算[4]。
计算时的具体参数设定如下所示:地区码 4201,站点编码为空,代表的是统计区域范围内所有站点的数据信息。统计时间覆盖所有的Region,在计算的时候为了能够减少客户端Scan统计过程RPC调用情况可以为Scan操作设置一个具体的扫描存储数值,表示RPC调用可以从服务端进行数据读取的行为,从而有效减少客户端RPC调用行数。但是在具体设定操作时需要注意的是扫描存储数值不能够设定得较高,目的是不过度消耗客户端的内存。扫描缓存数值的设定需要在能够减少RPC请求和客户端内存消耗之间达到一种平衡,结合实际操作将扫描缓存设定的数值控制在256左右。空气质量监测大数据区间的统计实验结果如表1所示,时间对比情况如图3所示[5]。
4 结束语
综上所述,在服务器端使用Endpoint协处理器对空气质量监测大数据区间进行统计能够更为精准的分析出城市空气质量,并在一定程度上减少数据统计所需要消耗的时间。HBase的数据表在Hadoop集群的每个数据节点上的Region相同这个时候协调处理器工作效率将会达到最为理想的状态。但是在数据的不断增加下,Region在每个数据节点上的数量不再相同,基于Endpoint协处理器的空气质量监测大数据区间将会面临数据信息阻滞的问题,这个时候怎样协调和平衡数据信息成为新时期空气质量监测大数据区间工作所需要着重思考和解决的问题。
參考文献
[1] 刘黎志,何经纬.空气质量监测大数据区间的统计问题%Big Data Interval Statistics for Air Quality Monitoring[J].武汉工程大学学报,2019,41(2):179-183.
[2] 李源.浅述城市环境空气质量监测的工作%Urban Air Quality Monitoring Work[J].能源与节能,2011,(5):41-43.
[3] 刘闽,王帅,林宏,等.沈阳市冬季环境空气质量统计预报模型建立及应用%The Study on Establishment and Application of Winter Environment Air Quality Forecasting Model of Shenyang[J]. 中国环境监测,2014,(4):10-15.
[4] 邓聪,杨善党,王健,等.高原省份城市空气质量状况统计分析及PM2.5污染水平时空分布[J]. 环境科学导刊,2017,(5):40-43.
[5] 刘从容,刘振山,胡海旭.环境空气质量统计预报模式的研究——沈阳市环境空气质量各季节预报模式[J].环境保护科学,2006,(4):7-8,13.