基于信息化技术的人居环境整治优化

2021-05-13 07:16丁作坤丁晶晶
现代计算机 2021年8期
关键词:人居卷积局部

丁作坤,丁晶晶

(安徽省农业信息中心,合肥230001)

0 引言

“三农”问题一直是关系国计民生的根本性问题,是全党工作的重中之重,但在快速推进城镇化的道路上,农村相对落后的情况日益凸显,乡村振兴刻不容缓[1]。党的十九大报告明确提出了实施乡村振兴战略,2018 年2 月国务院发布《关于实施乡村振兴战略的意见》和《农村人居环境整治三年行动方案》,进一步为乡村振兴指明工作方向,为农村人居环境整治优化、建设美丽乡村提供了具体目标与实施计划。2019 年中央一号文件也提出,到2020 年实现农村人居环境阶段性明显改善的目标[2]。农村人居环境整治成为乡村振兴战略的一项重要举措。

在农村人居环境整治优化过程中,需要对工程的时间、成本等各项信息进行上报统计与审批,以便对整治过程进行监管。传统的上报与审批主要采用人工的方式,层层上报,逐个审批,不仅费时费力,执行效果也一般[3]。随着信息化技术的不断发展,大数据算法等技术越来越多地融入到社会生活的各个方面,将信息化技术应用到农村人居环境整治优化工作中,将大大提高工作效率,改善工作开展的效果。

安徽省农业农村厅在推进美丽乡村建设的工作中,构建了农村人居环境整治平台,通过信息化、网络化设计实现相关工作数据的网上填报与展示分析。针对填报的数据利用局部异常因子算法和Inception V4图像分类实现对填报数据中的异常结果进行智能识别,保证美丽乡村建设的高质量推进。

1 农村人居环境整治平台

农村人居环境整治平台主要分为自然村户厕改造民生工程填报系统、农村人居环境整治数据调度系统、中央奖补整村推进填报系统。其中自然村户厕改造民生工程填报系统主要功能是录入、审核与统计户厕改造项目的进度信息;农村人居环境整治数据调度系统对全省的人居环境整治工作进行调度,为各县区工作人员及相关厅局提供进度填报途径;中央奖补整村推进填报系统统计各县区内户厕改造整村进度,用于中央对户厕改造奖补的发放依据。农村人居环境整治系统界面如图1 所示。

图1 农村人居环境整治系统界面

平台对上报的农村环境整治信息进行统计分析,以表格的形式展示每个县区的任务执行情况,主要分为改厕进度、生活污水治理、生活垃圾处理、畜禽粪污利用、村庄清洁、村庄规划建设提升和淮河蓄洪区农村“三大革命”进度几大类,如图2 所示。

图2 统计数据可视化

2 填报数据异常检测

针对农村人居环境整治过程中上报的工程信息数据,利用大数据算法智能筛选出施工时间、成本等数据异常的项目,辅助审批人员识别潜在的错报、误报信息,智能化监管整治工作。本文采用LOF(Local Outlier Factor,局部异常因子)算法对整治过程中工程项目数据的异常值进行检测。

2.1 LOF算法

LOF 算法是基于密度的异常值检测算法中较为经典的算法[4],是一种无监督异常检测算法,该算法对离群的异常点具有较高的灵敏度[5],因此可用于工程数据中异常信息的检测。该算法通过计算数据集中每个样本的局部异常因子来反映该样本的异常程度,局部异常因子表示的是该样本点周围的样本所处位置的平均密度与该样本点所处位置密度的比值,该值的绝对值越大,表明该样本点是异常数据的可能性就越大[6]。LOF 算法主要通过计算数据对象的k-距离、k-距离邻域、可达距离和局部可达密度来求解数据对象的局部异常因子,上述各概念的定义如下:

定义1 对象p 的k-距离

对于任意正整数k,p 的k-距离记为k-(p) ,定义为对象p 和数据集D 中对象o 之间的欧氏距离d(p,o),满足以下两个条件:

(1)在数据集D 中至少有k 个对象o’,满足o'∈D∖{P} 且

(2)在数据集D 中至多有k-1 个对象o’,满足o'∈D∖{P} 且

如图3 所示,对象p 的k-距离衡量的是p 所处位置周围的密度,k-距离越大,表明对象p 周围区域的密度较小,反之,则表明p 周围区域的密度较大。

图3 p的k-距离示意图

定义2 对象p 的k-距离邻域

给定正整数k,对象p 的k-距离邻域记为Nk-dis(p)(p),表示包含所有与p 的距离小于等于的对象q 的集合,用公式表达如下:

定义3 对象p 关于o 的可达距离

给定正整数k,对象p 关于o 的可达距离记为reach-disk(p,o),用公式表达如下:

对象p 与o 之间的可达距离表明当p 与o 之间的距离小于o 的k-距离时,二者的可达距离就是o 的k距离;当p 与o 之间的距离大于o 的k-距离时,二者的可达距离为二者之间的实际距离。

定义4 对象p 的局部可达密度

给定正整数k,对象p 的局部可达密度记为lrdk(p),表示对象p 相对于其k-距离邻域内的对象的平均可达距离的倒数,用公式表达如下:

定义5 对象p 的局部异常因子

给定正整数k,对象p 的局部异常因子记为LOFk(p),定义为p 的k-距离邻域内各对象的局部可达密度与p 的局部可达密度比值的平均值,用公式表达如下:

对象p 的局部异常因子LOF 表示p 的异常程度,该值的绝对值越接近1,表明p 与邻域越可能属于同一簇;越大于1,表明p 越可能是异常值。

2.2 异常检测流程

安徽省农村人居环境整治平台的数据库中存储了包括户厕改造、垃圾处理、污水治理等整治过程中的各个方面数据,对这些数据中的关键信息,采用LOF 异常值检测算法筛选出异常值,以挖掘出潜在的错报、误报信息。具体的检测流程如下:

(1)数据获取与预处理

根据待检测数据的字段名称,从数据库中获取对应的数据。删除所获取数据中的空值与异常值(该异常值指的是非数值类型的数据),将处理完成的数据组织成LOF 算法所需的m×n 矩阵格式的数据,其中m 表示数据的条数,n 表示数据的种类数量。

(2)LOF 算法参数给定

根据实际检测要求,给定LOF 算法的参数k 和j(j表示按局部异常因子从大到小的顺序输出数据对象的个数)。

(3)计算每个数据的k-距离、k-距离邻域、可达距离和局部可达密度

LOF 算法根据定义1 和定义2 计算每个数据的k-距离及其k-距离邻域,再根据式(2)和(3)分别计算每个数据的可达距离和局部可达密度。

(4)计算所有数据的局部异常因子

根据步骤(3)的计算结果和式(4),计算所有数据的局部异常因子,并将数据按异常因子降序排列。

(5)输出具有异常值的工程项目

从排列好的数据中输出前j 个工程数据及其局部异常因子,展示到系统页面上,由审批人员进行进一步分析。

2.3 检测效果分析

LOF 算法可以对一维数据或多维数据进行异常值检测,本文以安徽省某月农村改厕进度数据和村庄清洁行动主要量化指标情况调度数据为例,分别从一维数据和多维数据两方面测试LOF 算法的检测效果。

农村改厕进度数据主要包括竣工比率、户均改造费用、施工起始时间等信息,以其中的户均改造费用为例,测试算法的一维数据异常值检测效果。户均改造费用数据中每一个县(区)对应一条数据,按照2.2 小节的检测流程,从数据库中获取户均改造费用数据,给定参数k=11 和参数j=10,并将算法输出的结果降序排列,输出结果如表1 所示。

表1 一维数据异常值检测结果

算法输出前10 个局部异常因子较高的县(区),将原始数据降序排列,发现博望区和雨山区的户均改造费用均排在前列,且比其他县(区)的户均改造费用高出许多,可能为异常数据,证明LOF 算法对一维数据的异常值检测具有一定的效果。

村庄清洁行动主要量化指标情况调度数据主要包括村庄数量、参加人次以及投入资金等20 项指标,每一个县(市、区)对应一条数据。从数据库中获取村庄清洁行动主要量化指标数据,删除空值后将数据组织成96×20 的矩阵格式,给定参数k=10 和参数j=10,将算法输出结果按局部异常因子降序排列,输出前10 个检测结果,如表2 所示。

表2 多维数据异常值检测结果

将原始数据按照各指标分别进行排序,发现检测结果中的数据不同程度地处于按各指标排序后数据的首尾,即检测结果的各项指标或多或少地处于极值附近(例如投入资金过高、清理垃圾数量过少等),易出现异常数据,表明LOF 算法对多维数据的离群点具有一定的检测能力。

人工检测数据中的异常值主要从定性的角度进行评估,缺乏可靠性和准确性[7],且检测效率低。利用LOF 算法检测数据中的离群点,不仅能够提高审批的效率,还为审批过程提供准确可靠的定量依据。本文从一维和多维数据的异常值检测两个角度,证明了LOF 算法对农村人居环境整治数据的异常值具有较好的检测效果。

3 厕改图像异常检测

针对厕改完工后上传的施工成果照片,传统的人工审核费时费力。本平台利用深度学习中的Inception V4 算法,通过样本训练学习实现厕改工程上报图片的自动化识别,有效提高审核的效率和准确度。

3.1 Inception V4网络

Inception 系列网络是卷积神经网络发展史上一个里程碑式的网络,在此之前,卷积神经网络的发展都是依靠不断堆叠卷积层数量来试图提高神经网络的性能,但一味加深网络深度会造成网络模型复杂、参数量大等多种问题[8]。Inception 系列网络引入Inception 模块,提出分支卷积结构,对图像进行并行卷积与池化操作,以此获取图像的不同信息,在避免网络参数量爆炸和计算量剧增等问题的情况下,增加网络宽度和深度,为卷积神经网络的进一步发展提供了新的方向[9]。 Inception 网络的识别精度远超VGG-16 等无分支的卷积神经网络,其中Inception V4 网络的整体架构如图4 所示。

图4 Inception V4整体架构图

Inception V4 网络结构主体部分由14 个Inception模块、2 个Reduction 模块和1 个Stem 模块组成,其中Inception 模块分为Inception-A、Inception-B 和Inception-C 三种类型,该模块接收上一层的输出,通过不同尺度和功能的分支并行处理后拼接为模块的输出,实现不同尺度特征的融合[9]。Reduction 模块是缩减模块,用于改变网格的宽度和高度,起到类似于pooling的作用[8]。Stem 模块是整个网络的主干,负责在各卷积层之前对原图进行预处理,其结构如图5 所示。

图5 Stem模块结构图

Inception V4 网络使用两个3×3 的卷积代替5×5的卷积,降低了参数量的同时,使得网络训练更加快速稳定;将n×n 对称的卷积拆分为1×n 和n×1 两个非对称卷积,提高了网络的非线性度;将网络输入图像的分辨率增加到299×299,以获得更好的精度。Inception V4 网络具有较高的性能,在图像分类和目标检测等领域都发挥了巨大的优势,将Inception V4 网络应用到改厕工程图片的识别中,有助于提高图片识别的准确率,更精确地辅助工作人员对改厕结果进行审核。

3.2 模型训练与识别

安徽省农村人居环境整治系统的数据库中存储了大量地方上报的改厕工程信息,包含上万张改厕完成后厕屋的现场照片,利用这些照片,采用Inception V4网络进行模型训练与测试。智能识别的整体框架如图6 所示。

图6 智能识别的整体框架图

改厕工程的成果图片首先由县农业农村局管理人员通过自然村户厕改造民生工程填报系统填写上报,存入系统的数据库中;然后将图片数据从数据库中导出,进行人工标注,分为合规与不合规两个类别,存入样本库中,可用于后续模型的调整与优化;再对标注好的图片进行预处理,包括去噪、增强、白化等操作,形成训练集;调整Inception V4 网络的训练参数,用训练集进行训练,主要包括调整训练的epoch、batch_size、learning_rate 及其衰减策略等;对训练完成的模型进行测试,使用查准率、查全率和F1-score 评价指标来判断模型的分类效果,如果分类效果不满足审批的要求,则调整网络训练参数,重新进行模型训练;如果满足要求,则输出分类模型,用于对上报的改厕成果图片进行识别。

使用Inception V4 网络对改厕成果图片进行训练并对模型分类效果进行评估,评估结果如表3 所示。从表中可以看出,模型对两种类别的识别精度(F1-score)均在95%以上,总体的识别精度也达到了97.7%,识别效果较为准确。后续通过不断上报的图片,可对模型进行训练优化,进一步提高模型的精度。

表3 Inception V4 模型评估结果

4 结语

农村人居环境整治作为国家乡村振兴战略的重要组成部分,其高效率、高质量的执行是推进美丽乡村建设的必然需求。信息化技术与人居环境整治优化工作相结合,不仅能够提高环境整治工作的效率,还能辅助决策者统筹整治工作的执行进度与效果,加强对整治工作的监管,推动整治工作高质量开展。本文介绍了人居环境整治系统的功能以及在整治工作执行过程中发挥的重要作用,通过大数据和深度学习算法,对整治过程中的异常信息进行识别,获得较好的识别效果,充分证明了信息化技术在人居环境整治工作中具有重要作用。大数据和深度学习算法的应用范围非常广泛,本文只对农村人居环境整治过程中的部分数据利用智能算法进行识别检测,未来还将进一步发掘智能算法在整治工作中的应用场景,推进信息化、智能化技术在农村人居环境整治工作中的应用,促进美丽乡村的建设进度,为乡村振兴战略注入强劲动力。

猜你喜欢
人居卷积局部
基于全卷积神经网络的猪背膘厚快速准确测定
最美城市“绿化带”
日常的神性:局部(随笔)
基于图像处理与卷积神经网络的零件识别
产品力时代,保利发展控股全面进阶健康美好人居
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
凡·高《夜晚露天咖啡座》局部[荷兰]
加强人居环境整治 助推“美丽登封”建设
丁学军作品