摘要:智慧城市是未来城市的发展趋势,边缘数据存在一定的异常问题,本文主要研究基于时序关联的智慧城市边缘数据异常检测,先建设系统架构,再设置检测模型,最后通过实验仿真进行验证。通过分析实验结果,本文设计的算法在准确率、召回率方面表现良好,可以对其开展更深入的研究。
关键词:智慧城市;边缘;检测
智慧城市以智能系统为基础,优化配置空间、资源等,以获得最大能效,助力各个领域有序运转。由于智慧城市面临着较复杂的数据感知应用需求,因而对数据质量有着更高要求。另外,智慧城市需要为大量终端设备提供服务,感知数据会发生异常状况,造成严重的资源浪费,因而需要科学处理异常数据,以保障智慧城市的正常运行。
一、系统架构
(一)系统框架
要让智慧城市获得边缘计算能力,需要融合物联网、云计算等多种技术,设计六层系统框架。这六层系统框架从底层到高层分别为类型与设计理念层、数据感知层、边缘处理层、网络传输层、大数据分析层、应用层,如图1所示。其中,类型与设计理念层通过物联网、大数据技术,从设计层面管理智慧城市,让其可以和可持续发展需求结合,从而构建具有可持续发展能力的智慧城市;数据感知层负责对智慧城市相关数据进行感知。城市实体和物联网互动的过程中,会产生覆盖城市各领域的数据;获得数据后,通过边缘处理层计算智慧城市运行所需的资源,在感知边缘处理数据,让智慧城市获得更高的数据通信效率;网络传输层借助ZigBee、LPWAN等技术,结合以太网等,把边缘处理层处理后的城市数据上传到大数据分析层,并对数据作时间、空间标记;大数据分析层获得城市数据后,会利用异构多协议网络聚合器对其汇总处理,并将其存储到数据库中;应用层使用数据处理应用接口,根据数据内容进行城市规划,优化现有的智慧城市建设工作。
(二)边缘服务增强
以智慧城市运行需求为基础,搭配边缘计算理论,可以对图1的边缘处理层做抽象化处理,第一层为云计算与大数据中心,第二层为由数个拥有匹配、管道传输、执行阶段的容器构成的边缘服务增强现实,第三层为边缘设备,第四层为由边缘服务器、服务包、传输单位构成的边缘网关,第五层为感知层,第六层为智慧城市。这种边缘服务增强现实框架,可以进一步提升智慧城市的边缘服务能力。需要注意的是,边缘设备的工作环境没有过多差异,但边缘设备的类型存在差异,应用的单处理器内核型号也有所不同,所以输入输出接口并不通用,会导致运行数据存在差异。边缘服务增强现实会被封装成容器,利用服务标识,对各项任务内容做详细的编排处理。在进行管道传输时,要根据实现功能,将任务做管道流水处理,将任务转移到下个阶段。在执行阶段中,需要把任务处理获得的数据转移到下一阶段,例如应用层。
二、检测模型设计
(一)异常检测流程
要针对智慧城市的感知数据开展适当的时序关联处理,进而获得Sm={Sm(t1),Sm(t2),……,Sm(tw)}的原始数据集。流程处理需要应用到时序原始数据生成、时序关联分析等模块。时序原始数据模块要根据已有的关联规则,将SN(Senor Node,感知节点)感知数据和链路延迟等做关联处理,进而获得所需时序关联的原始数据。完成这项任务后,将数据做具体的时序关联分析,获得时序关联数据集。使用本文算法,对其做异常数据检测,最后获得异常数据与正常数据。
(二)时序关联
SN感知与采集产生的数据点,是智慧城市的感知时序。针对单个SN,向感知与采集数据增加时间特性,即可获得时刻tj,节点vi的时序数据:
(tj)={sd(tj),cld(tj),cn(tj),
su(tj)} (1)
其中,sd(tj)是在tj时刻,SN感知数据与时间量;cld(tj)是在tj时刻,链路延迟与时间量;cn(tj)是在tj时刻,网络吞吐率与时间量;su(tj)是在tj时刻,SN节点存储使用率与时间量。
在公式(1)基础上,结合上文,可以设计算法1,即时序关联分析算法,时间复杂度为O(m×n)。SDM[i][j]代表数据稀疏度矩阵,由SDVij赋值获得。SDVij值越高,代表Sij当前区域为稀疏区,SDVij值越低,代表Sij当前区域为稠密区。SDMm[i][j]代表数据稀疏度密度矩阵。通过算法1,可以获得精简时序关联数据集RDS。
(三)检测算法
通过算法1,将获得的原始数据作相应处理,再将结果输入到异常数据检测中,对异常数据完善检测工作。仍以上文为准,对精简时序关联数据集,将时序关联对齐,填充数据缺失部分,完成时序关联计算。根据结算结果构建相应的关联图与关联团,得到具体的检测结果后,再次应用异常检测模型,从而获得异常数据集。对于精简时序数据集,要作RPAA(Reversepiecewise Aggregate Approximation,逆向逐段聚集均值)处理。对部分数据内容缩减,以便后续提取各个时序数据集属性。通常情况下,智慧城市的数据感知层产生的异常数据,会以较低概率在单维时序数据集、多维时序数据集上出现,并保持较长时间,异常数据会以集合形式出现。在检测异常数据期间,要将精简时序数据集当成输入内容,利用时序段针对输入内容逐段检测,进而确认具体的异常位置与情况。
现基于异常检测算法设计算法2,在开展异常时序关联数据检测任务时,算法2的时间成本消耗较大,主要负责计算RDS偏离度,并构建相应的时序关联图,计算最小覆盖数据与异常时序关联数据。如果RDS数据集是k维n个数据,可以将si偏离度计算时间复杂度设为O(),构建时序关联图时间复杂度为O(n×k)。在最小覆盖数据时,最差条件下的时间复杂度为O()。为提升本文算法的实用性,在计算最小覆盖时,使用匈牙利算法,即在多项式时间内,求解任务分配问题的最优组合。在计算异常时序关联数据时,使用禁忌搜索算法,以最初已知的可行解为起点,确定特定搜索方向,对结果做大量的试验,从结果中获得可以让目标函数值拥有最多变化频率的搜索模式。
三、实验与仿真
(一)实验准备
根据上文可知,需要搭设基于时序关联的智慧城市边缘数据异常检测的实验数据环境,让其具备图1中的数据感知层与边缘处理层功能。使用3台搭载英特尔酷睿i9处理器的PC机作为边缘服务器使用,3台配置ZigBee网关的设备,通过以太网应用的PC机,进而满足边缘服务通信需求。再接入8台感知设备,使用ZigBee和网关通信。感知设备采集数据频率可以达到8次/s,每个数据占据1字节空间,在一个月内连续采集数据,包含127列时间序列。通过算法1,对数据做预处理后,可以获得97列数据,共计117.3万个时间点。如果DoC={doc1,doc2,……,doc}为数据对象集,则DcS可以设备集合DoC的分类。如果Cf(doci)(1≤i≤n)为doci的分类,可以设定Cnum(doci)作为DcS中doci的分类号,现对doci、docj对象的分类正确性定义为如下内容:
Ccorr(doci,docj)=1,如果Cf(doci)=Cf(docj)Cnum(doci)=Cnum(docj)
Cf(doci)=Cf(docj)=0,其他 (2)
通过公式(2),可以获得数据处理准确率为:
Pecr=1/n×(3)
召回率准确率为:
Pecr=1/n× (4)
公式(3)与公式(4),是本文算法与对比算法的参考指标。这里的对比算法是基于拓扑感知的时间序列异常检测算法。算法实验可以选择4000时间长度的数据,开展相应的测试作业,从127列时序数据中整理出400组数据,借助算法2,获得1800个时间长度超过800的异常数据。实验过程中某个时刻感知的时序数据集,如表1所示。
使用本文算法,可以获得气压传感器在ti5时序中产生异常数据,即99031Pa;温度传感器在ti2时序产生异常数据,即18.53℃;光照传感器在ti6时序中产生异常数据,即158.4lux。在这个时刻,湿度传感器并没有产生异常数据。
(二)仿真分析
当维度k值从10上升至40,随机选择维度使用算法1与PRAA,对数据进行处理,将获得结果作为算法2的输入内容,获得在不同k值条件下的运行时间曲线。当增加k值时,会产生更多的数据量,运行时间会趋近线性增加。而在数据量较小时,算法2只能运行较短的一段时间。而维度增加,数据量快速提升,算法2运行时间出现大幅提升,这意味着数据维度会影响算法2的效率;控制数据量,针对不同维度做仿真实验,可以发现,本文算法准确率始终保持在0.8~0.9之间,不会产生过大的起伏。但对比算法的准确率与召回率会有所下降。即使是持续增加序列数据的输入,也可以获得较高的准确率,拥有较稳定的召回率。利用这种方式,可以证明多维时序关联的异常数据检测算法在异常检测方面,拥有较强的应用性能;如果异常数据总量不断增加影响,本文算法准确率可维持在0.77~0.91之间,拥有较为缓慢的下降趋势,对比算法准确率会出现较大幅下降。
从这方面可以看出,即使是在增加异常数据的条件下,也可以拥有良好的准确率与召回率,确保检测结果的稳定性。如果输入的数据量不大,本文算法拥有0.9的准确率。在额外添加更多的处理数据时,算法的准确率会呈现缓慢下降趋势。对于对比算法,在增加数据量时,会产生明显的准确率下降情况。而在数据量较小时,本文算法的召回率会有略微的上升趋势。在数据量达到0.5GB时,召回率会从原本的平稳状态下转变成下降状态。如果输入的数据量偏小,对比算法会出现较为明显的起伏式状态。在输入数据量达到0.4GB时,召回率会产生明显的下降趋势。
根据以上仿真数据分析,在数据集维度、数据量、异常数据量等因素增加时,本文算法在稳定性、准确率、召回率等方面要强于对比算法,即本文设计的基于时序关联智慧城市边缘数据异常检测算法拥有良好的有效性。而数据量增加时,会产生更多的异常数据量,但本文算法仍具有良好的可靠性,异常数据检测的准确率、召回率依旧高于对比算法。
四、结语
综上所述,本文主要研究基于时序关联的智慧城市边缘数据异常检测,具有一定的参考价值,建议在研究智慧城市边缘数据异常时,从实际需求出发,科学分析时序关联应用内容,设计更完整的检测方案,做好细节优化处理,从而获得更加精准的分析结论,助力智慧城市稳定运行。
参考文献:
[1]张娇阳,孙黎.基于深度学习的网络异常检测和智能流量预测方法[J].无线电通信技术,2022,48(01):81-88.
[2]欧阳金源,冯安琪,钱丽萍,等.边缘计算构架下基于孤立森林算法的DoS异常检测[J].计算机科学,2020,47(02):287-293.
[3]张哲敏,李琪林,成贵学,等.基于CFSFDP算法的边缘电力数据异常检测[J].四川电力技术,2021,44(04):6-10.
[4]苏荣,张斌,陈俊生,等.基于边缘检测与方差变点的风功率数据清洗方法[J].广东电力,2021,34(05):48-56.
[5]谢小川,周绍军,黎力,黎明.基于时序关联智慧城市边
缘数据异常检测算法[J].计算机工程与设计,2022,43(07):1879-1889.
[6]曹辉,杨理践,刘俊甫,等.基于数据融合的小波变换漏磁异常边缘检测[J].仪器仪表学报,2019,40(12):71-79.
作者简介:王飞鸿(1999),男,浙江省温州市人,硕士研究生,主要研究方向为智慧农业物联网数据异常检测、智慧城市物联网异常检测,邮箱:2281777777@qq.com。