一种基于链形混合拓扑的输电线路温度异常检测方法

2022-03-15 09:15梁花李玮高爽吴超解绍词
广东电力 2022年2期
关键词:基站线路节点

梁花,李玮,高爽,吴超,解绍词

(1.国网重庆市电力公司电力科学研究院,重庆 401123;2.南瑞集团有限公司(国网电力科学研究院有限公司),江苏 南京 211106;3.南京南瑞信息通信科技有限公司,江苏 南京 211106;4.重庆邮电大学 软件工程学院,重庆 400065)

近年来,雷电、台风、山火等极端自然灾害频发,给输电线路运行带来严峻考验。面对复杂的输电线路环境,目前还没有完美的解决方案来对输电线路安全进行监控和紧急处理。传统方法都是建立在数学模型的基础上,能否有效地解决实际问题还有待验证[1]。因此,使用物联网(Internet of things, IoT)进行安全监控和事故预警对于确保输电线路的安全运行具有重要的现实意义。及时准确的安全警告仍然存在许多挑战:无线网络传输温度数据不可靠,容易丢失数据;对环境温度数据进行多源异常检测时,准确率不高,以及在恶劣环境中基站会产生极大的能耗[2-3]。实时数据异常检测具有重要的实际应用。在输电线路中,不同的传感器节点会定期收集环境数据信息,通过检测传感数据流的异常情况,可以预测发生异常事件的概率,从而及时进行响应和处理。首先,输电线路需要部署多种类型的传感器来收集数据,主要包括温度、湿度、气体、风速、应力、位移等,如何对多源传感器数据进行异常检测是一个挑战。其次,针对异常数据检测的安全预警需要考虑低延迟需求。最后,数据收集在地理上是相关的且对时间敏感,这在很大程度上取决于收集节点的时间和地理位置信息,如何确定其相关性和准确性是异常检测的一个挑战。

为了提高异常检测率,本文提出基于链形混合拓扑的输电线路温度异常检测方法,用于输电线路的早期安全预警。本文的主要内容如下:

a)针对传统的异常检测算法功耗大、检测率低的问题,设计单源数据异常检测算法(single-source data anomaly detection algorithm,SDADA),在保证低能耗的前提下,实现整个系统的负载均衡和低延迟数据处理。算法基于时间维度建立,同时考虑相邻时刻的数据值,对多个连续时刻的异常数据检测结果进行综合分析,避免由于单侧的异常而导致的异常检测结果误差。

b)针对输电线路中特殊的结构,提出一种在基站端执行的多源多维数据异常检测算法(multi-source and multi-dimensional data anomaly detection algorithm,MDADA)。当异常检测算法工作时,将选择具有位置相关的传感器数据进行综合分析,避免由于某一个传感器故障引起的错误。

c)将本文提出的方法与其他异常方法进行实验比较,以证明本文方法的有效性。

1 相关研究

目前,对IoT的研究主要集中在实时处理、安全可靠传输等方面[4-9]。数据异常检测的研究主要针对无线传感器网络(wireless sensor networks,WSN)。文献[10]提出一种WSN中的数据异常检测方法,但是无法解决实际的应用问题。文献[11]提出了一种医疗无线传感器网络数据异常检测方法,能够有效地检测异常变化,及时预警动态变化;然而,这种方法要求在无线环境下具有较高的可靠性和实时性。

无线传感器网络异常检测的研究进展如下:

a)基于统计的异常检测方法。该方法是一种古老而成熟的方法,它为数据集建立分布模型,与目标数据相吻合的正常数据落在高概率区间,而异常值落在低概率区间。根据模型中目标数据集中落的概率判断异常。文献[12]提出了一种MDADA,该方法通过统计的方法进行检测,主要应用于平台空间,利用二维坐标位置确定节点间的关系。文献[13]研究了基于时间序列的异常检测方法,提出了一种基于概率区间统计的异常检测方法,该算法比聚合算法具有更高的数据识别率。文献[14]研究了异常检测方法在城市交通分析中的应用,重点研究了基于异常值的检测方法。该方法能够有效地分析交通数据,但在交通条件复杂的城市,应用效果有限。

b)基于距离的异常检测方法。该方法通常建立在相同的基本假设基础上,即正常数据对象之间的距离较近,异常数据对象与正常数据对象之间的距离较远。在数据对象的属性变量是连续的情况下,通常使用欧几里德距离来测量数据对象之间的远近关系。文献[15]提出了一个确定相邻节点之间关系的模型,基于密度估计的统计性质,导出了插入在样本容量、样本维数和潜在概率分布方面的偏差和方差。文献[16]提出了一种基于邻居节点信息的数据异常检测方法。该方法采用机器学习算法,通过分布式处理实现数据异常检测,减少通信开销。

c)基于聚类的异常检测方法。聚类是将相似或相关的数据对象分类到一个类别中[17]。如果一个数据对象在聚类过程中不能被归类到任何一个聚类中,那么这个数据对象就可以被认为是异常的。文献[18]分析了WSN中数据完整性的异常检测,通过温度、湿度、电压等特性,采用聚类分析的方法,完成数据异常检测,该方法能保证较高的检测精度。文献[19]提出了一种用于微聚类的数据异常检测方法,并设计了一种利用局部异常点作为离线组件来检测和指定异常点的方法。文献[20]定义了无线传感器网络中数据的异常值,提出了一种基于数据分类的概率密度函数估计和计算方法,该方法已被证明适用于不同类型的数据测试,包括高斯分布。

d)基于人工智能的异常检测方法。目前,人工智能理论已应用于数据异常检测。其中,以深度学习和机器学习为代表的相关算法解决了一些问题。通过人工智能方法,可以训练大数据集来提高检测精度。文献[21]提出了一种基于空间分析和光谱异常检测的数据挖掘异常检测方法,用于检测原始损失。该方法可用于视频流等连续性数据案例。目前无线传感器网络中有很多数据异常检测方法[22],并取得了很好的效果。然而,对于特殊领域的研究还很少,特别是气温数据的异常检测还有待进一步研究。

2 基于链形混合拓扑的输电线路温度异常检测方法

本方法主要由基于时间维度的SDADA、基于SDADA改进的MDADA和基于SDADA和MDADA的异常检测模型3部分构成。异常检测模型如图1所示,它的主要部分由SDADA和MDADA构成。首先,传感器对采集的数据预处理;其次,基站端执行SDADA对数据进行异常检测;最后,为了提高异常检测率,MDADA分析位于不同基站的多个传感器的数据,将空间维度添加到SDADA中,根据位置维度和时间维度判断数据是否异常。

根据输电线路环境要求,输电线路安全监控由多个有线总线型拓扑结构组成,每个基站包含多个传感器,构成一个星形WSN的拓扑,不同干道通过主光纤连接到远程云服务器。图1描述了系统的整体拓扑。每个传感器收集环境数据后简单处理,定期将无线数据发送到基站,然后基站通过有线链路将其发送到服务器进行分析并处理。通常,每个干道的结构基本相同且彼此独立。

图1 系统拓扑结构

(1)

图2 基站数据缓冲队列

2.1 基于SDADA和MDADA的异常检测模型

传统的数据异常检测算法通常在远程云中执行异常决策,并利用云平台上的大数据存储和分析功能对数据进行异常检测和分析。但是,输电操作复杂多变,随时可能发生异常事件。这需要数据异常检测同时满足准确性和实时性要求。在许多输电线路安全事故中,由于不能及时检测环境异常,导致无法在灾难发生时有效地安排疏散和救灾工作。为此,本文提出将异常决策转移到边缘基站。

根据IoT中用于输电线路的特殊拓扑结构,将数据异常检测操作分布在不同的节点单元中进行处理。

异常检测模型的整体架构如图3所示。按照异常检测的功能划分,用于输电线路安全监控和预警的IoT系统主要由3部分组成:远程云服务器、基站(汇聚节点)和传感器。图3(a)显示了预警系统的物理架构,其中远程云负责存储和分析基站上传的数据;传感器负责定期收集诸如温度、湿度、气体浓度等数据,并通过无线介质将其发送到相应的基站;基站负责汇总传感器收集的数据,并通过有线链路转发该数据。图3(b)显示了预警系统的逻辑模型,该模型分为基站和传感器2个单元;基站的硬件设备在处理能力和存储容量方面均优于传感器,另外,基站设备通常由有线电源供电,备用电池容量也很大;因此,基站的任务主要是执行MDADA,传感器节点的任务是执行SDADA。

图3 异常检测模型

预警系统的工作过程概括如下:

a)传感器程序根据要求定期收集环境状态数据。收集数据后,执行SDADA。检测完成后,原始数据和检测结果将发送到基站。传感器的处理器通常仅具有简单的信息处理和无线传输功能,因此只能执行简单的数据异常检测。

b)基站等待接收传感器侧发送的数据。基站接收到数据后,进行多源异常检测,并与接收到的单源异常检测结果相结合,进行综合分析,获得最终的异常检测结果,将其与原始数据一起发送到云中。基站设备具有相对强大的处理器,例如MSP430和ARM(Advanced RISC Machines),因此在基站处部署多源多维异常检测程序以执行。此外,当数据检测触发异常事件时,系统将根据输电线路的安全预防和预警级别启动紧急预警和处理计划。

c)云平台侧等待接收基站发送的数据。接收到数据后,将其存储在云平台的数据库中。然后,决策中心使用数据挖掘、人工智能等算法对原始数据进行分析和决策,并实施相应的决策处理方案。

2.2 基于时间维度的SDADA

在输电线路工作环境中,正常范围内的不同数据也具有不同的含义。例如,假设2个温度数据15 ℃和23 ℃均为正常温度值,很明显,这是不同的工作环境。因此,将异常数据定义为是否能反映实际情况。传统的SDADA只会考虑单个基站所收集的数据,不能准确地判断出该数据是否为正常数据,因此提出了基于时间维度的SDADA。

(2)

本文实验数据集选取的是中国气象数据网2018年北京市6个区每日24 h的平均气温。由于昼夜温差较大且采集气温数据的基站之间距离较远,使得基站之间采集的气温数据具有明显的差异。例如,在夏天正午时刻的时候,农村地区的气温明显比城市里低2~5 ℃,且农村地区升温较慢,这就造成采集的气温数据集具有一定的波动性。因此,为了提高数据异常检测的准确性,本文采用异常检测方法结果进行分析,重新定义式(2)为

(3)

多源异常数据变化如图4所示,假设在时间t,需要对时间t-w+1,...t-2,t-1,t之间的数据进行异常检测,其中1

图4 多源异常数据变化曲线

虽然传感器B的值在时间t小于传感器A的值,但传感器B的数据为异常的。因此需要进行多源数据异常检测,分析相邻传感器数据的结果。

∀i∈[1,N],j∈[1,ci],t∈[1,T]有:

(4)

因为基站使用缓冲队列来存储传感数据,因此传感数据的存储量不能超过缓冲区队列的长度。假设在基站i,存储队列Qi最多存储数据量为Cnt(Qi),Pi为第i个基站的传感器数量。基站i的第j个传感器,可以在缓冲区队列中存储的数据量为|Cnt(Qi)/pi,即

(5)

根据式(4)、(5),有

(6)

(7)

(8)

SDADA采用式(3)和(8)来检测传感器数据。对于第i基站的第j个传感器在时间t处检测异常数据的算法分为两部分:首先,根据式(6)计算时间t处单源数据的异常值,并在传感器处执行该部分的算法;其次,根据式(8),对时间t之前单源数据的异常值进行综合分析。第i个基站的第j个传感器在时间t时的SDADA如下:

a)在传感器侧,根据式(3),计算时间t的异常数据值Dec(i,j,t),将其余原始数据一起发送到基站,并存储在基站的缓冲队列Q中。

c)根据式(8)返回异常检测结果。基站通过一个缓冲队列发送传感器数据,对于基站i,存储队列Qi最多存储Cnt(Qi)数据。传感器数据包括传感器数量、时间、原始数据和简单的异常检测结果。基站将基站号、来自传感器的数据信息和SDADA的最终结果存储在缓冲队列。数据的存储结构分别由传感器数据帧(sensor data frame,SDF)和基站数据帧(base station data frame,BDF)表示。

传感器将SDF数据发送到基站,基站将SDF数据存储在本地缓存队列中,依次遍历缓冲区队列中的SDF数据,并多次执行SDADA,最终将检测结果和SDF数据封装为BDF数据。

2.3 基于SDADA改进的MDADA

SDADA往往依赖单个传感器的数据,但是该异常检测结果没有考虑其他传感器节点检测结果,这就会造成准确率相对较低。例如,由于设备故障,传感器收集的数据值异常,但是这种异常不是真实数据,因此需要考虑多个相似节点的异常数据值,于是提出了MDADA。

MDADA的目的是分析相同传感器类型的多个传感器数据。与SDADA不同,此方法不依赖单个传感器的数据,而是分析位于不同基站的多个传感器的数据。因此,将空间维度添加到等式(8)的时间维度。MDADA需要确定多个传感器的位置,并根据位置获取离传感器较近的节点集。本文通过位置相关性定义不同传感器之间的距离关系,用于确定候选异常数据队列,并对特定时间的异常数据值进行综合分析。

文献[20]中提出了一种基于平面坐标位置的节点关联计算方法,但是该方法计算复杂。输电线路传输环境空间很大,为了便于设计,将二维坐标简化为一维,如图1的拓扑图属于混合网络拓扑,它由基站的总线型结构和基站与传感器的星形网络结构组成。因此,在输电线路中,传感器的位置仅由距离确定。假设相邻传感器之间的距离相同,并且基站和传感器根据其位置编号。传感器的位置相关定义如下:

第i个基站的第j个传感器与第m个基站的第n个传感器之间的位置相关值

(9)

式中g(g≥2)是相关整数系数,根据输电线路的具体要求设置。

如果相关值大于0,则表明存在相关;如果小于等于0,则表示没有相关性。因此,本文选取相关大于0的数据作为候选数据分析,并使用H(i,j)作为第i个基站的第j个传感器的候选节点集,∀m∈[1,N],n∈[1,cm],有:

(10)

第i基站的第j个传感器在时间t的MDADA结果

(11)

3 实验分析和结果

为了评估本文提出的异常检测方法的有效性,构建验证平台开展大量实验。本文实验数据集[23]选取的是中国气象数据网2018年北京市6个区每天24 h的平均气温。昼夜温差较大且采集气温数据的基站之间距离较远,使得基站之间采集的气温数据具有明显的差异;例如,在夏天正午时刻的时候,农村地区的气温明显比城市里低2 ~5 ℃,且农村地区升温较慢,这就造成采集的气温数据集具有一定的波动性。用C语言编写算法程序,数据结果用Python分析。为了检测算法在不同实验条件下的性能,对不同数据规模下的准确性和延迟指标进行测量。测试数据集随机生成异常数据,整体数据值服从正态分布。式(8)、(9)、(11)中,设ξ=0.5,x=5,ψ=0.4。实验平台环境及参数设置见表1。

表1 实验参数

与仿真不同,实验主要探讨如何在实际的嵌入式系统上执行异常检测,因此将根据情况简化一些理论参数。例如,假定CPU处理速率为常数1。此设置也符合实际情况。

本文主要研究检测算法的2个性能指标:检测精度,算法执行时间。检测精度定义为数据异常检测的结果数与异常总数之比,该指标可以反映检测算法的执行效率。算法执行时间定义为数据异常检测所需的总时间,用于测量算法执行的时间复杂度。平均延迟定义为异常检测中所有数据的处理时间的平均值,用于测量检测方案的时间敏感性。在当前的数据异常检测方法中,基于聚类的方法被广泛使用,主要方法包括具有噪声的基于密度的聚类方法 (density-based spatial clustering of applications with noise,DBSCAN)、k均值聚类算法(k-means clustering algorithm,k-means)等。其中,DBSCAN是学术界研究最多的方法之一。因此,本文选择基于DBSCAN的异常检测方法进行比较分析。实验探索3种异常检测方案的性能:传统的异常检测方法(DBSCAN)、SDADA和MDADA。在相同数据集的情况下,实验比较并分析不同方案之间检测效率和成本的差异。

3种方案的精度比较如图5所示,随着数据量的增加,MDADA的检测精度最高,这表明所提出的检测方法可以有效地分析数据的时空变化并获得合理的结果。此外,SDADA和MDADA方法的检测精度都随着数据量的增加而呈线性增长,而DBSCAN方法的检测精度却随着数据量的增加而变化不大。这是因为DBSCAN主要依赖于单点数据值,并且数据规模的变化不会影响其检测精度。随着数据规模的增加,MDADA算法与SDADA的检测精度增大。根据图5中的数据变化情况,数据规模对DBSCAN的影响较小,而对MDADA的影响较大。因此,MDADA方法非常适合用于输电线路的大规模无线传感网络中的大量数据异常检测。根据实验分析,当数据规模较大时,MDADA可以获得更高的异常检测精度。

图5 数据异常检测的准确率

3种检测方案之间的执行时间比较如图6所示。从图6可以看出,MDADA方法分析连续时间和相关位置节点的多个数据,因此执行时间比SDADA方法多。从图6可以看出随着数据规模的增加,MDADA和DBSCAN的执行时间都呈现出近似线性增长的趋势。总体而言,DBSCAN比MDADA执行更多的时间。特别是当数据规模很大时,2种算法执行时间的差异就很明显。从实验结果可以看出,MDADA的执行时间少于DBSCAN,并且数据规模对执行时间的影响近似线性。这是因为MDADA执行时间分散在基站和传感器节点上,从而实现了有效的负载平衡并降低了节点能耗。

图6 执行时间

4 结束语

本文提出了一种基于链形混合拓扑的输电线路温度异常检测方法,旨在对输电环境中的物联网进行事故预警。根据总线型网络和链型网络的特殊混合拓扑,首先提出基于SDADA和MDADA算法的异常检测模型,该模型可以在基站端执行MDADA,以实现负载均衡和低延迟数据处理。其次,提出基于时间维度的SDADA,该算法考虑了监测数据的时间相关性。最后,设计考虑多源数据时空相关性的MDADA。实验验证结果表明,所提出的方案在检测精度和执行时间方面比传统的方案表现更好。

猜你喜欢
基站线路节点
Formation of advanced glycation end products in raw and subsequently boiled broiler muscle: biological variation and effects of postmortem ageing and storage
节点分类及失效对网络能控性的影响
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
5G基站辐射对人体有害?
5G基站辐射对人体有害?
输电线路工程造价控制
10kV线路保护定值修改后存在安全隐患
10kV线路保护定值修改后存在安全隐患
基于移动通信基站建设自动化探讨