基于历史预警信息的输电线路高风险区段识别

2021-10-14 09:45:20陈燕南

浙江水利水电学院学报 2021年4期

陈燕南

(国网江苏省电力公司常州供电分公司，江苏常州 213003)

0 引言

输电线路作为国家重要的基础设施，其安全性和稳定性关系到人们的生产生活。输电线路在远距离电能输送过程中，承载高负荷且在不确定的自然环境中工作，容易遇到不同原因和不同类别的隐患威胁。因此，通道环境隐患排查是重要的运检项。输电通道隐患排查从最初人工巡视，到通过图像采集设备定时抓拍并回传图像供人工巡视，发展到现在利用人工智能技术对抓拍的图像做隐患自动识别，在图像采集设备进行终端识别、无人机巡检、视频监测、5G传输及汇集组网、物联网等技术的应用，极大提高了运检效率和安全性[1-5]，尤其是在2020年新冠疫情防控期间发挥了巨大的作用。

随着大部分地区已经实现输电线路通道可视化远程巡视，且能自动识别输电通道内的隐患信息，如机械类、异物类、烟火类隐患，由此产生了大量带有标记的数据，而且可以预见随着更多技术的引入和融合，积累的通道隐患数据量将会成倍或成指数级增加。但目前对这类数据的利用很少，大部分应用停留在统计分析、报表展示的程度，如对单一设备或指定的多个设备的隐患信息统计分析，仅完成了从数据到信息的归集，但更深层级利用大数据分析手段对信息进一步提升形成知识的工作开展得很少。这是因为通道隐患数据价值密度非常低，单点分析或短期数据分析无法产生实际的价值，但通道隐患数据自然带有标记属性，这为通过大数据分析手段实现价值密度提升提供了可能[6-9]。

本文提出了一种利用输电线路通道历史隐患数据，实现输电隐患高风险区段识别的方法[10]，以便能为输电线路智能运检提供决策依据，可以实现对数据的更高层级利用，完成从信息到知识的提升，更好地发挥数据的价值。这在输电通道智能运检应用场景下属于开创性工作，能为检修人员提供有效的数据支撑以便辅助决策，如加大对某些线路的巡检力度，保障输电线路的安全运行[11-14]。

1 输电隐患高风险区段识别数据基础

1.1 隐患数据

本文所分析的隐患数据是指通过输电通道可视化远程巡视抓拍设备、视频巡视设备、无人机等多途径采集的输电通道相关的隐患数据，其中绝大部分隐患数据是由AI图像分析模型自动识别存储的数据。因现阶段技术限制，AI图像分析模型无法达到零漏报和零误报，部分数据由巡查人员做过修正。

在收集的隐患数据中，出现的隐患种类包括起吊机、塔吊、推土机、挖掘机、水泥搅拌车、打桩机、水泥泵车、铲车、消防车、采沙船、烟雾、山火、彩带、其他悬浮物等14类不同种类的小类隐患数据。根据小类数据的特性又可划分为机械类、烟火类、异物类3组大类数据。隐患数据相关字段包含隐患自增ID、隐患发生时间、隐患类型、隐患消除时间、隐患内容、是否消除标记、确认时间、图像存储ID、设备编号、经度信息、纬度信息、线路编号和杆塔编号等多个字段。

1.2 数据积累

采用大数据分析技术手段做数据挖掘分析，最为重要的是要有足够多的高质量数据，主要体现在：数据量要大，因为在采用大数据分析手段对数据价值密度提升时，会损失一部分信息，如果数据样本过小，因信息损失可能会得出完全相反的分析结果；积累的时间跨度要大，只有时间跨度足够大的情况下，才能通过数据清洗手段去掉数据中的异常数据，并能包含更多的影响因素。以输电通道隐患数据为例，其存在明显的季节性，所以只有在积累的数据为年计时，分析才会更准确；数据源分布范围要大，如果只有几个点的数据，即便数据量很大、时间跨度足够长，但仍无法横向对比分析，得到的分析结果将不具备实际价值。所以，本文中所依托的数据为某区域时间跨度为1年的历史隐患数据，且隐患数据是完整和分布均匀的，在传入模型前没有抽样。

2 输电隐患高风险区段识别方法

2.1 数据处理

2.1.1 数据清洗

数据清洗是为了让数据合理且具备可分析的基础。在收集的历史隐患数据中，存在少量同一图像有两种不同隐患结果的数据。这类数据是因为巡查人员对AI图像分析模型识别结果确认时，发现存在误报，巡查员确认时会产生一条新的隐患数据，并且会在相应字段标记。对于有两种不同结果的数据，以巡查员确认的结果为准，剔除该条数据对应的AI图像分析模型识别结果数据。另外，有少量AI图像分析模型没有准确识别，由巡查人员发现的隐患数据应正常保留。

其次，所收集的历史隐患数据中大部分是由输电通道可视化远程巡视抓拍设备定时采集的图像，经图像识别模型分析后，确认有某类隐患而产生的。但由于不同图像采集设备所设定的图像采集间隔不一致，如30 min、15 min、10 min、5 min等，而且同一设备在不同时间段因人为调整、智能告警策略自动调整等原因导致其抓拍间隔也存在不一致情况。对此，需要对数据进行权重处理。本论文所对应模式尝试了两种处理方法：(1)将隐患数据统一按30 min抽样；(2)将不同图像抓拍时间间隔的隐患数据设置不同的权重，具体为抓拍时间间隔为30 min的隐患数据其权重设定为1,间隔为15 min的隐患数据权重设定为0.5，间隔为10 min的隐患数据权重设定为0.33，间隔为5 min的隐患数据权重设为0.17，其他非图像抓拍设备产生的隐患数据权重均为1。

本文在数据分析时，对两种不同的处理方式多次对比验证发现两种不同的数据清洗方法并无明显的优劣之分。基于此原因本文选定了第一种方式，即按等时间间隔采样的方式，其优点是相较第二种方法数据清洗后的数据量会减少约27%，且不需要额外的权重信息，在大数据分析时可以减少计算量，提高实时性。

2.1.2 数据预处理

经数据清洗后的数据包含有1.1节中提到的所有字段，实际模型分析时只需要其中部分字段。本文所对应的初版模型中，选用了隐患发生时间、隐患类型、经度信息、纬度信息、线路编号、杆塔编号、设备编号7个字段。经几次优化迭代，发现可以对字段进一步过滤，其中，隐患发生时间，可以在传入数据时过滤，保证传入的是预期时间段内的数据，如近一年数据，以便时间属性可以略去；隐患类型也采用类似的处理方法，在数据传入时过滤。因为杆塔编号跟实体杆塔的地理位置有台账对应，且编号按递增规律排布，所以可以去掉经纬度信息，在可视化展示时，从台账查询后并在地图上标注即可。本文模型最终选定线路编号、杆塔编号、设备编号3个字段，大幅提高了大数据分析效率，字段名、数据类型、样例数据以及释义如表1所示。

表1 字段及样例数据

数据分析时，巡检人员比较关心具体某类隐患分布。该类隐患可以是大类隐患也可以是小类隐患，需要在传入模型前对隐患数据过滤分离，如果希望得到全部的隐患分布，则不过滤。

2.2 数据分析

2.2.1 数据融合

在模型计算时需要进一步进行数据关联融合，本文对经数据处理后的隐患数据按线路编号及杆塔编号分组、计算权重并对没有隐患数据的杆塔0值填充，获得参与计算的数据。其中，分组并计算权重包括以下具体工作：将数据集中具有相同设备编号的数据合并为一条数据，记录隐患数量；基于该类数据将具备相同杆塔编号的数据合并，并增加权重属性，取该部分数据隐患数量之和作为该条数据的权重值。

某些杆塔的图像采集与设备采集的图像中没有出现隐患物体，所以没有对应的隐患数据，但动态滑窗算法需要数据间距分布均匀，所以需要对没有隐患数据的杆塔0值补充。经以上操作后能得到参与计算的数据，包含以下属性：杆塔编号、权重值、详情。其中，权重值为该杆塔对应的设备隐患数之和，详情包含设备编号、所属杆塔编号、隐患数三个属性，将此三个属性以逗号连接拼接成一个属性，并用分号拼接多个设备。

为能更好地说明数据融合过程，本文以某地时间跨度1年的隐患数据处理过程进行说明。以识别该地区机械类输电隐患高风险区段为例，该地区共积累了240 483条隐患数据，在调用本模型时传入的数据只保留隐患内容中出现机械设备隐患数据的线路编号、杆塔编号、设备编号信息，共计213 429条数据，部分数据见表2。

如图1所示，在GPR测量过程中，雷达信号通过多种方式到达接收天线并被捕获，通过提取其中部分雷达信号并确定其传播速度即可计算上层土壤的介电常数ε1。本文主要考虑地面直达波和反射波部分。

表2 过程数据

将数据按线路分组，具有相同线路编号的数据作为一组，共计获取到164个分组，即164条线路及对应数据。线路编号不再记录到每条数据中。以线路编号为611为例，该分组内共有7649条数据。线路编号为611的分组，部分数据见表3。

表3 过程数据

对每组数据按设备编号合并，标记方法为将设备编号相同但序号不同的数据保留一条，并新增一个字段记录该条数据重复次数即隐患数，如表3处理中的样例数据中的1～4条数据会生成一条新的数据“1 4 99000843139835”，仍以线路编号为611的分组数据进行说明，对以上处理中的数据处理获取到260条带有隐患数的数据，部分数据见表4。

表4 过程数据

对表4处理所得的数据按杆塔编号合并，隐患数之和作为权重值，并将没有隐患数据的杆塔用0值填充。从以上处理的数据样例可以看出序号和杆塔编号不是一一对应的，因为部分杆塔有多个设备，部分杆塔没有隐患数据。将设备编号、所属杆塔编号、隐患数拼接成一个字符串，作为详情属性。仍以线路编号为611的分组数据说明，对以上处理中的数据处理获取到268条数据，部分数据见表5。

表5 过程数据

2.2.2 模型计算

经过数据融合处理后，对某一条线路基于分组并权重标记后的数据使用动态滑窗算法从最小步长开始迭代，直至权重最大的窗口内的隐患权重和值与隐患总数的比值超过指定阈值，那么该窗口所对应的信息即为该线路的隐患高风险区段。参与计算的数据带有权重，按一定步长从某线路里杆塔号最小的数据开始从左向右滑动，每次增加一条右侧相邻数据，并删掉一条最左侧数据。迭代时，从步长为2开始计算，若结果不满足指定阈值，步长加1后再次计算。其中阈值为初始化参数，其经验值依据不同的巡检需求确定，一般确认方法为：将多个不同阈值对应的计算结果交由巡检人员评估，将巡检人员认可的计算结果所对应的阈值作为经验值输入。

为能更准确地说明模型计算过程，仍以2.2.1节中的案例进行说明，该地区巡检标准与阈值0.2所处理的结果一致，所以后续所有处理均以0.2为参照标准。

对具体某一条线路处理后的数据，得到数据如表5所示，使用动态滑窗算法从最小步长2开始迭代，直至权重最大的窗口内的隐患权重和值与隐患总数的比值超过指定阈值0.2，该窗口内的数据即为该线路的隐患高风险区段。首先计算总隐患数，其值为7 649，从杆塔编号最小的端开始按步长遍历，每次右移一个数据，对应上处理中数据窗口内的权重和依次为{95,93，6，…,698,…,44,28}，则权重和值最大的窗口权重和为698，因698<7 649×0.2=1 529.8，没有达到阈值，将步长增大1重复上述计算。在步长为13时，获得的权重和值最大的窗口权重和为1 588>7 649×0.2=1 529.8，此时窗口内对应的信息即为该线路所需识别的隐患高风险区段。整理出的具有以下属性：线路编号、窗口内最大隐患数、隐患总数、起始杆塔编号、截止杆塔编号、设备隐患详情，包括设备编号、杆塔编号和隐患数。部分数据见表6。

表6 结果样例数据

表7 结果数据

2.3 可视化展示高风险区段

通过模型获取到最终结果后，可进行可视化展示。如2.1.2所介绍的字段分析，可以采用两种可视化展示方式：一是根据设备隐患详情中的设备编号台账信息，查询到设备的经纬度信息，并在地图上做点标记，同一条线路上的点组成的线路段即为隐患；二是可以使用起止杆塔编号的台账信息，以杆塔为对象做标记，两者标注效果一致。可视化展示时可以做相应的条件过滤，包括时间区间，可按天、周、月、年定制；隐患类别包括大类和小类，大类如机械类、异物类，小类如挖掘机、彩带等；电压等级；具体某条线路等。

3 输电隐患高风险区段识别效果与讨论

本文对应模型的处理方法能实现对输电线路隐患高风险区段识别，基于动态滑窗大数据处理手段，无需数据标记，数据处理后，经自动流程控制，可准确地找出某线路的隐患高风险区段。通过对数据分组和权重处理，大幅降低了计算量，计算耗时为毫秒级。采用本文中的大数据分析手段，历史隐患数据实现了从信息到知识的提升，在输电智能巡检领域属于开创性工作，能为检修人员决策提供有效的数据支撑，为加大对某些线路段的巡检力度提供了依据，进而保障输电线路的安全运行。

本文中的方法能很好地得到预期效果，对应的模型系统已在几个地区部署使用，但也存在一些不足之处：(1)在隐患数据源方面，有些地区的隐患数据并没有长期保存，或者数据源杂乱，很难有效地融合或采样。对于该类问题，需要对隐患数据做长期有效的收集、梳理并整合数据源，如添加有效的时间标记，标注好采集方式、人工确认情况等；(2)部分地区电力互联网大区中存在台账不完整或台账错误问题，导致现有的模型分析出的数据无法有效地进行可视化展示，针对该类情况虽然对模型做了相应的调整，但因缺少必要的经纬度信息，虽然分析出了结果，也仅限于报告分析，无法提供直观的运维指导。对于该类问题，需要逐步完善台账信息；(3)隐患数据采集不完整。因为大部分隐患数据是输电通道杆塔上安装的图像抓拍设备所采集的图像，是经AI图像分析模型识别后的结果，但有些地区存在部分杆塔没有安装图像采集设备，或图像采集设备安装密度不均匀等问题，导致分析的结果与实际运检存在差异。对于该类问题需要数据源的持续完善和更完善的隐患数据采样策略，这也是本模型后续迭代升级的重点工作之一。

4 结语

本文基于输电通道历史隐患数据，结合大数据分析手段实现了输电隐患高风险区段的识别，可用于智能运检辅助决策，后续会对模型进行持续的迭代优化，结合隐患分布图，风区、冰区、污区、雷区、舞动、鸟害热力图，针对不同地区的隐患特性进行相应的权重定制，在保证模型泛化能力的前提下达到不同区域差异化的效果。

基于输电通道历史隐患数据的分析远不止隐患高风险区段分析，在其他方面还有大量的数据挖掘分析工作可以开展，这需要在后续的工作中挖掘更多的需求，结合输电线路智能运检需求和实际数据，找到更多的应用点。可以预见，当数据源和数据量进一步增加后，基于电力互联网大区数据的大数据分析会有更多的工作可以开展，能提供更多的决策信息，产生越来越多的价值。