基于近似匹配模型的电网多模态数据检索研究

2024-04-13 06:54苏蕊王亚婷闫润珍王悦
电子设计工程 2024年7期
关键词:数据检索文档检索

苏蕊,王亚婷,闫润珍,王悦

(1.国网甘肃省电力公司互联网事业部,甘肃兰州 730000;2.国网甘肃省电力公司天水供电公司,甘肃天水 741000)

电网工程建设属于高风险行业,在明线工程中,其安全控制涉及范围较广。电网在各个领域广泛应用,市场规模也逐渐扩大,相应产生的数据也越来越多,大量的文字、图片、音频、视频等数据被收集起来。由于数据多模态、数量庞大,给数据检索带来极大困难。传统文本检索、图像检索等检索技术常常将某些模态下的相似数据匹配,获得的数据也大多是相似度较高的同态数据。因此,对电网多模态数据检索是具有必要性的。

文献[1]提出了深度学习驱动的检索方法,构建人工卷积神经网络模型。利用深度学习强大表征能力,提取文本特征,依据条件熵概念度量多标签相似度,由此实现多模态数据检索。文献[2]提出了基于链上链下相结合的检索方法,将区块链和分布式存储技术相结合,以达到分散数据存储的目的。对外向管理人员提供数据检索接口,实现数据完整性检索。由于不同模态数据之间相互关联,上述两种方法虽然能够有效检索数据,但忽略了检索过程中模态之间的相似性,导致检索结果重复性数据较多。

为了解决这个问题,文中提出了基于近似匹配模型的电网多模态数据检索研究。

1 建立映射关系

引入树匹配原理,建立了一种多层次、多模态的近似匹配模型。应用树匹配原理,通过对两棵树之间的节点映射处理,实现不同数据的模态匹配。结合电网多模态数据结构特征,提出了基于结构搜索和语义搜索概念,再引入亲和度约束原则,构造了如图1 所示的近似匹配模型检索框架。

图1 近似匹配模型的多模态数据检索框架

图1 中按照结构和功能可划分为三个层次。第一层是应用层,为用户提供了一个可访问接口,可以采取多模态查询[3]。第二层是服务性层面,在多模态数据的检索过程中,使用多个服务器组织方式,定义了用户访问权限,保证了网络安全,并设置了身份登记接口,提供了数据备份和管理功能[4]。第三层是数据层,包括多种注册代理的数据信息,多模态数据的表达方式多元化,其在多模态数据检索框架下,利用近似匹配原理,通过数据关联方式,计算出查询树数据和标准树多模态数据之间的联系值,计算公式如下:

式中,x、y分别表示查询树横向和纵向的数据值;φ表示多模态数据;θ表示查询树和多模态数据之间的偏转角度[5-6]。针对数据实际需求,采用标准化描述方法,对多模态数据标准树展开分析,设定标准阈值范围,统一归类多种模态数据,确定了查询树数据和标准树多模态数据之间的联系[7]。

2 多模态数据检索

2.1 近似匹配过程

由于电网多模态数据库中的信息对象是以相同电网多模式数据规范来描述的,所以在不同情况下,各信息对象电网多模态数据标准树的内部节点都属于电网多模态数据规范的一部分,不同之处在于叶节点上的元素值[8]。电网多模态数据近似匹配过程如图2 所示。

图2 电网多模态数据近似匹配过程

如图2 所示,将查询树与标准树对比分析发现,在多模态数据标准树上节点h1 对应的节点是h11 和h12,在查询树上节点H′对应的节点是h′1 和h′2 。根据这些可知,匹配查询树与标准树数据,就没有必要必须将对象O2 的元数据与查询树数据相匹配。当查询树与O3 的元数据树相匹配时,由于没有该子树上的节点可以与查询树中的节点相匹配,所以无需考虑以节点h3 为根节点的子树匹配情况[9-10]。

设H 和H′是两颗无序标签树,两者之间编辑距离为:

式中,α为编辑序列映射。因此,在查询前,将查询树与资源目标库的多模态数据标准方案树匹配,将关联节点的匹配信息(即预处理信息)记录下来[11]。对所得的信息分析,可以避免在以后查询树与多模态数据标准树的匹配中出现大量非关联节点的匹配,避免了不必要的重复。

2.2 电网多模态数据检索

在电网多模态数据近似匹配过程支持下,设计多模态数据检索过程如下:用户在查询树中指定匹配类型,预处理后,利用所需要预处理信息,对对应匹配算法调用,以找到与标准树相匹配的代价[12]。将匹配成本小于设定阈值的结果反馈给用户,阈值可设定为:

式中,γ表示近似匹配代价;label(vi)表示节点权值;i表示节点数量;v表示标签值。该阈值相当于将整个查询树移除所需费用的二分之一,是一个预设门限[13]。在没有指定特定类型情况下,使用资源目标元数据规范方案树来预处理查询树。对检索树和标准树近似匹配,将其与查询树嵌入结果比较,并将结果反馈给用户[14]。

在给定电网多模态数据集合中,依据极大似然估计原则,可得到对数似然函数:

式中,Xm、Ym分别表示图片和文本两种模态数据;Sm表示数据集合;m表示训练数据文档总数;p语义概念先验分布[15]。通过最大化式(4)可以得到先验参数最优估计结果,由于数据集合服从先验参数多项式分布,依据拉格朗日算子可以得到先验参数估计值:

式中,mj表示数据集合中第j个语义概念生成的文档数量。为使多模态数据生成过程能得到高效估计,需要在语义矢量生成多模态数据时遵循高斯分布。在所有数据集中,语义概念都遵循着高斯分布,而这些特征协方差矩阵与集合协方差矩阵相符合,由此保证检索过程出现最优解。

在多模态联合检索中,所获取的文档和被搜索的文档都是多模态的。在含有图像和文字的档案材料中,文本材料可以起到辅助作用[16]。

设查询数据集an是由n个数据组成的,待检索文档bk是由k个文档组成的,an和bk之间相似度可用如下公式计算:

式中,ak表示由k个数据组成;bn表示由n个文档组成;p(an,bk,ak,bn)表示数据和文档是相同内容的概率。当获取目标检索数据与查询数据之间关系后,按照相似度由大到小的顺序对数据排序,不具有重复性且排名前几项的数据即为检索结果。

3 实验

3.1 数据采集

数据采集主要包括现场端和通信端两部分。现场端是用来采集和传送现场数据的,通信端负责对现场数据处理和后台数据交互,其架构如图3 所示。

图3 实验数据采集架构

在现场端可以利用监控摄像头、定位网络系统等对基础设施实时采集,并将采集到的信息上传到通信端的服务器端,为基础设施管理提供了良好数据支撑。

3.2 数据集和指标

实验采用了一组公开的电网数据集,共有3 000个文档,每个文档都含有一张图片,并附有相应说明。每一张图片和一组文件都对应一个具体的分类目录,而该分类目录中所有信息可以分成20 个类别。利用SIFT 特征描述方法,将图像描述为128 bit 的特征矢量。针对电网数据集的文字,利用LDA 模型,以10 个主题的形式呈现文字。在实验测试过程中,将2/3 数据作为训练数据,将1/3 数据作为测试数据。

将多模态数据检索精准度和精准率作为实验指标,电网多模态数据采集结果如表1 所示。

表1 电网多模态数据采集结果

将表1 数据作为标准数据,采取实验验证分析。精准率实验指标计算公式为:

式中,Xm、Ym、Zm分别表示图片模态数据、文本模态数据和其他种类数据的大小。

3.3 结果与分析

对于多模态数据检索精准度验证,分别使用文献[1]方法、文献[2]方法和文中研究方法完成电网多模态数据的检索,结果如图4 所示。

图4 三种方法数据检索结果

由图4(a)可知,使用文献[1]方法、文献[2]方法检索多模态数据结果与表1 数据不一致,且在电力线路#1 编号下与实际数据相差最大,分别存在最大为7.0 kB、8.0 kB 的误差。使用文中研究方法检索多模态数据结果与表1 数据基本一致,只在电力线路#1 编号下与实际数据存在最大为0.5 kB 的误差。由图4(b)可知,使用文献[1]方法、文献[2]方法在电力线路#2 编号下与实际数据相差最大,分别存在最大为2.2 kB、1.9 kB 的误差,使用文中研究方法与表1 数据一致。

对于多模态数据检索精准率验证,分别使用文献[1]方法、文献[2]方法和文中研究方法,对比分析检索精准率,结果如图5 所示。

图5 三种方法检索精准率对比分析

由图5 可知,使用文献[1]方法、文献[2]方法的检索精准率均低于75%,使用文中研究方法检索精准度高于85%,且最高为98%。由此可知,使用文中研究方法检索结果精准。

4 结束语

对文本与图像联合检索研究,并在此基础上提出了一种基于近似匹配模型的电网多模态数据检索研究方法。在电网中文件往往含有多模态资料,在相同语义空间中,假定相同文件中有多模态数据。运用近似匹配方法,根据用户不同需求,设计检索过程。通过实验证实使用所研究方法的正确性。

猜你喜欢
数据检索文档检索
高速公路省级清分结算平台高效数据检索应用探究
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
2019年第4-6期便捷检索目录
本刊进入的国内外数据检索/文献服务机构
本刊进入的国内外数据检索/文献服务机构
基于RI码计算的Word复制文档鉴别
专利检索中“语义”的表现
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于图模型的通用半结构化数据检索