一种面向图情信息的快速检索优化算法

2023-12-18 08:58徐继维
现代电子技术 2023年24期
关键词:数字图书特征提取检索

徐继维

(长安大学 图书馆, 陕西 西安 710064)

随着计算机、大数据技术的发展,数字图书馆已经成为了社会数字信息资源的重要组成部分[1-2]。数字图书馆的基础信息是数字信息资源,这些资源一部分来自于图书、期刊、报纸、音像等传统文献的电子版,还有一部分来源于各种数据库和互联网[3-4]。20 世纪70 年代初,联机公共检索目录(Online Public Access Catalog,OPAC)诞生,这是最早的因特网馆藏资源远程检索工具。但随着网络资源信息的爆炸式增长,各高校、公共图书馆、政府情报部门等单位的数字图书资源不断涌入网络,数字资源的形式也由单纯的文本信息向多媒体形式转变。因此,信息资源的数字化、信息形式的多媒体化和信息存取的网络化成为了数字图书资源信息的显著特点。在这种趋势下,如何快速地检索出有效信息并提升读者的用户体验,成为了目前的研究热点之一。

1 理论分析与方法架构设计

1.1 数字图书信息检索流程

优化、提升图书信息检索效率的关键在于梳理清楚信息的检索流程,图1 所示为本文梳理出的用户在进行信息检索时前端和后端的业务交互流程。

图1 数字图书信息检索流程

如图1 所示,为了实现数字图书信息的检索,在采集完所有的图书信息后,首先进行海量的信息存储;然后,为了便于用户的检索,需要实现信息的自动化标注;随后用户通过相关检索系统的查询接口,利用索引词在系统中通过标注得到所需的信息[5-7]。综上所述,数据信息的自动化标注是实现信息快速检索的关键。因此,文中主要对基于人工智能理论的自动化标注方法进行研究。在设计图书信息的检索算法时,基于现有理论进行优化与改进可以提升设计效率,故本文在信息标注时,引入了相似度作为深度学习模型的特征。对于多媒体信息,可以从图像属性相似度、文本相似度以及参与检索的用户相似度方面进行分析[8-10]。

图像相似度主要是指采集的图书图像信息在采集时间、地点、类别、文本描述等相关属性信息上的相似度,具体计算公式如下:

式中:a、b分别代表两个采集的不同图像;PP、PT分别为基于属性和文本描述的相似度;w1、w2分别为其权重,且满足:

文本相似度主要用于评价所采集的数字图书相关描述信息的相似度,其计算公式如下:

式中:T1、T2分别是两条待比对的文本;DIS 为文本的编辑距离,该距离通过计算一个字符串转换到另一个字符串的最小操作数来评估文本的相似性;len(·)为文本长度的计算函数。

用户相似度则是指用户进行检索时,可以根据用户对于某时间的关注度、对于某领域的兴趣进行快速推荐,从而提高检索效率。其具体计算公式如下:

式中:u、v分别代表两个不同的用户;SL、ST、SF分别是用户的位置、标签和社交信息的相似度;w1、w2、w3分别是各自的权重。w1、w2、w3的关系为:

当得到信息的总相似度后,若直接根据数据库已有的标签对其进行标注则可能会引入错误标注,降低信息标注的准确性。因此,文中采用TF-IDF 作为标注降噪的标准[11-12]:

式中:Ti为算法生成的标注;Ni表示Ti在相似标注中出现的频次;N为所有相似标注的总和;Di为Ti的逆文档率。本文算法为所有生成的标注设置了一定的TFIDF 阈值,当低于阈值时,数据库中将不再保留算法生成的标注。

1.2 基于区域划分的信息标注方法

在进行数字图书多媒体信息标注时,如果仅采用1.1 节所述方法,则可能存在原始数据库中无相似信息的情况,此时就会出现待标注的信息本身不够丰富或者无法完成标注的情况。为此,本文针对图书的图像信息,引入了RCNN 网络[13-14]选取图像的最相关区域:

划分区域的RCNN 网络框架如图2 所示。所设计的RCNN 网络包含两个通道,其中左通道对主要区域进行标注,右通道对候选的次要区域进行标注。在进行特征提取时,主要使用卷积和全连接运算,其中Score 运算的定义如式(8)所示。叠加后,通过Softmax 层确定该信息的具体标注:

图2 划分区域的RCNN 网络

式中:s为当前待识别的数字图书图像信息;S为信息的标识集合;I为区域r中的特征向量。

模型在训练时,基于误差的反向传播思想,使用梯度下降法实现训练[15],定义模型标识时所采用的损失函数为:

2 算法实现与测试分析

2.1 仿真实验设计

为了评估模型的性能,本文从某高校图书馆的数据库中导出了现有数字图书的图像信息作为数据集进行验证仿真,表1 为图像的类别及数量信息。

表1 数据集中数字图书信息

为了评估模型在进行信息检索时的识别准确度,采用准确率P和召回率R作为评价指标。提取信息特征的网络由多个卷积层与池化层组成,文中以目前业界较成熟的两个网络ZF-Net 和VGG-16 作为特征提取网络,网络的区别如表2 所示。

表2 ZF-Net 和VGG-16 的网络特征

通过对比两个网络的性能和适用场景,本文选择VGG-16 作为特征提取网络。在使用时,主要利用其全连接层之前的结构,具体的网络参数如表3 所示。

表3 VGG-16 的具体参数设置

文中的特征提取网络包括13 个卷积层和4 个池化层,卷积层中使用ReLU 作为激活函数,网络中所有的卷积运算使用的卷积核尺寸均为3×3,训练参数如表4所示。

表4 VGG-16 的训练参数

信息经过特征提取网络后,被划分为3 个通道,其中一个是所设计的RCNN 候选框调整网络,另外两个通道的结构如表5 所示。

2.2 仿真结果分析

首先评估算法在单纯依靠相似度时对于图书信息的标注效率,计算结果如表6 所示。

表6 基于相似度的信息标注结果

从表6 中可以看出:通过文本的方式对数字图书信息进行标注时,由于采集的文本信息夹杂了大量与图书信息不相关的内容,导致正确标注刚刚过半;单纯引入多维相似度标注方法时,由于未经过降噪,因此也会生成不相关的标注,这反而恶化了实际的标注效果。在对已标注的信息进行TF-IDF 降噪后性能明显提升,相比基于文本的传统信息标注方式,其准确率提升了0.121,召回率提升了0.291。图3 给出了不同相似度时准确率的变化趋势,可以看出本文引入的相似度指标与标注的准确率呈正相关,这证明了多源评价指标体系的可行性。

图3 相似度与准确率的关系曲线

随后对引入RCNN 网络的标注方法进行评估,记k为次要区域的个数,对模型在不同k取值时进行训练,所得到的P值如表7 所示。

表7 不同次要区域下的训练准确率

当k=0 时,RCNN 网络和普通的CNN 网络结构相同。当k取值增加时,P随之增加。当k=6 时,P取得最大值,因此文中选取k=6。此时,训练完成的模型在测试集上得到的准确率如表8 所示。

表8 不同算法在测试集上的准确率

由表8 可以看出,引入RCNN 网络后,多源信息相似度标注方法的精确度有所提升,证明了多区域信息特征提取的必要性。此外,相较于现有OTC、Mop-CNN、ImageNet-CNN 等人工智能网络,在本算法框架下,准确率分别提升了0.372、0.093、0.201。

3 结 语

针对当前数字图书信息的检索问题,本文研究了基于融合数据的信息标注方法,通过提升信息标注的准确性,优化图书信息的检索流程,降低了用户在信息检索时的消耗,并提升了在线查找时的用户体验。仿真结果表明,本算法可以有效提取多媒体形式的数字图书信息特征。随着数字图书资源的不断丰富,所提算法将有更为广阔的应用前景。

猜你喜欢
数字图书特征提取检索
区块链在数字图书侵权中的司法救济作用分析
数字图书回顾与反思
2019年第4-6期便捷检索目录
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
专利检索中“语义”的表现
数字图书营销方法探究
基于MED和循环域解调的多故障特征提取
数字图书加密措施与密钥管理
Walsh变换在滚动轴承早期故障特征提取中的应用