现代数字图书馆的个性化信息检索研究

2023-04-29 12:52:18董志娜
信息系统工程 2023年7期
关键词:信息检索数字图书馆

董志娜

摘要:现代数字图书馆作为信息融合中心,是各类信息资源的关键载体,如何实现信息高效利用备受关注,并成为现阶段极为重要的课题。为此,基于数字图书馆信息检索的研究日益深入,尤其是为适应用户多元化信息检索需求,一种个性化信息检索服务被提出和应用。结合数字图书馆个性化信息检索,探讨该系统服务的关键技术、设计与实现,通过技术阐释、模块分析和系统结构等研究,为数字图书馆服务进阶提供有益参考。

关键词:数字图书馆;信息检索;智能Agent技术;信息过滤

一、前言

数字图书馆是时代变革的产物,为适应数字技术发展和应用特点,数字图书馆改变了传统信息采集、存储及服务方式,实现数字图书馆运行的品质化升级,使得信息服务功能愈发丰富,满足了各领域对信息资源应用的迫切需求。但数字图书馆信息资源的丰富,除了缓解信息供求矛盾外,也会带来一定的挑战,即普遍存在的信息检索问题。目前,数字图书馆的信息检索方式,普遍是运用常规的信息检索引擎,虽然满足大部分用户的基础需求,但在智慧化时代的背景下,始终缺少个性化的服务体验。为实现数字图书馆信息检索服务优化,个性化信息检索被广泛提及,更成为未来推动服务升级的关键所在。

二、数字图书馆的个性化信息检索概述

(一)数字图书馆的发展

1991年,美国国会图书馆正式提出“数字图书馆”的概念,成为全球数字图书馆发展的先驱。所谓“数字图书馆”即在数字化时代,利用计算机、网络等信息技术手段,将实体图书馆的文献、资料、信息等数字化处理,并通过网络形式提供给用户使用的一种新型图书馆[1]。

数字图书馆的发展历程中,包括了多个里程碑事件,为数字图书馆的全球发展奠定了基础。如1993年,加州大学伯克利分校的Alexandria数字图书馆计划启动,标志着数字图书馆正式进入实践阶段。到了1995年,欧洲的数字图书馆Europeana项目启动,旨在将欧洲各国的文化遗产数字化,提供给全球用户。2004年,中国国家图书馆也顺应时势,启动中国数字图书馆建设工程,实现了信息资源的传播与共享。事实上,数字图书馆极大促进了数字化建设和服务水平,为读者提供了更加便利、快捷的阅读体验,同时也为知识的传播和文化遗产的保护发挥了重要的作用。

(二)个性化信息检索的内涵

个性化信息检索(Personalized Information Retrieval,简称PIR)是指根据用户的个性化需求和兴趣,为用户提供符合其需求的信息检索服务[2]。随着信息技术的发展和互联网的普及,信息爆炸现象愈发严重,用户在海量信息中寻找所需内容变得越来越困难。因此,个性化信息检索成了信息检索技术的一个重要方向,旨在为用户提供更准确、更有用的检索结果。在此过程中,PIR技术通过对用户的兴趣、历史检索记录、社交网络等数据进行分析,构建用户兴趣模型,并利用该模型对文档进行过滤、排序和推荐,以提高用户获取信息的效率和准确性。目前,PIR技术依托其技术创新优势,在电子商务、社交网络、个性化推荐等领域得到广泛应用,具备极大研究和发展潜力。

三、数字图书馆的个性化信息检索关键技术

(一)智能Agent技术

目前,关于Agent技术的概念颇具争议,得到普遍认同的观点由英国Wooldridge博士和Jennings教授所提出,即认为Agent技术属于一个具有自主性、社会能力、反应性和能动性等性质的计算机系统[3]。综合智能Agent技术的特点,包括了智能性、代理性、自主性、机动性、合作性等。在数字图书馆的个性化信息检索中,智能Agent技术属于其中的关键所在,利用Agent技术的基本结构,可以构建起较为灵活的服务网络。基于智能Agent技术的设备层看,由适配器模块、引擎模块、知识模块、库模块、视图模块等构成。

智能Agent技术在实际应用中,通常通过分析用户信息需求,以智能Agent方式启动检索程序,基于用户信息需求分析基础上,自动与数字图书馆服务器对话,并在Web页面实施自动检索、分析和处理,并将所获取的内容依据用户习惯进行转化,再将最终成果向用户提供。这种服务方式改变了以往的机械化应用,使信息检索的体验得到大幅增强。

(二)信息过滤技术

在数字图书馆技术应用中,由于其中涵盖海量信息资源,为快速缩小信息检索的范围,信息过滤技术应用显得十分必要。实际上,信息过滤技术(Information Filtering,IF)属于一种人工智能技术,它会根据用户个性化的信息检索需求和兴趣,从大量信息中筛选出符合用户需求的信息,对数据进行特征提取,例如抽取关键词、提取文本特征、提取图像特征等,以便更好地区分不同的数据类型和内容,以此提高信息检索的准确性和效率[4]。

目前,为适应数字图书馆个性化信息检索要求,信息过滤技术摒弃了传统的检索模型,开始积极拥抱智能化信息检索技术,即利用布尔罗逻辑模型、向量空间模型等实施信息检索,以此满足不同的信息过滤需求或特点。通常情况下,由于数字图书馆的信息源与用户需求并不直接互通,导致用户兴趣难以被挖掘,而信息过滤技术可以介于两者之间完成衔接,即将信息源中的信息过滤给用户,有效攻克信息过载的现象。

(三)信息推送技术

信息推送技术(Push technology)是一种主动向用户推送信息的技术。它能够根据用户的兴趣、历史行为、位置等信息,自动筛选和推送符合用户需求的信息,提高信息获取的效率和便捷性。在数字图书馆个性化信息检索中,依托其检索的主动性、新颖性、及时性特点,为用户提供优质的信息推送服务。

具体而言,信息推送技术的核心是信息获取,当用户在使用数字图书馆信息检索服务时,可以依据自己的个性或偏好定制相关内容,服务器对用户的需求进行存储与处理,并通过信息推送技术在用户需要时,及时向用户推送相关的信息内容,而无需用户重复登录数字图书馆页面,大幅提升了信息检索的效率,并且所呈现的内容也符合用户个性,为用户提供更加精准的信息资源。目前,信息推送技术的推送方式,通常包括频道式推送、邮件式推送、网页式推送、专用式推送等,具体由CGI服务器、用户Aengt和PUSH服务器予以实现[5]。

四、数字图书馆的个性化信息检索的设计与实现

(一)结构体系

针对数字图书馆个性化信息检索需求,在技术应用与设计优化中,主要将其划分为四大层次,即用户、个性化信息检索模块、用户建模模块、用户信息收集模块等,如图1所示。在该结构中,用户信息的收集、加工、整理及储存等功能,通常由用户信息收集模块负责,在完成用户信息采取后针对性建模,形成用户专属的用户模型,以便为用户提供个性化信息检索。另外,个性化信息检索模块属于结构中的核心构成,它可以依据用户的个性化需求,对数字图书馆中多元化信息资源进行处理,并将筛选结合向用户传递[6]。当用户获取相关的推送信息后,可以对服务进行相关度评价,系统将对用户评价进行反馈,并对用户模型进一步优化,从而提升个性化信息检索的匹配度。

(二)系统模块

1.用户信息收集模块

数字图书馆个性化信息检索,核心在于对用户需求及偏好进行收集,以判断用户的信息检索特点。因此,在系统设计中的用户信息收集模块,属于提供个性化服务的基础单元,通常是实现用户的量身定制服务,其中对于用户信息的收集至关重要。

在用户信息的收集方式上,一般会包括诸多方式:

(1)通过网络调查收集。以页面、APP等为基础平台,对用户进行相关需求的调查了解,采取网上问卷、在线调查、征集活动等,全方位采取用户的相关信息及检索倾向,更好地了解用户需求和兴趣。

(2)通过系统自动收集用户信息。在用户登录数字图书馆系统过程中,服务器及后台会实时整理所检索的数据,并利用数据挖掘技术筛选类似信息。在收集中通常会以网页关键词、借阅记录等为主,有效判断用户的信息检索行为。

(3)通过电子邮件收集。在用户与数字图书馆之间的电子邮件往来中,可以收集用户的检索内容,在信息传递中及时收集用户需求,从而分析用户在一段时间内的信息特点,再结合其他要素进行匹配,制定个性化服务的方案。

2.用户建模模块

在有效收集用户的需求信息后,则应将相关数据交由系统进行处理,针对用户的实际需求建模,通过技术处理的方式构建个性化服务模型。比如,根据系统所掌握的用户基础数据和信息偏好,可以从兴趣的维度进行分析,包括用户在某一段时间对何种信息、哪类图书、哪类网页感兴趣,再实施数据的综合处理和分析,以此定义用户的信息检索行为,再结合数字图书馆数据资源,对类似信息进行提取和推送。从用户建模模块的实现而言,需要从不同的维度进行分析和计算,通常需要涉及两种比较成熟的方式。

(1)通过调查关键词计算兴趣度。根据《数字图书馆现状与发展》中对于个性化信息检索的研究,认为用户信息检索关键词与用户的兴趣度具有紧密关联性,即可以通过定量分析的方式掌握其兴趣度[7]。比如,当某用户在一定时间内所检索的关键词,会形成不同的信息端点,而利用这类信息端点可以进行区域连接,所形成的线段及覆盖的区域则为用户的兴趣区域,系统可以根据相关趋势进行分析计算,判断检索词与内容间的关系,再以此为依据向用户提供所需内容。

(2)通过访问时间和频率计算用户兴趣。在针对用户的信息检索兴趣分析时,往往会由于用户访问的随意性,使计算产生一定的误差,但其中也会呈现出某种规律,如用户在访问时会在感兴趣的页面停留更长的时间,或者出现重复访问的情况,这些均可以作为兴趣判断的依据。在实际分析和计算时,可以按照相应的公式 进行计算,其中,节点访问次数用n表示;访问的总次数以N表示;节点访问所消耗的时间以t表示;网页访问的总时间以T表示;访问的节点数用l表示;网页的总节点数用L表示。

从分析与计算的特点来看,其中会受到诸多因素的干扰,如用户访问的时间存在差异,以及网页长度因素变化等,使得系统在用户需求的分析中,每次兴趣度分析均有意义。在计算过程及结果中可发现,当n、t、l的数据越大,则F数据就越大,表明对用户兴趣度的判断越准确。

3.个性化信息检索模块

所谓个性化信息检索模块,即以用户模型为基础向用户提供检索内容及相应策略的模块,重点在于实现检索信息与用户需求的高度匹配,以完成向用户提供个性化信息检索服务的功能。结合个性化信息检索模块的特点,可以在数字图书馆信息检索服务中实现三个方面的功能。

(1)检索矢量的模式转换。即以用户建模模块所提供的信息为基础,利用检索矢量将其信息转化为适应检索引擎的检索提问,用于替代用户直接检索的行为。在具体的技术设计及实现中,为适应当前主流的个性化信息检索模式,仍然采用布尔检索系统的智能Agengt封装策略,其优势在于能够保持良好的稳定性和兼容性,并帮助用户解决繁琐的检索过程,也可以提升系统的检索效率。

(2)聚类用户所有感兴趣的信息。在数字图书馆个性化信息检索中,为适应用户信息检索的需求,可以采取层次式聚类的技术方式,将用户所感兴趣的所有信息进行聚合,为用户提供离线式的信息检索服务[8]。具体而言,即采取有效的定时处理机制,对执行层的相关信息资源进行更新和存储,形成一种行之有效的聚类算法,以数字图书馆中的文档为基础,通过预处理、词分类映射的自组织、词分类映射、文档编码、文档映射的自组织、文档映射等流程,以实现具体的感兴趣信息的聚类工作,从而在海量资源中为用户提取相应信息。

(三)实现结构

现阶段,数字图书馆已经成为一种信息服务新选择,它具备强大的信息资源服务功能,能够满足大部分领域的信息需求。为实现个性化信息检索功能,必须建立起相对完整的技术结构,突出“以用户为中心”的技术服务理念,搭建技术服务框架和功能。其中,用户既是个性化信息检索的执行者,更发挥着对于信息检索服务的反馈作用,可以为数字图书馆个性化信息检索提供客观建议,以进一步优化信息检索服务的功能。当前,结合数字图书馆的个性化信息检索特点,已经形成了比较完善的实现结构,总体由客户端与服务器端进行信息交互,具体实现结构如图2所示。

根据图2的实现结构分析,客户端所承载的功能主要是对用户以及用户信息建模分析,使后续个性化信息检索得以实现。同时,在服务器端主要是以个性化信息检索为核心,对所获取的信息数据加以处理和反馈,保证数据信息收集和应用的准确性,体现出个性化信息检索的功能特点。但在该实现结构中仍然存在一定的缺点,即由于需要收集大量的用户信息,并要求实现用户模型的相互传输,这将导致在信息处理过程中出现隐私侵犯风险。基于目前数字图书馆的个性化信息检索而言,该结构越来越突出合作式的个性化信息检索,更好地发挥了服务器实现的优势,其信息安全风险也得到有效控制,具有极强的实用价值。

五、结语

综上所述,伴随信息时代发展进程加速,越来越丰富的新兴技术被广泛应用,在数字图书馆信息资源服务领域,同样在现代技术的推动下变得愈发完善。个性化信息检索作为一种重要功能,旨在通过简化用户信息检索流程,提升用户数字图书馆应用体验,因此更需要依赖于创新的理念和全新的技术予以支持。本文通过对数字图书馆个性化信息检索研究,有效梳理了个性化信息检索原理和功能,并且能够在其中挖掘更大价值,即通过服务算法及功能模块的扩展,使其具备更丰富的个性化服务功能。特别是在当前信息爆炸的时代背景下,数字图书馆应当加强自身技术创新,结合最新的技术优势及创新服务理念,为用户提供多元化、个性化的信息检索服务,实现数字图书馆发展的全面支撑。

参考文献

[1]吕亚娟.数字图书馆信息检索技术的智能化发展趋势[J].中国科技投资,2022(27):104-106.

[2]吴荣.基于大数据分析技术的数字图书馆信息检索模型设计[J].数字技术与应用,2021,39(5):121-123.

[3]董兰军.“用户导向”理念下数字图书馆信息检索服务的优化策略[J].山西档案,2017(3):100-102.

[4]杨屹.数字图书馆中文本信息检索技术的研究与实现[J].科技创新导报,2020,17(2):243,245.

[5]张小英.Web集成信息检索在数字图书馆中的应用研究[J].价值工程,2017,36(29):202-204.

[6]党小琴.基于本体论的数字图书馆信息检索技术[J].科技通报,2022,38(8):110-113.

[7]张静,刘璐,马玉华.数字图书馆信息检索系统的设计研究[J].科技展望,2017,27(3):8.

[8]张馥郁.论数字图书馆中多媒体信息检索系统的构建[J].信息记录材料,2019,20(12):134-135.

作者单位:中共天津市委党校

猜你喜欢
信息检索数字图书馆
高校图书馆的未来发展模式刍议
医学信息(2016年29期)2016-11-28 09:27:00
浅析“互联网+”时代的图书馆管理
资治文摘(2016年7期)2016-11-23 01:00:24
高校数字图书馆资源整合的初探
商情(2016年39期)2016-11-21 09:27:10
基于云计算的数字图书馆建设与服务模式研究
从谷歌案析数字图书馆对作品的使用行为
医学期刊编辑中文献信息检索的应用
新闻传播(2016年18期)2016-07-19 10:12:06
在网络环境下高职院校开设信息检索课的必要性研究
新闻传播(2016年11期)2016-07-10 12:04:01
刍议数字图书馆计算机网络的安全技术及其防护策略
企业导报(2016年12期)2016-06-17 16:54:31
基于神经网络的个性化信息检索模型研究
地理信息检索中空间相似性度量的一种模糊方法