赵夕姝
(南京图书馆 江苏南京 210018)
随着云计算和人工智能技术应用领域的不断推广,人们的生产生活方式得到了极大的改变,与此同时,围绕服务人们生产生活的各类数据资源量呈几何级数增长,大量数据资源得到积累[1]。就图书馆馆藏资源而言,也面临着大量的数字资源堆积问题,这些数字资源由于存在数据类型、数据结构、物理存储位置等差异和不同,导致数字资源间关联性较弱,不利于图书馆馆藏资源管理和资源检索[2]。本文将知识图谱引入图书馆馆藏数字资源管理与检索系统,建立了不同类型、结构数字资源的关联关系,理顺了数字资源间的逻辑层次,在方便图书馆馆藏数字资源存储的同时,提升了图书馆馆藏数字资源系统检索能力。
当前,图书馆馆藏数字资源涵盖的领域较广,不仅包括书籍类资源,还包括名家讲座、期刊杂志、新媒体等数字资源,资源类型众多,资源结构不尽相同[3-4]。因此,对图书馆馆藏数字资源管理及资源检索提出挑战。通过利用知识图谱,可以将不同数字资源知识单元串联起来,形成清晰的知识脉络,有效解决了不同数字资源的无序化存储,提高了图书馆用户资源检索的精准性,同时还满足了不同用户的个性化、多样化需求。
随着信息化技术的不断发展,大量应用系统被引入到图书馆领域,在方便图书馆日常管理服务的同时,积累了大量数据资源[5]。这些资源的存储方式相对单一,大量占用了图书馆物理存储空间,同时对图书馆馆藏数字资源检索效率提升提出挑战。知识图谱打破了数字资源传统关联特征,通过深度挖掘不同数字资源描述特征信息,建立了数字资源知识单元逻辑关联,形成了不同数字资源清晰的知识脉络。这种知识脉络使数字资源间联系更为紧密,便于图书馆按照相应关联管理对数字资源进行存储,并且提高了馆藏数字资源的科学管理能力和水平。
随着用户多样化、个性化需求的日益增多,图书馆在适应这一转变的过程中,积累了大量用户个性化需求数据信息。这些数据信息反映了不同用户的需求习惯特征,只有深入研究这些特征信息,才能从根本上掌握用户个性化需求习惯[6-8]。知识图谱可以从用户海量需求特征信息中发掘出用户的爱好、兴趣、主要关注领域等信息,同时建立这些特征信息的关联关系,形成图书馆用户信息图谱[9]。用户知识图谱的建立是图书馆提供个性化服务的关键,图书馆通过用户信息图谱可以精准掌握用户真实需求,并将相应的馆藏数字资源推荐给用户,在满足用户需求的同时,切实提升了图书馆个性化知识服务水平。
当前,人们生产生活节奏逐渐加快,如何提高用户获取资源效率成为图书馆需要研究的重要问题之一。通常,用户使用图书馆系统获取检索资源信息为树形或者目录式,包括标题、摘要等内容,不能体现资源信息间的关联关系及关联匹配程度[10]。知识图谱可以将图书馆馆藏数字资源按不同主题单元进行知识单元串联,所串联的知识单元间内在逻辑关系明显,图形化的展现方式使资源脉络更为清晰,资源浏览更为直观。也就是说,当用户使用图书馆进行资源检索时,系统会将检索内容以知识全景图的方式向用户进行展示,切实提高了图书馆馆藏数字资源的检索服务能力和效率。
图书馆馆藏数字资源内容丰富、种类较多,通常来讲,馆藏数字资源包括用户信息、图书文献资源、学科知识信息、资源机构信息、业务知识信息、场景资源等,知识图谱可以对上述数字资源信息进行处理,绘制对应的知识图谱,如图1所示。
图1 图书馆馆藏数字资源知识图谱构成图
图书馆是一个面向大众的公共服务场所,用户对象数量庞大,身份层次、工作岗位各不相同,这些用户可能在某些兴趣、爱好、习惯上相同;每位图书馆用户都有着属于自己的工作生活交际圈,这种人与人之间的关系可以将不同用户进行关联。基于此,以用户社交关系和兴趣爱好为主题可以建立用户信息图谱,直观系统展示用户间的关系特征,提高图书馆对用户的深层次认知。
图书馆馆藏图书文献资源种类繁多、类型各异,传统资源存储方式是建立在领域关联的基础上。也就是说,将同领域的图书文献资源进行关联并集中存储。然而,图书文献资源特征信息还有很多,比如关键词、作者、出版社等。单一关联主题并不能真实反映图书文献资源的关联关系,只有更多地考虑资源特征信息,才能更加精确地展示资源信息。通过建立图书文献关键词图谱、作者图谱、领域图谱、出版社图谱,进而绘制逻辑清晰的图书文献资源图谱,使图书馆馆藏图书文献资源系统化、有序化。
通常来讲,图书馆是一个综合性的资源服务平台,这一平台数据资源丰富,涵盖了工科、理科、医学、法学等多个学科领域的资源信息。学科不同,资源信息特征也不同。以学科特征为主题,建立图书馆学科知识信息图谱,可以帮助图书馆深入系统地挖掘不同学科的知识特点,在方便图书馆馆藏资源存储的同时,为向用户提供便捷的学科知识服务奠定基础,同时这将在很大程度上提升图书馆特色学科资源服务能力和水平。
资源机构是图书馆馆藏资源的重要来源,这些机构有些是面向大众的、具有公益性特征的机构,如城市档案馆等;有些是面向专业领域的、经营性机构,如高校图书馆、科研单位、杂志社等。不同机构资源应用也不同,有些侧重于科研研究,有些侧重于理论教学,还有些侧重于智库服务。资源机构信息图谱将不同资源机构进行关联,使其内部资源信息间建立某种关联,这种关联不仅包含了机构特征信息,而且还包含了资源需求、使用特征,这将为图书馆开展有针对性的服务奠定基础。
业务知识能力是图书馆服务能力和服务水平的决定因素,只有较高的业务知识能力才能适应当前用户多样化、个性化的检索服务。图书馆业务工作主要包括资源信息采编、收录资源宣传、信息咨询、知识推荐等,每项业务工作都需要精深的业务知识来支撑。建立业务知识信息图谱主要目的是将经验化、碎片化的业务知识进行整合,形成具有条理性、系统性特征的图书馆业务知识信息,方便业务知识信息的共享,进而提升图书馆业务工作能力和工作效率。
场景资源是一种包含图书馆内部物理结构、位置信息的资源信息。随着智能化技术应用的不断推广,智慧图书馆成为图书馆未来发展的方向。在智慧图书馆建设过程中,场景资源能够为系统提供用户的位置信息、物理状况等,方便系统及时捕捉用户需求变化。场景资源图谱是将场景概念引入知识图谱,细化图书馆场景信息,辨识用户在不同场景下的资源需求,进而梳理出与用户场景信息相匹配的资源需求信息。
知识图谱是对图书馆馆藏数字资源的再加工,其在图书馆中的应用可以分为知识提取、知识表示、知识聚合和知识推理这四个方面。
图书馆馆藏数字资源的知识提取主要包括资源数据信息提取、资源关系特征提取和资源属性特征提取三个部分。资源数据信息提取主要是提取资源来源机构信息、资源名称、资源关键词信息、资源发布时间等;资源关系特征提取主要是提取资源信息间的内在关系、逻辑联系,如同一作者发表的不同文章间的关系特征,一篇文章中题目名称、作者、出版社、关键词等之间的关系特征;资源属性特征提取主要是提取资源本身所包含的资源大小、资源类型等信息。这三个部门不是独立存在的,而是一一对应的关系。基于知识图谱的图书馆馆藏数字资源是对不同来源资源、不同结构资源进行数据特征提取,形成具有特定逻辑关系的数据知识,并存储到图书馆知识图谱数据库中。
数据资源的表示方式有多种,通常来讲主要包括三元组表示法、分布式表示法和复杂关联表示法。针对图书馆馆藏数字资源无序化、离散化特征,本文采用分布式表示法对图书馆馆藏数字资源进行知识表示。该方法不仅能够对资源内容进行表示,而且可以准确的将资源内在关系特征进行展示,例如可以表示资源作者与用户、作者与资源、用户与资源、资源与资源等关联关系。资源内在关系特征往往不是单一存在的,通常有多个关系特征,甚至不同关系特征存在交叉关联。通过知识图谱的知识表示功能,可以将图书馆馆藏数字资源信息内容、内在关系系统清晰地向用户、管理者展示,方便对资源有深层次的理解。
知识聚合是对知识提取数据信息的再处理。知识提取后的数据信息往往具有多样性、重复性特征,知识聚合可以通过执行统一规范,剔除多样性、重复性数据信息,并开展资源数据对齐、提取数据关联关系推演等操作,将处理后的提取数据进行聚合,形成一个完整的数据体。在知识聚合过程中,预处理是关键步骤,它是利用函数关系将目标数据做分块预处理,剔除无用、重复信息。负载处理是将预处理后的数据与原数据信息进行比对,计算两者间的相似程度,并建立相应链接。关系推演是验证数据是否失真的重要环节,推演结果对知识聚合起决定性作用。知识聚合可以将关系特征复杂的图书馆馆藏数字资源进行深度聚合处理,从而反映图书馆馆藏数字资源内在的关系特征规律,为资源更好利用提供重要参考依据。
知识图谱的知识推理过程是潜在关联信息发掘的过程,图书馆开展知识推理可以发掘出馆藏数字资源潜在的关联规律信息、潜在的知识点,经过该过程所得到的知识将被作为新的资源信息进行存储。知识图谱的知识推理主要包括了逻辑推理和图形推理两种,逻辑推理相对简单,它是在现有资源数据基础上,依据数据逻辑关系推导出新的数据关系信息;图形推理是一个复杂过程,它将现有资源数据表示为不同的数据节点,通过节点间路径推理推导新的数据关系信息。知识推理是基于知识图谱的图书馆馆藏数字资源管理与检索系统的核心环节,它可以很大程度上提升图书馆对用户需求的精准掌握,进而提升图书馆检索能力。
本文将知识图谱应用在图书馆馆藏数字资源中,不仅可以建立资源间深层次关联和系统化联系,有效提升了图书馆馆藏数字资源管理和检索能力,而且通过知识推理可以形成新的知识点或知识单元,进一步提升馆藏数字资源的内在价值。基于知识图谱的图书馆馆藏数字资源管理与检索系统主要由图书馆馆藏数字资源存储层、图书馆知识图谱层和图书馆用户交互平台层三部分组成,如图2所示。
图2 基于知识图谱的馆藏数字资源管理系统框架
图书馆馆藏数字资源存储层是图书馆资源管理与检索系统的基础,该层中存储了大量的数字资源,这些资源有的来源于城市档案馆、城市书屋等公益性机构,有些来源于高校图书馆、科研单位、杂志社等经营性机构,包含了大量子数据库,每个机构资源可能由几个子数据库存储。
该层是图书馆资源管理和检索系统的核心层,它可以将图书馆馆藏数字资源存储层中数字资源进行再加工,以系统化、可视化的形式展示资源间的内在逻辑。同时,该层的知识推理功能还可以在原有数字资源的基础上,推理生成新的数字资源,以便丰富图书馆馆藏数字资源库。
用户交互层是图书馆获取用户需求信息的主要平台。该平台的主要作用是建立图书馆与用户的数据信息互通。图书馆将在该平台获取的用户需求信息传输至图书馆知识图谱层进行分析和数据信息图谱检索,利用多个主题知识图谱来精确用户需求内容,并在图书馆馆藏数字资源层中检索初始资源,最终通过交互平台向用户展现检索结果。该平台功能较多,不仅包括资源检索,还包括资源收藏、索引、下载等功能,方便图书馆用户日常使用。