图书馆公众号中基于语义关联的馆藏互联模型研究

2022-09-05 09:49吴鑫宇
广西教育学院学报 2022年2期
关键词:标引馆藏关联

吴鑫宇

(广西民族大学管理学院,广西 南宁 530006)

近年来,微信成为人们日常生活沟通与娱乐不可或缺的软件。据腾讯网发布的2021年第一季度财报显示,截至2021年3月21日,微信以及Wechat的合并月活跃账户数已达到了1241.6万人,同比去年增长了3.3%[1],并且,越来越多的人开始使用微信公众号进行阅读或接受服务。微信公众平台所具有的泛在化的服务模式、多媒体信息推送与丰富的平台功能,成为“互联网+”时代图书馆开展服务的重要阵地[2]。使用微信进行图书馆服务解决了图书馆传统线下交流的滞后性弊端,为用户提供了可以自由交流的平台,用户可以自由地在平台上进行提问、回答、浏览等活动,同时还有效满足了其即时交流的需求[3]。随着国内微信公众号的使用人数越来越多,国内许多图书馆纷纷开设自己的公众号为读者服务,常见的服务功能包括座位预定、馆藏查询、在线阅读,等等。同时,由于人们生活节奏的不断加快,不少读者为了节约时间,会选择通过使用微信公众号先选择好自己所需的图书,并查询该图书的在库情况,再到图书馆借阅或借出图书,这样一来读者可以最大程度地利用自己的碎片时间获取图书信息资源,省时省力。

但目前微信公众号内的馆藏互联情况却不甚理想,许多图书馆公众号内的馆藏信息像一个个隔海相望的孤岛,其相似推荐功能无法很好地给读者提供服务,不便于读者利用。由于在微信公众号中,语义关联越强、信息组织越紧密的超文本越能实现关键信息的高效提取,满足话语受众需求,从而使图书馆获得更多的话语权[4]。因此,使用语义关联来进行图书馆公众号的馆藏互联研究相当有必要。

一、国内研究现状

(一)国内图书馆公众号相关推荐功能现状

经查询中国国家图书馆、武汉大学图书馆、广西壮族自治区图书馆与广西民族大学图书馆等图书馆的公众号后发现,这些图书馆公众号内馆藏书籍的关联性并不理想。例如在网页端的中国国家图书馆网站上搜索某一本书并进入该书籍的详细信息界面,书籍信息的侧方会出现与该书籍关联度较高的相似书籍推荐,这便是图书馆网页的相关推荐功能,其目的是深化馆藏的利用而对读者提供的服务。利用这项服务,读者可以在线上查阅与这本书相关的其他书籍,就像在线下图书馆查看一个书架上某本书的相邻有关书籍一样。但是,在各个图书馆微信公众号中,它们的相关推荐的功能却不甚理想,且书籍、文献之间的关联度较弱。例如广西民族大学图书馆微信公众号中的相关推荐功能会时常出现关联错误的情况:在广西民族大学图书馆微信公众号内使用检索词“阅读推广”进行检索,选中第一篇文献,出现的相关推荐书目推荐第1本是一本童话故事,剩下3本是古籍,这些书籍跟文献与阅读推广是毫无关联的。而中国国家图书馆的微信公众号甚至没有相关推荐的功能,点入查询的某本书的相关内容内只有书籍的在库情况信息。经查询中国许多著名公共图书馆与高校图书馆的微信公众号后发现,这些图书馆的一些服务,如书籍在库查询、座位预定、阅读推广等,往往做得很好,但在相似书籍推荐这方面却不尽理想。随着人们生活节奏的加快,读者不一定能够经常前往图书馆查询某一类的书籍,而读者自己的信息需求可能会因为个人信息素养的不足而无法表达出来,这时候,图书馆在其公众号提供基于语义关联的相关推荐功能是非常有必要的。

(二)语义关联的应用

图书馆的资源可以通过语义关联的技术将馆内的馆藏根据语义关联度的高低联系在一起,以实现馆藏的优化利用。读者在线上查询某本图书时,可以通过图书馆的语义关联技术很快查询到与之关联的其他图书,使读者对图书馆的使用更加方便。图书馆所应用的语义关联主要体现在名词上,即名词性语义关联,其主要表现于名词的词义表达。一般使用义素分析法对表述名词进行义素分析,并找出能反映其特征的义素,义素可以是原语或概念。形式上,一个名词可以表述为:名词→[C]+d+m+[f]+Cp。C是有关该名词的语义场信息,C由两部分组成:场名和场类,即C→〈场名〉+〈场类〉。f则是该名词所表概念的组成,即其外延,由原语式概念组成。C,f主要是为了反映概念间的联系性,C表示同一语义场内各概念间的关系,f反映下位概念。d,m是实际性的东西,是在义素分析基础上对该名词概念的特征描述,d是定义性特征相对于概念中“属”的东西,m则是描述特征相对于同一语义场内的名词。Cp为该名词的格潜力序列,体词可以充当许多格角色,将它所起的格角色全部列出,并按习惯用法置入有序表中,称之为格潜力序列[5]。并且,可以通过语义关联度对正文语义进行检索,语义关联度是对每篇文献或资料抽取几个“关键字”,以便在一定程度上用这个“关键字”的集合来近似地表示原文的语义,实现在一定程度上的关联。它可作为检索的条件,或可作为分类的依据[6]。由于在元数据标引语言的文档树中,某个节点与其祖先节点都能匹配关键词,因此在进行予语义相似度计算时,节点应能直接匹配关键词[8],使得每一个节点都能与自己拥有相同关键词的节点进行关联,以实现图书馆公众号内的馆藏互联。

因此,作者基于语义关联对图书馆微信公众号的相似推荐功能进行研究,从元数据标注层、语义解释层、语义存储层与实际应用层进行设计,形成研究模型,以优化图书馆的馆藏利用,提升图书馆的服务。

二、馆藏互联模型设计

(一)图书馆的元数据设计层面

由于受到软件功能方面的限制,微信公众号无法存储大量的数据,因此在图书馆公众号中的许多有关资源利用的功能都需要先访问图书馆的数据库,数据库返回信息后再向用户提供服务。所以,图书馆在进行数据库设计时,需要一个统一的标引语言进行标引,以达到各个应用层都能识别而不会出现无法识别或者识别出乱码的情况。常见的符合自身资源特征的元数据标准有都柏林核心集(DC)、机器可读目录(MARC)与可扩展标记语言(XML),等等,并在统一的RDF框架(资源描述框架)中描述出来。资源描述框架是20世纪90年代末万维网联盟推出的一项标准框架,其初衷是为了描述网络上的资源,如某个网站上的网页的发布时间、作者、点击数,等等。在网络资源的定义泛化后,RDF描述的对象也开始被无限扩大,现在所有网络上的数据都能够被RDF描述了[8]。由于RDF有很好的描述性,可以描述网络上几乎所有的数据,因此,图书馆利用RDF框架,可以将馆内的馆藏资源系统、全面地描述出来。所以在进行模型设计时,图书馆应当使用统一的RDF框架进行描述,为关联推荐的方案提供实现机制。个别示例如下:

如元数据描述的作者类别属性值为“A”,则可以表述为:

如若某论文作者为马费成,则元数据描述的作者属性值为“马费成”,可以表述为:

(二)图书馆的语义解释层设计层面

本文对图书馆语义解释层面的设计分为2种形式混合的标引方式,其中一种是机器标引,另一种是手工标注。首先,应对图书馆数据库内的书籍与文献进行机器自动语义提取与采集,在经过技术馆员设定各个标准后,由计算机自行判断资源的类型与资源的各个属性值,之后机器再自适应地链接到相应的语义标注机,语义标注机根据不同的馆藏类型选择合适的语义进行标注,最后在服务器上存储标注的语义内容。由于机器标注已经能够将大部分馆藏准确标注,所以先进行机器标注的原因是机器标注可以最大程度地减轻馆员的工作负担,减少馆员的工作压力。但目前机器标注还具有一定的局限性,对于部分机器无法准确识别并标注的馆藏,则需要馆员进行手工标注。这要求馆员先对比书商给出的书籍标注与机器标引后的结果,再根据自己的知识与经验,对该部分馆藏进行深入标注。同时,馆员将标注后的馆藏文献反馈到系统中。同时,这也是一个机器学习的过程,待语料库内的预料资源足够丰富,机器学习成熟到一定的阶段,机器标注的准确性将达到一个很高的水平。在这种情况下,图书馆员将只需要进行小部分的手工标注甚至不需要进行手工标注。

值得说明的是,一篇文献的语义元数据并不能仅仅通过文献的名称信息或者关键词信息进行简单地标注,还需要对文献的本身内容进行深入的知识挖掘。例如:查询罗贯中写的《三国演义》可以关联到陈寿所著的《三国志》,这是因为这两本古籍名称都有“三国”二字,程序可以将具有相同书名关键字的馆藏联系到一起,供读者在进行馆藏选读时做辅助参考。但是,如果用户搜索孙膑所著的《三十六计》,则难以关联到孙武所写的《孙子兵法》,或是诸葛亮所著的《兵法二十四篇》。从书籍的属性上来说,这3本书都是兵法书,理应互相关联。因此,对语义元数据的知识化深度标引是十分必要的。

在知识层面建立语义关联需要对图书馆的馆藏语料库进行深度挖掘与统计,找寻在不同资源的语义内容并分析其共现频次,一些机器难以标引的内容需要馆员进行手工标注并对机器进行训练,以达到最终实现机器完全自动标引的目的。

例如,根据国家的新文科建设及“十四五”开局的部署规划,图书馆应及时转变自身陈旧的“数字化转型”认知观念,明晰新时期图书馆数字化转型的内涵与要求,积极响应国家的号召,以实现新时期的图书馆数字化转型[9]。目前,国内已经有许多图书馆人注意到了数字化转型的重要性并展开研究。在下载率很高的新文献中,由于篇名与关键词中都未出现“数字化转型”的字眼,《新冠疫情下美国大学图书馆馆藏图书的在线访问——受控数字借阅》[10]这篇文章却难以直观地反映出该文章是关于图书馆数字化转型的论文。按照现有的相关书目推荐系统,该文献难以与其他数字化转型主题的馆藏相互关联,当用户在查询有关“数字化转型”文献时,该文献容易成为漏网之鱼,最终造成用户的信息需求得不到很好的满足。通过去除该文献中的虚词以及无意义的实词后,对该文献进行深度标引以及语义分析可以发现,该文献词频较高的关键词如图1所示。可以看出图书馆、数字化、数字、转型都为该文献的高频词,即使文献的名称与关键字中都未出现“数字化转型”等字眼,通过深度标引及语义分析后,该文献依旧可以被识别出其关键信息,并加上“数字化转型”的标引。因此,在深度标引后,该文献便可以与其他数字化转型的论文相互关联。

图1 词频分析图

同理,也可以对《三十六计》《孙子兵法》与《兵法二十四篇》进行深度知识标引,将文献类型标引为标记语言的<古籍><兵法>等,以实现并加强书籍之间的互相关联。

(三)图书馆的语义存储层设计层面

语义存储层指的是将语义解释层标注后的文献信息以规定的格式储存到图书馆的数据库中,供实际应用层进行访问。图书馆一般使用通用的XML语言对馆藏的元数据进行标引,因此本文以XML语言为例对储存层面的设计进行举例说明。需要说明的是,一个能够良好运行的系统需要统一的语言进行编写,否则运行时系统会出现许多麻烦。因此,语义存储层必须从头到尾都使用同一种标引语言来进行编写,否则在进行统一存储后会出现馆藏信息无法识别的情况,进一步导致用户的体验降低,读者的信息需求得不到满足等缺陷产生。并且在整个系统完成后,其修改的过程也比较烦琐,如果是用了好几种不同的标引语言进行编写,则需要技术馆员花费大量的精力修改不一致的编写语言,甚至会出现整个语义存储层都要重新编写的情况,费时费力。

使用XML语言进行编写的示例如下:

(四)图书馆公众号的实际应用层设计

图书馆公众号的实际应用层指的是用户在使用图书馆公众号时直接使用的界面。与其他界面不同,用户可以直接看到实际应用层的设计部分,因此,该部分设计的好坏能够直接影响到读者的用户体验。图书馆公众号的界面需做到简洁、有序,且栏目的设置要清晰、明确。在注重内容的同时,还要加大力度做好编辑美化工作[11]。在设计图书馆公众号的书目详细资料界面时,应设计得得体、美观。由于受手机屏幕为长方形的限制,将相关推荐的分栏如主机端一般放在馆藏信息的右侧将会使馆藏信息变得过长,影响界面美观及阅读体验。因此,相关推荐分栏应放在详细书目信息的下方。资料界面应当设计简洁,不宜过于复杂,相关的馆藏推荐应控制在8个以内,可以以语义关联度的高低排列出现,也可以根据图书馆各自的考量自行安排。出于美观的考虑,相关推荐设计的数量不宜为单数。相关推荐处可以使用查询语句对图书馆的数据库进行访问,再由数据库发回信息反馈给读者,如:

SELECTFROM图书馆数据库

各图书馆还可以根据自己的理解对关联信息语义元数据进行不同的加权,使得相关推荐的书目更加合理,如…等等。

整个模型的设计结构为先将馆藏资源通过机器标引或人工标引,再通过深度的知识挖掘与语义关联分析进行解释,最终进入语义存储层,以上是图书馆数据库层面的部分。接下来存储层根据应用层发出访问要求返回数据,最终将信息传递给用户。总体模型设计图如图2所示。

图2 馆藏互联模型图

三、结语

目前国内图书馆的微信公众号使用人数越来越多,越来越多的读者开始使用公众号接受图书馆的服务。在“互联网+”的环境下,年轻人大部分时间都是用手机和电脑进行阅读,用手机在微信群里阅读朋友圈的分享信息链接,浏览新闻等成了休闲阅读最常见的方式[12]。因此,图书馆的公众号建设变得愈发重要。然而,图书馆公众号内的馆藏信息存在着馆藏关联性弱的问题,当用户在搜索某一个类型的文献时,单个馆藏难以或无法关联到其他相似的文献。这种情况的出现不利于馆藏的合理利用,也使得图书馆未能向用户提供细致、便捷的服务。因此,图书馆可以通过对语义的挖掘来将相似馆藏连接起来,在读者搜索文献时能够辅助读者找到自己最想要的文献。本文基于语义关联建立了一个针对微信公众号的馆藏互联模型,从元数据标注层、语义解释层、语义存储层与实际应用层进行设计,图书馆公众号可以向统一标引语言的图书馆数据库发送请求信息,待信息返回后将关联的馆藏信息呈现给读者,最终实现优化馆藏资源的利用与更好地为图书馆用户服务的目的。

猜你喜欢
标引馆藏关联
馆藏
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
博物馆的生存之道:馆藏能否变卖?
“一带一路”递进,关联民生更紧
档案主题标引与分类标引的比较分析
知还印馆藏印选——古印篇
奇趣搭配
智趣
大数据时代数字资源的主题标引研究
关于关键词标引的要求