基于大数据技术图书馆文献资源重组与再造

2022-11-18 03:45潘永红

河南图书馆学刊 2022年10期

潘永红

(河源市图书馆，广东河源 517000)

1 背景

数字信息时代，我国图书馆的数字资源建设步入飞速发展时期，呈现数字资源发展快于数字资源服务能力的现状[1]。同时，图书馆的用户需求也呈现个性化和多样化特征，这就需要图书馆寻求新技术方案以建立新型资源管理系统，以满足用户的新需求[2]。在此背景下，公共图书馆积极探索以用户为中心的个性化服务模式，其实质就是公共图书馆文献资源的重组与再造，高效匹配用户的个性化需求，切实提高服务效率。

公共图书馆进行文献资源重组与再造是文献资源多样性发展和用户需求复杂性发展的必然要求。一方面，由于数字资源开发商在建设数字资源时未按照统一的数据格式标准或采用一些国际标准，导致文献资源呈现多样化特征，期刊文献、会议文献、专利文献等被基于文献类别或信息类型制作成文献资源，公共图书馆则主要通过购买形成各种类型的文献资源库，而因部分文献资源的检索手段存在差异，降低了用户的查询使用效率，因此，公共图书馆有必要重组与再造文献资源，形成统一的服务界面[3]。另一方面，由于用户存在隐性需求和显性需求，他们难以有效辨别自身的有效需求，这就导致用户需求呈现复杂性特征，这就需要公共图书馆立足于用户有效需求，实现文献资源的重组与再造，切实做到精准服务[4]。

公共图书馆文献资源重组与再造就是基于资源优化重新配置文献资源，不仅要求专业性和针对性强，即根据各个知识节点重组与再造文献资源，还要求具备可扩充性和可移植性，即重组与再造的文献资源能够随时填充文献和实现即时多平台共享[5]。在信息化和数字化时代，文献资源的海量化、多样化、复杂化对资源重组与再造提出了新的挑战，而大数据技术能够提高文献资源的处理效率，助力文献资源重组与再造。

2 大数据与图书馆文献资源重组与再造

2.1 大数据

大数据指的是数据集合，该数据集合无法在有限时间内被获取、存储、检索、分享、分析和可视化[6]。大数据具备4V特征，即数据量大(Volume)、数据处理速度快(Velocity)、数据种类繁多(Variety)、数据价值密度低(Value)。大数据技术是对传统数据技术的升级，贯穿数据处理流的各个环节，如数据查询、数据存储、数据分享、数据展现、数据应用等环节。当前，社会已步入大数据时代，这是一个数据驱动的智慧时代，社会各领域都被大数据技术所改变，图书馆领域也受到大数据技术的显著影响。

2.2 图书馆文献资源重组与再造

图书馆文献资源重组与再造是通过对现有数据资源进行关联、重组、加工、再造，从而提高数据资源价值的过程[7]，其中，数据信息资源主要包括存储的文字、图像、视频等各种数字资源。

公共图书馆文献资源重组与再造包括构建与推荐两个层面。构建层面主要是基于某种“情境”对文献资源进行重组与再造，形成学科库、知识库、智库等情境化资源库，情境化资源库是精准化、个性化的文献资源重组与再造结果，能够有效实现数据资源的价值增值。推荐层面主要是基于用户对重组与再造的情境化资源库进行个性化推送，其策略机制是通过用户偏好、用户需求、用户习惯、用户行为等定制各种个性化推荐策略，最终实现精准化推荐。公共图书馆文献资源重组与再造要素见图1。

3 图书馆文献资源重组与再造构建

3.1 文献资源重组与再造模型

公共图书馆文献资源重组与再造是在传统“用户—资源”模型的基础上加入情境，比如位置、时间、需求、偏好，形成“用户—情境—资源”模型，见下页图2。“用户—情境—资源”模型的突出贡献是对用户、情境、资源之间的三元关系进行有效整合，将情境因素引入文献资源重组与再造系统，从而实现为不同情境、不同兴趣的用户推荐其个性化需求信息。在“用户—情境—资源”模型中，资源与情境相关联，情境与用户相关联，情境将用户和资源结合起来，为资源与用户的关联架起桥梁，形成图书馆文献资源重组与再造情境过程。“用户—情境—资源”模型的文献资源服务是三阶段的递进式服务：首先，将用户弱相似关系变为强相似关系，资源弱关联关系变为强关联关系；其次，通过文献资源重组与再造情境产生个性化文献资源集合；再次，结合情境信息和内容过滤，获取与用户的弱相似用户的偏好信息或其历史情境信息，为用户推送适合当前情境的信息。

3.2 文献资源重组与再造情境构建方法

3.2.1 以大数据为基础，基于历史和内容相结合的情境算法。首先，采用大数据技术获取用户的历史偏好和内容；其次，采用大数据技术计算用户在不同情境下对不同文献资源的偏好概率；再次，采用大数据技术测算用户偏好与待测文献资源的相似度，推荐资源属性与用户当前情境最匹配的N个文献资源。在该情境算法中，Context(C)为当前情境，包括位置、时间、天气等；Context(H)为历史情境，是Context(H1)、Context(H2)......Context(Hn)等特定历史时期的集合。

3.2.2 以大数据为基础，基于协同过滤的情境算法。首先，采用大数据技术界定与目标用户某一文献资源相关的m个弱相似用户，并且将这m个弱相似用户的偏好文献资源归入推荐集；其次，采用大数据技术界定与目标用户所有关联文献资源相关的所有弱相似用户，并将所有弱相似用户喜欢的文献资源归入推荐集；再次，根据相似性算法选取与目标用户类似且排名最靠前的N个文献资源并推荐给目标用户。在该情境算法中，如果用户k、j在某个时间段同时查阅了文献r，则用户k与用户j为弱相似用户，文献r为关联文献资源。

3.3 重组与再造文献资源推荐

“用户—情境—资源”模型借助大数据整合与处理技术、语义挖掘和关联技术，实现公共图书馆文献的重组与再造，并将重组与再造的文献资源推荐给目标用户。在重组与再造的文献资源推荐过程中，将区分老用户与新用户，并针对不同用户采用不同情境算法，如：对老用户采用基于历史和内容相结合的情境算法，对新用户采用基于协同过滤的情境算法。具体步骤如下。

3.3.1 针对老用户的文献资源推荐。①初始化。设定目标用户的情境相似度阂值a，以及设定预推荐的文献资源数N。②测算目标用户当前情境Context(C)与历史情境Context(H)的相似度。

其中，Count(C1c)、Count(C2c)....Count(Cnc)表示在历史情境信息Context(H)中出现的频数。分子为匹配频数之和，分母为情境维度与预推荐的文献资源数N之积。③判断情境相似度。如果目标用户当前情境Context(C)与历史情境Context(H)的相似度大于阂值a，则直接计算用户兴趣度，否则引入位置、时间天气等情境计算用户兴趣度，否则则引入位置、时间、天气等历史情境，计算兴趣度，并采用加权法计算推荐得分：

Scoreij=Weighti*Sim(Topici,Resoj)

其中，Topici为第i个相似历史情境下的兴趣；weighti为第i个相似历史情境下兴趣的权重，Resoj为第j个信息资源，Scoreij为第i个兴趣与第j个信息资源的兴趣度加权得分。④文献资源输出。依据Score得分，从高到低取前N个文献资源进行推荐。

3.3.2 针对新用户的文献资源推荐。①界定目标用户的弱相似用户集合。假设U为所有用户的集合，U0为目标用户，采用大数据技术查询U0在某个时间段T内使用过的文献资源信息，并将其中评价最高的N个文献资源整合为文献资源集，并查询在该时间段内使用过上述文献资源集信息的其他用户，界定为U1、U2......Un，则Ui(i=1、2......n)为弱相似用户集。②计算基于某个关联文献资源的偏好集合。假设目标用户U0在T时间内文献资源集的某个文献资源为k，查询在T时间内使用了文献资源k的j个弱相似用户，即U1、U2......Uj，分析整理上述j个弱相似用户的文献资源使用记录，选择与k最相似的、评价最高的文献资源列入偏好集合，形成目标用户U0在T时间内基于文献资源k的相似文献资源集。③计算基于所有关联文献资源的偏好集合。依据上述方法，得出目标用户U0在T时间内其他k-1个文献资源的相似文献资源集，将所有的相似文献资源集进行统计分析，计算各个文献资源的频数，依据频数大小由高到低对所有相似文献资源集的文献资源进行排序，筛选出排名前N名的文献资源，并将这N个文献资源推荐给目标用户。基于“用户—情境—资源”模型的重组与再造的文献资源推荐见图3。

4 结语

文献资源的多样性和用户需求的复杂性特征要求图书馆进行文献资源重组与再造，以精准匹配用户的有效需求。大数据技术为公共图书馆文献资源重组与再造提供了技术支撑，在融入情境要素的“用户—情境—资源”模型中，基于大数据的历史和内容相结合的情境算法以及协同过滤的情境算法，可以有效实现文献资源的重组与再造，并分别为老用户和新用户匹配精准资源。