基于多源数据融合的数字图书馆用户偏好挖掘模型研究

2020-05-04 03:41胡薇薇

河南图书馆学刊 2020年2期

胡薇薇

关键词：多源数据;数据融合;数字图书馆;用户偏好挖掘模型

摘要：文章介绍了多源数据融合技术的概念和功用，分析了数字图书馆构建用户偏好挖掘模型的目的，探讨了用户偏好挖掘模型的设计原则、设计目标、设计框架，提出了基于多源数据融合的数字图书馆用户偏好挖掘模型的构建策略，以期提升数字图书馆的服务水平，为用户提供优质的信息服务。

中图分类号：G250文献标识码：A文章编号：1003-1588（2020）02-0075-02

随着计算机技术的发展及信息资源数量的增多，数字图书馆数据呈多源数据发展趋势，用户的信息需求也更加多元化。因此，如何将多源数据与用户的个性化信息需求结合起来，方便用户在海量的数据资源中提取所需信息，已成为数字图书馆亟须解决的问题。笔者利用多源数据融合技术建立了数字图书馆用户偏好挖掘模型，以期提升数字图书馆的信息资源利用率和服务水平，为用户提供优质的信息服务。

1 多源数据融合技术

多源数据融合技术指采用特定算法和手段对多个信息分析调查结果进行有效综合和评价，并将评价结果进行有效统一的技术。该技术的目的是将各种不同的数据信息进行综合，根据不同数据源的特点，从中提取出统一的、比单一数据更好、更丰富的信息。由于错误的数据对象直接影响多源数据融合的结果，不同类型的数据有不同的用途，数字图书馆要对多源数据进行筛选，确定合适的融合对象，并对确定的数据源进行预处理。数据源的不同使数据在类型、结构方面存在不同，不同的数据类型和结构会大大增加多源数据融合的难度，有时甚至会导致多源数据融合的失败，因此数字图书馆有必要对多源数据进行预处理。数字图书馆不仅可采用现有的数据预处理技术，如数据流技术等，对多源数据的格式、类型、结构进行统一处理，确保所有数据的互联互通，还可利用数据库技术、图像处理技术等对多源数据进行有效处理，确保所选多源数据的真正融合、统一。

2 数字图书馆用户偏好挖掘的需求分析

随着信息技术的不断发展，用户个人隐私被泄露的现象越来越多，很多用户在访问网络时通常会采用匿名访问的方式，以便对自己的隐私信息进行有效保护。因此，学术界主要对注册用户的偏好进行了研究，却忽略了匿名访问用户的偏好。数字图书馆应根据用户偏好，如专业特长、行为习惯、个人爱好等，对用户的信息需求进行挖掘。

2.1 用户检索需求的分析

随着人工智能、云计算技术的不断发展，图书馆应利用先进技术对馆藏资源进行有效管理，调整信息检索方式，为用户检索信息提供便利。事实上，用户在图书馆查阅馆藏纸质资源的过程中需要花费大量的时间。因此，数字图书馆应及时调整信息检索方式，满足用户的多元化信息需求，提升馆藏资源利用率。

2.2 用户偏好模型分析

用户检索、借阅纸质图书资源会在图书馆管理系统中产生操作记录，如图书信息、用户信息等。数字图书馆可对这些信息数据进行深入分析，挖掘用户的阅读偏好，建立科学的用户偏好模型，为用户提供优质的信息服务。

2.3 用户偏好推荐需求分析

目前，多数图书馆根据图书资源的类型及存储检索方式建立了数字图书馆服务平台。随着图书资源的日益增多，用户不能快速获取所需资源。因此，数字图书馆应对馆藏纸质资源进行数字化，将相关资源的链接放到网站主页，根据用户的阅读偏好，为他们推荐合适的资源，满足他们的多元化信息需求。

3 基于多源数据融合的数字图书馆用户偏好挖掘模型设计

数字图书馆应采用多源数据融合技术对用户偏好进行挖掘分析，建立用户偏好挖掘模型，为他们推荐合适的资源，满足他们的信息需求。数字图书馆在设计用户偏好模型的过程中要制定明确的设计目标和设计原则，并对設计框架的可行性进行分析。

3.1 用户偏好挖掘模型的设计原则

数字图书馆在设计用户偏好挖掘模型的过程中应结合馆藏资源的特点和用户的阅读偏好，以实用性为设计原则，同时兼顾个性化。数字图书馆应根据用户的阅读偏好设计模型流程，确定系统内容，及时满足用户的多元化信息需求。

3.2 用户偏好挖掘模型的设计目标

构建用户偏好挖掘模型，为用户提供个性化信息服务是数字图书馆体系建设的核心内容，该模型常常也被应用于指导其他方面的工作。针对目前数字图书馆庞大的信息资源，其构建用户偏好挖掘模型的主要目的是为了有效化解馆藏资源过载问题。因此，数字图书馆应根据体系建设要求，将技术支持、资源配置及服务水平作为基于多源数据融合的用户偏好挖掘模型设计的三个目标。技术支持目标是指数字图书馆基于多源数据融合技术建立一个操作性强、功能完备的框架体系，并与其他数字化技术进行无缝连接;资源配置目标是指数字图书馆根据用户的阅读偏好收集与处理信息资源，建设科学的信息资源数据库;服务水平目标是指数字图书馆基于用户偏好挖掘模型提高服务效率和服务质量，展现清晰的服务流程和服务内容。

3.3 用户偏好挖掘模型的设计框架

基于多源数据融合的数字图书馆用户偏好挖掘需要通过相应的系统模块实现，因此数字图书馆可将B/S作为模块构建的架构。基于多源数据融合的数字图书馆在坚持设计原则和设计目标的前提下，可从数据应用层、信息服务层、数据存储层和基础资源层四个层面构建用户偏好挖掘模型。基础资源层是整个用户偏好挖掘模型构建的基础，主要包括模块构建的物理资源，如高速无线网络、图书馆网络安全系统、数据交换服务器等;数据存储层主要是为用户偏好挖掘模型构建的数据资源提供存储支持，数据资源主要包括馆藏资源、用户信息及一些动态数据资源;信息服务层是用户偏好挖掘模型构建的重要环节，主要是为整个模型流程提供功能支持;数据应用层是展现用户偏好数据信息的层面。

4 基于多源数据融合的数字图书馆用户偏好挖掘模型的构建

4.1 用户偏好信息提取

用户在使用数字图书馆过程中留下了大量的记录信息，这些信息包括用户的借阅信息、浏览网页信息、检索关键词及专业特长等，数据量大，呈多源特点。数字图书馆可采用多源数据融合技术对用户的记录信息进行统一整理与分析，提取用户的偏好数据信息。数字图书馆可根据用户的偏好数据信息，构建用户偏好挖掘模型，进而为他们提供优质的信息服务。

4.2 用户偏好挖掘模型的构建

用户偏好挖掘模型具有一定的特殊性和使用局限性，因此，数字图书馆要利用数据过滤技术对多源数据进行过滤，利用多源数据融合技术对海量用户偏好数据进行挖掘，找出有价值的数据信息，分析内在规律，为用户偏好挖掘模型的构建奠定基础。数字图书馆可通过分析用户偏好信息的规律，找出对用户借阅产生影响的关键因素。影响用户借阅的主要因素包括用户特征信息、借阅信息及图书特征信息。数字图书馆可设置一类、二类特征索引，将图书页码、图书标识号、图书出版日期及用户注册时间、登录次数、登录时间等设置为一类特征索引，将图书借阅时间、借阅次数、标注习惯及用户学历、专业方向、性别、爱好等设置为二类特征索引，利用多源数据融合技术对影响用户的借阅因素进行归类分析，准确描述与用户偏好相关的信息，进而构建用户偏好挖掘模型。

参考文献：

[1] 武龙龙，李桂华.高校数字图书馆匿名用户偏好模型研究[J].情报科学，2014（2）：21-23.

[2] 孫雨生，仇蓉蓉，黄传慧，等.国内数字图书馆个性化服务研究主题演化分析[J].情报理论与实践，2014（8）：104-107.

[3] 沈敏，杨新涯，王楷.基于机器学习的高校图书馆用户偏好检索系统研究[J].图书情报工作，2015（11）：14-17.

[4] 李娜.数字图书馆个性化推荐系统研究[J].农业图书情报学刊，2015（9）：76-77.

[5] 王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学，2012（3）：51-53.

[6] 叶春蕾，冯璐，冷伏海.数字图书馆个性化服务中用户弱信息需求模型研究[J].图书情报工作，2012（15）：121-123.

（编校：孙新梅）