基于数据挖掘技术的数字图书馆个性化服务发展研究

2021-03-10 11:37:13陈佩欣

科技资讯 2021年36期

作者简介：陈佩欣（1991—）：女，本科，助理工程师，研究方向图书情报。

摘要：随着互联网技术的不断发展，数据爆炸性的整体发展紧随其后。人们每天都在处理各式各样的数字化信息，如何在众多的信息中快速得到人们所需要的信息尤为重要。数字图书馆作为人们获取信息的重要渠道之一，在帮助用户找到所需要信息方面不断进行探索，应用各种信息挖掘技术方法，实现数字资源的个性化建设，是新时期数字图书馆发展的必然服务趋势。该文将从数字图书馆和数字图书馆的个性化服务发展的现状展开研究，主要研究了数据挖掘的相关技术、数据探索技术在数字图书馆的发展、促进图书馆的互联网技术的应用服务提供方面发现的问题，并在此基础上提出了解决对策。

关键词：数据挖掘数字图书馆个性化服务建设

中图分类号： G25 文獻标识码：A 文章编号：1672-3791（2021）12（c）-0000-00

Abstract： With the development of IT， digital information developed explosively. People are dealing with all kinds of digital information， how to get the information we need is particularly important. As one of the important ways for people to obtain information， the digital library is constantly exploring in helping users to find the information they need. This article starts from the current status of the development of digital library and digital library's personalized service， mainly researches the related technology of data mining and promotes the service of library's Internet technology. The countermeasures have been proposed to solve problems at the moment.

Key Words： Data mining; Digital library; Personalization; Service construction

在信息技术的飞速发展下，一方面大量的信息内容给现代人的生活带来了便利，另一方面数量巨大且冗杂的信息也为人们带来了搜寻上的不便。数字图书馆使用者增加的同时，人们对数字图书馆个性化服务的需求也随之增加。为了在大量的信息中得到用户真正需要的信息，数据挖掘技术应运而生。在数字图书馆中应用各种深度数据挖掘技术，可以增强在数字图书馆中筛选相关图书信息的效率。在数字图书馆的基础上丰富个性化服务，更能满足用户的信息检索和图书阅读的需求，提高用户的阅读效率[1]。为用户提供更优质的个性化服务，已然成为每个数字图书馆管理者需要考虑的主要问题，也是和同类网络信息资源建设产品竞争的重要手段。

1数字图书馆的概述

1.1数字图书馆的概念

美国密歇根大学于1990年提出建立电子图书馆，并将与阅览室密切相关的各部门建立的馆藏标准定义为数字化图书馆。该文对数字化图书馆的标准定义没有研究不做过多阐述，将其具体定义为利用数字的含义、各种技术流程以内部存储各种相关信息的软件系统[2]。

1.2数据挖掘及相关技术

数据挖掘是指从数据中找出隐藏的、具有市场价值的信息内容，通过各种知识的删除和选择、提取以及寻找数据规律，使用统计、检索信息数据库以及多种模型识别等在数据库中查找可用数据，然后寻找数据规则并运用规则，它能输入特定名词进行驱动查询，挖掘信息中的规律[3]。数据进行深度挖掘的主要方式有聚类、分类与预测、关联和偏差检测。主要技术有决策树、回归分析、人工神经网络等。建设数字图书馆只有综合运用以上技术，才能建设好具有个性化特点的数字图书馆。

2个性化数字图书馆系统模型的设计与实施

2.1模型设计思路

数字图书馆个性化系统模型的设计应以用户为中心，重点考虑数字图书馆的操作性，结构性以及可更新性，并对用户、图书资源进行分析挖掘。数据挖掘的个性化数字图书馆系统模型的设计就是要挖掘数字图书馆用户的个人信息、上网行为，并从中分析出用户的兴趣爱好、学习关注点以及行为习惯，这样才能向用户提供优质的个性化服务，并为图书馆文献的录入提供依据[4]。

2.2对资源的分析

对用户行为分析，根据用户的注册信息，借阅、浏览记录进行聚类分析，划分类别，针对不同的群组提供不同的服务方式和推荐模式;对被借阅书籍分析，被借阅次数多的图书受众面大，可作为图书馆的热门图书放在用户登录首页或推送图书板块处。

2.3个性化系统结构模型设计

系统根据用户在数字图书馆的注册、登录信息，建立用户模型，根据用户的检索记录形成信息库。将用户模型与信息库进行匹配，通过匹配结果向用户提供个性化信息服务。

2.4系统工作流程

根据用户的注册信息、检索信息以及阅读信息建立用户信息库和信息资源库，个性化系统会调用用户资源库及信息资源库，把用户归类并建立借阅行为模型，利用数据挖掘技术找出用户意向资源，把信息推送给用户。

2.5数字图书馆数据挖掘数据源选取

以中国国家数字图书馆为研究对象，中国国家数字图书馆馆书藏书990多万册，电子文献日浏览量非常大，浏览量越大其隐形价值信息就越丰富，该文选择中国国家数字图书馆2016年1月到2019年12月的用户借阅数据为个性化服务研究展开说明。

2.5.1用户基本信息

序号、用户编号、用户名、注册时间、读者类型、借书状态等信息、为用户分类、借阅意向分类提供依据。

2.5.2借阅数据的处理

删除用户的重复信息以及已经注销账号的用户信息、补全用户信息表用户属性缺失的部分;借阅信息的清洗是数据集的核心部分，可以选择借阅数量大的用户群体为研究对象，清除借阅数量少的用户群体数据[5]。数据挖掘要挖掘的两个信息表中存储字段的形式不同，需要进行数据转换，在设计目标时，要了解用户借阅图书的次数以及感兴趣的图书类别，将图书进行划分，为缩短数据挖掘处理时间，还需处理用户借阅次数、表名、用户类型、字段名等方面[6]。

2.6数据集成

除了用户信息表和借阅信息表，还需组织统计数据表，如图书借阅次数集成表和用户借阅次数集成表。图书借阅次数集成表应包含以下字段属性：图书所属类别、图书馆图书借阅情况;用户借阅次数集成表应包含以下字段属性：用户名、用户编号、借阅次数。

关联规则的分析过程中，将数字图书馆的借阅数据处理集成，把用户对该类图书有过借阅行为的取值为“1”，没有过借阅行为的取值为“0”[7]。其用户借阅事务数据如图1所示。

从图1数据可以看出，用户编号为21324234与32141757的两位用户，从用户图书借阅量上来看，用户21324234图书借阅量为34，用户32141757图书借阅量为274;从借阅图书类别上看，用户21324234借阅类别偏向O类和U类的图书，而对于用户编号为32141757来说，他在图书分类O类与U类处为0，则说明32141757对这两类图书不感兴趣，它对P类与V类的图书感兴趣。将原数据进行清洗、转换和集成，得到了满足用户需求的数据。

3数据挖掘在数字图书馆上个性化服务的应用

3.1信息定制与信息推送

数字图书馆的个性化服务就是数字图书馆针对不同用户在不同的时间、地点，提供量身定制的服务。主要体现在用户的个性化信息定制和信息推送服务，都是利用用户的注册信息以及用户的网页访问行为形成用户个人数据库，然后系统利用数据挖掘技术及其他信息处理技术挖掘用户关注的信息，并发送给用户。根据数字图书馆可更新性原则，系统会在未来的工作中实时更新用户个人数据库满足用户实时的信息获取需求。

3.2优化信息检索服务

信息检索是用户与数字信息建立联系的纽带，在数字图书馆中应用数据挖掘技术，利用聚类算法将搜寻到的结果聚类分析，将提高信息检索的效率。数据挖掘技术根据用户的注册信息、行为活动数据，分析出用户的数据需求，然后搜索引擎将用户检索的相关信息呈现给用户。

3.3优化个性化服务系统流程

用户进入数字图书馆首先进行用户信息注册、登录，这些与用户的检索记录共同构成用户数据库。系统对用户数据库进行数据挖掘，构建“我的数字图书馆”。

3.4促进信息资源的管理

目前数字图书馆的文献资源主要是电子图书期刊，可利用聚类、关联技术将图书划分为多组不同的类中，用户在查阅图书时，可关注和图书处于同类的图书，提高检索效率;分析并归纳文献资料里的最能概括文献的关键词及关键句作为文献检索的检索词，可快速检索到同类别的资料;把文献贴合主题的文本进行提取作为文献的摘要，用户可以通过摘要了解文章。

4数字图书馆个性化服务存在的问题及对策

4.1个性化信息的获取来源少

目前主要的数字图书馆信息来源有：用户的注册信息表、搜索时的关键词、浏览、服务器日志信息等。信息获取来源太少，可综合应用隐式获取和显示获取收集个性化信息，建立完善的用户评估及信息反馈机制。

4.2用户信息研究不深入

用户信息是个性化服务的基础，需要收集用户的背景资料以及信息需求，然后对这些信息进行全面的分析，才能真正促进数字图书馆的个性化服务建设。

4.3信息资源整合力度不足

信息资源整合力度不足指的是信息资源处于无序状态，不能进行高效的信息结构建设。需要以用户为中心，针对用户数据需求和用户注册信息来进行馆内资源建设，通过整理用户所有信息，提高信息资源的利用率。

4.4信息安全存在隐患

加强用户隐私及网络信息安全的建设，提升用户信任度并提交更多的个人信息，这些数据可支持数字图书馆为用户提供更全面、更精确的个性化服务。

4.5不断创新信息检索方式

传统的信息检索方式得到的结果缺乏交互性、准确性、指向性，联网信息内容数据库的各种检索模式可以完全支持新概念系统检索、关键词检索数据库检索、关联数据检索和句子数据库检索，并且可以使用聚类优化算法来分析和聚类实际结果，使结果清晰条理的推送到用户面前。

4.6完善个性化推荐技术

我国绝大多数数字图书馆仍以文献搜索为主，这种非主动的服务方式为用户提供的个性化服务是有限的，针对这一现象应该完善个性化推荐技术，将被动的提供搜索服务转化为主动的提供推送服务。

5结语

在数字图书馆领域应用数据挖掘技术使个性化服务建设又上了一个新台阶。数据挖掘技术在数字图书馆中的应用，改变了数字图书馆被动服务的状态，为用戶提供了更多个性化信息服务和行动支持，推动了数字图书馆的现代化、个性化服务建设。

参考文献

[1] ELIZABETH B. Integrating Digital Stewardship into Library Instruction： An Argument for Student （and Librarian） Success[J]. The Journal of Academic Librarianship，2020，46（1）：102099.

[2] 蒋秀丽.论高校图书馆个性化服务[J].中国多媒体与网络教学学报，2020（3）：108-109.

[3] 王慧娜.数字图书馆个性化交互服务行为信息挖掘系统设计[J].现代电子技术，2020，43（10）：153-155，159.

[4] 范宇.基于大数据的高校图书馆个性化服务路径[J].吉林化工学院学报，2019，6（12）：67-70.

[5] 萨支斌，许震.基于个性化推送服务的数字图书馆学习资源提取[J].图书与情报，2019（5）：103-108.

[6] 李冬云.利用关联规则挖掘技术实现数字图书馆个性化推荐服务[J].兰台内外，2020（34）：40-42.

[7] 陈越.数字图书馆个性化信息服务模式分析[J].山西档案，2019（3）：94-96.

3662500338241