基于大数据的高校图书馆个性化服务研究

2017-10-25 22:25何波章宏远裴剑辉
新世纪图书馆 2017年10期
关键词:个性化服务图书馆大数据

何波+章宏远+裴剑辉

摘 要 论文分析了大数据下高校图书馆个性化服务需求,利用大数据的数据挖掘、数据分析和Mapreduce技术,提出基于大数据的高校图书馆个性化服务模型,并在此基础上,设计了基于大数据的高校图书馆个性化集成服务原型系统。

关键词 大数据 图书馆 个性化服务

分类号 TP18

DOI 10.16810/j.cnki.1672-514X.2017.10.xxx

Abstract This paper analyses the demand for personalized service of university library in the era of big data, and uses data mining of big data, data analysis and mapreduce technology to propose the model of personalized service in university library based on big data. On this basis, it designs university library personalized service prototype system based on big data.

Keywords Big data. Library. Personalized service.

大数据是一把双刃剑,在带来挑战的同时也给图书馆提供了采集数据的不竭来源,并且提供了采集与分析处理数据的技术工具和分析问题的思想方法[3]。想要更好的面对挑战和迎接冲击,高校图书馆应当利用大数据的数据挖掘、数据分析和Mapreduce技术,加强对用户研究与交互数据的利用,提升个性化服务的水平,为每个读者提供更有针对性的个性化服务。本文结合大数据的数据挖掘[1]、数据分析和Mapreduce技术[2],提出了基于大数据的高校图书馆个性化服务模型,设计基于大数据的高校图书馆个性化集成服务原型系统。

1 大数据下的高校图书馆个性化服务需求

高校图书馆收集着丰富的书籍、文献、以及情报资源,是高校教学与研究的源泉,在教学科研和学习的过程中无一不体现出了高校对图书馆的需求。但是当用户想在这书籍的海洋里迅速找到自己想要的资料书籍,无疑是一件十分困难的事情。在大数据时代,高校的师生们极其需要一种更迅速的检索方案,针对用户的历史检索行为来建立一种文献检索服务尤为重要。在大数据时代,如果能在个性化检索的同时,针对用户的需求,根据历史浏览记录,建立用户模型来匹配用户的相关信息,并将处理后的信息主动推荐给用户,让用户迅速的发现他所感兴趣的信息。同时,针对图书馆用户个性化需求,比如个性化数据挖掘服务、个性化用户分析服务和个性化学科知识服务。这些个性化服务能够挖掘出用户的需求,分析出用户的阅览习惯和偏好,为用户提供其所需要教学与科研相关的学科知识。

2 基于大数据的高校图书馆个性化服务模型

根据大数据下高校图书馆个性化服务需求,利用大数据的数据挖掘、数据分析和Mapreduce技术,提出基于大数据的高校图书馆个性化服务模型,主要分为以下五个部分。

2.1 基于大数据的高校图书馆个性化检索服务

图书馆个性化检索服务是根据读者专业与学科背景,向读者提供个性化检索服务。个性化检索与一般文献检索的主要区别就在于检索关键字与用户历史查询行为有关,它不仅可以从内容上来检索,还能通过关联用户的检索行为来进行检索。基于大数据的高校图书馆个性化检索服务是通过获取用户信息需求和检索行为、习惯(包括兴趣、检索历史、学科领域等),建立用户信息数据库,并对不同个性化模式进行分析记录,再与已经形成的用户模型比较,给相近度比较高的用户提供信息检索方案,将存在差异的用户及检索信息保存到用户特征管理系统中,实时更新用户的需求模型。基于大数据的高校图书馆个性化检索服务的一个最重要特点就是为用户量身定做一种检索方案,它是最有效率的检索,能够满足用户的实际信息需求,并准确地为用户提供信息检索服务。

2.2 基于大数据的高校图书馆个性化主动推荐服务

个性化推荐是指根据用户已有的喜好和浏览行为,通过建立用户模型来匹配与用户的相关信息,并将处理后的信息推荐给用户。这个技术在电子商务中已經得到了广泛的应用。基于大数据的高校图书馆个性化推荐服务主要采用了以下三种方法:第一种是数据挖掘方法中的关联规则。它的主要思想是挖掘事物数据库中的项目之间隐含的关联关系[3]。由已经得到的关联规则和用户浏览过项目,来向用户推送信息。第二种是分类算法,它是通过对训练数据的学习,将数据分成不同的类别,并且每个类别都有自己的概念描述[4]。在分类的过程中,同时建立相关分类规则,然后,用同一个数据库中的测试样本来验证规则模型的有效性。第三种是聚类算法,它将所有数据的实例个体分成一些相识的组,这些不同的分组被称为聚类。相同聚类中的个体具有比较一致的属性,不同聚类间的个体相似性不大,K-means就是该方法最典型的代表。

图书馆用户可分为新用户和一般用户。图书馆新用户被收集的个人信息较少。针对图书馆新用户,提出基于用户模式聚类与Mapreduce的图书馆个性化推荐方法。该方法利用大数据的Mapreduce技术,首先采用map分解任务,对相似的图书馆个性化用户模式聚类;然后匹配图书馆个性化用户聚类模式与图书馆用户当前访问路径;最后采用reduce进行归并,将匹配度高的推荐集推荐给用户。该方法对相似的图书馆个性化用户模式聚类,利用兴趣相似的图书馆个性化用户聚类模式获得推荐集,扩大了推荐范围,非常适合图书馆新用户。一般用户是图书馆的主要用户。为了吸引并留住一般用户,提出基于关联规则挖掘与Mapreduce的图书馆个性化推荐方法。该方法利用大数据的Mapreduce技术,首先采用map分解任务,从图书馆个性化用户模式中挖掘出频繁访问路径,然后从频繁访问路径中挖掘与图书馆用户当前访问路径匹配的关联规则;最后采用reduce进行归并,根据关联规则和推荐度阈值将推荐集推荐给用户。该方法推荐速度快,准确度高,非常适合图书馆一般用户。endprint

2.3 基于大数据的高校图书馆个性化数据挖掘服务

通过对高校图书馆个性化需求分析并利用大数据的数据挖掘技术,对用户的阅读习惯进行分析,挖掘出图书馆系统中的文献流通数据[5],实现从用户的角度来解决数据挖掘在高校图书馆中的实际应用。大多数图书馆管理系统都是事务处理型,在日常业务的操作中应用的比较广泛,而数据仓库是属于分析处理型事物,能够从无序数据流中挖掘出读者感兴趣的信息。基于大数据的高校图书馆个性化数据挖掘主要是通过两种方法挖掘数据:第一种是通过建立一种自动分类和统计分析法,它源自于Mercer核聚类算法,一种基于模式识别的算法,主要的功能是对不同种类的图书和借阅历史记录进行量化编码,从而实现读者群的分类以及对读者借阅文献类型、流量进行实时的监测和统计,突现出本没有显现出来的一些特征,使聚类变的更加有效。第二种是利用数据挖掘系统提供的OLAP工具,对集成数据进行多维分析比较,对决策信息进行检查和验证,提高决策的可信度。第三种是通过建立事物数据库,使用基于Apriori改进算法对学生借阅历史数据进行深度挖掘分析,挖掘出图书借阅数据的关联规则,进而构建各学科书籍直接的关联度以及读者对图书信息资源的借阅模式。

2.4 基于大数据的高校图书馆个性化用户分析服务

基于大数据的高校图书馆个性化用户分析服务是指以海量图书馆用户数据为基础,对用户进行深入分析。图书馆应当对用户的行为数据进行采集,并对所得到的数据进行科学的分析、分类和人工匹配,并构建能够储备大量数据、且具有便于管理和查询功能的用户行为事件存储数据库。图书馆需要根据用户的访问时长、图书馆新鲜度以及图书馆访问频率。将图书馆用户细分为新用户和一般用户再通过大数据的数据挖掘与Mapreduce技术,针对不同类型的用户提供不同的个性化服务。

2.5 基于大数据的高校图书馆个性化学科知识服务

高校图书馆的主要职责就是为了在校师生的教学和科研提供服务,因此,图书馆应当了解师生们的切实需求,对老师的工作方向和工作重点进行定位,尽可能的为师生提供高校图书馆的个性化学科知识咨询和定题跟踪服务。基于大数据的高校图书馆个性化学科知识服务要以图书馆海量数据为基础,开展学科资源建设、学科资源的分析服务和定题跟踪服务[6]等。学校可以从海量的用户访问数据中分析个人信息与用户行为,通过校内数据库对每个在校师生的专业、学科进行挖掘分类,对其在学期所开展的课程进行分析,提供相关资料,并且为师生提供其研究领域内最新的专业数据资源以及相关文献,准确的为其推荐其所开展的相关学科的资料文献。

3 基于大数据的高校图书馆个性化集成服务原型系统

通过以上分析可以得到基于大数据的高校图书馆个性化集成服务原型系统,主要包括以下模块:数据集成模块,数据预处理模块,用戶交互模块,检索服务模块,主动推荐服务模块,数据挖掘服务模块,用户分析服务模块和学科知识服务模块。系统模型如图1所示:

4 基于大数据的高校图书馆个性化服务实验

基于上述分析和系统模型进行了大数据环境下的高校图书馆个性化主动推荐服务实验。测试设备为Lenove服务器。实验数据来自学校图书馆一个月的访问记录。选择100位新用户和100位一般用户,第1次实验采用基于用户模式聚类与Mapreduce的图书馆个性化推荐方法进行推荐准确度测试,第2次实验采用基于关联规则挖掘与Mapreduce的图书馆个性化推荐方法进行推荐准确度测试。图书馆用户推荐准确度如图2所示。

第1次实验采用基于用户模式聚类与Mapreduce的图书馆个性化推荐方法,实验结果是图书馆新用户的推荐平均准确度为83%,图书馆一般用户的推荐平均准确度为72%。第2次实验采用基于关联规则挖掘与Mapreduce的图书馆个性化推荐方法,实验结果是图书馆新用户的推荐平均准确度为68%,图书馆一般用户的推荐平均准确度为92%。从实验结果可以看出,基于用户模式聚类与Mapreduce的图书馆个性化推荐方法适合图书馆新用户,基于关联规则挖掘与Mapreduce的图书馆个性化推荐方法推荐非常适合一般用户。

将基于大数据的高校图书馆个性化集成服务原型系统应用到学校图书馆。让300位用户使用60天原型系统,对图书馆用户使用原型系统满意度进行调查。图书馆用户使用原型系统满意度如图3所示。

图书馆用户推荐满意度调查结果是:91%的用户是满意的。实践证明,图书馆用户对基于大数据的高校图书馆个性化集成服务原型系统使用满意度非常高,该系统能吸引并留住图书馆用户。

5 结语

大数据下的高校图书馆个性化信息服务需要系统化的工作,结合个性化服务需求分析和个性化服务模型,并通过多方面协调配合,形成一个良性互动的运行平台。用户需求是图书馆服务未来工作发展的前提,只有通过针对用户的需求,强化高校图书馆的个性化服务意识,将个性化服务作为图书馆未来发展的核心目标,并且能够利用大数据技术处理海量数据的优势,将大数据的数据挖掘、数据分析和Mapreduce等技术应用到图书馆个性化服务中,在个性化用户需求分析和个性化服务模型的基础上建立起能高效处理海量图书馆数据的个性化信息服务系统,才能实时的、准确的向用户推送其所需要的信息,才能大幅度地提升图书馆的个性化服务水平。

实验证明,本文提出的基于大数据的高校图书馆个性化服务模型和设计,以及基于大数据的高校图书馆个性化集成服务原型系统,对图书馆的个性化服务是非常有效的。endprint

猜你喜欢
个性化服务图书馆大数据
图书馆
浅析移动时代的图书馆发展策略
互联网思维下数字图书馆个性化服务建设研究
需求理论在高校图书馆就业服务中的应用研究
基于大数据背景下的智慧城市建设研究
大数据对高校图书馆个性化服务的影响
去图书馆