徐 莹
(南京中医药大学翰林学院,江苏 南京 225300)
随着网络信息技术的快速发展,现代图书馆朝着数字化、智能化方向发展,计算机技术在图书馆工作中的应用,大大提高了工作效率与水平。现阶段,图书馆软硬件设备持续完善,图书馆内涵建设是图书馆发展建设中的热点问题,个性化服务也是图书馆未来发展目标,而数据挖掘在图书馆个性化服务中发挥着不可替代的作用。接下来,谈谈对数据挖掘在图书馆个性化服务中应用的几点思考[1]。
数据挖掘技术是从海量随机产生、模糊、不完善且有噪声的数据中提出产生的,所提取的数据的潜力大、被理解接受、且新颖。利用数据挖掘技术对这些数据进行抽取、分析与转化处理,并从中筛选出能够帮助决策的核心数据[2]。数据挖掘分为:(1)数值数据挖掘。具有预测和描述两种任务。简单点说,挖掘功能涵盖了发现概念类描述,分类、关联、聚类、预测、类似性分析、偏差分析以及趋势分析。(2)基于Web的数据挖掘。Web数据挖掘,具体来说就是针对Web页面结构、Web页面内容、电子商务信息、用户访问信息等数据,技术人员通过数据挖掘方法来筛选出用用信息,进而能够完善站点设计,提高电子商务质量与水平。(3)文本数据挖掘。是基于文本信息进行的数据挖掘。如果数据挖掘的目标群众全部都是文本类型构成的,于是,运用信息检索以及数据挖掘算法,针对海量的文本信息实施自动化信息分析和处理的过程,就是文本数据的挖掘过程。
从目前的图书馆建设来看,个性化推荐服务能够为用户提供优质高效、针对性强的建议,为用户根据自身需求选择专利、文献、图书等资料提供辅助决策服务。如,在推荐图书时,推荐热点书籍的技术难度系数很低,用户转化率较差,因此,应提供个性化推荐。具体来说,国内外有关个性化推荐的研究很多,而精确度是衡量推荐系统的核心指标之一,关注度强。然而,如果只单纯考虑精确度是不行的,良好的推荐结果同时还具备惊喜性、新颖性。如,学生想要从图书馆借阅《艺术鉴赏概论》,不管有没有人推荐,他都会去借阅,推荐《艺术鉴赏概论》书籍的结果只是推荐了一本学生已经准备好借的书,毫无惊喜性、新颖性。所以,图书馆个性化服务不但需科学预测用户的行为,更要具备开阔学生眼界、挖掘符合学生兴趣的其他书籍文献[3]。
文献检索是现代图书馆所提供的核心服务之一。检索又分为精确检索、模糊检索两种。在精确检索时,明确需要知道自己需要借的图书的基本信息,而模糊检索无须用户掌握书籍名称、作者姓名等具体信息,只需要对自己有用即可。检索和推荐的共同点就在于他们都是用户用于查找信息的一个工具,因此,它们需要处理的数据、反馈给用户的信息的性质都是相同的。但二者也存在较大的不同。推荐是满足用户需要的惊喜、新颖,检索要的是精确、精准。如,在图书馆检索工具中输入“高等数学”3个字时,可见用户需要找的是与高等数学有关的书籍,除了精准性要求外,检索还应对检索结果进行排序。如,“高等数学”是大学数学专业核心课程,教材也有很多,用户在检索时输入“高等数学”,返回检索结果能够根据用户实际情况进行排序。针对学生,可将基础教材放在前排;针对专业教师,可将高级教材放在前排。随着大数据技术的应用,相比推荐,检索的精确性要求更高,且图书馆的高级检索功能也要进行个性化。
文献推送是当下图书馆提供的又一个性化服务,旨在通过现代技术推送给用户他们可能感兴趣、可能需要的信息,进而提供个性化、自动化服务,为用户提供良好的服务。推送系统时钟秉承以用户为中心的原则,调动用户借书积极性,并充分发挥各种文献资源优势。要想发挥文献推荐功能、检索功能,需要为用户建立档案或者画像,进而能够根据用户的喜好、偏好来提供个性化推荐与检索服务。从本质上来看,文献推荐和检索都是推送的一部分,所以,图书馆个性化推荐和检索的一些高级技术也同样适用于推送系统。目前来看,推送系统需要开辟更多途径,如,利用邮件、手机向用户推送他们可能感兴趣的文献资料,但需要利用用户画像或者档案来实现推送功能的实现。
第一,以内容为基础的推荐算法。具体来说,就是结合不同文献间的相似性为用户推荐,先利用数据挖掘技术对用户已经打分的文献内容进行分析,并建档,再从海量文献中筛选出与用户档案记载相似的文献,并根据相关内容筛选出一些满足要求的文献推荐给用户。
第二,以关联规则为基础的推荐算法。当下,关联规则是运用十分广泛、频繁的一种推荐技术,关联规则自身也是数据挖掘领域的核心技术之一。目前来看,关联规则在零售行业购物篮分析案例最为成功。将关联规则运用到图书馆个性化服务中,有利于分析用户使用文献间的联系,并找到使用最频繁的文献,进而让系统能够在用户浏览或者下载时向他们推荐更多有效的文献。以关联规则为基础的推荐算法在运用时主要是结合用户的文献使用数据来形成关联规则,然后根据用户当下的查阅或者浏览情况进行有针对性的推荐。如果用户的文献使用数据最终变成大数据,那么要利用基于大数据分析的关联规则重新挖掘有效算法。
第三,混合推荐算法。这种算法是统筹各种推荐技术形成的推荐成果,为用户提供有针对性的推荐列表。有效消除了传统单一推荐技术的弊端,充分发挥不同推荐技术的优势,弱化它们的短处。模型加权融合、模型级联融合是当下最有效的推荐模型融合手段。其中,模型加权融合中,线性融合除外,剩下的算法都能够用在模型融合中。
第四,协同过滤推荐算法。首先,以物品为基础的协同过滤推荐。具体来说,就是利用不同物品间的相似度来做推荐预测,在图书馆个性化服务过程中,主要通过对目标用户已经评价和待评价文献之间的相似度进行有效计算,进而得出待评价文献的评价预测结果。其次,以用户为基础的协同过滤推荐。具体来说,基于用户集中对文献的评价日志来计算用户间的相似度,基于相似度分数的多少,选出相似度最高的多个邻居用户,并根据这些邻居用户的兴趣爱好来给目标用户推荐。通过聚类挖掘能够增加推荐结果的惊喜性,聚类能够把物理、抽象对象集合分为由类似对象构成的多个类。聚类算法产生的簇其实是一组数据对象的集合,相同簇中的对象存在明显的相似点,这与其他簇中的对象存在显著差异。目前来看,网格聚类、密度聚类、划分聚类等是当下运用最频繁的聚类算法,有利于提高数据挖掘质量与水平,提高推荐结果的惊喜性、新颖性。再者,以模型为基础的协同过滤推荐。即以学习用户的历史图书文献评价信息来建立用户模型,并基于此做好图书评价预测工作。大数据技术下,多利用人工神经网络、概率模型来完成以模型为基础的协同过滤过程,并利用数据挖掘算法来对历史数据模型进行悬链,并基于此向用户推荐文献资料。
大数据时代,图书馆个性化服务,不仅要注重个性化推荐,也不可忽视个性化检索与推送环节。在个性化检索过程中,首先要利用数据挖掘技术来提高排序算法、链接分析的精确性,如,利用数据挖掘来对用户查询进行分类。其次,在个性化推送过程中,多利用聚类对用户进行分组,并深入分析不同组别的特点,进而为不同组别的用户有针对性地推荐文献资料,提高用户图书馆服务体验,获得自己需要的文献资料。
综上所述,随着现代科技的发展,尤其是数据挖掘技术、数据库技术等在图书馆建设中的应用,对图书馆发展观念的革新、用户服务模式的优化等产生巨大的推动作用。基于此,在图书馆数字化、智能化建设过程中,工作人员应注重通过数据挖掘技术来为图书馆提供个性化推荐、个性化检索和个性化推送服务,一改传统模式的弊端,为用户提供更加优质高效的图书馆检索、借阅等服务体验,推动图书馆又好又快发展。