数据挖掘在图书馆管理上的应用

2014-02-10 18:20宋丽军

科技创新与应用 2014年5期

摘要：随着学生和图书馆里文献资料的数量增涨，图书馆管理系统的数据正呈指数增长。使用传统的人工统计方法不可能进行完整的、如此大量的数据分析，如何巧妙的提取需求的信息然后进行充分的利用成为了一个让人头疼的问题。而利用数据挖掘技术可以很轻松的解决上述问题。文章通过使用k-means算法进行聚类挖掘得到了一个完整高效的统计结果，进而根据统计结果对图书馆的管理进行改善，可以提供更好、更人性化的服务。最后，文章对未来数据挖掘技术在图书馆的数据管理方面的应用进行了展望和畅想。

关键词：数据挖掘；图书馆管理；个性化服务

随着科学技术和文化水平的飞速发展，人们对知识的需求也越来越强烈，想要更好的工作环境和生活水平，与自身的知识水平是密不可分的。因此，越来越多的人选择不断汲取知识来武装自己，而图书馆是汲取各种知识、了解国内外最新动态的最快捷、方便、省时省力的地方。由于越来越多的人选择了图书馆，图书馆中的资料、读者信息、借阅信息等等也越来越繁多和复杂，如何更好的处理与充分利用这些信息，成为了图书馆管理与发展的重大转折点。

所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。非常适合进行图书馆数据的挖掘、管理和应用。例如我们可以采用数据挖掘的方法分析读者的行为，总结其一般的借阅规律，从而采取相应的措施，为读者创造方便的环境和提供不同的个性化的服务。

实例分析：分析读者行为，获取读者需求

聚类分析是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。我们可以采用聚类分析的方法把不同的读者进行分类，然后对不同类型的读者提供不同的服务，这样可以更好的管理读者的借阅情况，也可以给有特殊需求的读者提供特殊的服务。下面根据一些读者的借阅数据进行了具体的挖掘实验，实现了聚类分析在图书馆数据管理方面的应用。

第1步：数据准备

我们这里只是做一个比较简单的挖掘分析，所以我们只考虑近两年读者的借阅情况，因此我们要先做一下数据的预处理，把两年之前的借阅信息弃掉不用，这两年每年的借阅数量和总借阅数量留待下一步聚类分析使用。由于读者的情况变化可能会很大，因此近两年的数据更具代表性，用来进行分析也会更加贴近读者的真实需求。

第2步：对数据进行聚类

在这里我们使用k-means算法对第一步中清理出来的数据进行聚类挖掘，设置聚类个数为3.代表把读者一共分成3个大类，一类为频繁借阅者，一类为普通借阅者，一类为偶尔借阅者.分好类之后我们就可以针对不同的读者提供不同的、更加符合读者需求的、个性化的服务了。

按照以下几个步骤对收集的数据进行聚类分析：（1）把目标对象划分成n个非空子集（聚类）；（2）计算每个聚类中所有点的坐标平均值，并将这个平均值作为每个聚类的中心；（3）计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中心的聚类中去反复执行（2）、（3），直到聚类中心不再进行大范围移动或者聚类次数达到要求为止下面是虚拟的聚类结果（见表1、表2）：

第3步：挖掘统计结果分析

上文介绍的挖掘方法比较简单，仅仅是从借阅数量方面衡量了读者的需求情况。但是在实际应用中也有很大的可应用、可扩展潜能。对于挖掘出来的第一类频繁借阅者，我们可以适当的增加其借阅数量的上限，这样可以更好的满足他们的需求；对于第三类偶尔借阅者，我们可以继续采用其他的挖掘方法挖掘他们的兴趣范围和较少借阅的原因，从而相应地改善图书馆的服务，为读者们创造更好的阅读条件。这样把读者分类之后再进行数据分析，可以更加精确地挖掘出不同读者的不同需求，可以给不同需求的读者提供更加个性化的服务。

数据挖掘在图书馆中的应用是多种多样的，例如利用关联规则分析图书借阅种类方面的联系，从而改善图书馆的布局；利用决策树的方法来对读者的阅读方向进行分类。从而提供个性化的推荐服务等等。本文仅从一个方面对于数据挖掘在图书馆的应用进行了分析，窥一斑而知全豹，数据挖掘在图书馆数据处理方面的应用是广泛而有效的，可以进行更深一步的研究与开发。在现如今这个知识大爆炸的年代，各方面的知识和数据都应该受到广泛的重视与深入的研究，然而，这些信息鱼龙混杂，如何取其精华弃其糟粕就成为了当务之急，通过一些现代化信息技术的使用，我们可以提升获取信息的速度、分离出有价值的信息、根据这些信息改善服务水平。随着技术的不断发展，图书馆的服务也正在从被动化服务转向主动化服务，从简单的信息接收转向为信息检索、信息利用。总而言之，数据挖掘技术在图书馆数据管理与应用方面的应用前景非常的广阔，随着科学技术和图书馆硬件设备的快速发展，数据挖掘技术在图书馆的应用将实现巨大的发展和长足的进步。

参考文献

[1]廖志平.数据挖掘在学校图书馆的应用[J].科技创新导报，2012，（12）：211-213.

[2]Randall Matignon. Data Mining Using SAS Enterprise Miner[M]. Wiley-Blackwell （an imprint of John Wiley & Sons Ltd， 2007，（8）：91-105.

[3]刘军.数据挖掘在读者阅读需求偏好研究中的应用[J].图书馆论坛，2012（5）：89-93

[4]M.Goebel and L Grucnwald.A survey of data mining and knowledge discovery software tools [J].SIKDD Explorations.1999；1（1）：22-33.

[5]J.Quinlan，C4.5 Programs for Machine Learning[M].Morgan Kaufmann Publishers，1993.

[6]牛根義.国内图书馆数据挖掘研究[J].现代情报.2009，29（1）：128-133.

作者简介：宋丽军（1988-），女，山东省嘉祥县，现同济大学软件学院研究生，硕士学位，研究方向：信息系统，分布式系统。