童 浪 裴胜玉(广西财经学院,广西 南宁 530003)
聚类分析在图书馆管理中的应用研究
童 浪 裴胜玉
(广西财经学院,广西 南宁 530003)
摘 要:聚类分析是数据挖掘中的一种非监督分类技术。聚类分析作为辅助技术在图书馆管理中发挥了巨大的作用。本文在介绍聚类分析的基础上,分析了聚类分析在图书馆管理中的应用研究,指出当前聚类分析算法存在的不足,提出新的聚类分析方法。
关键词:聚类分析;数据挖掘;非监督学习;图书馆管理
高等学校图书馆作为高校信息服务中心,提供高等学校教学和科学研究服务,是培养人才和开展科学研究的重要基地之一,在高校发挥着举足轻重的作用。随着大学教育的发展,高校图书馆的藏书量大幅度增长,随着计算机技术的普及和信息资源的日益增长,高校数字图书馆数据呈几何倍数增长。面对这些海量数据,为更好地推动高校图书馆管理,学者们相继提出了各自的聚类分析算法,聚类分析也成为高校图书馆管理中的重要研究技术之一。
本文结合图书馆管理中的应用,概述聚类分析的基础上,对聚类分析在图书馆管理中的应用研究进行分析,指出当前聚类分析算法存在的不足,提出新的聚类分析方法,从而推进聚类分析在图书馆管理中技术研究。
需求是发明之母。20世纪70年代初,数据挖掘成为了慢慢兴起的数据智能分析技术,引起专家学者们的极大关注,主要源于存在大量数据,而这些数据也迫切需要转换成有用的信息和知识。在这一历史发展阶段,聚类分析是数据挖掘研究领域的重点课题。
1.1 聚类分析概念
数据挖掘(Data Mining,DM)又译为资料探斟,它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的、随机的、不完全的、模糊的、有噪声的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘的任务主要包含关联分析、聚类分析、分类、预测、时序模式和偏差分析等。聚类分析(Clustering analysis)正是数据挖掘中的一项重要任务。聚类分析以“物以类聚”作为划分依据,将按相似性将数据归纳成若干类别,相同类别的数据相似,不相同类别的数据彼此相异,聚类过程中划为一组的称为一个类(Cluster)。于是可以得出聚类分析的数学表达方式:
对于数据集合V{vi|i=1,2,...,n},这里,vi为数据对象,依据数据对象之间的相近程度将数据集合V划分成k组,满足以下条件
这一过程称为聚类分析,Ci(i=1,2,...,n)称为类(或簇)。
1.2 聚类分析原理
用有序对(x,s)或(x,d)表示输入,s和d表示聚类样本数据之间的相似程度和相异程度标准。x={G1,G2,...,Gk}作为输出,其中Gk(k=1,2,...,N)为x的子集,即满足以下条件
图1 聚类分析算法分类及代表算法
子集G1,G2,...,Gk称为类,这些子集都是通过一些关键特征进行描述的。通常,可以通过这些样本集合的重心或类(簇)中关系的点来表示n维空间的一类;或借助聚类树的方式用于表示一类;或通过样本点属性的逻辑表达式表示一类。
1.3 聚类分析算法
聚类分析有许多种不同的方法,主要包含以下几种:层次聚类方法、划分聚类方法、基于密度的聚类、基于网格的算法和基于模型的算法。以下给出聚类分析算法的分类及代表算法。
伴随着计算机网络技术的快速发展,高校图书馆的藏书量大幅度增长,高校图书馆在人才培养和科学研究中所占的位置也日益提升,除了传统模式的图书馆管理外,数字图书馆也迅速在高校推广起来。
2.1 聚类分析在图书管理系统中的应用
在图书管理中,运用聚类分析技术主要体现在以下几个方面。比如,从样本数据中分析出读者的阅读倾向。如孙凌云在论文中分析了高校学生读者的阅读倾向,以及给出图书馆的相关对策;吴志强在论文中应用了聚类分析来研究读者阅读倾向问题;孙锐等在论文中以重庆大学图书馆作为研究背景,通过图书预约数据对读者阅读倾向展开研究。另外,运用聚类分析算法创建图书推荐系统。如孙彦超在其论文中,将读者“查找”图书转变为向读者“推荐”图书,运用聚类分析来向读者更好地推荐;王家胜在论文中提出了基于SPSS Clementine的聚类模型,并用于对读者群体进行细分。聚类分析技术应用于图书馆管理系统中,不仅能充分了解到读者的兴趣和需求,还可以为图书管理部门开展图书采购计划提供及时可靠的数据依据。从而将传统管理系统中的被动服务转化为主动服务,更好地发挥图书馆的功能。
2.2 聚类分析在数字图书馆中的应用
相比传统图书馆管理模式,随着时间的迁移,高校数字图书馆数据呈几何倍数增长。面对这些海量数据,为更好地推动高校图书馆管理,学者们运用聚类分析算法也提出了相应的改革措施。如潘旭武等在论文中提出运用数据挖掘技术对数字图书馆进行结构挖掘、内容挖掘和用户使用记录的挖掘。张付志等在论文中提出一种基于聚类技术的数字图书馆个性推荐算法。无论在传统图书管理系统,还是对于数字图书管理,从这些文献统计中,聚类分析扮演着越来越重要的角色,承担起越来越重要的功能作用。
综上所述,这些聚类算法均为单一聚类算法,均为基于传统聚类分析基础上的算法。聚类问题的不同也决定了需要使用不同的最优化准则,不同的最优化策略和不同的聚类准则,因此将产生许多不同的聚类分析方法。目前,关于图书馆管理中所应用的聚类分析方法均只是对一个目标函数进行优化。单目标聚类算法通常在检测有意义的现实样本数据集合时,因实际样本数据为高维的、稀疏的数据而失效。因此,考虑到单目标算法的这些缺点,本文将提出基于多目标优化的聚类分析算法用于解决图书馆管理中的问题。
3.1 基于多目标优化的聚类分析
基于多目标优化的聚类算法已提出许多种。K. Suresh,D. Kundu等在文献[12]中提出了基于差分进化的自动多目标聚类分析算法;K. S. N. Ripon,C. H. Tsang等在文献[13]中提出了可变长实数跳转基因的多目标进化遗传聚类分析方法;K. S. N. Ripon和M. N. H. Siddique在文献[14]中提出了基于多目标进化聚类分析算法用于重叠聚类检测;S. Saha和S. Bandyopadhyay在文献[15]中提出了对称的多目标自动聚类分析算法。通过调查分析,图书馆管理中所遇到的问题中,样本数据集合大多为多特征、多因素、多目标优化问题,因此基于多目标优化的聚类分析算法更适合求解此类问题。
参考文献
[1] Oded Maimon, Lior Rokach(Eds.). Data Mining and Knowledge Discovery Handbook[M]. Springer, 2005: 321-352.
[2]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004:49.
[3]孙凌云.高校学生读者的浅阅读倾向及图书馆对策[J].图书情报工作,2010,54(3):85-88.
[4]孙彦超.基于聚类分析算法的图书推荐系统的研究[J].数字图书馆,2015(5):76-795.
[5]吴志强.基于聚类分析的读者阅读倾向研究[J].图书馆工作研究,2011(15):82-84.
[6]孙锐,杨新涯.利用图书预约数据进行读者阅读倾向研究——以重庆大学图书馆为例[J].图书馆建设,2011(1):31-34.
[7]王家胜.聚类分析在高校图书馆读者群体细分中的应用[J].农业图书情报学刊,2011,23(9):15-42.
[8]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):46-150.
[9]贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007(1).
[10]潘旭武,陈玲洪.数据挖掘在数字图书中的应用研究[J].浙江高校图书情报工作,2007,1(81):36-55.
[11]张付志,姜志英.一种基于聚类技术的数字图书馆个性化推荐算法[J].计算机应用与软件,2008,7(25):84-99.
[12] K.Suresh, D.K.S.G.Automatic Clustering with Multi-objective Differential Evolution Algorithms[C].IEEE Congress on Evolutionary Computation, 2009: 2590-2597.
[13] K.S.N.Ripon, C.H.T.S. Multi-objective evolutionary clustering using variable-length real jumping genes genetic algorithm[C]. Proceeding of the 18th International Conference on Pattern Recognition, 2006: 1200-1203.
[14] K.S.N.Ripon, M.N.H.S.Evolutionary multi-objective clustering for overlapping clusters detection[C].IEEE Congress on Evolutionary Computation, 2009: 976-982.
[15] S.Saha, S.B.A symmetry based multiobjective clustering technique for evolution of clusters[J].Pattern Recognition,2010, 43(3): 738-751.
中图分类号:G25
文献标识码:A