数据挖掘技术在图书管理中的应用

2012-12-31 00:00:00张显恒
科技资讯 2012年26期


  摘要:大学图书馆在日常的图书流通中会产生大量的读者服务数据,这些流通数据能够客观反映不同读者阅读习惯、读书兴趣等方面的规律和特点。数据挖掘技术中的关联规则、聚类分析、分类和预测分析等方法对发现和挖掘这些规律和模式有着独特的优势。把这些技术应用在图书管理中,可以发现图书流通环节隐藏的潜在规律,提高图书流通效率。同时为领导决策、馆藏图书配置以及文献结构体系建设提供科学的指导。
  关键词:数据挖掘技术 图书管理 技术分析方法
  中图分类号:G251文献标识码:A文章编号:1672-3791(2012)09(b)-0254-02
  1 数据挖掘
  随着各行业事务处理的计算机化,我们产生和收集数据的能力正在迅速提高。我们已经被各种数据所淹没,如科研数据、商业数据、气象数据、居民日常消费数据、图书借还历史数据……我们没有时间和精力把这些数据逐个查看。用什么手段来处理和应付这些数据已经成为我们当前的兴趣所在,因此我们就必须找到一套行之有效的办法,来对这些数据实现自动分类、分析和汇总,自动地发现和描述数据中的规律和趋势,并发现和标记数据的异常情况。数据挖掘技术的出现和发展,为我们提供了解决这一问题的有效方法。
  数据挖掘是将隐含的、尚不为人所知的、同时又是潜在的信息从数据中提取出来,建立计算机程序,自动在数据库中扫描,以发现规律或者模式,即找出数据中的模式或规律的过程。这个过程是自动的或半自动的,数据的总量通常是相当可观的,同时从中发现的模式或规律需要是有意义的,并且能产生一定的效益。
  数据挖掘通常又称为数据中的知识发现,是方便地提取代表知识的模式或规律;这些模式或规律通常隐含或记录在各种数据库、数据库集、网页日志、应用软件或通信数据流中。不能把数据挖掘看作是简单的数据库查询技术。数据挖掘要求在海量数据中,挖掘出的信息是新颖的、潜在实用的、正确的和最终是可理解的、并且是非平凡性的;它不同于在电话本上查找电话号码和在搜索引擎上查找特定的网页内容。数据挖掘技术可以通过分类和预测分析的方法对海量数据进行直接数据挖掘;也可以通过关联分析、聚类分析、描述和可视化分析,以及复杂数据类型,如信息网络、web、图形图像和音频视频等的分析来进行间接数据挖掘。如在对美国沃尔玛的购物篮分析,发现的啤酒和纸尿布之间存在的让人忍俊不禁的联系。
  2 图书馆
  功能强大的数据挖掘技术为每天面对数量庞大、分类众多的高校图书和不同口味、需求各异的服务对象的高校图书管理者提供了一个化腐朽为神奇的法宝。图书管理者在工作中充分发挥数据挖掘技术在图书管理、读者服务等方面的作用,不断实践广泛应用,必将实现图书管理工作的大变革和跨越式发展。就现在笔者所在学校的图书馆而言,与大部分图书馆构成大体一样。我们学校的图书馆包括职能部门:采编部、流通部、技术部、期刊部和参考咨询部;教学研究部门:信息检索教研室、信息检索研究所;行政部门:办公室及馆长。简称“五部一室一所”,部门各自的作用仅从它们各自的名字便可粗略得知。这里只就两个主要部门做简单介绍。采编部主要负责图书馆新进图书的前期采访、采购和后期加工,如分类、编目、录入、分库、入库等工作。流通部主要负责文学书库、艺术书库、外文书库、中文工具书库、自然科学书库、社会科学书库及样本书库等书库的日常管理和图书流通工作。
  3 数据挖掘技术的应用
  3.1 图书流通中的应用
  频繁模式是频繁出现在数据集中的模式。关联规则是从频繁模式产生的最常见的一类规则。用关联规则对不同读者的日常借阅历史目录进行跟踪分析,从这些海量借阅历史目录信息中挖掘,发现各类图书间存在的关联,总结不同读者的兴趣。通过各类图书这种关联关系的支持度和置信度正确计算分析,可以得出异类图书间的关联规则。通过深入研究各专业读者的读书学习习惯,可以为图书馆领导科学决策、高效管理提供现实依据,为图书管理员日常管理工作中的新书分库和图书的异类排架等方面提供科学有效的参考,从而提高图书馆图书借阅效率,为高校广大师生提供更加科学、高效、人性化的服务,最终达到读者面对图书和图书面向读者的目的,实现读者和图书间的和谐。
  具体而言,如用数据挖掘软件对读者借阅历史的数据挖掘发现,近年来出现的一个出乎大家意料的现象,很多理工科的学生在大三时期,频繁的借阅经济类的书籍,特别是与考研相关的经济专业图书。后来通过软件分析和实践调研得知,由于近年来大学生毕业人数不断攀升,就业压力逐年加大。很多大学生为逃避就业选择了考研,而高等数学、概率统计在而经济类研究生入学考试中占有很重要的作用,理工类比经济专业学生在数学科目考试中占有明显优势,容易考取。因此,就有很多理工类学生在大三时期,选择了报考经济类研究生。于是在学过本专业,确保顺利毕业的同时,挤出大量课余时间通过自学或者旁听等方式加补经济类专业课程。从而导致了上述不寻常借阅现象的发生。
  图书管理人员在新书分库和图书排架方面,就可以利用这个发现,大胆打破理工类图书和经济类图书分别分库存放的限制,进行个性化和人性化的分库排架方案。科学的将把部分副本量的经济考研类图书,与高年级理工类专业书进行跨学科合库且就近上架摆放,以提高图书资源流通和利用效率。依次类推,新书分库和图书排架也完全可以根据,年级、专业、读者类型,如专科生、本科生、研究生或者课堂教学教师、实验类教师等读者类型的需求等,作为科学的参考。当然这种参考需要以事先对图书资源利用率和读者借阅目录做正确的数据分析和知识挖掘为前提。而这种个性分类法,可以在部分书库做试点,特别是在院专资料室的图书分类中可以广泛采用大胆探索。在实践中查找利弊反复检验,加以时日并实时做出必要的修正和改进。待时机成熟,这种个性化的图书分类排架法可在全馆推行。再经过长期的跟踪调查、科学统计结合数据挖掘技术的数学计算等研究,这种根据学校自身特点,针对性的强具有本校特色的科学又新颖图书分类排架法,必将大大方便不同类型的读者群体,从而大幅度的图书资源流通和利用效率。
  聚类是将物理或抽象对象的集合分成相似的对象类的过程。通过自动的聚类能够识别对象空间中稠密和稀疏区域,从而发现全局分布模式和数据属性之间有趣的相关。聚类分析已经广泛应用于数据分析等领域中。同样利用数据挖掘的聚类分析技术分析、挖掘读者在不同时段的借阅特点和规律。如学生不同年级、各个学期,甚至每个月份,每天的图书借阅规律,找出不同时间段的图书借阅高峰。以合理配置图书管理人员的数量,灵活安排图书馆老师的上班时间。同时为图书馆领导科学决策,提高图书馆员的效率提供现实的数据支持。这样可以大大提高图书流通率,减少读者借阅图书时间,从根本上提高图书管理员的工作效率。
  3.2 图书采编中的应用
  数据挖掘技术中的关联分析、聚类分析在图书采购和编目中也有着广泛的应用。比如,可以通过对各类读者的借阅偏好和各种图书的借阅率的关联性分析,找到不同读者和相关类图书的关联度。为制订采购图书的种类、副本量以及新书推荐和图书导读提供科学建议,从而达到减少图书资料浪费,提高图书利用率的目的。通过对不同年级专业类型的读者进行聚类分析,找出不同类读者的阅读倾向,同样可以为图书采购人员正确制订采购图书计划和结构提供科学依据,为采编人员提供全方位的现实的指导,为建设全面科学合理的图书馆图书文献构成体系保驾护航。
  分类是找出描述和区分数据类或概念的模型的过程,以便能够使用模型预测类标号未知的对象。同分类一样,预测也是一种数据分析形式,不同于分类可以用于提取描述重要数据类,预测可以用于预测未来的数据趋势的模型。这两种分析有利于我们更好地全面理解数据。数据挖掘中的分类和预测分析在采编中的应用也是相当广泛的。通过图书管理系统,对读者每天的图书借阅归还等的服务所产生的大量数据,通过数据挖掘系统做出分类和预测分析,为图书采购、新书分库以及旧书调拨提供科学指导。特别是弥补图书采购人员,在现实采购方面存在的凭经验和专家推荐等采购方法上的不足。通过数据挖掘在分类和预测分析中提供的各类图书文献利用率和不同读者的阅读倾向等预测信息和评估报告,为及时补充稀少短缺图书和适时剔除过时图书资源提供多维度的、全方位的科学合理性建议。
  4 结论
  总之,数据挖掘技术关联规则分析、聚类分析、分类分析和预测分析等方法在图书馆的流通和采编过程中都有相当广泛的应用。通过应用这些技术,可以发现图书流通环节隐藏的潜在规律。这些规律的发现,在提高图书流通效率、合理排架、科学配置图书管理人员、科学制定值班时间以及为读者有针对性的提供新书推荐和导读等方面,都起到不可估量的作用。它也为领导决策、馆藏图书配置及文献结构体系建设,提供科学的指导。
  参考文献
  [1] JiaweiHan,MiehelineKamber[著],范明,孟小峰[译].数据挖掘——概念与技术[M].北京:机械工业出版社,2005.
  [2] (美)Jamie MacLennan,(美)ZhaoHui Tang,(美)Bogdan Crivatr[著],董艳,程文俊[译].数据挖掘原理与应用—— SQL Server 2008[M].北京:清华大学出版社,2010.
  [3] 李朝葵,凌云.数据挖掘及其在图书馆中的应用[J].情报杂志,2002(6):33-34
  [4] 刘晓东.数据挖掘在图书馆工作中的应用[J].情报杂志,2005(8):63-65.
  [5] 鲍翠梅,王尊新,白如江.数据挖掘技术及其在图书馆中的应用[J].情报杂志,2004(9):49-5