杨江丽,高 凡,董若剑
(西南交通大学图书馆,四川 成都 610031)
图书馆是高校师生学习与科研的知识后盾。 即使在信息资源高速发展的今天,图书的流通借阅依然是高校图书馆基本的服务内容。 因此,图书馆每天会产生大量的图书借阅流通记录数据,目前大多数图书馆只是将这些数据用做一些常规的工作量统计, 图书馆管理系统无法发现这些数据中存在的关系和规则,无法预测读者的信息需求。 利用数据挖掘技术,分析这些数据之间的关联,有利于合理配置资源和提高图书馆资源的利用率,同时能提高服务水平,使图书馆的服务能真正满足师生的需求。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程, 这些信息的表现形式为:规则、概念、规律及模式等。 它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。 数据挖掘的主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。
数据挖掘的研究融合了多个不同学科领域的技术与成果, 使得目前的数据挖掘方法表现出多种多样的形式。从统计分析类的角度来说,统计分析技术中使用的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等方法。 图书馆领域一般使用知识发现类数据挖掘技术,它是一种与统计分析类数据挖掘技术完全不同的挖掘技术,包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、规则发现和关联顺序等。
数据挖掘一般分为三个阶段:数据准备、数据挖掘、结果的评价和表达。 详细流程见图1。
图1 数据挖掘的过程
我国从20 世纪90 年代中期开始开展数据挖掘的研究,但发展十分迅速。 随着计算机、人工智能、数理统计科学的迅速发展及数据库技术的大规模应用而越来越显示出其强大的生命力。
在国内,数据挖掘技术在图书馆领域中的研究才刚刚起步,研究主要集中在高校的科研队伍中,没有形成整体的研究团队。 通过对中国期刊全文数据库网站(CNKI)的检索分析,共有298 篇该主题研究的相关报道。 从2000 年开始就有相关文献对数据挖掘技术在图书馆中的应用的研究报道,2005 年进入了高速发展期,2010 年相关文献有41 篇,截至2011 年9 月已经有39 篇相关研究报道。 由此看来,数据挖掘技术在我国图书馆领域中的应用研究还趋于上升阶段。
本文以高校本科生读者作为研究对象,研究该类读者在校期间的借阅行为,读者从入学到毕业的时间是一个完整的学习阶段,通过对其在校期间借阅数据的分析,可以分析出本科生和研究生读者在校几年中的表现和特点,还有其借阅行为的不同之处;同时研究不同类别的图书在该专业的利用率,其结论可以给图书馆优化馆藏资源提供有效、科学的依据,更好地满足读者的阅读要求。
图2 西南交通大学2006 级本科生原始借阅数据(部分)
本文选用西南交通大学图书馆BSLC 图书馆管理系统中的借阅记录、馆藏记录、读者信息记录等数据库中的数据。 西南交通大学为“211 院校”,读者具有知识、地域多元性,对于数据挖掘的样本提取也具有多样性和代表性。 图书馆数据库系统中有众多的数据表, 通过SQL 查询语言从数据表中提取所需数据,导出数据的主要字段包括:借阅证号、姓名、读者类型、题名、索书号、借阅时间,参见图2。 本文采用西南交通大学2006 级土木学院本科生在图书馆系统中记录的33 634 条借阅数据作为分析的数据来源。
按照借阅时间分别整理2006 级土木学院本科生四个学年的借阅数据, 将整理后的数据导入spss 软件进行数据分析,得出这些读者在各年级的借阅情况,见表1。 可以看出,读者在大一到大三的借阅量逐年增长,在大三时借阅量达到最高的9 640 册次,占四个学年比例的28.7%,大四时借阅量最少,低于大一的图书借阅量。
表1 各年级大学生读者借阅量统计
用中图法将原始数据中的分类号进行转换, 并且用spss 软件对该级读者整个本科阶段的借阅量进行分析后,得出读者借阅各类图书的情况,见图3。 土木学院属于工科学科范畴,所以学生对工业技术类的书籍需求量最大,在借阅图书时主要以与专业相关的参考书和基础理论书籍为主,该类书籍占到了总借阅量的31.2%;同时文学、语言类的图书也是该类读者的热门借阅类型。 因此,图书馆在采购图书时应根据其借阅特点,对读者需求量大的图书应适当增加复本,以满足读者的借阅需求。
图3 各类图书借阅情况柱形图
为了观察同级读者在不同年级借阅情况的变化,将整理后数据进行分类,并将最后的数据导入spss软件,针对不同年级学生对不同类型图书的借阅情况进行分析比较,参见表2。
利用卡方检验来考察图书类型变量和读者所在年级两个变量是否有关系, 该检验能较精确地给出这种判断的可靠程度。经过对变量的检验,从表3 可以明显看出借阅图书的类型与读者所在年级变量存在显著性关系,相同的读者,随着年级的不同,借阅图书类型也在发生变化。
表2 不同年级大学生对不同类型图书借阅统计表(部分)
表3 卡方检验
图4 不同年级的借阅情况条形图
将表2 中的结果用条形图表示(见图4),从中可以很直观地看出借阅图书的类型与读者所在年级存在显著性关系,这个结论和表3 卡方检验的结论相吻合。 对于土木学院本科生读者来说,大一主要是学习基础知识,所以对基础学科的书籍需求量较大,因为还没有具体的接受专业课学习,所以对专业书籍需求较少,随着对专业课学习研究的不断深入,读者对专业书籍需求量呈明显的逐年增长态势,大三达到最高峰,占当年总借阅量的32.5%;语言类、文学类的书籍在大一、大二、大三需求相对稳定,大四由于要完成毕业论文、找工作等借阅量呈减少趋势,但整体来看,以工科为主的该类读者群体,除了对相关专业的学习外,对语言文化及文学修养也非常重视,对这些书籍的需求相对较大,仅次于专业书籍的需求。图书馆利用数据挖掘技术,可以准确地把握读者的需求,提高读者借阅的满意度。同时也将图书馆采购图书中的人为的主观性降到最低,最大限度地提高决策的科学性、准确性和全面性。
专业类书籍是土木学院本科生读者的主要阅读类型, 读者借阅专业类书籍数据描述如表4 所示,通过spss 软件分析随着学生年级的变化与对专业类书籍的需求是否存在显著性变化,对两个变量的分析见表5,显著性(0.000)〈0.05 表示两个变量之间存在显著性差异,这说明随着年级的不同,学生对工业用书的需求量也在发生着明显的变化。
表4 专业类书籍借阅数据描述
表5 显著性分析
在数字化时代,图书馆需要在庞大信息资源中挖掘信息,为个性化优质服务提供有效的决策依据。读者的借阅数据可以带给图书馆决策者很多不同的有价值的信息,文中的研究分析方法及结果只是其中的一小部分。 根据数据挖掘技术对高校图书馆读者行为分析的结果,图书馆可以掌握高校图书馆读者的借阅规律,把握读者的借阅倾向,进而优化馆藏资源,提高高校图书馆馆藏资源的利用率,准确提供读者所需要的书籍。
[1] 王斌.数据挖掘在高校图书馆中的应用研究[D].西安:西安理工大学,2010.
[2] 王桂芹,黄道.数据挖掘技术综述[J].电脑应用技术,2007(69):9-14.
[3] 杨光,张学潮.数据挖掘在高校图书馆用户行为分析中的应用——以山西大学图书馆为例[J].晋图学刊,2011(2):19-28.
[4] 廖秋荣.基于数据挖掘的图书馆的读者借阅行为分析[J].柳州职业技术学院学报,2011(11):90-93.
[5] 谭云江,凌云,闫海峰,等.基于数据挖掘技术的高校图书馆读者行为研究[J].图书情报工作,2010(Z2):359-362.