柴艳玲
(昆明学院图书馆,云南 昆明 650214)
随着Web2.0技术的日益成熟,图书馆界利用Web2.0技术构建新型的图书馆服务模式,图书馆2.0随之出现。构建图书馆2.0不仅需要利用简易信息聚合(RSS)、博客(Blog)、维客(Wiki)、即时通信 (IM)、 社会性网络服务 (SNS) 标签 (Tag)等Web2.0技术,而且需要众多读者的参与和大量信息资源的支撑。应用数据挖掘技术从海量的数据中提取有用的知识,从读者需求信息中分析读者需求倾向,可完善图书馆2.0结构化数据库的建设,及时发现、掌握读者的阅读规律和信息需求,从而提高图书馆2.0的服务水平。
自从2005年鲍尔·米勒(Paul Miller)博士提出图书馆2.0概念以来,国内外学者纷纷开展图书馆2.0研究,一些大学图书馆也在利用Web2.0技术构建图书馆2.0。对于图书馆2.0的含义,目前没有统一的说法。范并思、胡小菁指出图书馆2.0是Web2.0技术或服务在图书馆信息服务中的应用。刘炜、葛秋妍指出,图书馆2.0不仅仅是一些技术的组合,更是一种新的服务模式和管理理念。从这些学者的论述中,可以看出图书馆2.0注重用户参与,是以用户为中心的图书馆服务模式,是以Web2.0技术应用为主的一种新型服务模式。在图书馆2.0环境下,用户可以参与图书馆的资源建设、资源组织、门户网站建设。随着图书馆2.0理论研究的不断深入,北京大学图书馆、厦门大学图书馆、南开大学图书馆、上海大学图书馆、重庆大学图书馆、上海交通大学图书馆、武汉大学图书馆等积极探索图书馆2.0的建设和应用,推出了图书馆2.0构建方案,在资源建设、信息服务等方面构建了以用户为中心的服务模式,成为国内大学图书馆推行图书馆2.0服务的先行者。总之,参与、合作、创新、共享是图书馆2.0的核心理念。图书馆2.0支持用户创造或贡献资源、支持用户编辑与标引资源、支持图书馆为用户推送与定制资源,是现代网络环境下图书馆的发展方向。
数据挖掘是从大量的、不完全的、有噪声的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘以人工智能为基础,运用了数据库技术、统计学和进化计算等理论和算法。数据挖掘的任务是对数据进行关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等,从而找出潜在的有用的信息。目前,数据挖掘有十大经典算法,其中决策树方法、关联分析、聚类分析、遗传算法、粗糙集方法、支持向量机方法是应用较为广泛的数据挖掘方法。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要分为数据准备、规律寻找和规律表示三个步骤:1)数据准备。收集、整理原始数据,为数据挖掘提供充足的材料。对数据进行预处理,将数据变换为适合挖掘的形式,如汇总或聚集操作、属性量化或数据降维等。2)数据挖掘。确定挖掘的目的和挖掘方法,对数据进行分析。3)结果表达与解释。数据挖掘系统具有产生数以千计、甚至上万的模式或规则的潜在能力。依据用户对模式的兴趣度进行评估,把能够表示知识的有趣模式提交给用户。
数据挖掘工具种类繁多,通常分为三种:通用型工具、综合数据挖掘工具、快速发展的面向特定应用的工具。通用型工具占有较多的市场份额。通用的数据挖掘工具采用通用的挖掘算法,处理常见的数据类型。如IBM公司的QUEST系统、SGI公司的MineSet系统等。QUEST是一种多任务数据挖掘系统,提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet以先进的可视化显示方法、提供多种数据挖掘模式、支持多种关系数据库、具有多种数据转换功能、操作简单、支持国际字符、可以直接发布到Web等优势成为数据挖掘工具应用的佼佼者
图书馆2.0的建设首先要做好图书馆2.0网站建设,在此基础上建立资源系统和服务系统。1932年我国著名图书馆学家杜定友提出 “书”(包括图书等一切文化记载)、“人”(即阅览者)、 法”(包括图书馆的设备、管理方法、管理人才等)是图书馆构成的三要素。1957年,刘国均先生在《什么是图书馆学》一文中提出图书、读者、领导和干部、建筑与设备、工作方法是图书馆的构成要素。从这些学者对图书馆构成要素的不同表达中,我们可以看出,图书和读者是图书馆构成的基本要素。笔者从这两方面探讨应用数据挖掘技术构建图书馆2.0的资源体系和用户服务内容。
图书馆2.0的资源建设因用户的参与变得更为多样化,图书馆要对用户创造和分享的信息进行有效的收集、整理组织并长期保存,以丰富图书馆2.0信息资源。一是利用数据挖掘技术对大量网络信息资源尤其是用户创造的网络信息资源进行挖掘、整理,建立各种数据库。网络数据挖掘是从Web文档、Web活动中抽取出用户感兴趣的、潜在有价值的隐藏信息。网络资源增长迅速、内容丰富、形式多样、结构复杂、分布广泛,图书馆可按专题挖掘信息、整理信息,构建专题数据库。如高校图书馆可针对学校学科特色,构建学科信息库;挖掘高校师生个人收藏夹,找到隐藏在个人收藏夹中的Web站点的隐性信息,发掘网站中的所隐含的信息;挖掘教师教学课件、备课讲义以及论文资料等原生数字资源进行收集、整理、加工,建立知识库。二是挖掘用户信息需求特点,建立适合用户需求的资源体系。对用户访问图书馆的历史记录、用参考咨询问题记录、用户文献借阅记录、用户参与图书馆活动记录等进行挖掘,发现用户信息需求特点,构建知识库。可以分析用户博客、维客等内容,提炼用户需求内容。厦门大学图书馆基于维客建立的知识库主要内容包括部门规章制度、业务标准规范、日常通知告示等,这一知识库成为用户了解图书馆的重要参考源。采用数据挖掘工具,对用户借阅数据进行聚类分析,找出用户文献借阅的一般规律,从而针对性的加强文献采购工作,使所采购的文献既符合本馆馆藏建设要求,又能最大限度地满足用户的需求。从馆员与读者的QQ交谈中、RSS资源推送中、用户利用SNS网站的过程中挖掘用户信息需求内容,预测用户未来信息需求倾向,从而建立具有前瞻性的信息资源体系。三是应用数据挖掘技术,可以协助采购人员确定购买各学科图书的数量和复本量,协助数字资源管理人员对各类数据库进行正确评价。通过对文献借阅量的分析和挖掘,可以获得图书的流通指数、借阅情况、数字资源访问情况等,以探索各类文献间的关联规则或比例关系,为各学科文献的采访工作提供科学、合理的分析和预测报告。
用户是图书馆2.0的中心和基础。通过对图书馆大量数据进行聚类分析,可得出读者需求特征,将读者划分为不同的“读者QQ群”,针对不同的读者群提供不同内容的信息咨询服务。QQ群是腾讯公司推出的多人聊天交流服务,群主在创建群以后,可以邀请朋友或者有共同兴趣爱好的人到一个群里面聊天。在群内除了聊天,腾讯还提供了群空间服务,在群空间中,用户可以使用群BBS、相册、共享文件等多种方式进行交流。图书馆可利用“读者QQ群”,选派不同特长的馆员与QQ群的用户进行交流,开展在线信息咨询服务。如图书馆可在图书馆2.0网站建立“文学类读者QQ群”“科普类读者QQ群”“健康类读者QQ群”“少儿读者QQ群”等,从而为不同QQ群里的读者提供其所需的信息内容,向不同的读者QQ群利用RSS主动推送信息。
博客是以网络作为载体,简易迅速便捷地发布自己的心得,及时有效轻松地与他人进行交流,集丰富多彩的个性化展示于一体的综合性平台。在 “老槐也博客”“超平的博客”“竹帛斋博客”“编目精灵Ⅲ”等图书馆界知名人士博客不断出现的情形下,图书馆用户创建的个人博客大量涌现。截至2008年11月7日,中国博客数量已达到1.07亿,2011年我国微博客用户已经超过3亿。利用数据挖掘技术,对用户个人博客进行分析,根据用户信息需求,构建图书馆博客,可将潜在读者发展成为现实读者,扩大图书馆服务的范围,提升图书馆的社会影响力。如高校图书馆可在图书馆2.0网站建立学科博客,为用户提供学科知识服务。上海交通大学图书馆建立了材料学科、机械与动力工程、化学化工、船舶海洋与建筑工程、电子信息与电气工程、法律学科、经济与管理、传媒与设计等14个学科博客,介绍和链接学科常用资源,多角度、深层次揭示图书馆资源,为学科馆员的深层次服务和科研实践提供了一个舞台。哈尔滨工业大学图书馆在其网站上建立了建筑学科、材料学科、管理学科、能源学科、交通学科、计算机学科、人文社会学科博客,用户通过点击各个学科博客网址,便可浏览内容丰富、图文并茂的学科博客内容。
总之,利用数据挖掘技术对用户的网址浏览记录进行挖掘,发现用户的使用模式,根据用户的兴趣提供主动的个性化服务,是图书馆2.0服务的基本理念。
图书馆2.0是图书馆未来发展的一个方向,利用数据挖掘技术,建立图书馆2.0的信息资源体系,提供个性化的服务内容,可激发广大用户利用图书馆2.0获取信息的兴趣,使Web2.0技术真正成为推动图书馆科学发展的助推器。当然,在构建图书馆2.0的过程中,图书馆界还需利用其他信息技术,使图书馆2.0的资源更丰富、服务更便捷。
[1]曹薇.图书馆 2.0建设研究[J].情报探索,2009(9):113-115.
[2]刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6):158.
[3]倪凤霞.以图书馆 2.0为背景的高校图书馆服务[J].图书馆学刊,2011(4):86.
[4]潘旭武,陈玲洪.数据挖掘在数字图书馆中的应用研究[J].浙江高校图书情报工作,2007(1):36-39.