孙 璐 李广建
(北京大学信息管理系 北京 100871)
国外数字图书馆研究文献的定量与定性分析研究
孙 璐 李广建
(北京大学信息管理系 北京 100871)
以数字图书馆为主题,选取Web of Science中收录的近12年来该领域文献为研究对象,分别采用基于主题特征词突变分割算法、关键词有序聚类算法、关键词共现聚类算法及文献同被引分析等算法进行文献计量分析。研究发现12年中数字图书馆领域研究的三个明显阶段,详述了三个发展阶段的主要研究特征。通过文献计量综述,全面了解数字图书馆领域研究的发展特点及发展方向。
有序聚类 数字图书馆 主题演化
自上世纪90年代初美国提出“数字图书馆”概念以来,数字图书馆的研究和建设已经成为图书情报、计算机等学科领域的热点研究课题。经历了早期的发展,特别是本世纪,在世界各国的积极推动下,数字图书馆研究和建设取得了丰富的成果。本文以2000年至2012年的英文文献为基础,考察国际数字图书馆领域的研究发展历程,以期借鉴。
2.1 数据源采集
笔者于2012年5月以 Web of Science 数据库为数据源,用“digital library”或“digital libraries”为检索词,时间限定为2000-2012年,查询题名、摘要以及关键词中出现检索词的研究论文,得到6 153篇文献,作为分析对象。
需要指出的是,数字图书馆是一个跨学科的研究领域,内容范围相当广泛。虽然有些研究例如信息检索技术中并未直接使用“数字图书馆”这一概念,但仍然属于数字图书馆的研究范畴。考虑到这种情况的界定和甄别要花费大量的精力和时间,因此本文的研究对象仅限于上述在论文中出现数字图书馆关键词的文献。尽管覆盖率方面受到一定影响,但本文检索得到的6 153篇文献也能在一定程度上反映本世纪以来数字图书馆研究的概貌。
2.2 研究步骤
(1)对检出结果的相关元数据信息,包括标题、作者、摘要、关键词、引文等进行抽取和规范化存储。
(2)对规范化存储集合中的各元数据信息进行同义词、近义词等手工归并,用开源系统Lucene提供的分词功能获得文档特征词。
(3)用变异点识别方法分析文档特征词演变情况,找出特征词突变点,根据突变点对研究的重点进行分期。
(4)对各研究分期的文献,计算文档特征词的共现频率,形成文档共现词矩阵,用MatLab对文档共现词矩阵进行层次聚类计算,构造文档聚类簇,用来分析文献的相关性以及文档研究内容的分类特征。
(5)用RefViz软件的引文分析功能,找出各研究阶段引文中心级的文献,进一步阅读文献,确定其具体内容,以期了解各研究分期中的热点内容的主要学术观点。
3.1 总体概况
表1列出了6 153篇文献的年代分布情况以及每年引用情况,其中,2012年非全年度统计,故对引文未作分析。从表1可见,从2002年到2009年文献数量都保持在500篇以上的多产态势,且2007年文献数量最多,达到了684篇,从2007年之后呈明显的下降态势,到2011年缩减到峰值的一半还多。被引用的文献是指某一年度发表论文累计被引用的文献数量。被引用文献数量变化在12年中呈钟形变化态势,且2007年后急速下降。
表1 各年度文献数量及被引文献数量情况
3.2 各年度出现新词及消失词变化分析
表2反映了各年度文献中出现的新词和消失词的情况数量。由表2的数据可见,12年来数字图书馆领域出现的新词数量呈明显下降态势,说明本领域的研究内容基本趋于稳定。
表2 各年度出现新词及消失词变化情况
进一步分析新词的增加情况,可以发现2006年之前每年新增词的数量都在50个以上,反映了这阶段是数字图书馆研究处于开拓和发展时期;2006年之后,新增词数量减少,反映了数字图书馆研究进入了平台期。在消失词方面,其变化规律与新增词正好相反,处于逐年递增状态。进一步分析消失词的内容,发现有两种情况,一种是后续文献中不再出现,相应词汇彻底消失。据我们分析,有两种原因,其一是由于处在探索阶段,概念的提出还不够完善,结果是被自然淘汰,例如knowledge subspace,learning tool;其二是相应问题在学术界已经达成共识,对该问题的研究基本告一段落,例如在2004-2006年消失的descriptive metadata,structural metadata,metadata model,visual metadata,metadata management,metadata repository正是这种原因。另一种情况是消失的词被归并到专指词中,表明研究工作正在细化,从宏观研究进入到更为具体和微观的研究。例如2003年消失的Server一词,实际被归并为Web Server、DB Server以及Agent Server中,反映了研究工作的细化。
3.3 有序聚类分析
有序聚类分析方法[1]是一种获得连续样品段内发生可能性突变点的有效方法。其基本原理在连续样品段内,通过获得最优突变点,使得同类之间的离差平方和最小,而类与类之间的离差平方和相对较大。设最可能的突变点为V,则突变点前后离差平方和表示为:
S(τ)=Vτ+Vn-τ
那么当S=min{S(τ)}(2≤τ≤n-1)时τ推断为突变点。
设相关文献集合为Ti(i=1,2,...,n),从Ti中抽取每个文档的特征词,则可将文献集合转换为特征词集合Wj(j=1,2,...,q),那么特征词集合在时间集tm(m=1,2,...,p)上的特征矩阵为:
其中Wij=(i=1,2,...,p;j=1,2,...,q)表示词Wj在时间tm上出现的频次。
可以获得特征词集合Wj(j=1,2,...q)在不同时间段tm(m=1,2,...,p)上发生突变的时间点集合为tj(τ)(2<τ 利用上述方法分别计算每一年度特征词的变异,得到图1所示的特征词变异点年度分布图。 图1 数字图书馆主题演化过程中特征词年度变异分布情况 根据图1中变异点的时间分布,我们将数字图书馆研究主题发展过程划分为4个阶段:2000-2001年基础期、2002-2004年活跃期I、2005-2007年活跃期II、2008-2012年发展期。其中2000-2001年共700篇、2002-2004年共1 712篇、2005-2007年共计1 848篇、2008-2012年共计1 893篇。 3.4 分阶段共现及引文分析 图2体现了经特征词和引文分析处理后得到的各阶段研究主题分布。从中可以看出,基于用户交互接口及行为、用户服务提供方式等方面的研究贯穿整个数字图书馆的12年研究历程之中。另一贯穿始终的研究主题集中在数字图书馆资源整合的相关理论、方法、实证应用等方面。 图2 数字图书馆各发展阶段主题分布对比情况 下面具体分析各研究阶段的主要特点。 (1) 2000-2001年期间,数字图书馆领域的研究特点主要体现在两个方面:一是数字图书馆框架研究。从用户交互及用户接口层面比较分析不同系统框架,并研究框架的构建与具体的用户应用环境关系。二是数字图书馆用户交互的应用研究。从总体上来看,这一时期主要是从用户需求以及用户交互层面来研究数字图书馆的框架,但是关于数字图书馆理论模型的研究比较少。 (2) 2002-2007年期间,数字图书馆进入明显的活跃期,研究热点相对分散,可谓百花齐放。其研究重点主要有:有关数字图书馆方法、模型和系统本身的研究;数字图书馆参考模型研究;利用具体描述逻辑构建数字图书馆系统的中间框架;利用元数据和本体进行网络数据整合和信息共享。其研究特点主要体现在理论方法的深入和理论应用的拓展。从突变点的数量上来看,2005-2007年达到最大值。一方面表明研究内容差异性比较大,另一方面也表明这个时期人们的研究思路更加宽广,对数字图书馆全方位的研究开始了。 (3) 2008-2012年间,数字图书馆研究进入发展期,热点相对集中。研究热点之一是数字图书馆用户交互的应用,许多研究采用实证方法验证已经提出的各种框架及其与具体用户的应用环境相结合的应用效果;另一研究热点集中在数字图书馆用户的可接受性、用户易用性的评价理论应用实践方面。 在定量分析的基础上,我们进一步阅读了各发展阶段的中心级文献,将本世纪以来国外数字图书馆的研究内容归纳为理论框架、技术方法、系统架构及互操作、质量评价、用户交互以及服务模式等六个方面的内容。 4.1 理论框架研究 主要表现为数字图书馆参考模型的研究,2002-2007年是数字图书馆理论框架研究的最活跃时期,其中最具影响力的理论框架有两个,分别是DELOS模型和5S模型。 (1) DELOS模型 DELOS模型由欧盟资助的DELOS项目提出,用以指导数字图书馆研究和数字图书馆系统开发。该模型由三层框架、六个基础概念及四大主要角色构成。三层框架分别是数字图书馆(Digital Library)、数字图书馆系统(Digital Library System)和数字图书馆管理系统(Digital Library Management System)。六个基础概念包括内容(Content)、用户(User)、功能(Functionality)、质量(Quality)、策略(Policy)和体系结构(Architecture)。四大主要角色分别是数字图书馆终端用户(DL End-users)、数字图书馆设计者(DL Designers)、数字图书馆系统管理者(DL System Administrators)以及数字图书馆应用开发者(DL Application Developers)。DELOS模型对这些概念、构成及其关系进行了详细定义,试图构建数字图书馆的全景理论和实践体系。 (2) 5S模型 5S模型由M. A. Goncalves和E. A. Fox[2]等人提出。他们认为数字图书馆(DL)是一个复杂的信息系统,应该用形式化的架构来加以描述。因此,他们提出了由流(streams)、结构(structures)、空间(spaces)、场景(scenarios)和社会(societies)构成5S模型,用该模型作为数字图书馆研究和建设的分析工具,并给出了每一个S的形式化表达,据此还设计了一个最小的DL所涉及的核心概念及要素。 4.2 技术方法研究 数字图书馆技术方法的特点是分散化,研究内容不断丰富,研究角度差异性比较大。从研究内容上来看,主要分为智能信息访问和智能搜索技术、可视化技术及社会语义网络技术三大方面。 智能信息访问和智能搜索技术的研究热点主要包括自动分类、聚类、信息抽取、问题应答(QA)、文本摘要、查询理解、知识组织及搜索策略。典型的研究工作有:Chih-Ping Wei和Chin-Sheng Yang[3]利用用户的偏好来改善文档聚类效果。他们提出了一种组合偏好与基于内容方法的混合文档聚类技术,使得聚类精度和聚类查全度都得到了提高。D. Merkl[4-6]在SOMLib数字图书馆框架项目下,提出利用无人监管的人工神经网络进行文档分类,改善了文档分类的效果。Hisham. Al-Mubaid和Syed A. Umair[7]探索了一种新的结合分布式单词聚集和学习型逻辑技术的文本分类方法,证明了改变训练集大小对学习者的分类性能影响。 可视化是以图形图像方式展示数字图书馆服务及其内容的一种技术,目的在于帮助用户对内容进行理解,提高数字图书馆资源的利用效率和效果。这方面的代表有:K. Borner[8]对数字图书馆用户查询结果的二维和三维可视化进行了全面的探索;提出了一种改进的预测算法,使数字图书馆能够提供交互式服务,协助用户最大限度地获得查询结果并能对它们做正确的解读。A. Rauber[9]研究证实了自组织地图是一种受欢迎的神经网络模型,他提出了一种可以将独立自组织地图与分布式自组织地图结合起来的技术,这种技术支持集群或独立数字图书馆系统的创建和维护,并能适应个人用户的需求。 社会语义网络技术的研究热点主要包括:数字图书馆信息整合中引入语义技术、在线语义、基于自动行为选择的多模型技术等。相关研究包括:K.K. Matusiak[10]提出的以用户为中心构建索引的社会分类标签技术,也即用户参与创建的元数据技术。C. C. Marshall和A. J. B. Brush[11]研究了个人标签和公共标签之间的关系,并使用这些研究结果探讨如何从个人标签过渡到公共标签的方法。Xiaoming Liu和J. Bollen[12]利用社会网络分析方法研究面向数字图书馆研究社区中的网络合作作者的服务模式,分析了ACM、IEEE、ACM / IEEE联合数字图书馆会议的网络合作作者的十年来活动,以此为基础总结了数字图书馆研究的发展规律。 4.3 系统架构及互操作研究 (1)系统体系架构 系统体系架构研究包括三个阶段: 第一阶段是早期的研究。主要是C/S二层架构和多层架构在数字图书馆系统中的应用。例如,L. L. Hill和J. Frew[13-15]等人在亚历山大数字图书馆项目研究中提出并实证了一个三层的客户端-服务器架构,该架构可以支持多个异构服务器之间的通信并实现了会话管理、采集、发现和评估,元数据检索和在线内容检索等功能。 第二个阶段集中在分布算法上的研究,主要有两个有代表性的研究团队,其一是M. R. Korupolu和M. Dahlin[16],他们利用模拟环境,考察了三个实际应用的资源整合分布算法,研究了这些算法的优化配置,通过实验总结了在数字图书馆中应用分布算法要遵循的法则。其二是B. F. Cooper和H. Garcia-Molina[17]等人,他们研究信息的对等(P2P)数据交换算法,提出了如何通过调整算法的策略来提供系统的最高可靠性。 第三阶段,主要集中在中间件的研究,例如,A. Rajasekar和M. Wan[18]等人利用虚拟化中间件SRB(储资源代理)框架构建了分布式数字图书馆,提出了一种面向数据网格的数字图书馆资源共享、发布和数据归档的综合方法。 (2)系统互操作 这方面的代表性成果是提出了一系列互操作协议并对这些协议进行应用研究,包括SDLIP,OAI,AUQA以及OpenURL等。 SDLIP即简单数字图书馆互操作协议,是一种基于HTTP或者CORBA的互操作架构,它规定数字图书馆互操作过程中的查询接口、资源元数据接口以及结果存取接口等三类基本接口。A. Paepcke[19]应用SDLIP协议,提出一种在相对复杂的Z39.50标准与相对通用轻量级的Web协议之间的折中解决方案。 OAI全称为Open Archives Initiative Protocol for Metadata Harvesting,简称OAI协议,是一种独立于应用的、能够提高Web上资源共享范围和能力的互操作协议标准。Liu X.,K. Maly和M. Zubair[20]等人设计开发了一个OAI兼容的开源的网关服务系统DP9,该系统提供统一的URL库记录,并在发生请求操作时将URL转换成对适当库记录的OAI查询,从而将原本支持OAI协议搜索引擎,比如:ldquodeep和Webrdquo,也可以被纳入到OAI检索体系中来,实现基于OAI的互操作。 AUQA接口是由L. Kovacs[21]在亚历山大数字图书馆原型项目中提出的一种通用的用户接口模型,它能模拟查询迭代,内置常见的模式和高级查询方法。它被应用于NCSTRL的分布式数字图书馆中,同时把它用于作为NCSTRL和ETRDL的替代性查询接口。作为AQUA用户接口模式的扩展实证,排名机制也被应用在系统之中。 OpenURL即“开放链接”,是一种解决不同的数字资源系统互操作、进行资源整合的方案,也是一项技术标准,可用来解决二次文献数据库到原文服务的动态链接。目前,许多数据库出版商和图书馆自动化系统都开发了自己的OpenURL链接解析器 J.E. Grogg和C.L. Ferguson[22]详细研究了OpenURL在谷歌学术搜索中的应用,提出了OpenURL链接解析器注册的机制,使得一个机构的用户能够通过OpenURL链接解析器将在谷歌学术搜索上的结果定位到本机构订阅的全文。 4.4 质量评价研究 系统评价的研究思想起源于2001年,基于NCSTRL业务系统的实践研究项目,S. Kapidakis[23]提出了一种数字图书馆服务质量的评估框架,试图针对这一时期数字图书馆服务质量的突出问题,即互联网上网络延迟和中断等不可预知的因素,为数字图书馆搜索请求服务提供网络负载平衡机制,使之提供优质服务。自此之后,面向质量评估及系统评价的典型研究主要体现在如下三个模型之中: (1) 技术接受模型 技术接受模型(TAM)作为一个技术使用的预测模型,于1989年提出,旨在探讨外部因素对信息技术使用者的内部信念(beliefs)、态度(attitudes)及意向(intentions)的影响,以解释和预测人们对信息技术的接受程度。Weiyin Hong、J.Y.L. Thong、Wai-Man Wong和Kar-Yan Tam[24]等人首先以TAM模型作为一种理论框架研究了用户接受数字图书馆的影响因素。其后的10年中,很多研究者都基于该模型进行实证及应用研究。 (2) 开源数字图书馆软件的评估检查框架 该框架是一个包括12个一级评价指标的检查单框架,由Goh、Dion Hoe-Lian以及Alton. Chua[25]等人提出,他们利用这一框架对流行的开源数字图书馆软件包进行了评价,结果是Greenstone的表现最佳,满足了框架中大多数指标,随后是CDSware,Fedora和EPrints。 (3) CASSM模型框架 该模型框架的全称为Concept-based Analysis for Source and Structural Misfits,由Ann. Blandford及Thomas R. G. Green[26]等人提出,着眼于用户和系统互动之间相适应性的质量评价。并给出了一套进行CASSM分析的方法,同时开发了支持完成CASSM分析的原型工具Cassata。 4.5 用户交互研究 2000年,C. Jayawardana[27-28]指出,由于数字图书馆使用的增加,用户越来越期望图书馆能提供个性化的服务。他认为,数字图书馆的个性化包括两个方面:收集资料过程的个性化和资料内容本身的个性化,提出数字图书馆应该允许用户组织和集成图书馆资源,并设计了一种个人文档模型,用于保证在不侵犯资源版权和所有权的前提下建立属于用户自己的资源集合。在Jayawardana的研究基础上,后期的相关研究包括基于用户使用场景实验研究、基于系统事务日志分析和用户需求分析方法三个方面。 (1) 基于用户使用场景的实验 最具有代表性的是S. Park[29]在TREC国际会议上招募了28名来自Rutger大学的通信专业、信息科学专业以及图书馆专业研究生志愿者作为实验对象,实验分析了用户对不同类型检索系统的使用偏好、效果和用户行为特征。结果显示,用户更喜欢使用可以自主选择数据库的多库检索系统,而不倾向于使用已经屏蔽掉后端数据库的集成检索系统,表明用户在使用数字图书馆过程中更注重自己对资源的控制。 (2) 基于系统事务日志的分析方法 该方法由M. Mahoui[30-31]和S. Jones[32]等人提出。他们认为,事务日志是针对用户检索行为的结构化信息,是一种宝贵的数据资源。为充分利用这些资源,他们提出了基于系统事务日志的分析方法,并利用这种方法分析了新西兰数字图书馆中用户查询计算机科学文献的日志数据,从中找出了这类查询的行为模式,总结了用户查询行为的变化规律。 (3) 用户需求分析方法 典型代表是Weiguo Fan和M.D. Gordon[33]提出的对消费者信息检索需求进行有效分析的框架和实例比较方法。为充分满足用户的要求,数字图书馆服务需要有效地获取用户的个人兴趣点,提出了通过跨系统路由比对用户个人兴趣文档的方法,以帮助服务提供者有效分析用户的兴趣。 4.6 服务模式研究 有关数字图书馆服务模式的研究早在2003年就已经兴起,直到2005年才开始引起广大研究者的重视。直至今日,服务模式的研究仍是数字图书馆研究领域的热点之一。在此,按时间顺序概述这一主题的研究内容。 L. M. Moyo[34]于2004年提出数字图书馆服务模式的概念,并总结了在信息获取和传递、参考、指导、技术设施和客户支持领域出现的新的服务模式。 2005年,N. R. Adam和V. Atluri[35]等人提出了一种基于内容的认证模型,用以解决数字图书馆服务中资源保护与用户需求之间的矛盾,给出了与以往完全不同的资源服务模式。主要内容包括:① 不仅要依据用户的资格,而且要依据用户自身的特点,确定他们的访问权限;② 要根据内容对象进而引发访问控制;③ 授权用户的粒度范围应该可调。 2009年,M. E. Renda和U. Straccia[36]提出了一种数字图书馆个性化协作的服务模型。他们认为,数字图书馆不仅仅是提供信息的空间,而且还应该是用户之间能够协同工作、分享知识和经验的空间。在他们的模型中,用户不仅可以在数字图书馆中建立自己的信息空间,还可以建立社区,做到与其他用户交换信息和知识。 2010年,Gao Fengrong和Xing Chunxiao[37]提出了一种基于混合过滤的数字图书馆个性化服务模式。协同过滤是进行个性化服务的重要手段,常用方法有基于内容的过滤和协作过滤,但每种方法都有其缺点。为此,他们提出了将两者结合起来的新方法,实验结果表明,新方法效率高、性能良好。 本文综合运用统计分析、特征词有序聚类、引文分析等方法对国外本世纪以来的数字图书馆文献特征和研究内容进行了初步分析,有助于了解国外数字图书馆研究的发展脉络和发展特点。对技术手段的完善以及对文献内容的深入分析,将是我们下一步努力的方向。 [1] Wang Liya, Zhang Zhiqiang. Research on the subject alternation of information integration based on aberrance point[C]. National Information Science Doctoral Forum,2011:350-355. [2] Goncalves M A, Fox E A, Watson L T, et al. Streams, structures, spaces, scenarios, societies (5S): A formal model for digital libraries[J]. ACM Transactions on Information Systems,2004,22(2):270-312. [3] Chih-Ping Wei, Chin-Sheng Yang, Han-Wei Hsiao, et al. Combining preference- and content-based approaches for improving document clustering effectiveness[J]. Information Processing & Management,2006,42(2):350-372. [4] Rauber A, Merkl D. Providing topically sorted access to subsequently released newspaper editions or: how to build your private digital library[C]// Proceedings of the Conference on Database and Expert Systems (DEXA'00). Greenwich, UK.: Springer Verlag,2000:499-508. [5] Merkl D, Rauber A. Digital libraries-classification and visualization techniques[C]//Proceedings of 2000 Kyoto International Conference on Digital Libraries: Research and Practice,2000:434-438. [6] Rauber A, Merkl D. Text mining in the SOMLib Digital Library System: The representation of topics and genres[J]. Applied Intelligence,2003,18(3):271-293. [7] Al-Mubaid H, Umair S A. A new text categorization technique using distributional clustering and learning logic[J]. IEEE Transactions on Knowledge and Data Engineering, 2006,18(9):1156-1165. [8] Borner K. Searching for the perfect match: A comparison of free sorting results for images by human subjects and by Latent Semantic Analysis techniques[C]// 2000 IEEE INTERNATIONAL CONFERENCE ON INFORMATION VISUALISATION, PROCEEDINGS: IEEE CONFERENCE ON INFORMATION VISUALIZATION-PROCEEDINGS,2000: 192-197. [9] Rauber A, Bina H. Visualizing electronic document repositories: drawing books and papers in a digital library,Advances in Visual Information Management[J]. Visual Database Systems. IFIP TC2 WG2.6 Fifth Working Conference on Visual Database Systems,2000(1): 95-114. [10] Matusiak K K. Towards user-centered indexing in digital image collections[J]. OCLC Systems & Services,2006(1): 283-298. [11] Marshall C C, Brush A J B. Exploring the relationship between personal and public annotations[C]//JCDL 2004: PROCEEDINGS OF THE FOURTH ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES: GLOBAL REACH AND DIVERSE IMPACT,2004: 349-357. [12] Liu Xiaoming, Bollen J, Nelson M L, et al. Co-authorship networks in the digital library research community[J]. INFORMATION PROCESSING & MANAGEMENT,2005,41(6): 1462-1480. [13] Hill L L, Carver L, Larsgaard M, et al. Alexandria digital library: User evaluation studies and system design[J]. JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE , 2000,51(3): 246-259. [14] Janee G, Frew J, Hill L L. Issues in georeferenced digital libraries[J]. D-Lib Magazine,2004,10(5). [15] Frew J, Freeston M, Freitas N, et al. The Alexandria Digital Library architecture[J]. International Journal on Digital Libraries,2000,2(4): 259-268. [16] Korupolu M R, Dahlin M. Coordinated placement and replacement for large-scale distributed caches[J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002,14(6) :1317-1329. [17] Cooper B F, Garcia-Molina H. Peer-to-peer data trading to preserve information[J],ACM TRANSACTIONS ON INFORMATION SYSTEMS,2002,20(2): 133-170. [18] Rajasekar A, Wan M, Moore R. My SRB and SRB -components of a Data Grid[C]//Proceedings of 11th IEEE International Symposium on High Performance Distributed Computing,2002(: 301-310. [19] Paepcke A, Brandriff R, Janee G, et al. Search middleware and the Simple Digital Library Interoperability[J]. D-Lib Magazine,2000,6(3). [20] Liu X, Maly K, Zubair M. DP9: an OAI gateway service for Web crawlers[C]//JCDL 2002. Proceedings of the Second ACM/IEEE-CS Joint Conference on Digital Libraries,2002: 283-284. [21] Kovacs L, Micsik A, Pataki B,et al. AQUA -(Advanced query user interface architecture),RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES[C]//PROCEEDINGS : LECTURE NOTES IN COMPUTER SCIENCE,2000,19(23): 372-375. [22] Grogg J E, Ferguson C L. OpenURL linking with Google Scholar[J]. Searcher,2005,13(9): 39-46. [23] Kapidakis S, Terzis S, Sairamesh J. A framework for performance monitoring, load balancing, adaptive timeouts and quality of service in digital libraries[J]. International Journal on Digital Libraries, 2000,3(1): 19-35. [24] Weiyin Hong, Thong J Y Lv, Wai-Man Wong, et al. Determinants of user acceptance of digital libraries: an empirical examination of individual differences and system characteristics[J]. Journal of Management Information Systems, 2002,18(3): 97-124. [25] Goh Dion Hoe-Lian, Chua Alton Khoo, Davina Anqi Khoo, et al. A checklist for evaluating open source digital library software[J]. ONLINE INFORMATION REVIEW, 2006,30(4): 360-379. [26] Blandford Ann Green, Thomas R G, Furniss Dominic, et al. Evaluating system utility and conceptual fit using CASSM[J]. INTERNATIONAL JOURNAL OF HUMAN-COMPUTER STUDIES, 2008,66(6): 393-409. [27] Jayawardana C, Hewagamage K P, Hirakawa M. A personalized information environment for digital libraries[J]. INFORMATION TECHNOLOGY AND LIBRARIES, 2001,20(4): 185-196. [28] Jayawardana C, Hirakawa M. Interface mechanism to personalize a digital library[J]. Transactions of the Information Processing Society of Japan,2000,41(10): 2863-2872. [29] Park S. Usability, user preferences, effectiveness, and user behaviors when searching individual and integrated full-text databases: Implications for digital libraries[J]. Journal of the American Society for Information Science, 2000,51(5): 456-468. [30] Mahoui M, Cunningham S J. A comparative transaction log analysis of two computing collections[J]. RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES, PROCEEDINGS: LECTURE NOTES IN COMPUTER SCIENCE,2000,19(23): 418-423. [31] Mahoui M, Cunningham S J. Search behavior in a research-oriented digital library[J]. Research and Advanced Technology for Digital Libraries. 5th European Conference, ECDL 2001. Proceedings (Lecture Notes in Computer Science Vol.2163), 2001(1): 13-24. [32] Jones S, Cunningham S J, McNab R, et al. A transaction log analysis of a digital library[J]. International Journal on Digital Libraries,2000,3(2): 152-169. [33] Fan Weiguo, Gordon M D, Pathak P. Effective profiling of consumer information retrieval needs: a unified framework and empirical comparison[J]. Decision Support Systems, 2005,40(2): 213-233. [34] Moyo L M. Electronic libraries and the emergence of new service paradigms[J]. ELECTRONIC LIBRARY, 2004,22(3): 220-230. [35] Adam N R, Atluri V, Bertino E, et al. A content-based authorization model for digital libraries[J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002,14(2): 296-315. [36] Renda M E, Straccia U. A personalized collaborative Digital Library environment: a model and an application[J]. INFORMATION PROCESSING & MANAGEMENT, 2005,41(1): 5-21. [37] Gao Fengrong, Xing Chunxiao, Du Xiaoyong, et al. Personalized service system based on hybrid filtering for digital library[C]//Proceedings of the Twenty-eighth International Conference on Very Large Data Bases, 2007:35-46. QuantitativeandQualitativeAnalysisofForeignLiteratureonDigitalLibraries Sun Lu, Li Guangjian Dept. of Information Management,Peking University, Beijing 100871, China The present paper uses algorithms such as the keyword ordered clustering, keyword co-occurrence clustering and literature co-citation analysis to make a bibliometric study of the literature on the digital library in the latest 12 years obtained by searching the Web of Science. It finds that the research on the digital library has gone through three stages of development and elaborates on the characteristics of these stages. Such a bibliometric overview will contribute to a comprehensive understanding of the features and trends of the research in this field. ordered clustering; digital library; evolution of subjects G250.76 孙 璐,女,1977年生,博士研究生,研究方向为信息资源管理与网络信息系统,发表论文数篇。4 定性研究
5 结语