王碧英
(长春职业技术学院 图书馆,吉林 长春 130033)
随着网络技术的高速发展,信息量呈现出爆炸性增长。在这种信息化快速发展的时代背景下,图书馆的功能也在发生深刻的变化,人们不再像以往那样全面依赖传统的纸质图书,而是越来越多地依靠网络技术来获取知识和信息。面对数字信息的日益膨胀,如何从庞大的数字信息中提炼出有效信息,并加以开发利用,成为当前图书馆数字化建设所必须面对的一个重要课题。
数据挖掘(Data Mining)是近几年发展起来的新兴的计算机技术,它指的是从大量的数据库中提取有用的知识和信息。这一技术在医学、军事、科学探索等领域得到广泛应用,并显示出其独特的价值和魅力。作为信息管理重要机构之一的图书馆,如何合理运用这一新技术,从浩瀚的馆藏信息资源中为用户挖掘出有用的信息知识,成为当代图书馆信息化建设的一个重要发展方向。本文尝试对数据挖掘技术的发展现状及其在图书馆数字化建设中的作用作一个简要分析,试图为我国图书馆数字化建设提供一些有益的启示。
数据挖掘是目前人工智能和信息技术领域研究的一个热点,它指的是,“从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。”①朱建平,张润楚:《数据挖掘的发展及其特点》,《统计与决策》2002年第7 期,第71 页。这里所谓的“知识”,不仅包括传统信息学意义上的数据、信息,也包括这些数据、信息所存在的模式和结构,还包括由此衍生的概念、规律和规则等。可见,原始数据是形成“知识”的源泉。既然这里的“知识”可以是数字的,也可以是逻辑而非数字的,那么发现“知识”的方式则可以是演绎的,也可以是归纳的。由此推断,通过数据挖掘所发现的“知识”,既可被用于信息管理、信息检索优化、信息决策服务和过程控制等,也可被用于数据自身的维护。因此,数据挖掘在信息管理上的重要作用,是将信息的管理功能从简单的搜索查询,提升到数据挖掘即对信息的加工提炼,从而为决策者提供信息服务。①罗仕健,朱光磊:《数据挖掘技术在网络环境下图书馆中的应用》,《情报技术》2004年第6 期,第22页。
与传统的数据处理方法相比,数据挖掘具有以下几方面的特点:一是对数据库具有相对较强的依赖性,数据挖掘是从大量的数据源即数据库中获取所需的知识信息,因此,数据挖掘离不开数据库;二是数据挖掘具有随机性,数据挖掘是随机地从实用数据中提取有用的知识信息,其过程则表现出即时和随机特征;三是数据挖掘生成结果具有不规则性,数据挖掘过程虽大多是基于常用的统计方法,表现出一定的统计规律,但从某特定的数据挖掘得出的发现规则并不适用于其他数据。②王真:《数据挖掘及其在图书馆的作用》,《情报探索》2007年第12 期,第212 页。
尽管数据挖掘大多都借用统计方法来完成,但数据挖掘与单纯的统计方法也有较大区别,其中区别之一就是,前者所构建的模型与后者相比更具复杂性,所考察的问题也相对更具大型性。换言之,数据挖掘的建模重点大多放在适用于解决复杂问题的“学习”上,很少是根据统计分析方法进行大样本的分析推论;而数据挖掘所涉及的数据集合,也远大于统计分析所考虑的数据对象。
从统计的意义上看,数据挖掘功能主要包括以下几类:
(1)概念描述(Concept Description)。这主要是对所考察对象的内涵进行统计上的刻画描述,可分为特征性描述和区别性描述。
(2)关联分析(Association Analysis)。这主要是对所考察的数据进行相关性研究,常用的技术包括关联规则和序列模式。
(3)偏差分析(Deflection Analysis)。由于数据库中常存在一些异常数据,对这些偏差进行检测是十分必要的。这些偏差包括:分类中的反常数据、不符合规则的特殊数据、观察值与预测值的偏离,等等。
(4)聚类分析(Clustering)。这主要指的是将数据按一定的规则划分为合理的集合,即将数据划分为多个类或族,使得同类(或族)的数据之间具有较高的相近、相似度,而不同类(或族)之间的数据相似度很低。聚类分析是前三类分析的基础。这几种数据挖掘方法之间实际上都不是孤立存在的,而是相互关联的。
数据挖掘作为一种新兴的信息加工处理技术,除具有庞大的统计功能外,还具备先进的学习智能功能,它不仅应用于天文、生物工程等高端科学研究上,也广泛应用于日常经济生活管理,如市场营销、金融投资、欺诈甄别等方面。尽管数据挖掘技术在图书管理方面的应用还处于起步阶段,但已显现出许多独特的优点,展现出广阔的应用前景。数据挖掘技术对图书馆数字化建设有着重要作用。
从数据挖掘的性能看,数据挖掘主要是从大量的数据库中提取有用的知识和信息。因此,数据挖掘技术在图书馆的应用主要体现在有效采集信息知识、优化信息资源方面,具体而言,主要体现在以下四方面:
一是运用数据挖掘技术可以对用户的兴趣模式和专家学者的Web 使用模式及其借阅流通记录、检索请求等进行分析,按类统计文献借阅和检索情况,及时发现信息资源的漏缺,做好文献的收集征订工作,有针对性地丰富和补充信息资源。
二是运用数据挖掘技术可以对Web 上数据集上的文档内容进行摘要、关联和聚类分析,从中提炼出有用的信息知识,并通过结果挖掘,对这些相关资源进行归类总结,可以进一步丰富图书馆的文献资源。
三是运用数据挖掘技术还可以实现文档的自动分类,即可以运用数据挖掘技术构建分类模型来自动采集和整理专题信息。在具体操作时,首先可以根据某一领域的信息需求状况,自动采集、捕捉整理该领域所关心的信息,然后筛选信息源,再根据模型算法,计算搜索路径,自动优化最佳搜索路径,从而实现信息捕捉,其主要功能是,过滤冗余信息,实现智能概念抽取。
四是利用各种数据挖掘技术及方法,对数字图书馆文献信息资源的利用情况和使用的效率等进行评价,从而丰富和完善馆藏资源,能够更好地为建设特色数据库服务。
提升图书信息效率的关键在于提高信息获取速度,增强信息分析能力。数据挖掘技术的运用正是从以上四方面来实现这两者的改善。进一步来说,提高信息采集效率、优化信息资源,其最终目的是为了提升信息服务质量。数据挖掘技术的运用,可以完善服务结构,拓展服务形式,实现信息服务由原来的单纯的“信息呈现”转变为“信息生成”,将服务由被动转主动,实现信息服务的“智能化”。
个性化信息服务是未来信息服务的发展趋势,实现“以信息找人,按需服务”是个性化信息服务的基本要求。传统的图书信息服务,开始是图书馆员对用户提出的信息请求进行逐一解答,后来发展为定制服务,由图书馆定期向用户提供所需要的信息资料。这两者的共同点是,用户必须事先向图书馆提出信息需求才能得到相应服务。
现代数据化时代的图书信息服务,则可以利用数据挖掘技术,对用户以往借阅的资料和访问的网页进行分析,从而了解他们的偏好兴趣、知识结构和研究方向,由此可确定个性化信息服务的内容,这样就可以按照他们的兴趣爱好主动将数据挖掘所获取的信息知识传送给他们。运用数据挖掘技术还可以通过总结现有各类用户的特征,将其曾查询和采用的信息资料进行整理加工,发送给曾发出过类似信息请求的潜在用户,引起他们的兴趣,从而将其转化为现实的用户。①李志明,胡森树:《数据挖掘及其在现代化图书馆中的应用》,《图书馆学研究》2006年第6 期,第41页。
在实际操作中,可以采用聚类分析和关联法则发现不同的用户类型,然后对其提供信息定制服务。也可以通过对用户访问和使用信息等方面的挖掘,在用户与信息数据之间进行模式匹配,采用基于使用聚类、业务聚类和联合规则等挖掘技术来自动提取技术,从而确定个性化服务内容,提高数字图书馆服务的自动化水平。②潘旭武,陈玲洪:《数据挖掘在图书馆的应用研究》,《浙江高校图书情报工作》2007年第1 期,第37页。
从以上分析可知,个性化信息服务不仅需要针对不同的需求确定不同的服务,更重要的是在于如何发现潜在用户,并积极主动地为他们提供所需要的信息服务,数据挖掘技术为这种个性化服务的发展开辟了新渠道。
数据挖掘在图书管理上的应用主要体现在两个方面:一是在管理决策上的运用;二是在用户管理上的应用。就管理决策而言,管理水平的高低,很大程度上取决于决策是否科学。而数据挖掘技术的合理利用则能够为管理层的科学决策提供强有力的技术支持。具体而言,一是可以将与图书馆有关的内外部信息汇集起来,经过加工提炼形成可用的决策信息;二是运用数据挖掘技术对汇集信息进行多维度分析,并对决策假设进行验证,可以提高决策的可靠性;三是运用数据挖掘工具的预测功能,根据历史数据对将来结果做出可信度较高的预测,能帮助决策者做出合理判断。
在用户管理方面,数据挖掘技术可以从用户所使用的数据中分析出用户的属性特征和信息结构特征,这在一定程度上有利于图书馆用户资源的管理。利用数据挖掘技术,一是可以提高用户资源管理水平;二是以数据挖掘的需求为导向,能够组织协调好用户资源管理的各项工作。③张英,赵艳君:《数字图书馆中多媒体数据挖掘的体系结构和方法》,《现代情报》2008年第1 期,第92-94 页。
除此之外,数据挖掘还可以应用于图书馆数字化建设的诸多领域,如信息资源优化、信息咨询、读者需求分析、读者相似性和差异性分析等。数字图书馆作为多媒体较为集中的地方,随着多媒体数据库技术的发展和日趋成熟,将数据挖掘技术应用于多媒体数据库中的知识发现上也是十分必要的。这将更有利于图书馆数字信息的获取和管理,克服传统网络计算模式的缺陷。④牛根义:《国内图书馆数据挖掘研究》,《现代情报》2009年第1 期,第129 页。
数据挖掘技术的应用是图书馆数字化建设的形势所需。信息技术的发展推动了图书馆数字化的发展。按信息技术的发展水平划分,可将图书馆数字化的发展过程划分为三个阶段:第一是图书馆内部管理自动化阶段,第二是文献信息数字检索阶段,第三阶段为数字化信息服务体系阶段。最后阶段的重要特征之一是数字信息的智能化,其中包括对数据挖掘技术的应用。当然,不论图书馆信息化发展处于哪一阶段,图书馆信息化的目的都是为了尽最大可能地满足日益复杂的用户信息需求,实现图书馆文献信息的高效利用。①朱晓华:《浅析数据挖掘技术在图书馆自动化中的应用》,《图书馆学研究》2002年第2 期,第42 页。
图书馆数字化发展历程表明,科技发展是推动图书馆数字化发展的物质基础,数据规模的日益膨胀和对信息需求的不断深化则是推动图书馆数字化发展的内在动力。数据规模的不断扩大,要求图书馆必须尽快提高数字信息的处理能力和信息资源的组织能力。而读者信息要求的不断上升,则要求图书馆不断提升服务质量,争取尽可能地向用户主动提供个性化信息服务。这两方面最终都归结为:要求相关专业技术人士必须尽快开发出一个强有力的数据采集和处理工具,来解决图书馆在信息数据处理和信息服务方面所面临的困难。根据数据挖掘技术的特征,我们有理由相信,数据挖掘技术将会被选作为解决图书馆数字化发展瓶颈的有效工具。
走在信息技术发展前列的一些西方国家在图书馆数据挖掘技术的应用方面已做出了有益尝试。美国图书馆研究联盟2003年曾对124 个成员图书馆对数据挖掘技术的使用情况作了调查,其中52%的成员馆对调查作了反馈。反馈的结果显示,有40 余个成员馆采用了数据挖掘技术,而剩余的其他成员馆大多表示在不久的将来都会采用数据挖掘技术。②高巨山:《高校数字图书馆构建中的数据挖掘应用研究》,《中国教育信息化》2008年第3 期,第81 页。
与国外图书馆数字化建设相比,我国图书馆在数据挖掘技术方面的运用尚处于起步阶段。不过,从图书馆数字化建设的现状看,我国图书馆已具有应用数据挖掘技术的现实条件。我国的一些大型图书馆已建立了图书采、编、检一体化的自动化综合管理系统,并建立发展了大量的关联数据库。关联数据库的建立是运用数据挖掘技术的必要前提,这为数据挖掘技术的应用准备了较好的物质基础。另一方面,数据挖掘技术经过学者们多年的努力,在数据挖掘设计、数据抽取及联机分析处理等方面取得了重大进展,为数据挖掘技术的应用奠定了必要的技术基础,同时也锻炼和储备了高水平的技术人才。以上多方面因素显示,数据挖掘技术在我国图书馆的应用具有较强的现实可行性,它不会仅停留在研究层面,不久必将逐步转化为现实,并将成为我国图书馆数字化发展的一大趋向。
总之,在社会信息化浪潮的推动下,未来图书馆的建设与计算机信息技术的结合将愈加紧密,作为信息技术发展前沿的数据挖掘技术虽在我国图书馆领域的应用还处于起步阶段,但从数据挖掘在数据分析、信息加工和知识发现等方面所展现出的巨大优势和从国外图书馆的成功经验看,数据挖掘技术在我国图书馆的应用将有广阔的发展前景。