王 芳
(安徽财经大学,安徽蚌埠 233030)
近些年来,我国居民随着生活水平的逐年提高,已经能够较好地接受“数字化生存”这一生活方式了,由于数字图书馆具有信息更新速度快、信息存储量大、不受时间和空间的限制以及占用空间小等有特点,所以它也越来越受到人们的关注。虽然数字图书馆确实为人们带来了非常多的方便和便捷,但是由于其包含的信息资源非常庞大并且形式多样,所以人们在一定程度上也受到了干扰。导向性是信息资源的基本属性之一,同一个信息在不同的使用用户中表现出的价值肯定是有差异的,某一项信息无法满足所有的需求,而某个单一的用户肯定也并不需要所有的信息资源[1]。怎样处理这一问题呢?数字图书馆的个性化服务就能很好地解决这一问题,数字图书馆的个性化服务的概念就是参照用户所使用信息的习惯、偏好、行为以及特殊的需求等,经过分析从而真正地为用户提供满足其要求的内容以及系统功能的一种服务。首先这种服务必须是能满足数字图书馆单一用户信息需求的服务,也就是在用户明确地提出了信息需求后,通过对用户以往的使用习惯以及使用行为等内容进行分析,从而为其提供服务;其次,这种服务还是一类能够充分地培养用户的个性,发展用户需求的服务,而这对于整个社会朝着多样性的发展也是有帮助的[2]。数据挖掘技术是一种新兴的计算技术,其在商业零售、科学发现,以及医疗等众多领域都得到了应用,近些年来,它也逐渐应用到了数字图书馆领域中。
数据挖掘技术,我们也把它叫做知识发现技术,是在庞大的数据库中获取人们感兴趣的知识的技术,而由于所研究的对象的数据结构和形式是存在差异的,数据挖掘技术一般又被分为以下三类:
1.数据挖掘
数据挖掘主要是指面向数值数据的挖掘技术,常见的数据挖掘任务有聚类分析、关联分析、偏差分析以及时序模式等内容:
(1)聚类分析是依据数据的相似度将其总结成许多类别,同一类的数据就变成相似的了,而不同类的数据差异性就会更加明显。这样聚类分析就可以早建立宏观的概念并且找到数据分布模式的基础,从而真正地弄清数据属性间的关系。(2)关联分析。当两个或多个变量的取值之间存在着一定的规律时,那么这些变量就是存在关联的,一般情况下,关联分析分为简单关联、因果关联以及时序关联。其最重要的目的就是找到数据库中存在着的隐蔽关联网。可信度和支持度是衡量关联的相关性的两个重要指标,为保证挖掘的规则能够符合用户的要求,我们还会引入兴趣度等参数和概念。(3)偏差分析。在偏差中包含着诸多重要的知识,通常数据发生时是有很多的异常情况的,而如何快速准确地发现这些异常情况就是很重要的工作了。而进行偏差检查工作时,我们通常都是采用寻找参照与观察结果之间的差别这一基本方法的。(4)时序模式。这是一类通过参照时间序列从而搜索出多次发生并且发生概率较高的模式,通过已知的数据来预测未来的值,当然这要求数据变量本身时间是有差异的。常见的数据挖掘方法有统计分析、神经网络、模糊集、遗传算法、决策树以及仿生物技术等,不同的方法其功能特点和应用领域都是有所不同的,所以我们在使用时应结合多种方法,从而做到优势互补。
2.文本挖掘。文本挖掘就是面向文本信息的数据挖掘技术。面对有文本类型组成的数据对象时,我们采用相关的信息检索方法和数据挖掘方法,从而对这些文本信息进行分析和处理的过程就是文本数据挖掘。其主要包括文本摘要、概念操作、文本聚类与分类、数据分析以及特征提取等内容。而我们所了解的词串表示法、词集合算法、文本聚类算法、向量表示法以及贝叶斯分类算法等都应用了这类技术[3]。
3.Web数据挖掘。这类技术是面向web页面内容、商务交易信息、页面间的结构以及用户访问信息的数据挖掘技术。通过采用这种技术帮助用户从www中提起其所需要的知识,不断完善站点的设计,从而有效地开展电子商务。一般情况下,这类挖掘技术又分为web结构挖掘、web内容挖掘和web访问信息挖掘。
1.个性化服务。在数字图书馆的整个系统中,其个性化的服务都是很重要的环节,网络已经越来越智能化了,那么信息服务也会随之变得智能化,不再是传统的被动化的服务方式,而是主动化的服务方式。一般情况下,我们将数字图书馆的个性化服务概括为两个层次,第一个层次是根据用户的自身需要对信息进行定制,举例来说,慧聪国际系列应用软件中的I get和My info这两个个性化服务软件,都是属于这个层次的,主要包括了重要事件提示、数字图书馆站内搜索以及网络搜索等内容。而另一个层次就是充分地分析用户的兴趣模式,主动地向用户提供服务,使数字图书馆更加的智能化和主动化。
2.加快了信息的获取速度。当用户需要获取信息时,用户怎样才能在堆积如山的信息中更快速地获取到自己所需要的信息呢?用户并不关心数字图书馆中的信息总量,他们更在意自己的需求能否被满足,这就要求数字图书馆中必须更高效的搜索机制。而数字挖掘技术作为一类较为前沿的信息检索工具,它既采用了数据挖掘的相关理论方法,并且它的系统也更加智能化。首先这种技术会整合每一个用户以往的浏览记录,这样就形成了一个事物库,然后对事物库进行操作[4]:通过关联规则的算法找到项目集,再使用分类算法匹配项目集与用户的浏览模式,这样就能找到相似的浏览模式的客户,之后使之与服务器相连接;然后会找到事物库中频率访问的项目集,弄清它们的关联规则,将其存储到知识库中,这样一旦有用户浏览网页时,网络代理就会先连接到其关联页上,那么就大大的加快了其响应速度。最后就是利用web挖掘技术明确用户访问的序列模式,这样就能够更加快速并且准确地预测用户可能访问和使用的页面了。
3.拓展了服务形式,提升了服务质量。数字图书馆在现代信息技术的帮助下,它的意义已经不仅仅是服务于媒体和转换时空了,更重要的是它在数据挖掘技术的帮助下来提升服务水平和拓展服务形式。(1)信息检索服务。数字图书馆提供的一个很重要的功能就是信息检索,它也是衡量数字图书馆服务质量的重要的参考依据[5]。传统的信息检索模式通常都是将所有的查询结果线性的呈现,交互性和可理解性较差,所以用户对于查询结果的认知也是比较模糊的,而这种新型的信息检索模式能够快速地将所有查询结果进行分析聚类,并且能进行检索定位,同时它也支持模糊检索、多语言检索以及概念检索。(2)查新服务与定题服务。这是两类针对科研的信息服务,传统的服务方式是查询光盘数据库或是文献数据库,但是现代社会已经是网络时代了,外部网络这一信息发布平台信息发布和更新的速度极快,所以为了保证服务结果的真实性和可靠性,我们就更应该重视网络平台了。另外,数字图书馆自身还能够有效地应用兴趣模式算法,这样当有用户使用数字图书馆时,其就可以根据兴趣模式来判断此用户是否适用于自身的平台,这样就能够争取到潜在的使用用户了。数字图书馆在进行查新和定题的服务过程中,还能够借助于可视化的技术帮助用户进行在线即时信息分析。
通过以上的论述,我们对数字图书馆个性化服务的概念、数据挖掘技术的概念和分类以及数据挖掘技术在数字图书馆个性化服务中的应用三个方面的内容进行了详细的分析和探讨。数字图书馆的个性化服务改变了传统的被动化的运作方式,开创了“用户需要什么,我就提供什么”的主动化的操作模式,而这种个性化的服务模式也必将成为数字图书馆技术发展的主要趋势。在我国网络用户群体数量大幅度增长的今天,只有提供最具针对性并且个性化的信息服务,用户的需求才能得到满足。数据挖掘技术在庞大信息资源中仍能提供极具智能化的个性服务,所以其为数字图书馆的建设工作中提供了十分关键的支持和保障。然而数据挖掘技术属于一种新兴的技术,其还是存在着一些问题的,如数据的可视化、数据挖掘语言的标准化,以及多层次、多种类知识的高效挖掘方法等内容都是需要我们不断地探索和研究,未来的数据挖掘技术一定会对数字图书馆的建设工作产生十分关键的积极影响。
[1]冯进.利用数据挖掘技术,深入挖掘图书馆工作[J].现代情报,2005,(3).
[2]宋丽哲,等.浅谈数字图书馆的个性化服务[J].计算机工程,2004,(3).
[3]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究,2006,(1).
[4]朱冰冰.数据挖掘技术在数字图书馆个性化服务中的应用[J].科技情报开发与经济,2006,(24).
[5]王艳.数据挖掘在数字图书馆中的应用[J].情报科学,2003,(2).