骆 颖
[摘要]随着网络用户群的日益增长,更多的用户期望能得到具有针对性的、个性化的信息服务和用户支持。数据挖掘技术因其在海量信息资源中的智能表现,为数字图书馆的个性化服务建设提供不可或缺的技术支撑。
[关键词]数据挖掘 数字图书馆 个性化服务
中图分类号:TP2文献标识码:A文章编号:1671-7597(2009)0120058-01
一、数字图书馆个性化服务的含义
近10年来,随着“数字化生存”方式逐渐为人们所接受,数字图书馆信息量大、占用空间少、更新速度快、不受时空限制等特点而越来越受到人们的关注。人们在享受着数字图书馆所带来便捷的同时,也深受其庞大而形式多样的信息资源困扰,因为它具有较强的目标导向性,同样的信息对于不同的个体表现出不同的价值。对单个用户来说,不可能对数字图书馆的所有信息资源都需要,而同样的信息也不一定会满足所有的用户。个性化服务是解决用户“众口难调”问题的关键,它是适应用户多样化需求的重要手段,也是图书馆应对信息资源多样化的一个重要措施。
数字图书馆个性化服务是基于信息用户的信息使用行为、习惯、偏好、特点及用户特定的需求,向用户提供满足其个性化需求的信息内容和系统功能的一种服务。首先,它应该是一种能够满足数字图书馆用户的个体信息需求的服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性使用习惯的分析而主动地向用户提供其可能需要的信息服务;其次,应该是一种培养个性、引导需求的服务,这样可以帮助个体培养个性、发现个性、引导需求,促进社会的多样性和多元化发展。数据挖掘是近年新兴的计算技术与方法,它在科学发现、商业零售以及信用管理、医学等领域已得到广泛应用,并显示出巨大的威力。最近几年,数据挖掘技术开始应用于数字图书馆领域,使数字图书馆的功能有了较大的变化和发展。
二、数据挖掘及相关技术
数据挖掘也称知识发现,是从数据库中获取人们感兴趣的知识,这些知识是隐含的、潜在的。与传统的决策支持不同,它从大型数据库、数据仓库和浩瀚的网络信息空间中发现并提取隐藏在其中的信息,帮助信息工作人员寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为是十分有用的。数据挖掘根据其主要研究对象的数据结构形式的不同,一般粗分为数据挖掘、Web数据挖掘、文本数据挖掘3类。
数据挖掘是面向数值数据的数据挖掘,对象是传统的数据库或数据仓库。而Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种Web数据,应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中提取知识,改进站点设计,开展电子商务或改进服务。文本数据挖掘是指当数据挖掘的对象完全由文本类型组成时,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化信息处理与分析的过程。
三、数据挖掘在数字图书馆中的应用
(一)个性化服务。数字图书馆的个性化服务在整个数字图书馆系统中是很关键的部分,应由被动服务转向主动,由单纯的信息呈现转向信息生成。主要表现为两个层次:第一层为按用户要求进行信息订制。第二层则是数字图书馆挖掘用户兴趣模式,主动提供服务,使数字图书馆成为一个智能型、主动性的信息提供商。
(二)提高信息获取速度。数字图书馆中的信息量是庞大的,在堆积如山的数据中包含着许多待提取的有用知识。用户关心自己的需要是不是能够被满足更胜于关心数据图书馆中总的信息量。要想为用户提供更快、更有效的服务,就必须有一套很好的搜索机制。数据挖掘技术为数字化图书馆提供了先进的信息检索工具,在数字图书馆的检索中采用数据挖掘的相关理论和方法,设计的系统将有更大的智能性。
(三)拓展服务形式。数据挖掘可实现信息服务质量的提升和业务的拓展。数字图书馆借助现代信息技术,不仅在于服务媒体和时空的转变,更重要的能够借助数据挖掘技术,完善其服务结构和提升服务水平。其中有信息检索服务、定题与查新服务、信息分析服务。
四、构建数字图书馆个性化服务系统
利用数据挖掘技术构建数字图书馆个性化服务系统的前提和基础是拥有大量、真实的数据积累,没有数据积累,数据挖掘将无用武之地,需要各方人员共同参与,通力合作。
(一)提取原始信息和收集用户特征。用户通过浏览器访问数字图书馆时,系统可以记录下来的用户访问数据有两类:用户信息和用户行为特征。用户信息包括用户的姓名、性别、年龄、职业、爱好、教育程度以及用户访问IP地址等;利用Web日志记录可获得用户的行为特征,准确把握用户的行为特征和偏好,是提供更精确、更符合用户需求的信息服务的首要条件。
(二)数据预处理和数据转换。对收集到的数据进行加工处理和组织重构,如检查数据的完整性及数据的一致性、去除噪声或删除无效数据、填补丢失的域、去除空白数据域、考虑时间顺序和数据变化;找到数据的特征,用维变换或转换方法减少有效变量的数目,找到数据的不变式,构建相关主题的数据仓库,为下一步的数据挖掘过程提供基础平台,做好前期准备。
(三)确定数据挖掘目标。数据挖掘的目标应结合实际情况,细化、清晰。如,根据用户兴趣的不断变化,利用数据挖掘技术发现用户的最新需要,或者根据用户的兴趣度,推荐相关专题信息,并提供个性化界面等。
(四)数据挖掘。根据挖掘目标和数据特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。选择某个特定数据挖掘算法用于搜索数据中的模式,进行数据挖掘、搜索或产生一个特定的感兴趣的模式或一个特定的数据集,在此基础上进行分析与评估,检验数据挖掘所得到的知识模式。
(五)结果分析和知识的运用。对数据挖掘的结果进行解释和评价,用预先、可信的知识检查解决数据模式中可能的矛盾,以改善数据仓库,转化为能最终被用户理解的知识,将分析得到的知识加载到实际运行系统中。数据挖掘的过程是一个反复进行的过程,需要对挖掘结果进行不断的实践应用、测试、修改、比对,直达到用户满意。
五、结语
数字图书馆个性化服务改变了图书情报机构以往“我提供什么用户就接受什么”的运作方式,开创了“用户需要什么我就提供什么”的发展思路。个性化服务将成为未来数字图书馆技术发展的主要趋势。随着网络用户群的日益增长,更多的用户期望能得到具有针对性的、个性化的信息服务和用户支持。数据挖掘技术因其在海量信息资源中的智能表现,能为数字图书馆的个性化服务建设提供不可或缺的技术支撑。尽管数据挖掘作为一门前沿技术,自身还在不断发展完善,还面临着许多问题,但随着研究的深入,数据挖掘技术必将对数字图书馆的建设产生积极的影响。
参考文献:
[1]张志英,关于数字图书馆建设的思考[J].黑龙江科技信息,2008.(3).
[2]刘晓芳,浅谈数字图书馆的建设[J].中国科技信息,2008.(1).
[3]李琳琳,数据仓库与数据挖掘在图书馆决策管理中的应用[J].科技情报开发与经济,2008.(1).
[4]何茵,数字图书馆用户信息需求特点与信息服务[J].中华医学图书情报杂志,2008.(1).