柳燕,高蕾
(烟台职业学院,山东烟台264670)
数字图书馆个性化服务技术研究*
柳燕,高蕾
(烟台职业学院,山东烟台264670)
个性化服务技术是目前非常流行的一种技术,个性化服务针对不同的用户,以不同的策略和方式提供不同的信息内容。本文介绍了数字图书馆个性化服务的含义,并在此基础上探讨了建立个性化服务的关键技术。
个性化信息描述;个性化信息获取;用户建模
全球互联网技术和数字图书馆建设的高速发展,使得目前数字图书馆中的信息资源更加丰富,但随着信息量的膨胀,出现了“信息过载”和“信息迷向”现象。为了更好地为用户提供符合其偏好特征的信息,个性化服务技术成为数字图书馆领域重要的研究内容并得到研究者越来越多的关注。个性化服务体现了对用户的人性化、知识化关怀,强调信息服务的针对性、连续性和专业性。随着社会信息化程度的加快,用户对个性化服务的需求越来越大。鉴于此,本文介绍了数字图书馆的个性化服务的概念,并对其关键技术进行了研究与探讨。
数字图书馆个性化服务是根据用户的知识结构、信息需求、行为方式和心理倾向,为不同时期、不同背景、不同目的的读者用户提供满足其个性化需求的信息内容和系统功能的一种服务,进而可以提高数字图书馆的服务质量和资源的利用率。
为满足不同用户的需求,个性化服务在数字图书馆领域得到了较快的发展,按其关键技术主要可分为个性化的信息描述、个性化信息获取和用户建模。
用户个性化信息用来描述用户的个性化特征和偏爱,用户的很多特征和动作都能不同程度反映用户的偏爱,如用户的性别、年龄、所在国家和地区、职业、教育程度、婚否、爱好、专业领域、阅读的文章内容等。对个性化推荐系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。用户描述文件刻画用户的特征与用户之间的关系,用户描述文件表达不同的个性化服务系统中的用户描述文件各自的特点,用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式或访问模式。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。用户描述文件可以用文件来组织,也可以用关系数据库或其他数据库来组织。目前有一些系统采用基于XML的RDF(Resource Definition Framework)来表达用户描述文件,并利用支持XML的数据库系统来存储用户描述文件,这样不仅利用了XML的优点,也保持了系统的性能。
不同的个性化系统的用户个性化信息的内容会有所不同,亚利桑那大学的Zan Huang等提出的基于图的推荐算法中,用户描述信息包括所在国家、城市、生日、教育情况、职业、性别、婚否、是否有孩子、孩子个数、孩子的平均年龄,表示成一个特征向量来描述用户的个性。Camegie MellonUniversity开发的WebWatcher系统的用户个性化信息在初始时以关键字列表的形式给出,用户浏览后要给出是否找到所需信息的反馈信息,用它来更新个性化描述。Personal WebWatcher不需用户给出表示目的的关键字和对结果页面的评价,只记录用户请求的页面地址。明尼苏达大学的GroupLen系统是一个NetNews协作过滤系统。用户需要显式给出反馈信息,系统记录用户浏览的页面以及所花费的时间。StanFord大学的Fab系统是一个基于协作过滤的推荐系统,把内容过滤和协作过滤技术相结合,用户个性化信息用加权关键字向量表示,从用户喜欢的页面中提取的关键字权重被加到用户个性化信息中相应关键字的权重值上。Susan Gauch等人把Ontology用于个性化信息的描述中,根据用户浏览的网页以及网页的内容、长度、浏览时间等产生用于描述用户个性的概念层次。大多数推荐系统都是基于用户行为进行推荐的,即通过分析用户的行为获取用户的个性化描述信息。
不同系统的个性化信息不同,获取的方式也不同,主要有两种方式:显式获取和隐式获取。
用户第一次使用个性化系统时,系统可要求用户注册自己的基本信息,如姓名、性别、年龄、职业等,并填写自己感兴趣的内容。用户的自然情况和兴趣爱好都可能随着时间的变化而变化,系统需保持用户个性化信息与用户当前情况的一致性。系统可以让用户自主地修改个性化信息,也可以根据用户的反馈信息自动修改。通过用户主动给出自己的基本信息或反馈信息而获得个性化信息的方法称为个性化信息的显式获取,显式获取个性化信息的方法简单而直接,用户信息是显式给出的和确定的,可作为个性化服务的依据。但是,它存在两个主要的问题:一方面,用户一般都很注意个人信息的保密性,因此在收集用户信息之前,需要分析用户愿意提供什么信息。另一方面,用户提供的信息过少时不能充分表达用户的个性,而系统要求过多的用户干预则会让用户厌烦。一般情况下,很少有用户向系统主动表达自己的喜好,因此这种做法很难收到实效。
隐式获取是在用户与系统交互的过程中,通过分析用户的行为获取用户的个性化信息。个性化信息的隐式获取不要求用户提供什么信息,由系统自动完成,隐式获取又可分为行为跟踪和日志挖掘。
比较实际的做法是行为跟踪,因为用户的很多动作都能暗示用户的喜好。不同的系统中用户有不同的动作,如电子商务中用户的动作是购买;Web检索中用户的动作是提交查询、浏览、前进、后退、点击鼠标、拖动滚动条等;数字图书馆中用户的动作包括查询、浏览、下载、标记书签、反馈信息等。研究表明,简单的动作(如点击鼠标)不能有效地揭示用户的兴趣,而浏览页面和拖动滚动条所花的时间可以有效地揭示用户的兴趣。用户查询、访问页面、标记书签能有效揭示用户的兴趣。
个性化信息获取常采用数据挖掘的方法,通过分析系统日志可以获得相关页面、相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新用户个性化信息。Web日志挖掘中最常使用的方法是根据网页的点击次数来评价用户对该网页的兴趣,其实这种方法是不完整的,而且经常是不正确的,但该方法可用于辅助其它日志分析技术。尽管Web日志的信息不够全面,但还是可以从中发现许多有意义的信息,比如通过收集用户顺序请求的日期和时间,可以分析出用户在每个资源上所花费的时间,从而可以推断用户对该资源感兴趣的程度;通过收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类;通过分析用户请求的顺序有利于预测用户将来可能的行为,从而推荐合适的信息。
用户建模是指从有关用户兴趣和行为的信息中归纳出可计算的用户模型的过程。可计算性是用户模型的基本要求,在个性化服务系统中的用户模型不是针对用户个体的一般性描述,而是一种面向算法的、具有特定数据结构的形式化的用户描述。
用户建模是个性化服务的基础和核心,无论何种形式的个性化服务,都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化服务。根据建模过程中用户的参与程度,用户建模技术可以分为用户手工定制建模、示例建模和自动用户建模。
1.用户手工定制建模
用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法。如用户自己输入感兴趣的关键词列表,或选择感兴趣的栏目等。卡内基·梅隆大学的Web Watcher和Yahoo站点1996年推出的My Yahoo是用户手工定制建模的典型代表。但用户手工定制建模存在着3个方面的不足。
(1)因为建模过程完全依赖于用户,容易降低用户使用系统的积极性;用户不愿意参于对系统的训练,即使用户知道对系统进行训练会给自己带来好处。
(2)用户难以全面、准确的罗列自己感兴趣的栏目或关键词,从而导致用户模型不够准确。
(3)当用户兴趣发生变化时,用户必须重新输入用户模型;用户手工定制的用户模型是静态的这与用户兴趣的渐变性不符。
2.示例用户建模
示例用户建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。由于用户对自己的兴趣和偏好等最有发言权,因此由用户提供的有关自己兴趣的示例最能集中、准确的反应用户的兴趣和偏好等特点,加州大学Irvine校的Syskill&Webert是示例用户建模的典型代表。
3.自动用户建模
自动用户建模是指根据用户的浏览内容和浏览行为自动构建用户模型、建模过程无须用户主动提供信息的建模方法。主要代表有卡内基·梅隆大学的Web Watcher,德国国家研究中心的ELFI麻省理工学院的Letizia等。
自动用户建模实际上是改进了示例用户建模方法中的示例获取途径,将其转化为无须用户标注的自动示例获取方法。通过对用户浏览页面的聚类和分类就能够得到用户感兴趣的主题,从而实现自动建模。此外,Web日志挖掘也是一条实现自动用户建模的途径。自动用户建模虽然存在着容易引入噪声,不利于构建高质量的用户模型的缺点,但是,自动用户建模无需用户主动地提供信息,不会对用户造成干扰,有利于提高个性化服务的易用性,促进个性化服务的快速发展。
近年来数字图书馆个性化服务的研究可谓是硕果累累。数字图书馆个性化服务改变了图书情报机构以往“我提供什么用户就接受什么”的运作方式,开创了“用户需要什么我就提供什么”的发展思路。我们相信,随着对数字图书馆个性化服务理论研究和实践的不断深入,我国数字图书馆个性化服务一定能够再上一个新台阶,真正实现以用户需求为中心,利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。
[1]张智慧.图书馆的个性化信息服务分析[J].情报科学,2003,(6):124-125.
[2]李培.数字图书馆原理及应用[M].北京:高等教育出版社,2004.
[3]马文峰.数字图书馆个性化信息服务的探索[J].图书馆杂志,2003,(5):31-32.
[4]袁会香.关于数字图书馆个性化信息服务研究[J].大学图书情报学刊,2005,(6):57-59.
[5]李阳晖.面向用户的图书馆信息资源整合模式分析[J].情报杂志,2005,(10):34-35.
2011-10-08
柳燕(1971-),女,山东青岛人,硕士。