Ｗｅｂ个性化服务技术优先领域的研究

2009-07-10 09:03石建刘红鹰

现代情报 2009年5期

石　建　刘红鹰

〔摘要〕针对人们提出的网络信息个性化服务内容及相关技术问题，本文重点介绍了当前具有代表性的个性化信息服务优先领域的研究。并认为用户的兴趣和行为表达、聚类与分类、个性化信息服务安全与系统评价等，为目前Web个性化信息系统所采用的关键技术中，应重点关注的领域。

〔关键词〕个性化；Web技术；信息服务；优先领域

〔中图分类号〕Ｇ３５１〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２００９）０５－０１２１－０３

Study on Technologies of the Web Personalized Information ServiceShi Jian Liu Hongying

（Library，Fourth Military Medical University，Xi餫n 710033，China）

〔Ａｂｓｔｒａｃｔ〕For the web personalized information services and related technical questions,the paper focused on the current representative of personalized information services priority areas of research.And that the user餾 interests and acts of expression,clustering and classification,personalized information services such as security and evaluation system,for the present personalized Web information systems used by key technology,should focus on areas of concern.

〔Ｋｅｙｗｏｒｄｓ〕personalization;web technologies;information service;priority areas

随着Web信息爆炸式的增长，人们获取有用信息变得愈加困难，“信息过量”和“信息饥饿”的矛盾愈显突出。类似搜索引擎及数据库检索等通用性质的工具，已不能满足不同背景、不同目的和不同时期用户的查询请求，个性化服务内容及相关技术问题已成为科技工作者探究的主要课题。目前已存在多种网络个性化服务系统，如，从最初国外的卡内基•梅隆大学创制个性化导航系统“WebWatcher”开始，已研制出诸如WUM、SETA、TELL IM、WebLogMiner等多个较为成熟的个性化推荐系统；国内也从2000年清华大学的路海明等，提出基于多Agent混合智能实现个性化推荐技术开始，到目前也研制出多个相对成功的个性化服务系统及定制的门户网站。如网易、新浪的个性化服务，中国人民大学、浙江大学、厦门大学、华东理工大学图书馆的Mylibrary系统，以及中国科学院建立的数字图书馆——基于个性集成定制的门户网站等^[１－２]。但在实践过程中，发现仍有很多领域值得继续深入研究，其中包括：

１用户兴趣与行为的表达

个性化信息服务中，必须考虑用户的兴趣、偏好和需求差异对行为的影响，以提高个性化信息服务的针对性和面向用户的合理性。这给个性化支撑技术的研制和应用带来较大的困难，因为不同专业、不同用户个体所表现出来的需求兴趣和行为千差万别，同一技术支撑下的服务内容难以取得相同的满意程度。利用何种技术方法跟踪、学习、提取、表达用户的多兴趣，是一个最基本也是最重要的问题。

１.１探寻兴趣优化的过滤方法

实现个性化服务需要准确的识别用户，跟踪用户的兴趣和行为，对用户的兴趣和行为进行描述。由于用户兴趣是多面的、动态的，跟踪、学习和表达用户兴趣，需开发优化的过滤方法。依据文献报道，用户兴趣及特征优化的方法主要包括：基于内容的过滤技术、协作式过滤技术、混合方式过滤技术。基于内容的过滤源于信息检索，采用与信息检索相似的技术，信息对象的过滤是建立在其内容与用户兴趣相比较的基础上；协作过滤也称协作过滤，是“相似”用户的合作过程，是用户通过相互协作、依据信息的评价来过滤信息^[３]。与基于内容的过滤相比，基于协作的过滤有很大差别，不是计算信息特征集合的相似度，而是计算用户的相似度，这种系统通过比较当前用户与其他用户的兴趣特征之相似度计算出用户间的相关度，来预测待过滤信息是否为用户感兴趣信息。混合式过滤与其中单纯的基于内容的过滤或单纯的协作式过滤相比，能使信息过滤系统的相对查全率和相对查准率大幅度提高。

１.２建立兴趣表达的用户模型

实现个性化服务需要准确的识别用户，跟踪用户的兴趣和行为，同时对用户的兴趣和行为进行描述与概括，构建和更新用户兴趣模型及计算用户兴趣模型的相似性等问题。其中最为关键的是如何进行用户兴趣模型的建造^[３－４]。用户建模过程中面临诸多问题，其中之一就是用户模型构建需求内容标准缺乏统一。有人将兴趣内容归为九类，如，个人信息(包括性别、年龄、语言、文化等)，认知方式、设备、使用环境、历史行为、目标、使用系统的经验、领域知识等，但并不被广泛接纳。再有则是建模技术。目前用户建模可分：手工定制建模、示例用户建模、自动用户建模等。其中自动用户建模通过用户的行为推测用户对web页面及其他内容的兴趣，无需用户提供信息，不造成对用户的干扰，有利于提高个性化服务系统的易用性，较符合前瞻性的发展要求。

２个性化过程中的分类和聚类

Web个性化服务是通过对用户有关数据的分析，来捕获用户的行为偏好及兴趣以及为用户提供帮助的一系列服务技术，涉及的主要问题包括：如何充分运用用户和会话识别、协作过滤、显示和隐式收集方式以及高效的并行算法，来高效准确地采集、处理Web个性化数据，以保证数据收集和处理的数量和质量。其中分类和聚类技术，特别是聚类技术对于改进兴趣信息搜索结果的显示，具有不可替代的位置。因为它能够帮助我们发现特征迥异的不同用户群，辅助信息服务机构对各用户群的特征进行深刻洞察。目前就已存在比较前沿的分类与聚类算法有：

２.１基于模糊聚类方法

模糊聚类是利用模糊等价关系将给定的对象分为一些等价类，通过一定的阈值来确定对象的相似类别。这种聚类方法使得属于同一类别的用户之间的相似性升高，而不同类别上的用户之间的相似性降低。和传统的聚类相比更显得有效。因为传统聚类把目标用户硬性划分到某个聚类中。而模糊聚类是一种软聚类，用户相对于每个聚类都有一个隶属度，不会被生硬性划分到某个聚类中^[５－６]。加之Web站点内容的动态变化，用户浏览Web时目的性不很明确，具有模糊性和不确定性，而模糊聚类算法将用户对项目的评分转换为具有相似性的用户群对项目的评分，然后结合项目类别属性相似性的影响，计算出目标项目的相似项目集合，就使聚类显得更自然，更符合客观实际，比传统方法中的项目的相似性计算更加精确。

２.２基于网格聚类方法

基于网格的方法是采用一个多分辨率的网格数据结构。把数据空间量化为有限数目的单元，形成一个网格结构^[７]。所有的聚类操作都在网格结构上进行。这种方法的主要优点是它的处理速度快，其处理时间独立于数据对象的数目，只与量化空间中分成多少个单元有关。代表的算法有：sting算法（统计信息网络）CLIQE算法（聚类高纬空间）、WAVE-CLUSTER算法（采用小波变换聚类）。

２.３基于模型的聚类方法

基于模型的方法为每一个聚类假定了一个模型，寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。也可能基于标准的统计数字决定聚类数目，考虑“噪声”数据或孤立点，从而产生健壮的聚类方法。该方法试图优化给定的数据和某些数学模型之间的适应性。这样的方法常基于这样的假设：数据是根据潜在的概率分布生成的。基于模型的方法主要有两类：统计学方法和神经网络方法^[７－８]。

３个性化信息服务安全与系统评价

由于Web个性化信息或以MyLibrary为代表的个性化数字图书馆更多地依赖数据库技术和动态网页技术，从本质上并没有改变原有的信息组织方式和安全保障方式，缺乏对用户特征的定量分析和精确描述及开放机制，用户无法实现对兴趣资源的安全索取和防止隐私滥用，也不能添加自己需要的外部资源及进行有效的系统效果评价^[９]，个性化信息安全保障与系统个性化服务评价标准的建立却已成为优先研究领域。

３.１信息安全技术保障

Web个性化信息安全保障，与通信保密、信息安全两个概念相比，其层次更高、提供的安全保障更为全面^{[２，１０]}。个性化信息安全保障不仅要求保证个性信息在过滤、存储、传输和使用过程中的保密性、完整性、真实性、可用性和不可否认性，同时还要求把信息系统建设成一个具有预警、保护、检测、响应、恢复和反击等六大能力的纵深防御体系。由于当前网络信息和特征化信息安全是涉及计算机科学，网络技术，通信技术，密码技术，信息安全技术，应用数学，数论以及信息论等多种学科的综合性学科，这给研究人员带来较大的困难，所以在众多的个性化系统中，鲜有考虑用户的个人隐私信息安全问题。但在某些项目方面，如，防火墙技术、数据加密技术、虚拟局域网(VLAN)与虚拟专用网(VPN)技术、入侵检测(IDS)与安全审计技术、安全扫描与防病毒技术等，已投入不少的人力、物力，研究也已取得成效。今年初，美国网络安全部门召集在信息安全保障领域做出过卓越贡献的七名非常优秀的专家，以访谈的形式预测该领域的未来，专家围绕一些有争议的和非常尖锐的问题侃侃而谈，预测未来15年信息安全保障技术领域可能会有的突破，Steve Bellovin教授看好2个领域，其一是希望可以设计出一种能承受破坏的安全体系机构，使得即使有难以避免的故障，也不可能导致更大范围的系统渗透；其次是致力于对人的教育，让其明白各种安全敏感行为所带来的后患。国内将安全保护及可用性作为信息安全保障的终极目标也越来越受到关注，有人预估^[１０]不到3年时间，信息安全一个新兴领域——数据恢复服务行业悄然兴起。

３.２个性化信息服务评价

网络信息服务主要是以计算机硬件和通信设备为依托，以应用软件为手段，以数据库信息资源为利用对象，将信息提供、信息发布和咨询服务与中介统一起来，最大限度地实现面向用户的个性化服务^[１１]。目前在学术界引起广泛关注的是网络信息个性化定制服务的手段和内容及其它增值服务，也就是信息企业从各种渠道收集信息、数据，制定统一标准格式，汇编成数据库，通过网络对用户提供服务。诸如，数据库服务、搜索引擎服务、资源导航服务、信息推送服务等，对其服务质量的评价多基于构建一套基于网络信息服务指标体系的研究。针对Web信息个性化服务目前还没有建立一种有效的个性化信息服务评价体系。由于专家的看法并非一致，基本上都落在信息获得与内容、娱乐性、易用性、安全性、隐私性、可靠性、存取性、回应性、补偿性、站点美观以及个性化等指标上，有必要对网络信息服务的相关评价指标进行整理与探讨，并进一步加以整合^[１２]。建立评估模型，从系统评价(例如：响应时间、内存管理、可扩展性以及互操作性等)、建模性能以及可用性等方面来评价个性化系统的性能。

４结束语

个性化是一个非常活跃的研究领域，向用户提供个性化的信息服务和主动信息服务，无论从理论研究还是实际应用，都具有广阔的前景。而Web个性化技术仍然是有待发展的技术，本文通过展示Web个性化服务中有待深入研究的几个核心问题，驱使领域专业研究人员更加警示。与此相关语义信息的有效利用、Web个性化与语义Web的有机融合、以及如何把Web访问活动自动转变成本体论及如何从本体论中归纳出个性化使用等，都是目前重要的研究课题。

参考文献

［１］杨晓湘，孙坦.中美图书馆MyLibrary个性化服务系统的比较研究［Ｊ］.现代情报，2005，(10)：218-221.

［２］吴辉娟，袁方.个性化服务技术研究［Ｊ］.计算机技术与发展，2006，(2)：32-35.

［３］梁劲.基于Web用户访问信息挖掘技术的个性化定制服务［Ｊ］.福建电脑，2008，(2):147-148.

［４］蒋卫星，张彬，金瓯.Web个性化技术研究综述［Ｊ］.计算机应用与软件，2008，(5)：34-35.

［５］温会平，陈俊杰.基于用户模糊聚类的个性化推荐算法［Ｊ］.计算机与数字工程，2008，(2)：13-16.

［６］柴世红，康正军.基于模糊聚类的网站用户分类［Ｊ］.甘肃科技，2008，(3)：20-23．

［７］于洪涛，段军义，杜照丰.一种基于聚类技术的个性化信息检索方法［Ｊ］.计算机工程与应用，2008，(8)：33-36.

［８］陈为思，张前磊.自适应个性化数字图书馆用户建模研究［Ｊ］.江西图书馆学刊，2008，(2)：75-78.

［９］付晓翠，许盈.基于Web数据挖掘的个性化搜索引擎研究综述［Ｊ］.现代计算机：专业版，2008，(3)：141-144.

［１０］马芳，叶惠敏.国外信息安全保障技术的回顾与前瞻——国外专家谈2008年信息安全保障问题［Ｊ］.信息安全与通信保密，2008，(6)：14-19.

［１１］卢涛，雷雪.网络信息服务质量评价及其实证研究［Ｊ］.图书情报知识，2008，(1)：35-40.

［１２］焦玉英，雷雪.基于用户满意度的网络信息服务质量评价模型及调查分析［Ｊ］.图书情报工作，2008，(2)：81-84.