刘红芝
(徐州医学院图书馆,江苏 徐州 221004)
刘红芝 女,硕士。馆员,发表论文10篇,主持并参与课题多项。研究方向:电子信息咨询与服务;计算机网络及数据库技术。
目前网络正以前所未有的速度快速增长,信息共享日益广泛。但是网络是把“双刃剑”,它在给人们带来方便和快捷的同时,也带来了各种问题。不良网站的泛滥、非法信息的传播等令人们防不胜防,网络信息安全问题越来越引起人们的关注。采用相应过滤技术过滤不良信息已经成为未来网络技术发展的当务之急。
信息过滤[1](Information Filtering)就是根据用户的信息需求,在动态的信息流中,搜索用户感兴趣的信息,屏蔽其他无用和不良的信息。信息过滤技术是以一种系统化的方法,将用户需求与动态信息流进行匹配计算,从信息流中抽取出符合用户个性化需求的信息,并将其传送给用户。
信息过滤系统实现信息过滤的方法有以下6种:
1987年,Malone及其同事把信息过滤方法分为3类:基于内容的过滤(content-based filtering)、协作过滤(collaborative filtering)和经济过滤(economic filtering)。其中,基于内容的过滤也叫认知过滤(cognitive filtering);协作过滤也叫社会过滤(social filtering)[2]。而目前使用较多的就是基于内容的过滤和基于协作的过滤。
这种方法按照信息内容的特征作出选择,主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。过滤系统把每个用户的信息需求表示成一个用户需求模板,利用关键词将进入的信息流与用户需求模板进行相似度匹配计算。过滤的结果作为反馈更新用户需求模板。内容过滤能够监测现有信息的内容特征,为用户提供与其曾经感兴趣信息相似的信息,但不能为用户发现新的兴趣信息。这种方法比较适合于分析文本信息,但对声音、图像、视频等形式的媒体信息还缺乏有效的自动分析方法。
这种方法是“相似”用户间的相互协作过程。通过分析用户兴趣,在用户群体中找到与指定用户兴趣相同或相似的用户,综合这些相同或相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。在协作过滤系统中,用户的知识、经验、职业、兴趣爱好以及思想观念对于过滤任务是相当重要的。由于不依赖于内容,这种过滤方法不仅适用于文本信息,也可以推广到非文本形式的信息。
协作过滤的局限是活动用户只能获取具有相同兴趣的用户喜欢的信息,而不能获取不同兴趣的用户喜欢的信息。
这种方法依赖于成本和用户获益的计算,依赖于价格机制。
系统主动从Web上为其用户推送相关的信息。在有些主动信息过滤系统中,预先对网络信息进行处理,例如对网页或者网站预先分级、建立允许或禁止访问的地址列表等,在过滤时可以根据分级标记或地址列表决定能否访问。
系统不对网络信息进行预处理,当用户访问时才对地址、文本或图像等信息进行分析以决定是否过滤及如何过滤。
根据用户对信息的评价把信息推荐给合适的接收者,属于协作过滤系统的一部分。
通过设置一定的条件限制用户获取某些信息,而其他信息可以利用。
上游过滤[4]又叫代理服务器过滤。用户需求模板存放在服务器端或者代理端。一般说来,为了减少服务器端和客户端的负荷,过滤系统也可能处在信息提供者与用户“之间”专门的中间服务器上,这种情况也叫做中间服务器过滤。中间服务器如同一个大型的网络缓存器,Internet信息只有经过它的过滤才能进入本地系统或局域网,而本地信息也要经过它的中转才能传递出去。上游过滤的优点是不仅支持基于内容的过滤,也支持协作过滤,缺点是模板不能用于不同的网络应用中。
下游过滤[5]又叫客户端过滤[3],用户需求模板存放在客户端上,用户根据自身需要设置一定的限定条件,将不感兴趣的信息排除在外。优点是模板可用于不同的网络应用,缺点是只能实现基于内容的过滤。
信息源过滤又叫剪辑服务,用户将需求模板提交给一个信息提供者,由信息提供者为用户过滤信息。
信息过滤系统按照其从用户获取信息方法的不同可以分为显式的、隐含式的、混合式的3类。
采用显式方法获取用户信息需求的过滤系统通常要求用户去填写一个描述他们兴趣领域需求的表或者要求用户根据提供的特征项构造自身对特定领域信息需求的描述模型。通过用户交互提供的这些显式信息可以快速、明确描述用户的信息需求,减少系统学习的负担。但是这种显式的获取用户信息需求的方式会增加用户的负担,加重用户使用系统的困难。
采用隐含式方法获取用户信息需求的过滤系统通过记录用户的行为来获得用户的信息需求,如用户在指定页面的停留时间、用户访问页面的频率、是否选择保存数据、是否打印、是否转发数据等对信息项的反应都能作为用户兴趣的标志。一般来说,这种采用隐含式获取用户信息需求的方法容易受到干扰的影响,所以这种方法通常用作显式方法的补充。
采用混合式[6]方法获取用户信息需求的方法介于显式方法和隐含式方法之间,它要求尽量减少用户的参与。混合式获取用户信息需求的方法通常有两种,一种方法是通过文档空间来获取知识,另一种方法是通过原型参考来获取知识。
通过文档空间来获取知识的混合式过滤系统通过提供一个用户已判断为相关的文档集,当新文档到来时计算新文档与此文档集的相似度,如果相似度大于一定的阀值,则新文档被认为是相关的。用户不需要定义模板,只需评价文档的相关性。这种方法的缺点是如果某一兴趣领域不在初始文档空间范围内,用户的兴趣可能会发生偏移。
通过原型参考来获取知识的混合式过滤系统要求用户提供自身明确的信息,使系统能够把用户与用户原型模型相关联。所谓的原型模型是指一组用户的默认信息,将对用户原型模型上的隐含式推测与用户提供的明确知识相结合,可得到更好的表示用户信息需求的用户模板。目前只有少量的过滤系统中使用这种方法。
这是为过滤网络信息而专门开发的软件,又分为专门过滤软件和通用过滤软件两种。前者只能过滤某种网络协议的信息,或者只能在某种网络应用中起作用;后者能对多种网络协议或应用起作用。
有些网络应用程序如Web浏览器、搜索引擎、电子邮件、新闻组等附有过滤功能,可以设置过滤不适宜的信息。
如防火墙、代理服务器等,可以通过对源地址、目标地址或端口号的限制,防止子网不适宜信息流出或子网外不适宜信息流入。
此外,还有其他分类方法,如按兴趣收集涉及到的用户分为独立过滤和协同过滤、按信息的表示方法分为统计概念过滤和知识概念过滤等。
通过对常用过滤系统几种分类方法的分析,我们可以选择适合的分类方法构建信息过滤模型,使之应用到各种领域中,从而构建功能强大的信息过滤系统。
[1]孙铁利,王圆,李杨.浅析网络信息过滤的关键技术[J].计算机科学与实践,2006(3):9-10.
[2]Yuefeng Li,Ning Zhong.Ontology-Based Web Mining Model:Representations of User Profiles[J].IEEE/WIC International Conference on Web Intelligence,2003(10):96-101.
[3]张敏.信息过滤系统模型的相关问题研究[J].科技情报开发与经济,2008(1):85-86.
[4]邹萍,纪沙.网络信息过滤机制的研究[J].哈尔滨师范大学自然科学学报,2008(2):66-69,97.
[5]胡建国,文登敏.基于大量文本信息过滤系统的实现[J].成都信息工程学院学报,2008(6):249-253.
[6]Ricardo Baeza-Yates,Berthier Ribeiro-Neto.Modern Information Retrieval.China Machine Press,2004.
[7]李东林.中文信息过滤技术的研究与应用[D].鞍山科技大学,2006.