王 鹏
(山东广播电视大学,山东 济南 250014)
截至2008年底,中国网民数达2.98亿,搜索引擎使用率从2007年的72.4%下降为68.0%,但用户增长5100万人,高于电子邮件(56.8%),仅次于即时通信(75.3%)。迄今已有超过两亿人从搜索引擎中获益[1]。
搜索引擎成为备受欢迎的网络服务,因为它解决了在浩瀚的互联网信息海洋中快速定位信息的瓶颈问题。但随着互联网迅速发展,Web信息资源呈“爆炸式”增长,出现了“信息过剩”现象,通用搜索引擎面临信息收集冗余与精确定位的双重挑战。垂直搜索引擎应运而生,以专业化的视角,细致化的信息处理方式,为用户提供更有效的服务。
本文从搜索引擎的体系结构出发,针对通用搜索引擎存在的问题,探索垂直搜索引擎的工作流程,分析了其优势,并且引入一款实际应用中的垂直搜索引擎进行分析。然后以满足用户个性化需求为导向,设计实现了一个垂直搜索引擎的个性化信息检索及推荐算法,并进行了验证。
搜索引擎并不真正搜索互联网,它搜索的实际上是经过预处理的网页索引数据库。无论是通用搜索还是垂直搜索,在这一点上是一致的。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
在体系结构上,现代大规模通用搜索引擎基本都遵循三段式的工作流程,即网页搜集、预处理、查询服务。起始于网页搜集,结束于查询服务,整个流程可以反复进行,从而达到系统的更新。其工作流程如图1所示。
图1 通用搜索引擎三段式工作流程
其中网页搜集面向整个互联网,在超级链接分析技术基础之上进行网页搜索;预处理包括网页关键词提取、重复或转载网页消除、链接分析、潜在关联信息挖掘、网页重要程度计算等,最终产生关键词到网页文档的倒排索引文件结构;查询服务则实现用户查询与信息反馈。
搜索引擎的体系结构,其主体部分由搜集器、索引器、检索器、用户界面和后台的索引数据库等组成。其体系结构如图2。
图2 通用搜索引擎的体系结构
通用搜索引擎,囿于网页信息采集范围及预处理的深度,查询的结果信息量巨大。统计表明,在数以千计的结果页中,用户平均查看的一般不超过两页。为什么不缩小信息范围,提高信息与用户的相关性呢?遗憾的是,这正是追求“大而全”的通用搜索引擎难以做到的,直到有了垂直搜索引擎。
在一个崇尚个性化和效率的时代,人们希望用最短的时间,找到最有用最适合自己的信息。信息不在于多,而在于精。
2.1 垂直搜索引擎的定位
垂直搜索引擎是相对于通用搜索引擎信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式,针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入[2]。
所谓垂直搜索,就是针对专业特定的领域或行业的内容进行分析挖掘、精细分类、过滤筛选的专业搜索[3],其本质是对垂直门户信息提供方式的一次简化性的整合。
由于垂直搜索引擎只涉及一个或几个领域,词汇或用语“一词多义”的可能性降低,而且可以利用专业词表进行规范和控制,大大提高了查全率和查准率。
2.2 垂直搜索引擎与通用搜索引擎的关系
垂直搜索引擎的出现不是对通用搜索引擎的颠覆,而恰恰是一种细分和延伸,是对某类网页资源和结构化资源的深度整合,并为用户提供符合专业用户操作行为的信息服务方式。
很多人误解垂直搜索就是把相关的行业网页做一采集,进行信息抽取过滤,实现行业化搜索。如果这样,垂直搜索根本无法媲美通用的网页搜索,因为后者很容易就能将网页分类。垂直搜索应是对垂直行业信息进行深度加工,有效整合,为用户提供通用的网页搜索无法做到的专业性、功能性,实现个性化服务[4]。
2.3 垂直搜索引擎的工作流程
本文构建的垂直搜索引擎已经成功用于商业运营,目的是向大中型城市消费者提供餐饮娱乐搜索服务,其体系结构如图3。
图3 垂直搜索引擎的工作流程
从图3中可以看出,本文构建的垂直搜索引擎依然遵循三段式工作流程,只是针对目标在具体处理方式上做了改变,细化了信息的行业范畴,细化了信息处理的粒度,使信息更加精确。
垂直搜索引擎和通用搜索引擎一个最大的区别是对网页信息进行了结构化抽取加工。将网页的非结构化数据抽取成特定的结构化数据,存到数据库,进行进一步的加工,再以搜索的方式展现给用户。垂直搜索引擎与通用搜索引擎工作流程比较见表1。
表1 垂直搜索引擎与通用搜索引擎工作流程比较
基于结构化数据和全文数据结合,垂直搜索从本质上将搜索服务推向了专业化、细致化和个性化。表2展示了以结构化数据为支撑的垂直搜索引擎为用户提供了怎样专业化、细致化的搜索服务。
表2 垂直搜索引擎与通用搜索引擎搜索结果比较
3.1 个性化推荐
个性化推荐是以用户满意为中心的主动服务,是根据用户的不同情况,提供有针对性的服务。具体就是在用户浏览网站时,尽可能地迎合用户的浏览兴趣,并且不断调整自身来适应用户浏览兴趣的变化,使得每个用户都有是该站点唯一用户的感觉[5]。
从通用网页搜索到专业化的垂直搜索,搜索引擎迈出了提升用户满意度坚实有力的一步,整体上提高了服务质量,却未考虑到用户个体的差异。没有差异化的产品或服务在互联网赢家通吃的规则下是无法生存的,不能简单模仿,而要想办法形成互补。
3.2 个性化信息检索与推荐算法设计
个性化信息检索与推荐就是把用户的兴趣偏好也作为检索的输入项,使搜索得到的结果符合用户个性化需求。将用户相关性引入搜索结果,无疑是对关键词相关性的一种补充。这样可以调整服务的内容,包括重新分级、过滤掉不相关或相关性较低的结果、重新排序,使相关性高的结果排到前面等。届时,用户看到的将不再是雷同的信息,而是为自己量身定制的有着鲜明个人特色的服务。
本系统的设计构想是:利用用户搜索日志,包括查询关键词和浏览轨迹(网页标题和标签信息),构建用户特征向量,将这些具有文本特征的关键词与标题连接起来,构成一篇虚拟文档来作为用户的个性化文档。将此文档转换为具有词频权重的向量即用户特征向量。
此操作的理由是:首先,词频权重确实能够反应出用户对某关键词的感兴趣程度;其次,在实践中已得到验证,基于统计的方法往往比其他建模方法更为有效;再次,文档转换为向量的处理过程,包括分词、词频统计、权重公式计算均已非常成熟,实现起来比较简单。
具体实现方法为:
Q={q1,q2,……qn}T,qi表示词i在查询中出现的词频权重。
系统在词-文档矩阵A建立之后利用SDD算法对其进行分解、降维,以强化语义关系,提高空间效率,得矩阵Ak。检索过程中用户输入的关键词经分析、分词等处理成为一个 K维查询向量Qk,用户个性化文档经过处理后成为一个 K维的特征向量Uk,新的查询向量的计算公式为:
β的调节使得Qk与Uk长度相等,∂用来控制相关度计算中查询相关性与用户相关性的比例。按s= Nk×Ak计算相似度,据此给出搜索结果。垂直搜索引擎个性化信息检索框架如图4所示。
图4 垂直搜索个性化信息检索框架
将垂直搜索引擎的个性化检索信息记录到用户信息数据库中,当系统检测到具有相同特征的用户使用查询服务时,就可以推荐用户可能感兴趣的搜索结果,甚至直接推荐本行业相关服务,引导用户更有效使用搜索引擎。
随着网络发展和普及,个性化的信息需求与日俱增,而垂直搜索引擎可以帮助用户在最短的时间内找到最适合自己的信息。在垂直搜索引擎中同时引入个性化信息检索和推荐,不仅提高了信息的查准率和用户满意度,同时也增强了用户的个性化使用体验和感受,能够在为用户提供有效信息的同时更加契合用户对个性化检索的需求。
[1]中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心(CNN IC),2009:30-31.
[2]垂直搜索引擎[EB/OL].(2006-04-21).http://baike.baidu.com/view/7491.htm.
[3]文婧,王洪伟.垂直搜索:专业公司夹缝中求生存[N].经济参考报,2005-11-21.
[4]张晓宁.走近垂直搜索[J].电子商务世界,2006,(Z1):102-103.
[5]Mobasher B,Dai H H,Luo T,et a l.Effective Personalization Based on Association Rule Discovery from Web Usage Data [C]//Proceedings of the 3rd international wo rkshop on Web info rmation and data management.New Yo rk,2001.