中文搜索引擎用户行为的演化分析

2011-06-28 07:23马少平刘奕群祝建华茹立云
中文信息学报 2011年6期
关键词:搜索引擎比例用户

马少平,刘奕群,刘 健,张 敏,祝建华,茹立云

(1. 智能技术与系统国家重点实验室;清华信息科学与技术国家实验室(筹);清华大学计算机系,北京 100084; 2. 香港城市大学媒体与传播系互联网挖掘实验室,香港特别行政区九龙达之路)

1 引言

面对互联网海量规模的信息资源,搜索引擎已经成为人们生活和工作中必不可少的信息获取工具。搜索技术发展水平的高低,也因此不可避免的对互联网应用的便捷程度以及社会的信息化程度产生影响。根据中国互联网络信息中心(CNNIC)2011年7月的统计结果[1],我国4.85亿网民中使用搜索引擎的用户数量达到3.86亿,使用率达到79.6%,显示搜索引擎是网民群体中受众最广的网络应用。搜索引擎也因此被认为是大部分网民使用互联网的入口和获取新信息的主要渠道。

尽管以谷歌、百度为代表的搜索引擎在技术与商业上都取得了巨大的成功,但网络搜索技术的发展仍旧面临着巨大的挑战[2-3],这种挑战既来自于纷繁复杂的网络数据环境,也来自于搜索用户行为的多样性与歧义性。学术界和产业界关于“下一代搜索”、“智能搜索”等概念的讨论也一定程度上反映出当前的搜索技术发展水平远非尽善尽美。面对技术发展中的各种挑战,用户行为分析技术逐渐成为搜索引擎应对挑战的主要解决方案之一。

用户行为分析技术一直是搜索引擎研究中不可或缺的重要内容。从文本信息检索领域的相关反馈研究开始,研究人员一直试图借助用户力量对系统的性能加以改进。随着信息检索系统的应用人群从少数的图书馆专业人士逐渐转变为海量规模的网民群体,用户行为中蕴含的各种类型的反馈信息更是越来越受到重视。尽管这种类型的用户行为数据中更大程度上提供的是一种隐性的反馈信息,但用户群体规模上的优势使得反馈信息具有很高的客观性与真实性,与小规模专业标注人员提供的反馈数据相比往往具有更高的参考价值。因此,基于海量规模用户数据的行为分析研究在搜索引擎结果排序[4]、查询需求理解[5]、查询推荐[6]、查询纠错[7]、页面质量评估[8]、垃圾网页识别[9]等方面都发挥了十分重要的作用。用户行为数据中蕴含的隐性反馈信息也在近年被称为“用户群体智慧”的重要来源,被产业界和科研人员给予了充分的重视。

“用户群体智慧”在搜索引擎和其他网络应用产品中所发挥的重要作用已经很少被质疑,但当前的用户行为分析研究绝大部分集中在对于特定时间段内用户行为的分析和挖掘上,很少有针对用户长期行为演化趋势的观察与分析。这一方面是由于搜索引擎用户数据的规模十分庞大*根据ComScore公司的统计[10],2009年7月份全球用户共向搜索引擎提交了约1 137亿次查询。,为存储和运算都带来了沉重的压力。另一方面也是由于搜索引擎用户查询随时间变化较大,较长时间之前的用户数据对当前的性能改进(尤其是查询排序性能改进)作用有限。我们认为,尽管从提升特定查询性能的角度,较长时间段的用户行为数据并不一定能够发挥更好的作用,但针对用户长期行为演化趋势的分析仍然具有其必要性和价值,主要体现在:

1) 针对用户行为演化规律的分析,可以对搜索引擎的算法与交互方式改进形成实证性的指导,协助搜索引擎更好的服务用户需求。

2) 针对用户行为演化规律的分析,有助于我们更加深入地理解互联网用户信息获取方式的变化,进而成为我们提炼互联网用户与应用系统协同演化规律的基础。

3) 针对用户行为演化规律的分析,可以从搜索引擎使用的角度协助我们对全球最大规模的网民群体——中国大陆网民群体——在互联网高速成长期的宏观行为模式加以分析和提炼。

为了完成这一研究工作,我们在某商业搜索引擎公司的协助下,收集了从2006年到2011年该公司提供的中文搜索引擎服务的用户行为数据,经过数据采样抽样后进行分析的规模超过37亿次用户点击。从2006年到2011年,是我国网民人数从1.11亿[11]增加到4.85亿[1],互联网从精英人群逐渐走向大众的时间,对这一时间段网络用户行为演化分析的研究也因此同时具有技术发展与社会科学的多重意义,尤其是为研究“互联网是否以及如何影响个人行为”这么一个基本而又困难的问题提供了重要的线索。

本文剩余部分的内容组织如下: 第2节对截至目前所开展的搜索引擎用户行为分析工作进行调研;第3节介绍所采用的用户行为数据集合;第4节及第5节分别从用户查询行为和用户点击行为的角度对搜索引擎用户行为的时间演化规律进行分析;第6节总结用户行为演化的主要规律并对未来搜索引擎的技术发展进行展望。

2 相关工作概述

搜索引擎的用户行为日志记录着万维网用户和搜索引擎系统之间交互过程的行为信息,是研究和分析真实用户行为的主要信息媒介。正如前文所述,用户行为分析方法是推动搜索引擎技术向前发展的重要动力,用户行为分析也在搜索引擎研究的诸多方面发挥了重要的作用,受篇幅所限,我们仅重点介绍对搜索引擎用户行为宏观统计分析的相关工作。

群体用户宏观统计分析是对搜索引擎的群体用户行为进行统计分析,了解用户和搜索引擎交互过程中各类行为的统计分布、用户使用习惯等状况。根据相关分析结果有效调整搜索引擎的系统架构,尤其是改进搜索引擎和用户之间的交互方式,向用户提供更加方便的搜索服务。早在搜索引擎推广流行之前,万维网用户行为信息已被一般网站用于了解用户兴趣、维护网站系统等方面。90年代中后期,Cockburn等人[12]、Tauscher等人[13]分别对一般站点的万维网用户浏览行为展开研究和分析。随着搜索引擎的推广和流行,搜索用户行为也被相关企业和研究人员所关注。1998年,Silverstein对英文万维网搜索引擎的用户行为进行大规模日志分析[14],得到一些对搜索引擎架构设计有意义的结论,这些结论对搜索引擎的算法优化和系统改进起到了一定的正面作用。2006年,王继民等人基于北大天网的搜索引擎用户点击行为进行的深入分析[15],对用户点击URL行为的统计规律做了初步总结。2007年,余慧佳等开展了针对中文Web信息检索系统用户查询的研究工作[16]。研究的结果表明在查询长度、查询词汇分布等诸多方面中文搜索引擎用户与英文搜索引擎用户存在着一定程度的相似性。2010年,岑荣伟等从更加细致、深入的层次对用户查询展开了分析与研究[17],研究者从不同类型查询属性、查询会话属性等多个角度对用户查询行为的基本特征进行了统计分析。

3 数据集合

为了实现对中文搜索引擎用户长期行为演化规律的分析,我们在某商业搜索引擎公司的协助下收集了从2006年到2011年的部分用户搜索引擎使用行为数据。由于数据量过于庞大,我们进一步从这6个年份中每年选择一个数据备份较为完整、也并未进行重大技术升级的月份,从网页搜索的相应用户行为数据中进行一定比例*处于保护该搜索引擎商业机密的考虑,隐去了具体的抽样比例数据。的数据抽样作为考察对象。这六个年份各自选择的月份为: 2006年12月,2007年3月,2008年9月,2009年9月,2010年10月以及2011年1月。这些月份对应的用户数量和用户会话数量如下图所示。

图1 搜索引擎用户行为数据的规模与采集时间

从图1中可以看到,从2006年到2011年,我们所考察的搜索引擎用户行为数据规模逐渐增长,2011年的用户行为数据涉及到超过2.6亿用户*此处未考虑搜索引擎所收集到的用户行为数据中可能存在的多个用户标识对应相同用户的情况。的3.4亿搜索会话内容,这与CNNIC报告的搜索引擎用户数量高速增长的事实是相呼应的。即使用户数据规模相对较小的2006年,我们分析涉及的用户数量也有近700万个,会话数量超过1 200万次。6个年份对应的点击数据总条数超过37亿条,这样的数据规模保证了我们所进行的行为演化分析的可靠性。

搜索行为数据所记录的信息包括时间、用户标示、会话标示、查询情况、用户点击情况等,数据条目和相应的说明如表1所示。

表1 搜索引擎用户行为日志中记录的信息

从表1可以看到,出于保护用户隐私的需要,搜索引擎提供的数据集合尽量进行了匿名化处理,并未含有用户的IP,登录用户名等个人信息。

为了数据分析的便利,我们按搜索引擎用户行为分析的通常做法对该数据进行了会话划分,同一用户标示下间隔时间超过30分钟的操作将被划分为不同的会话。通过这种会话划分,可以保证同一会话下用户信息获取目标的相对专一。

4 用户查询行为的演化分析

4.1 用户查询长度的时间演化

首先,我们来考虑用户查询长度的时间演化情况。多个针对中文及英文搜索引擎的前人工作均显示用户查询长度和对应查询数量的分布符合幂律规律,因此我们不再对这一分布特性进行考察,而重点观察查询长度本身随时间的变化规律。出乎意料的是,与部分商业搜索引擎宣称的用户查询逐渐变长的现象不同,根据图2所示的从2006~2011年用户查询平均长度的变化趋势,用户平均查询长度在6年内的变化幅度较小,均在11~12字节之间(约合5~6个汉字)。这说明尽管近年来部分商业搜索引擎描述了“用户查询越来越长”的现象*参见百度公司技术人员在百度大会上的演讲,http://tech.sina.com.cn/i/2009-08-18/15533362379.shtml.,但使用较短查询进行提问的用户规模依旧庞大。从查询长度分布的幂律分布现象上,也可以看出: 较短查询尽管数目不一定庞大,但每个查询都会被大量用户所反复提交,因此在计算查询长度平均值时,这部分查询抵消了部分用户开始采用较长的自然语言查询的影响。

图2 用户平均查询长度的时间演化情况

为了进一步验证用户查询长度的变化情况,我们对独立用户查询平均长度的演化情况也进行了统计,与图2中的统计数据不同,图3中的数据是在不考虑同一查询被重复提交的情况下计算出的所有独立查询的长度平均数值。根据图3的统计结果,尽管用户查询平均长度在2006~2011年间没有明显的变化,但独立用户查询的平均长度则呈现逐年递增的趋势。

图3 用户独立查询平均长度的时间演化情况

用户独立查询的平均长度从2006年的15.5字节上升到2011年的18字节以上,这充分说明了用户越来越倾向于用较长的查询表述其信息需求。尽管短查询仍旧在用户查询需求总量中占有相当的比例,但搜索引擎系统确实面临着查询变长的趋势。这一方面意味着用户可能会更加清晰的表述其信息需求,另一方面也带来了自然语言查询处理等技术上的挑战。

4.2 用户使用高级查询功能的时间演化

高级查询功能是指搜索引擎提供给用户的用于在查询中准确表述信息需求的功能,如逻辑运算符(与、或、非)等。高级查询功能使用的比例一定程度上反映出搜索用户专业程度的高低。高级查询所占比例的变化也因此反映出搜索用户群体这方面属性的改变。

我们主要考察了用户较多使用的与运算符功能(and),站内搜索功能(site: )以及包含全部字词功能(“”)在查询中使用的比例情况。使用这三类常用高级功能的用户查询在全部查询中所占的比例情况*由于该搜索引擎2007年之后的高级搜索功能设置发生了较大改变,因此此处未统计2006年的数据情况。如图4所示。

图4 带有高级查询功能的查询比例的时间演化情况

根据图4所示的高级查询比例演化趋势,我们可以发现用户在2007年以后使用高级查询的比例明显下降,2007年使用高级查询的比例为14%,而从2009到2011年高级查询的使用比例稳定在 6%~7%之间。我们认为,2007~2008年高级查询比例明显下降的趋势是与中文搜索引擎用户在相应时间段的高速增长趋势相对应的。2007年6月至2008年12月,中文搜索引擎用户规模从1.21亿增长至2.03亿,增长率近70%[18-19],这使得搜索引擎从少数熟悉互联网应用方式的人群向普通网民普及。这一搜索引擎的应用普及过程也体现在搜索引擎用户的学历组成变化上,如根据CNNIC的统计,2008年中国搜索引擎用户中受过高等教育的人员比例为53.9%*http://www.cnnic.cn/research/zx/qwfb/200905/t20090522_ 17765.html.,但2009年及2010年的相应比例则下降为28.9%和29.0%[20]。搜索引擎应用普及的过程直接反映在高级查询比例的变化上,也必然对搜索引擎用户的整个行为模式产生影响。

4.3 查询对话中查询个数的时间演化

一般认为,同一查询对话中的各个查询是围绕某个特定的用户信息需求展开的,而同一查询对话内的查询个数则一定程度上反映了用户为获取信息所花费的成本高低。从图5的数据中可以看到,从2006~2011年,同一查询对话中的查询个数变化较小,而2009~2011年的平均查询个数比2006~2008年略高。这一定程度上反映出用户使用搜索引擎的黏性增加,用户乐意与搜索引擎进行更多的交互以获得更准确的搜索结果。同时,我们也认为搜索引擎检索性能的提高使得其能够更好地理解用户需求,从而使用户获得信息的便利程度增加,这一定程度上使用户不必进行太多次查询就可以获得所需信息,这也是查询对话中包含的查询个数没有明显增加的原因。

图5 查询对话所包含平均查询个数的时间演化情况

4.4 用户查询中查询推荐比例的时间演化

查询推荐功能是搜索引擎与用户的一种重要交互形式,通常呈现在搜索结果页面的底部,通过提供与用户原始查询相似的查询协助用户更好地描述其信息需求。根据我们前期的研究成果[6],查询推荐出现在15%左右的中文搜索引擎用户查询会话中,对于提升用户的搜索体验发挥着很重要的作用。

图6给出了从2008年到2011年用户所递交查询中来自查询推荐功能的比例,可以看出,查询推荐所占比例在呈逐年明显下降的趋势,已经从2008年的18%以上下降到2011年初的10%左右。

图6 用户查询中查询推荐比例的时间演化情况* 该搜索引擎日志从2008年后才开始记录查询来源信息,因此2008年前的查询推荐点击数据无法获得。

查询推荐在总体用户查询中比例降低的趋势一定程度上反映出用户逐渐能够较完善地描述其信息需求,而不需依赖搜索引擎提供的推荐功能。结合第4.3节的实验分析,尽管2009~2011年用户查询对话所包含的平均查询个数比2009年之前各年份有一定增长,但查询推荐的使用比例却不升反降,这进一步说明了用户对自己组织查询的能力越来越自信,这也与第4.3节中提到的搜索引擎满足用户信息需求能力提高的趋势是一致的。

图7给出了处于不同位置的查询推荐对应的用户点击比率的情况,首先,类似于搜索结果点击的分布情况,排名较前的查询推荐用户点击比率明显较高;但是我们也可以看到,排名第4位以后的查询推荐其点击比率差异并不明显,这是与搜索引擎查询推荐的呈现方式有密切关系的。同时,我们也可以看到2010与2011年对应的点击数据明显对排名靠前的查询推荐有较大的偏向,这可能是与近年来查询推荐排序算法的性能提高有一定关系。

图7 用户查询推荐点击比率与查询推荐排序位置的对应关系

5 用户点击行为的演化分析

5.1 用户总体点击行为

在进行用户点击行为的演化分析之前,我们首先对用户搜索结果点击的总体行为情况进行介绍和分析。不少已有工作如文献[15-16]都指出用户对搜索结果的点击次数与该结果在搜索结果列表中的排名有密切的关联,符合幂律(或齐普夫定律)的分布规律。图8给出的搜索引擎结果点击量分布情况基本符合这些已有工作中的结论,如某个结果页面内的点击基本呈指数下降趋势,不同页面之间的结果点击量也随着页面排序的增长明显下降等。然而,我们也发现了该分布趋势与幂律分布的一些差异,主要表现为: 搜索结果中排名第10、20、30、40、50位的结果点击量明显高于排在其相邻靠前位置的结果,形成了每个结果页面最后一位结果的“翘尾现象”,这一现象与幂律的分布规律明显不符。

我们认为,这种“翘尾现象”来自于搜索引擎结果页面设计中的某些特定元素影响,对于我们所分析的商业搜索引擎,其“查询推荐”功能展示出的查询位于结果页面的底部,搜索结果翻页的链接也位于页面底部,这有可能造成用户在使用查询推荐或翻页功能的同时对排名末位的搜索结果予以更多的关注。

图8 搜索引擎结果点击量与结果排序之间的关系

我们进一步对用户相邻两次点击的位置差值部分情况做了统计,图9的实验数据说明,点击位置差值为1的用户比例最大,有25%~30%的相邻点击是发生在位置差为1的两个结果之间的,这也符合我们通常认为的用户顺序依次点击的行为习惯。

图9 搜索引擎结果相邻两次点击之间的位置差值分布演化情况

但是,我们同时也发现有约10%的相邻点击中发生了“回溯”行为,即用户当次点击的结果排在比上次点击结果更靠前的位置,这种“回溯”反映了用户对以往点击或浏览过结果的重新认识过程,这也与前人基于眼动实验进行的用户调研结果[21]相吻合。同样值得注意的是,有10%以上的相邻点击是针对同一结果进行的,而这个比例在2010与2011年的数据中甚至高达20%左右,这可能是由于用户的操作失误造成的,也可能是由于用户急切想得到结果而进行的重复点击造成的。这种行为的出现,反映了用户对搜索引擎的性能期望值在提高,不仅从搜索结果的反馈速度上,同时包括网络带宽的要求上,希望能快速地获取浏览结果信息。但这种重复点击结果的行为必然会造成用户点击分析工作(尤其是基于点击进行相关反馈分析工作)的误差,因此需要引起重视。

5.2 用户点击次数的时间演化

用户查询点击次数可以被认为是用户为从搜索引擎获取信息而花费的操作成本的度量方式之一。用户点击次数越少,一定程度上反映了用户能够更快的获得相关信息,从图10所示的搜索引擎每查询平均点击次数的时间演化情况中可以看到,从2006年到2011年,用户针对某查询所进行的平均点击次数逐年下降。这从一个侧面反映出搜索引擎检索性能的提高趋势。

图10 查询平均点击次数的时间演化情况

然而,查询平均点击次数不仅仅取决于搜索引擎的检索性能,也与查询本身的属性有密切的关联。通常认为[22],由于其查询目标相对确定,导航类信息需求的查询点击次数要明显少于其他查询类别。近年来,随着互联网信息资源环境和搜索引擎用户需求的变化,导航类查询的比例通常被认为逐年减少*参见百度公司技术人员在百度大会上的演讲,http://tech.sina.com.cn/i/2009-08-18/15533362379.shtml.,在这种情况下,查询平均点击次数下降的趋势就更有可能是与搜索引擎性能的提高有关。

图11 不同用户点击数目用户查询的分布演化情况

图11所示的不同点击数目查询分布的时间演化情况也一定程度上反映了查询需求改变和检索效果提升这两个因素对查询点击数目的共同影响。从2007~2009年,点击次数多于3次的用户查询比例连年增加,而点击次数为1的用户查询比例则逐年下降,这很大程度上反映了用户信息需求的变化,搜索引擎逐渐从定位特定网站的工具转变为获取信息的渠道。而2010年与2011年点击次数多于3次的用户查询比例明显下降,我们认为在用户信息需求相对稳定的前提下,这反映了搜索性能的提升,也客观上反映了用户与搜索引擎交互程度有所下降的事实。

5.3 用户点击位置的时间演化

用户点击位置也一定程度上反映了搜索引擎的检索性能的高低: 用户的平均点击位置越靠前,通常意味着用户能够通过搜索结果列表比较靠前的结果满足其信息需求,进而说明搜索引擎提供给用户的结果列表质量较高。

从图12所示的用户平均点击位置和首次点击位置时间演化数据中可以看到,从2006年到2011年,用户点击位置呈逐年前移的趋势。2006年的首次点击位置平均值的在第4位左右,说明当时搜索结果列表中排名靠前结果的质量明显出现问题。而2010年和2011年的平均点击位置在第3位左右,也说明用户大都在访问排名靠前的结果之后就结束了查询。这既反映了搜索引擎排序性能的提升,也造成了搜索用户关注度更加集中在少数排名靠前结果的事实。

图12 用户平均点击位置和首次点击位置的演化情况

6 从用户行为演化与搜索引擎技术发展

从上述的用户搜索引擎使用行为的时间演化分析中,我们可以得到以下行为演化特性:

1) 用户越来越乐意使用较长的查询描述自己的信息需求,但使用短查询进行搜索的用户规模依旧庞大。

2) 用户对自身描述信息需求的能力越来越自信,使用查询推荐的用户比例明显减少,而查询对话中所包含的查询数目则相对维持在一个稳定的水平上。

3) 用户与搜索引擎的结果点击交互次数越来越少,用户点击也越来越集中在少数在搜索结果列表中排名靠前的结果上。

这些用户行为的演化为搜索引擎技术的未来发展带来了机遇和挑战: 一方面,相当比例的搜索引擎用户开始使用较长的查询描述其信息需求,这使得搜索引擎之前面临的信息需求表述不完善的技术难题一定程度上得以缓解。然而,用户查询长度的增加并不一定是来自于用户对于信息需求的精确描述(用户使用高级查询功能的比例并未增加),而往往是由于用户越来越倾向于使用自然语言而非关键词构建查询的现象造成的。这就为搜索引擎提出了更高的查询理解方面的技术要求,百度公司在“框计算”技术框架中,把查询理解作为其中的核心技术环节,正可以看作这种技术要求的具体体现。同时,较长的查询往往意味着用户所提出的信息需求是极为具体的,这种具体的信息需求不一定能够在网络环境中找到精确匹配的资源加以满足,这必然促使搜索引擎更加重视问答式社区等群体智慧交互平台的建设,以协助用户完成其具体、精细化的信息需求。

另一方面,用户从点击层面与搜索引擎进行交互的次数明显减少,这种趋势与搜索引擎检索性能的提升有密切的关联,但却必然造成用户在搜索引擎停留时间的减少,搜索引擎为了增加用户粘性,必然会发挥其信息资源占有和处理能力上的优势,收集、整理乃至创造更多的信息,满足用户不同层次的信息需求,谷歌公司收购YouTuBe等网络资产以及通过谷歌地图、谷歌图书等产品提供独有的高质量信息就是这方面努力的具体表现。用户交互的减少也必然会对搜索引擎的用户行为信息的利用方式产生影响,使得搜索引擎更加重视行为信息的可信度。

此外,交互次数的减少和用户对排名靠前结果的偏好使得搜索引擎竞价排名广告的竞争必然更加激烈,也有可能使得社会媒体对搜索引擎信息公平性质疑的增加。这也要求搜索引擎在广告投放方面更加慎重,采用更加精准的方式减少对用户获取信息过程的影响。

[1] 中国互联网络信息中心.中国互联网络发展状况统计报告(2011年7月)[EB/OL].http://cnnic.cn/dtygg/dtgg/201107/w020110719521725234632.pdf.

[2] Henzinger, M. R., Motwani, R., and Silverstein, C. 2002. Challenges in web search engines[J]. SIGIR Forum 36, 2 (Sep. 2002): 11-22.

[3] Amit Singhal. 2005. Challenges in running a commercial search engine[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ’05). ACM, New York, NY, USA: 432-432.

[4] Guo F, Liu C, Wang Y. 2009. Efficient multiple-click models in web search[C]//Proceedings of the 2nd ACM international Conference on Web Search and Data Mining (Barcelona, Spain, February 09-12, 2009). R. Baeza-Yates, P. Boldi, B. Ribeiro-Neto, and B. B. Cambazoglu, Eds. WSDM ’09. ACM Press, New York, NY, 124-131.

[5] Liu Y, Zhang M, Ru L, Ma S. 2006. Automatic query type identification based on click through information[C]//H.T. Ng et al. (Eds.): AIRS 2006, LNCS 4182, 593-600.

[6] Yiqun Liu, Junwei Miao, Min Zhang, Shaoping Ma, Liyun Ru. How Do Users Describe Their Information Need: Query Recommendation based on Snippet Click Model[J]. Expert Systems With Applications. 2011,38(11): 13847-13856.

[7] Bo Zhou, Min Zhang, Shaoping Ma, Yiqun Liu, Liyun Ru, Log-Mining Based Query Spelling Correction for Chinese Search Engines[J]. Journal of Computational Information Systems, 2009, 5(3): 1225-1234.

[8] Liu Y, Gao B, Liu T, Zhang Y, Ma Z, He S, Li H. 2008. BrowseRank: letting web users vote for page importance[C]//Proceedings of the 31st Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Singapore, Singapore, July 20-24, 2008). SIGIR ’08. ACM Press, New York, NY: 451-458.

[9] Yiqun Liu, Fei Chen, Weize Kong, Huijia Yu, Min Zhang, Shaoping Ma, Liyun Ru. Identifying Web Spam with the Wisdom of the Crowds[J]. ACM Transaction on the Web. 2011.

[10] ComScore. Global Search Market Draws More than 100 Billion Searches per Month[EB/OL]. http://www.comscore.com/Press_Events/Press_Releases/2009/8/Global_Search_Market_Draws_More_than_100_Billion_Searches_per_Month.

[11] 中国互联网络信息中心.第17次中国互联网络发展状况统计报告(2006年1月)[EB/OL].http://www.cnnic.net.cn/uploadfiles/doc/2008/1/17/104126.doc.

[12] Cockburn A, Jones S. 1996. Which way now? Analysing and easing inadequacies in WWW navigation[J]. International Journal of Human-Computer Studies, 45: 105-129.

[13] Tauscher L, Greenberg S. 1997. How people revisit web pages: Empirical findings and implications for the design of history systems[J]. International Journal of Human-Computer Studies, 47: 97-137.

[14] Silverstein C, Marais H, Henzinger M, Moricz M. 1999. Analysis of a very large web search engine query log[J]. SIGIR Forum 33, 1: 6-12.

[15] 王继民, 彭波. 搜索引擎用户点击行为分析[J]. 情报学报, 2006,25(2): 154-162.

[16] 余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的网络搜索引擎用户行为研究[J]. 中文信息学报,2007, 21(1): 109-114.

[17] 岑荣伟,刘奕群,张敏,等.基于日志挖掘的搜索引擎用户行为分析[J].中文信息学报,2010,24(3): 49-54.

[18] 中国互联网络信息中心.第19次中国互联网络发展状况统计报告(2007年1月)[EB/OL].http://www.cnnic.cn/uploadfiles/doc/2007/2/13/95848.doc.

[19] 中国互联网络信息中心.2009年中国搜索引擎用户行为研究报告(2009年7月)[EB/OL].http://research.cnnic.cn/img/h000/h11/attach200907161306340.pdf.

[20] 中国互联网络信息中心.2010年中国搜索引擎用户行为研究报告(2010年7月)[EB/OL].http://www.cnnic.cn/uploadfiles/pdf/2010/7/15/100708. pdf.

[21] L. Lorigo, B. Pan, H. Kembrooke, T. Joachims,L. Granka, and G. Gay. The influence of task and gender on search and evaluation behavior using google[J]. Information Processing and Management, 2005.

[22] Broder A. 2002. A taxonomy of Web search[J]. SIGIR Forum 36, Sep. 2002,2: 3-10.

猜你喜欢
搜索引擎比例用户
人体比例知多少
世界表情符号日
关注用户
关注用户
关注用户
按事故责任比例赔付
网络搜索引擎亟待规范
如何获取一亿海外用户
限制支付比例只是治标
基于Lucene搜索引擎的研究