基于日志挖掘的搜索引擎用户行为分析

2010-07-18 03:11岑荣伟刘奕群茹立云马少平
中文信息学报 2010年3期
关键词:点击率色情搜索引擎

岑荣伟,刘奕群,张 敏,茹立云,马少平

(智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),清华大学计算机科学与技术系,北京100084)

1 引言

作为当前网络信息检索的主要工具,搜索引擎已成为人们访问互联网资源的有效手段。据最新CNNIC统计报告显示[1],截止2009年底,中国网民规模已达3.84亿人,其中搜索引擎的使用率为73.3%,即搜索引擎用户规模达到2.81亿。如何向网络用户提供优质的搜索服务,帮助用户定位所需的网络目标资源,最大规模的吸引客户使用,一直是商用搜索引擎公司所关注的重点。网络用户行为分析是认识用户意图和了解用户兴趣的主要方法之一,受到了研究界和产业界的广泛关注,已成为网络信息检索和知识挖掘的重要研究领域之一。

搜索引擎日志记录着用户和搜索引擎交互的相关行为信息,是研究和分析真实网络用户行为的主要载体,利用搜索引擎日志对用户行为进行分析的方法已经被产业界和研究界所广泛采用。早在网络信息检索工具广泛流行之前,用户相关反馈信息已被一般的网站及公司应用于了解用户兴趣目的、维护网站系统等方面。Cockburn[2]和Tauscher[3]等人分别在90年代中期对w eb用户的浏览行为进行了调研和分析。90年代后期,随着搜索引擎的广泛使用,搜索用户行为也被相关企业和研究人员所关注。1998年,Silverstein[4]等人对商业搜索引擎的用户日志进行了大规模的分析。2006年,余慧佳[5]等人对中文环境下的网络用户日志进行了大规模的分析和研究。除了统计分析之外,人们也开始关注日志中所包含的群体智慧信息,并应用这些信息为搜索引擎系统所服务,如搜索结果重排序[6],检索函数学习[7],搜索引擎自动性能评价等[8]。

本文通过对一个月规模的中文商业搜索引擎日志的分析,研究真实网络环境下的中文搜索引擎用户的行为特点。与以往工作不同的是,在分析过程中,我们通过对用户意图进行区分的方法,统计和分析不同查询目的下的用户行为差异性。通过相关分析,我们希望能够进一步了解用户,为中文搜索引擎系统的改进和算法优化等提供一定依据和方向。

以下从本研究的相关工作展开讨论,阐明用户行为分析领域已有方面的研究成果和存在的问题;然后分析用户和搜索引擎可能的交互过程,并介绍相关日志数据;接着,基于大规模用户日志分析网络搜索引擎用户的相关行为特点;最后给出相关总结和启示。

2 相关研究工作概述

根据Sullivan的统计[9],2004年底,Google作为世界上索引量最大和访问频率最高的搜索引擎,能够索引到超过80亿的网络页面,其每天处理的用户查询超过2.5亿个。据最新CNN IC的统计报告显示[1],截止2009年12月31日,我国的搜索引擎用户已达2.81亿。百度、谷歌、搜狗等在线搜索引擎已成为人们日常访问的网络工具。

1998年,Silverstein等人对大规模英文搜索日志进行了分析[4],结论指出对于85%的查询用户都只翻看了查询结果的第一页内容;77%的用户只提交了一次查询,且没有进行修改等等。这些结论都对英文搜索引擎的算法改进和发展起到了有益的作用。2006年,余慧佳[5]等人对中文环境下的网络用户日志进行了大规模的分析和研究,被作为改进搜索引擎系统性能的基本依据。本文在文献[5]工作的基础上,继续对中文环境下的大规模网络用户日志进行分析,同时构建以导航和色情为查询目的的查询集合,考察不同查询需求下的用户行为差异性。

对网络用户行为中所包含的群体智慧信息的研究已成为当前信息检索领域的主要研究内容。2005年,Joachims[10]对搜索用户点击的有效性开展了一项基础性研究工作,被称为“眼睛跟踪”(Eye-tracking),其通过分析用户点击行为的决策过程,挖掘用户点击过程中蕴含的智慧信息。最近,Dow ney[11]等人基于用户查询日志信息来挖掘用户查询和目标页面之间的关系。

3 用户和搜索引擎交互过程和分析数据介绍

网络搜索用户在信息查询时通常和搜索引擎系统之间有一个交互过程。首先,用户有一个查询需求主题或者查询目的。根据该主题或目的,用户基于已有的搜索经验和知识构造出查询关键词,并将其提交给在线搜索引擎系统,如百度、谷歌、搜狗等。搜索引擎系统根据用户提交的查询关键词采用一定的算法和检索策略返回可能相关的结果文档列表。用户通过对比返回结果文档的相关信息,如标题、摘要、URL、前后结果文档等,点击认为可能相关的能满足其搜索目的的结果文档。如果该结果文档满足搜索需求,用户则可能离开该查询主题的搜索。反之,如果不满足搜索需求,用户会返回搜索结果页,继续查找其他可能相关的结果文档并进行点击;或者修改查询关键词,进一步和搜索引擎系统进行交互。当用户对点击结果文档满意或者认为无法找到相关结果文档时,其会选择离开当前查询主题,或者换一个搜索引擎系统继续搜索。图1展示了用户和搜索引擎系统之间的交互过程。

为分析真实网络用户的搜索行为,我们在一家著名商用搜索引擎的帮助下,收集到一段时间内的真实网络用户和该搜索引擎的交互日志。这些日志包含了2009年5月1日到2009年5月30日共30天网络用户和该搜索引擎的交互日志记录。这些日志总共有7.56亿条日志信息,其中有1.01亿用户Session和2.83亿用户查询。表1列出了用户访问日志的相关信息内容。

图1 网络搜索用户访问流程

表1 用户访问日志信息项

为分析不同查询需求下用户的不同行为特点,我们在所有用户查询的集合上提取两类特殊用户的查询集合,导航查询集合和色情查询集合。我们从百度的“hao123”网站(http:/www.hao123.com/)上抓取相关网站的链接文本,通过人工挑选和过滤后,将其和用户日志中的查询的交集作为导航查询词集合,其包含1.72万个独立的导航查询词。日志中用户提交该导航词集合中的查询有1 557万个。另外,在该搜索引擎公司的帮助下,基于查询文本内容,我们对日志中所有的查询进行了是否为色情词的判断,提取出15万个独立色情查询词,对应1 969万个用户查询,这些查询词构成色情查询词集合。

基于上述三个不同类型的查询集合(全集、导航词集合和色情词集合),我们可以对用户的行为进行有区别的分析和研究,考察不同查询目的下的用户在搜索行为上的差异性。下一节,我们将从用户查询和用户点击等方面分析用户行为特点。

4 搜索引擎用户行为分析

4.1 用户查询词分析

当前主流的搜索引擎以查询关键词为载体进行检索,因此用户提交的查询词长度,提交的查询次数以及提交查询的类型决定了用户传递给搜索引擎的信息内容和信息量。

4.1.1 查询长度

查询长度是指用户提交的查询关键词中含有几个词或字。在这里我们分两个层次进行分析:一是未分词通过用户自主的以空格隔开作为查询计数的方式;另一个是经过分词后的单词数作为计数。图2显示了在日志中用户查询长度和用户数的变化情况。

图2 网络用户查询词长度分布

从图2可以看到,查询中的词数和用户数呈指数分布(Pow er-Law)关系,随着查询中词数的增加,用户数急速下降,即大部分用户只提交很少的几个词。同时可以看到,分词后比分词前有较多的词数,经计算,分词前平均为1.10个查询词,分词后平均为3.11个查询词,这说明用户不习惯对查询词进行主动分词处理,而习惯于输入一个短语或短句。该分词前的平均长度与文献[5]分析的结果1.85个词有一定差距,主要是因为统计方法不一样,文献[5]统计的是非重复查询,而这里是按查询的提交次数进行统计。

4.1.2 用户查询修改率

用户在提交查询后,如果对当前搜索结果不满意,或者用户仍想获取更多的信息,则用户可能修改查询词,进一步和搜索引擎交互。我们在三类不同类型的查询词集合上比较用户的查询修改率,表2展示了相关用户查询修改率的信息。

表2 不同查询类型下的用户查询修改率

从表2可以看到,用户的查询修改率较高(50%左右),这说明当前搜索引擎用户的整体满意度较低,全集上有56%的用户查询有查询修改的现象。同时也说明几个简单的查询关键词很难准确描述用户的查询意图,造成了用户和搜索引擎之间进行信息传递的瓶颈。

4.1.3 查询推荐点击率

查询推荐是搜索引擎根据用户提交的查询词,构造几个新查询词推荐给用户,帮助用户表达其查询意图。查询推荐通常展示在搜索结果底端,一般推荐10个查询词。表3展示了在不同集合上的相关搜索的点击率。

表3 不同查询类型下的查询推荐点击率

从表3中可以看出,在全集上用户查询推荐的点击率为11.9%,和色情查询词的查询推荐点击率基本类似。该比例相对较低,占用户查询修改的1/5左右,说明用户较少使用搜索引擎提供的查询推荐,主要原因可能是该功能提供在搜索结果页底端,用户习惯于自己修改查询。同时,从表3中可以看到导航词的查询推荐点击率比一般查询词的查询推荐点击率低,说明当前搜索引擎对导航查询词处理的较好。

4.1.4 问题式查询比例

搜索引擎提供的搜索功能是帮助用户找到信息。问题式查询是用户提出需求最直接的方式。然而随着用户搜索经验的丰富以及方便性原则,用户通常只输入几个简短的查询关键词,而忽略相关疑问词。然而在日志中仍有一部分用户以提问的方式使用搜索引擎。在这里,我们统计了这部分用户的比例。我们总共收集了152个疑问词,如“什么”、“哪里”、“如何”等。若用户提交的查询中包含了其中某个疑问词,我们则认为该查询是问题式查询。根据统计(见表4),我们发现问题式查询占所有查询的2.96%,整体用户比例不多。

表4 问题式查询比例

4.2 用户点击分析

用户点击是用户在浏览相关的搜索结果页面后进行的相关动作,是用户对搜索引擎结果性能的一个判断。根据不同类型的查询,其点击行为差异较大。如对于导航类查询,用户一般只要一个目标页面,对于信息类查询,用户则可能会访问多个结果页面,获取较为全面的信息。在这里我们对用户的点击行为进行相关分析。

4.2.1 查询点击率

当搜索引擎根据用户提交的查询返回相关结果后,用户会点击认为可能相关的结果,或者不点击任何结果。表5统计了用户点击搜索结果的比例。

表5 查询点击比例

通过表5可知,并不是所有用户在查询之后都点击搜索结果。对于所有查询,只有56%的查询有用户点击,导航类和色情类查询点击率相对较高。用户不点击搜索结果的原因较多,如返回结果不佳直接换查询,点击搜索引擎的相关垂直搜索(如音乐类查询),点击相关广告信息等。

4.2.2 首次点击时间

首次点击时间是指搜索引擎根据用户提交的查询返回搜索结果和用户第一次点击之间的时间间隔,该时间一定程度上反应了搜索引擎搜索结果页展现的效果。若该时间较长,则说明搜索结果并不直观,需要用户进行一定的思考和判断。图3统计了各查询类型的用户首次点击时间的分布(这里只对那些点击了搜索结果的查询进行统计)。

图3 用户查询的首次点击时间分布

通过图3可知,大部分查询的首次点击时间较短,对于所有查询词,56.0%的查询其首次点击时间在5秒以内(<5秒)。对于导航词,这一比例更高,达76.7%。对于色情词,这一比例略小,为45.5%。另外,我们可以看到在全集和色情查询词上,有超过10%的用户,其首次点击时间超过20秒,这部分点击的原因较多,如搜索结果性能差,用户查看比较的时间较多,或者用户中间转移了注意力等。

4.2.3 首次/最后一次点击位置分布

用户根据搜索的返回结果,查看结果文档对应的标题、摘要、URL地址以及和其他结果比较,然后点击对应位置的结果页面。点击的搜索结果位置影响着用户的体验。若用户想要的结果页面需要通过滚屏或翻页来实现,则用户体验较低。图4展示了首次点击和最后一次点击在各个位置上的查询分布(对有结果点击的查询进行统计)。

图4 首次/最后一次点击的位置分布

根据图4可以看到,51.4%的所有查询其首次点击落在第一位,而导航类有72.0%,色情类查询只有36.8%。最后一次点击落在第一位的分布比首次点击略小,而落在第4位及之后位置的比例略大,这基本符合用户从上往下看的规律。同时可以看到对于导航词,其首次点击和最后一次点击落在5位之外(rank>5)的比例分别只有3.1%和5.3%。而色情词的首次点击和最后一次点击落在5位之外的比例较大,分别有14.9%和31.7%。其原因主要可能是导航词有确定的目标,搜索引擎处理的较好,用户如果没有找到对应的结果页面则会通过换查询来继续查找。而色情词没有确定的目标页面,以阅览为目的,因此一般用户通过滚屏或翻页来实现目标的查找。

4.2.4 查询内点击数分布

用户根据搜索的返回结果,查看结果展示内容并进行点击,用户会根据点击后看到的页面内容,选择继续点击或者其他行为。点击次数的多少反应了用户对结果的感受。用户对结果不满意时,其可能继续点击查找信息。同时,对于确定类型的查询用户相对点击较少,反之可能有较多的点击。图5展示了同一查询内点击次数的分布(对有结果点击的查询进行统计)。

图5 同查询内点击次数分布

通过图5可以看到在用户有点击的查询中有63.7%的用户其只点击一次结果页面,对于导航词有77.4%,色情词为57.2%。通过统计平均可知(表6),对于有点击的查询,其每个查询平均点击次数为1.81次,对于所有查询,其平均点击次数为1.01次。从中可以看到,一般用户点击次数较少。结合表3中56.0%的查询点击率以及表2中全集56.1%的查询修改率,我们推测一般用户更倾向于查询更换来寻找信息,而不是通过点击,而对色情类查询的用户倾向于使用更多的点击来获取更多的信息。

表6 查询平均点击次数

5 结论与分析

本文通过大规模真实网络搜索用户日志的分析,对用户搜索行为进行相关研究,挖掘出相关用户搜索行为特点,如查询长度、查询修概率、相关搜索点击率、首次/最后一次点击、查询点击率等。同时,基于不同类型的查询,对用户搜索需求进行区分,进而发现不同查询目的的搜索行为差异性,如对导航查询用户偏向于找到单一目标页面为主,对于色情查询词,用户搜索更像一般的网络浏览。由于不同目的用户的行为差异性,提示我们在处理不同用户需求时,应采用不同的检索模型以及不同的结果展现形式。在文中,我们还发现用户习惯于输入简短的词或短句,虽然这种模式造成了用户和搜索引擎系统之间进行信息交互的瓶颈,但由于其简单方便性,这种模式短期内很难被替代。

用户行为分析作为改进搜索引擎性能和服务的重要手段,在网络信息检索和知识挖掘领域都具有重要的意义。研究用户行为,挖掘用户兴趣与目的是当前各搜索引擎关注的重点。在今后的工作中,我们将进一步挖掘用户日志中的相关信息,研究用户行为,挖掘群体智慧信息,提高搜索引擎性能。

[1] CNNIC(China Internet Netw ork Information Center).The 25st report in development of Internet in China[R].http://www.cnnic.net.cn/up load files/pdf/2010/1/15/101600.pd f.2010.

[2] Cockburn,A.and Jones,S.Which way now?Analysing and easing inadequacies in WWW navigation[J].International Journal of Human-Computer Studies,1996,45,105-129.

[3] Tauscher,L.,&G reenberg,S.How peop le revisit w eb pages:Empirical findings and imp lications for the design of history systems[J].International Journal of H uman-Computer Studies,1997,47,97-137.

[4] Craig Silverstein,M onika Henzinger,HannesMarais,et al.Analysis of a very large Web search enginequery log[C]//SIGIR Forum,1998,33(1):6-12.

[5] 余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的网络搜索引擎用户行为研究[J].中文信息学报,2007,21(1):109-114.

[6] Agichtein E,Brill E,Dumais S.Improving web search ranking by incorporating user behavior information[C]//SIGIR06,New York,NY,USA,2006:19-26.

[7] Dou Z,Song R,Yuan X,Wen J.A re click-through data adequate for learning web search rankings?[C]//Proceeding of the CIKM'08.ACM,New York,NY,2008:73-8.

[8] Liu Y,Cen R,Zhang M,Ru L,Ma S.Automatic Search Engine Evaluation Based On User Behavior Analysis[J].Journal of Softw are,2008,19(11):3023-3032.

[9] Danny Su llivan,Search Engine Sizes[R].In search engine w atch website,http://searchenginew atch.com/reports/article.php/2156481.

[10] Joachim s T,G ranka L,Pan B,Hembrooke H,Gay G.Accurately interp reting click through data as imp licit feedback[C]//Proceedings of the SIGIR'05.ACM,New York,NY,2005:154-161.

[11] Dow ney,D.,Dumais,S.,Lieb ling,D.,and H orvitz,E.2008.Understanding the relationship betw een searchers'queries and in formation goals[C]//Proceeding of the CIKM'08.ACM,New York,NY,2008:449-458.

猜你喜欢
点击率色情搜索引擎
世界表情符号日
西班牙担忧色情视频毁了青少年
基于特征工程的视频点击率预测算法
日本“色情报复”增多
警察培训“色情侦探犬”搜寻色情信息存储设备
网络搜索引擎亟待规范
喜报!萌宝大赛参赛者660名,投票321657人次,点击率超60万!
《江南STYLE》为何这么火
基于Lucene搜索引擎的研究
色情陷阱