面向数字资源查询的用户行为建模研究

2022-05-20 10:13:16白莹琦帕力旦吐尔逊
物联网技术 2022年5期
关键词:日志浏览器页面

白莹琦,帕力旦·吐尔逊,李 煜,付 敏

(1.西北大学 图书馆,陕西 西安 710127;2.新疆师范大学,新疆 乌鲁木齐 830017)

0 引 言

用户在搜索数字文献资源时,其结果页面是一个返回列表。此时,用户可能会进行多种方式的操作。例如在点击任何一个返回结果之前,先快速浏览很多其他结果的名称;或者按照返回结果列表依次点击浏览;或者放弃当前搜索并发出一个新的查询。因此,用户与系统交互式的行为建模研究是实现良好搜索引擎的关键因素。

对于系统平台,将用户搜索某项记录的操作动作进行排序,便可以表示为一个动作序列,具体定义为=<(,), (,), (,)...>,其中(d,s)是由两个元素组成的动作:动作的类型d以及该动作对应的返回结果序列r≥1。其中动作类型包含三种,具体如下:

(1)快速浏览:d="",当一个搜索结果简介在电脑屏幕上停留的时间至少为1 s时,数据库系统平台将其定义为“一次快速浏览”。

(2)查阅查看:d="",当用户选择某条特定的结果并加载更为详细的结果介绍时,系统平台将记录该操作,并定义为“查阅查看”。

(3)下载确定:d="",当用户在查阅查看后,确认填写和提交下载该记录。这样的操作在系统平台也会被记录,并定义为“下载确定”。

以某省属211高校图书馆数据库系统日志为例,摘录某注册用户的一组动作序列,每组动作序列也可以看作是三个动作分量序列的组合。例如,某用户已经快速浏览结果页面的第1~5条记录,随后更为详细地查阅查看了第4条记录的详细情况,下载确认该纪录后再浏览第5条记录。

每种动作之间存在关联,对该关联的挖掘可以凭借研究连续动作序列进行建模与分析。由于“查阅查看”是可以监测到的,而“快速浏览”则不然,只是记录了是否进行,而无法对被浏览的记录进行排序。因此,本文的研究目标在于能够通过“查阅查看”动作记录中推断出“快速浏览”时符合用户需求的结果排序。主要贡献总结如下:

(1)建立了使用“查阅查看”信息来估计“快速浏览”顺序的模型。

(2)针对常规用户行为特征,提出条件连续概率来评估行为模型。

1 相关工作

在有关提升搜索引擎性能的工作中,White等人通过使用商用搜索线索集,研究了用户与结果页面交互时搜索行为的可变性,其中每个线索代表一个交互图;从用户提交查询开始,到用户完成搜索任务结束,通过交互图的变化展现行为的动态变化。Klockner等人通过眼睛跟踪实验来研究扫描浏览的序列。Cutrell等人根据眼睛跟踪的数据,研究了搜索结果对用户行为的影响。Joachims等人调查了用户“从上到下”的浏览行为,其结论是在用户单击搜索结果之前,已经查看了大多数的结果,只有少数的结果没有被查看。Thomas等人也通过眼睛跟踪实验,得出用户遵循“进两步,退一步”的方式来浏览结果页面。现有方法足以感知用户在进行数字资源搜索时的“快速浏览”动作。

针对在线用户的行为,Spina等人研究了某在线社交网站的互动日志,从点击和查询提交关键词两方面调查了该网站会员的个人行为特征;Mansouri等人从数以百万计的在线求职页面记录中,选择与职位相关的查询,研究了最热门职位数量与一周内的职位搜索次数之间的关系。

对于电子商务搜索日志,Parikh等人分析了大约1.15亿个eBay查询记录,并指出不同查询的频率分布遵循幂律分布;Hasan等人则扩展了这一研究,发现查询频率(查询受欢迎程度的衡量标准)与eBay上检索结果的数量呈正相关,这显示了供求之间的平衡。

2 可预测模型分析

本文的数据集是某高校图书馆数据库的用户交互日志样本。测试分析时采用了两种不同工作模式的动作序列:(1)基于手机的Android/iOS应用程序进行在线搜索,其中搜索结果页面没有分页和连续滚动;(2)基于桌面的网络浏览器进行搜索,结果页面都是分页的,每个页面包含15个结果。采用近2万个动作序列分别响应Android/iOS查询和浏览器查询。

“快速浏览”是“查阅查看”和“下载确定”的前提。对于每条记录,用户通常会在“查阅查看”结果之前“快速浏览”包括在内的几乎所有返回结果,记录下用户查看其他返回结果的数量。对比Android/iOS用户和浏览器用户,使用浏览器的用户每次“查阅查看”某条结果时,“快速浏览”的结果数量比使用Android/iOS的用户更多。

通常情况下,用户在完成本次搜索之前,已经对搜索结果页面进行了更深入的检查。总的来说,所有对结果进行“查阅查看”的返回结果中,用户的“快速浏览”排列次序都遵循类似的模式,这意味着可以从“查阅查看”信息中推断“快速浏览”;而“下载确认”这一动作提供的额外信息会进一步加强这种关系。

对于“下载确认”与“快速浏览”的推断,与Wicaksono等人所提出的经验值()计算近似。根据经验值的计算,这里考虑前20个结果(基于浏览器用户的第一页),对“下载确认”和“快速浏览”分别估计的延续概率明显不同,见表1所列的RBP和INSQ这两个模型的最佳拟合参数的值。然而,本文依旧认为“快速浏览”可以从“下载确认”这一动作序列中推断出来,具体将在后文中说明。

表1 RBP和INSQ的最佳拟合参数值

3 预测印象分布

本章描述了印象模式的建模方法。进行回归预测时,基于以下三个假设选择模型:

(1)用户从上到下查看返回结果。

(2)如果第条返回结果被“查阅查看”,则第1至条返回记录都被“快速浏览”。

(3)用户可以在“查阅查看”第条返回结果之前,先查看后续返回结果。

在上述假设中,第一个是人们正常阅读习惯,并具有已有研究结果的支撑。

针对假设二,图1为其提供了进一步的证据,显示了用户“查阅查看”和“快速浏览”结果的最大数量之间的差异分布。

图1 两种访问方式下交互动作数量差异(diff)分布

对于第三个假设,首先定义两个与“查阅查看”动作相关的特征,如式(1)所示,为用户“查阅查看”数量最多的结果排序位置;为“查阅查看”不同属性结果的数量。其中,w为使用线性回归得到的线性组合最佳系数;为偏移参数。

表2显示了拟合参数取值影响占比,支撑了上文给出的第三个假设。在其他因素保持不变的情况下,diff随用户“查阅查看”数量最多的结果排序位置(>0)的增加而增加,随不同属性结果的“查阅查看”数量(<0)的减少而减少。

表2 拟合参数取值影响占比

综合上述三个假设条件,累积分布(diff≥)是用户“快速浏览”从返回结果(,)到(,)+的占比,其中(,)是用户在“快速浏览”结果时“查阅查看”最多结果的排序位置。建立如下三个模型:

模型1:基于启发式方法,设计一个具有“相似行为”的函数近似表征(diff=),并通过“快速浏览”和“查看查阅”日志记录来选择参数。具体定义如下:

其中:为超参,经验取值为0.832;为控制衰变率的参数。根据交互日志中不同用户访问数据库的方式不同,分别计算如下:

模型2:前期分析中发现,diff依赖于和这两个因素。为了更精准地估计,对衰变参数进行线性拟合,则有:

则模型1可近似等价地定义为:

模型3:为了更精确地估计推断,需要进一步使用用户“查阅查看”的分布密度来估计用户在最后一次点击“快速浏览”之后的返回结果数量。设(imp=|,)为用户在对结果进行“查阅查看”时,已完成对结果“快速浏览”的概率。同时提出“查阅查看”间断分布(gap=|,),即用户在面对个返回结果时,连续“快速浏览”个结果而不“查阅查看”的概率。于是模型3可定义为:

其中:(gap≥(·|))是由用户发出的所有查询的平均值决定的;用户的总体推断模型(imp=|,)也是通过求平均值来计算的。

其中:C()为记录的用户“查阅查看”次数;为经验常数。

4 测试评估

本文分析了高校图书馆数据库服务器所提供的交互日志,其中包含利用移动设备(Android/iOS)应用程序发起查询的1.58万条搜索查询交互日志,以及通过台式机/笔记本电脑浏览器发起查询的40 129条交互日志。

如图2和图3显示了得到的经验条件连续概率 ,并将其与SDCG和INSQ的两条参考曲线进行了比较。“快速浏览”下的延续概率与“查看查阅”的明显不同。

图2 “快速浏览”下的条件延续概率

图3 “查看查阅”下的条件延续概率

将近似估计的 值与使用原始查询集计算的参数进行比较,并将其 应用于“查阅查看”动作序列中。表3的数据表明三种模型下近似 与真值的加权频率均方误差(WMSE)越小越好。

表3 加权频率均方误差(WMSE)

()是根据“加权精度有效性”度量与搜索引擎结果页面中的第个返回记录相关联的权重;同时也是根据用户查看的第个记录而产生推断的直接估计。在加权精度度量中,权重()是非递增的,()≥(+1),这意味着查看排在后面的返回结果的概率小于查看排在前面的结果。使用相对熵即K-L散度来衡量概率分布之间的差异。表4显示了在每个搜索引擎结果页面的前10个和前50个结果的计算值,数值越小越好。从实验结果可以看出,对于前10个结果的评估,模型1优于模型2;对于前50个结果的评估,模型3优于模型2。

表4 K-L散度分布差异

5 结 语

通过研究数据资源后台用户交互日志中的交互动作模式,并确认用户通常在每次“查阅查看”之前会“快速浏览”第个之前的绝大多数结果以及第个之后的少数结果,提出推断模型。该模型基于“查阅查看”动作序列来推断返回结果列表中的哪些结果可能已经被用户“快速浏览”,从而有助于对用户行为模型予以修订,为下次精准搜索提供依据。

猜你喜欢
日志浏览器页面
刷新生活的页面
保健医苑(2022年1期)2022-08-30 08:39:14
一名老党员的工作日志
华人时刊(2021年13期)2021-11-27 09:19:02
扶贫日志
心声歌刊(2020年4期)2020-09-07 06:37:14
反浏览器指纹追踪
电子制作(2019年10期)2019-06-17 11:45:14
游学日志
环球浏览器
环境与生活(2016年6期)2016-02-27 13:46:37
再见,那些年我们嘲笑过的IE浏览器
英语学习(2015年6期)2016-01-30 00:37:23
一种基于粗集和SVM的Web日志挖掘模型
同一Word文档 纵横页面并存
浅析ASP.NET页面导航技术