摘要:为提高搜索引擎相关排序算法的搜索结果相关度低下问题,因此提出基于用户日志分析的搜索引擎相关排序算法优化研究。通过构建搜索引擎排序算法的向量空间检索模型来预估排序算法迭代向量,按照用户关注点的不同进行迭代向量分类集合计算,以便求出用户兴趣向量,进行用户兴趣搜索分类,最后由于受分类影响降低了排序结果相关度较低的网页点击率,因此引入时间反馈因子优化迭代排序计算。经实验证明,基于用户日志分析的搜索引擎相关排序算法有效提高了搜索结果的相关性,因此具有更强的排序能力。
关键词:用户日志分析;搜索引擎;排序算法;优化
中图分类号:TP301.6 文献标识码:A
文章编号:1009-3044(2020)18-0099-03
开放科学(资源服务)标识码(OSID):
由于用户日志详细记录了每个用户的搜索行为,因此对用户日志的挖掘能够最直接地发现用户搜索规律和搜索意图[1]。通过预估排序算法迭代向量和优化迭代排序计算提高相关排序算法适用性,并在用户日志分析的基础上,对用户搜索行为特征进行深入研究,从而进行用户兴趣搜索分类。相关度作为一个布尔值,用以衡量关键词与行业领域的紧密程度,基于用户日志分析的搜索引擎排序算法的设计思路是:若关键词在文档中出现的频度越高,且在文中的位置越重要,则认定为此网页与查询关键词的相关度就越高,在返回结果中的位置就越靠前。但经过兴趣搜索分类后,网页点击率随着排序结果相关度的减小而降低,该网页往往会排序位置靠后,致使人为造成其相似性下降,造成不能及时被用户搜索到。针对这一问题,需要从提高搜索引擎的质量人手,优化搜索引擎相关排序算法。
1 基于用户日志分析的搜索引擎相关排序算法设计
1.1超前预测搜索引擎排序算法迭代向量
要想设计搜索引擎的相关排序算法,需要进行排序算法的迭代向量预估,该预估过程主要通过构建搜索引擎排序算法的向量空间检索模型来实现[2]。
首先,根据关键词和关键字词对用户查询请求和文档进行矢量化处理。接下来,通过计算两个向量的夹角余弦来计算文档和查询请求向量之间的相似度,采用数学上的向量夹角余弦值来计算向量之间的相似度[3]。向量间的夹角余弦计算公式如公式(1)所示:
其中m,n表示向量,.表示向量的点乘,|m|表示向量的模,或者说是向量的长度。余弦值越小,两个向量之间的距离越近,两个文档之间的相似度越高。检索到的相关网页内容返回结果依照与查询请求间相似度的紧密程度以降序排列,构建向量空间检索模型。基于向量空间检索模型计算方法,预估搜索引擎相关排序算法初始向量。统计每列中值为1的人站链接总数并计算总和,然后计算每个网页的人站链接总数与所有页面人站链接总数的比值,将该比值作为每个网页的迭代向量A的初始值。预估的搜索引擎相关排序算法迭代向量,可以在一个向量空间坐标系中表示出来,如下图1所示。值,该值决定了搜索结果显示的排序规则。另一方面,U(AIong)所代表的用户长期兴趣向量则为搜索排序动作提供了扩展预测的方向。综合该用户历史搜索结果,可以对该用户的兴趣方向、兴趣类别和兴趣偏好,进而可以推测出该用户的工作性质、专业领域等延伸信息,这些延伸信息与该用户当前搜索的关键词的合集共同决定了搜索引擎的驱动字段,结合扩展后的兴趣领域与兴趣方向,在搜索行为中对数据库做出了严格的限定,大幅减少了搜索运算量,缩短了搜索时间,在满足用户当前搜索需求的基础上加以扩展,超前预测出用户可能感兴趣的周边信息,实现“智能化”搜索,建立用户兴趣向量集。
1.2结合迭代向量集完成对用户兴趣搜索结果分类
在用户日志中记录着用户使用搜索引擎的全部历史记录,对这些历史记录进行分析,寻找其中隱含的规律,随后将用户兴趣向量转化为具体数据进行分析。
用户在其特定兴趣爱好的背景下,在统计学角度观察,其使用搜索引擎的行为具备一致性与稳定性,通过分析用户使用日志,发现用户基于特定兴趣背景进行查询操作时,其搜索目标与兴趣有相关性。因此,基于用户日志分析方法有助于分析用户实际需求,作为爬行程序获得网页的条件,按照用户的兴趣类别将其分类。用户兴趣搜索分类过程如下图2所示。
用户对某个搜索结果是否感兴趣,可作为用户短期兴趣向量,适应了用户当前的兴趣特征,是通过用户短期内的兴趣特征来决定的。而这一系列短期兴趣向量的分类集合,则构成了用户的长期兴趣权重,是用户长期使用搜索引擎的比较稳定的兴趣特征。这一转变的关键举措是通过对搜索引擎访问历史加以分析归类,按照类别相似度划分为不同的兴趣类目,实现将用户的短期兴趣转化为用户的长期兴趣。具体做法为:在用户长期兴趣分析结果的基础上,通过分类器确定搜索结果网页的类别,将页面分成不同的类别,类别越细致,则搜索引擎工作时限定条件越多,搜索速度越快。在分类时,采用余弦相似度算法对搜索结果进行划分,实现用户兴趣搜索分类。
1.3优化迭代排序计算
经过用户兴趣搜索分类后,发现随着分类的进行,搜索内容进行分流,导致搜索结果相关度较低的网页用户点击率下降,因此引入时间反馈因子提高点击时间权重,以此进行迭代排序计算的优化。引入网页时间反馈因子Yt,定义一个网页被搜索引擎访问的周期次数为T,则时间反馈因子可表示为:
Yt= a/T
(4)
式4中,a为经验常数,其取值受到迭代排序算法关键字长度的影响。随后在引入时间反馈因子的迭代过程中,通过比较前后迭代向量的2 -范数差大小来判断停止迭代时机,当Residential=( )时,停止迭代。当迭代满
公式(6)中Pi(j)表示在第i次迭代中,网页排名Pi当中排名第i名的网页,共有n个网页,至此完成迭代排序计算的优化。经过优化后的迭代排序计算使得搜索结果相关度不同的网页具有同等的检索机会。
2 实验验证
为证明设计的基于用户日志分析的搜索引擎相关排序算法的有效性和实用性,采用设计实验的方式,测试搜索结果排序的正确性。设置设计的基于用户日志分析的搜索引擎相关排序算法为实验组,传统的搜索引擎相关排序算法为对照组进行对比试验,实验次数设置为10次。
2.1 实验设计
本次实验的环境设置为Lucene开源搜索引擎框架,Java开发语言,Eclipse 3.4集成开发环境,服务器为开源的Tomcat6.0,数据库为SQL Server 2005。用实验组排序算法和传统排序算法分别部署到2台相同配置的计算机上。
实验方法:首先,利用Lucene提供的网络蜘蛛功能模块在互联网上进行网页抓取分析,获取到有效网页327169张,建立用户搜索点击日志,记录用户相关搜索点击信息。在此次抓取索引数据量的基础上,用两种算法分组进行比对测试。其次,随机针对10个关键词通过两组算法进行搜索,在搜索结果中自主选择认为和关键词相关的网页进行浏览。最后,进行搜索结果相关度统计分析。
2.2 实验结果分析论证
通过上述对比实验,将搜索10个关键词得到的实验结果,通过折线图直观显示出来,结果如图3所示。
通过图3对比,可以明显看出,设计的基于用户日志分析的搜索引擎相关排序算法的搜索结果与用户真实搜索意图的相关性更高,更能满足用户的需求,排序算法的搜索结果相关度更高,证明实验组排序算法优于对照组排序算法,具有更加良好的排序能力。
3 结束语
搜索引擎的出现有效解决了如何在众多杂乱的信息中迅速检索到有效信息,以及搜索结果是否满足用户需要等问题,对互联网的进一步普及产生了巨大的影响。由于搜索引擎数据量巨大,而排序算法的接受能力有限,致使网页排序不均匀,排序靠后的网页往往不能及时被用户浏览到,因此进行基于用户日志分析的搜索引擎相关排序算法优化。用户日志方面的分析和研究是提升搜索引擎检索质量的一个新的方向。影响排序算法排序能力的因素有很多,通过预估排序算法初始向量、進行用户兴趣搜索分类和优化迭代排序计算,实现搜索引擎相关排序算法的优化。但是排序结果的准确性仍有待提高,希望通过对基于用户日志分析的搜索引擎相关排序算法优化的研究,能够给未来搜索引擎相关排序算法的发展带来一定的启发和帮助。
参考文献:
[1]严承希,王军,王珂,中国大学生的网络使用:基于大规模日志分析的模式识别新方法[Jl.图书情报工作,2019.63(14):83-93.
[2]周翔,张鹏翼,王军.移动购物用户信息浏览特征及对购买的影响研究——基于移动电商APP点击流日志的分析[J].数据分析与知识发现,2018,2(4):1-9.
[3]王新才,谢宇君.知识发现系统与通用学术搜索引擎文献资源比较研究——以超星发现和百度学术为例[J].福建论坛(人文社会科学版),2018(4):164-172.
【通联编辑:张薇】
基金项目:江西省高等学校教学改革研究省级课题(JXJG-18-30-5)
作者简介:汪滢(1984-),女,江西井冈山人,硕士,副教授,研究方向为算法分析。