陈 乐,刘迎春
(浙江工业大学,浙江 杭州 310023)
交互式信息检索是检索领域的全新研究课题。伴随互联网技术的快速发展,信息检索系统功能得到极大提高[1,2],从传统手动检索逐步转变成人机交互信息检索模式。交互式信息检索条件下,信息检索行为受到认知模式、搜索策略的影响,增添了交互式信息检索难度。如何综合用户和检索系统的优势、增强信息检索系统交互功能[3]、为用户提供更加精准可靠的信息查询服务为本文的主要研究目标。
关于信息检索问题,相关领域专家已经得到了一些研究成果。文献[4]提出了大数据下监控网络混合入侵信息检索算法。采用遗传算法优化选择特征集,构成优化特征集合,构建冗余信息消除模型。在信息检索理论前提下,组建信息检索模型,实现网络信息检索目标。但该方法检索到的信息数量较少,查全率较低。文献[5]提出了融合加权模式挖掘与规则混合扩展的跨语言检索算法。利用项集权值对比包含原查询词项的频繁项集,采用剪枝策略获得有效频繁项集,按照规则混合扩展模型完成查询拓展,拓展词和原查询词结合为新查询集合,重新检索文档并获得检索结果。但方法无法获得相关词之间的关联,导致检索精度不高。
为解决以上传统方法存在的应用问题,本研究提出基于用户需求挖掘的交互式信息检索算法。结合眼动追踪技术,划分眼动追踪技术评估指标,可视化处理眼动信息,获得用户注视点坐标与注视时间。且本文首先创建注视、扫视、瞳孔扩张与扫视路径四种眼动评估指标,使用语义空间下的反馈算法完成用户检索兴趣特征提取,通过需求挖掘理论实现高精度交互式信息检索任务,并通过仿真表明了所提算法可靠性。
交互式信息搜索结果的相关性反馈关键是按照眼动视觉行为特点完成评估的。视觉理论规定:吸引用户和被用户长久观看的检索结果才能被用户点击,视觉行为是用户点击浏览信息的必要条件。把用户行为代入至检索系统内,可有效完成信息检索的人机交互形式。目前的相关反馈具备两种模式:显示相关反馈与隐性相关反馈。显示相关反馈需要用户进行大量的准备工作,预先告知用户行为对信息检索造成的影响;隐性相关反馈模式中,用户无需考虑自身行为对检索结果的影响,仅需注意检索行为是否满足自身需要,可以很好地降低用户工作量,检索结果精度也很高。
本文采用基于眼动追踪技术的检索页面隐性相关反馈策略,充分展现出用户在信息检索时的注意力分布与偏好水准等元素,进一步提高信息交互式信息检索精度。
眼动仪是实现眼动追踪技术的工具,共有三种类型:头盔式眼动仪、桌面式眼动仪与眼镜式眼动仪。眼动追踪被划分成四类:注视、扫视、瞳孔扩张与扫视路径[6]。注视表示双眼在某固定点的驻留时长;扫视表示双眼在注视点之间的迅速移动或延迟;瞳孔扩张用来描述用户浏览信息时的兴趣程度;扫视路径为双眼在注视点间迅速移动构成的轨迹。
注视是判断信息检索时最核心的眼动指标,利用注视点能够准确了解用户检索内容和关注的兴趣区域(Area of Interest,AOI),每一种眼动均具备对应的参变量,将眼动指标及对应参变量释义记作表1。
表1 眼动追踪特征指标划分
采用基于语义空间的反馈算法实现用户检索兴趣特征提取。首先通过眼动数据得到用户注视点坐标与注视时间,将眼动信息采取可视化处理,代入一个眼动轨迹参照图,运用多个圆圈描述注视点范围,圆的直径为注视时间,连接线为注视轨迹[7]。针对各个用户兴趣区域,将区域注视时间表示为
FD(i)=∑e∈AOI(i)T(e)
(1)
式中,e表示一次注视事件,T(e)为用户对事件e的注视时间,i为兴趣区域AOI的索引。
则注视点处于兴趣区域的对应坐标为
FiAx(j)=Fx(j)-AOIx1(i),F(j)∈AOI(i)
FiAy(j)=Fy(j)-AOIy1(i),F(j)∈AOI(i)
(2)
式中,AOIx1表示兴趣区域左上角x坐标,AOIy1表示兴趣区域左上角y坐标。
用户各注视点的影响区域为
(3)
式中,r是影响半径。其计算过程为
r=p·Ftime(j)
(4)
式中,p代表调节因子,Ftime(j)为注视点的注视时间。
设定一个注视临界值t,假如某个用户的兴趣区域的注视时间高于t,认定此区域相对的信息为关联信息,反之为无关联图像。将评估用户兴趣的衡量标准表示成
(5)
按照用户对不同信息的注视时间,明确信息关联度k(i),则注视时间和关联度之间的耦合关系为
(6)
综合以上信息,即可获得一个注视点影响区域,且此影响区域大小和注视时间为正比例关系。把影响区域各个点的影响系数记作
(7)
按照用户查看的初始检索结果,推算出各个注视点影响区域和区域中每个点的影响系数。提取各区域视觉单词,加权累加视觉单词,即可得到涵盖关联区域全部包含权重的视觉单词表,视觉单词表就是语义空间的表达形式
word=∑i∈FiAword(i)·IF
(8)
为得到更精准的用户检索偏好,对相关信息进行重排序,重排序流程可以看作形成用户检索意图视觉单词表过程[8],如图1所示。若拥有M个相关区域,各相关区域的初始视觉单词表为
G(j)=(w1,w2,…,wc)
(9)
式中,G(j)表示视觉单词表,wn为单词表内的词汇。
各兴趣区域的权重WA(i)为
(10)
改进后的相关区域视觉单词表为
(11)
式中
(12)
式中,WA(n)代表相关区域所处的兴趣范围,Ftime(m)为相关区域相对应的注视点时间。
(13)
图1 检索页面隐性相关反馈算法基布步骤
利用上述过程获得全新的视觉单词后,融合Rocchio算法,将语义空间下隐性相关反馈检索模型记作
(14)
信息检索时,系统要和用户采取多次交互,也就是拥有多个页面隐性相关反馈,每一次反馈均会产生对应检索策略,在原有检索矢量内引入新的信息矢量,并剔除+不相关矢量,由此将式(14)改进为
(15)
通过式(15)的隐性相关反馈模型可知,每次检索方式的改进都是在上一次检索结果相关反馈前提下获得的。需求挖掘表示从用户的真实需求出发,系统判断用户需求,获得自身所需信息。从内容结构——空间导航建设——信息内容呈现,这一系列均为交互式逻辑的表达形式[9,10],如图2所示。
图2 交互式信息检索逻辑关系
引入需求挖掘条件,设计如图3所示的交互式信息检索流程。
图3 基于需求挖掘的交互式信息检索流程
在交互式检索系统中,信息检索即为描述信息需求的检索矢量和系统内不同文档矢量之间的相似性匹配。将文档采用矢量进行描述时,两个文档的相似度衡量策略有很多,譬如卡方距离、矢量夹角余弦等。
当前矢量夹角余弦应用次数较多,该方法衡量两个文档相似度的计算公式为:
(16)
式中,P、Q依次表示两个文档的矢量,freq(wi|P)、freq(wi|Q)表示矢量中的分量,即用户检索词汇在此文档内出现的频率。
但在实际计算中发现,矢量夹角余弦方法的运算量较多,无法完成快速检索目标。为此采用Jensen—Shannon散度方法来弥补其不足[11]。推算两个文档集合组成的概率分布间的相对熵距离,明确文档间的相似度。假如相对熵距离越短,证明文档相似度越大,反之相似度越小。Jensen—Shannon散度的推导公式为
(17)
(18)
式中,DKL代表P、Q概率分布的相对熵。
O=(o1,o2,…,on)
(19)
按照相对熵定理,设计一个如式(19)的概率矢量O,则该矢量的信息熵是
(20)
关于词汇集合W={w1,w2,…,wn},可将oi作为wi在文档中出现的次数,则
(21)
假如采用信息熵来描述Jensen—Shannon散度[12],可将式(17)变换为
(22)
式中,H为信息熵函数,R为P、Q的合成矢量。
本文充分融合眼动追踪技术下隐性相关反馈与需求挖掘两种策略,利用式(22)计算用户需求和检索结果的匹配程度,在有效追踪用户检索偏好的同时,完成信息检索的智能化与精准化。
为检测所提算法真实的信息检索性能,对其采取仿真分析,并将文献[4]和文献[5]作为对比。利用查全率与查准率指标来衡量检索算法优劣,查全率表示检索出的相关文档个数与系统文档库内全部相关文档个数的比例,凸显检索算法的全面性,计算公式为
(23)
查准率表示检索出的相关文档个数和检索获得全部文档个数的比例,突出检索算法的正确性,计算公式为
(24)
三种方法的查全率与查准率对比如图4所示。
图4 三种方法的查全率与查准率对比
从图4中看出,查全率在20%~60%时,文献[4]方法、文献[5]方法出现明显的查准率抖动,而本文方法在查全率逐步增长的状态下,查准率要优于其它两种方法。这是因为该方法使用眼动追踪技术,能及时捕捉用户检索偏好,此种交互式策略可以最大限度提高信息检索准确性。但同时也发现随着查全率的提升,用户检索信息包含的词语是用户输入相同含义的另一个词语,这是形成查准率损失的关键原因,对此点有待改进。
信息检索过程的消息量即满足各检索请求的消息量均值,利用该指标验证方法运行稳定性,从而反映出方法检索的效率。三种方法信息检索过程的消息量仿真对比结果如图5所示。
图5 信息检索过程的消息量对比
从图5看出,由于本文方法引入用户需求挖掘策略,通过用户需求和检索结果的匹配,降低不相关检索信息数量,所以其信息检索引发的消息量显著低于两个文献方法,不会增加额外的网络负载,网络系统处于平稳运行状态,用户能快速掌握自身所需信息,检索速率也得到一定提高。
为有效提高交互式信息检索准确性,为用户提供更优质的服务体验,本研究结合人眼注视行为理论,提出一种新的交互式信息检索算法。该方法能够集中展现信息检索过程中的认知特征,评估用户检索实际需求,最终呈现理想的人机交互检索模式,给今后交互式信息检索领域研究带来新的探索思路。