富国瑞
(山东大学图书馆,山东济南 250100)
Top-k 查询算法是根据不同方式,对查询对象进行规划处理的手段,按照查询模式的不同可分为三类:Top-k 选择查询、Top-k 聚集查询、Top-k 分层查询。其中,选择查询能够在待定义群体中挑选最重要的服务对象,并为其赋予一系列的附属应用规则;聚集查询主要面对集合式数据群体,可同时定义信息传输流的头、尾节点,以降低电子信号之间的搜索相似性;分层查询可按照数据信号所属级别命名与参量节点相关的查询角标,以达到促进分类算法快速实施的目的[1-2]。
随着待处理图书馆电子资源总量的提升,很难在遵循分类查询规则的同时,实现对信号参量的快速、准确查找。传统CID 引擎索引器通过用户接口之间的无缝对接,完成对正序资源分词的抓取处理,再联合选择性推荐机制,确定相邻电子节点间的最短传输距离。但在高水平分类精准度的支持下,该方法所需的查询等待时间过长,不能完全符合实际化应用需求。为解决此问题,引入Top-k 查询算法,研究全新的图书馆电子资源分类搜索方法。
Top-k查询模式包含聚集化、分层化、节点化3种基本处理行为。其中,聚集化查询主要针对图书馆电子资源中的自定义用户,以.//condition 命名数据信号前的位置节点,可将完成处理后的参量数据包由顶层查询机构直接传输至底层查询机构中[3]。分层化查询主要针对图书馆电子资源中的隐藏数据参量,以.//attributes 命名数据信号的中间传输结构体,在平层查询单元中不限制信息参量的最远传输距离,具备较强的资源分类适应性[4]。节点化查询主要针对图书馆电子资源中的必要数据参量,以.// tuple命名数据信号后的位置节点,可将处于散乱状态的信息参量,从底层查询机构反馈回顶层查询机构[5]。详细的查询模式应用规则如表1 所示。
表1 Top-k查询模式应用规则
在执行电子资源分类搜索的过程中,所有信息参量都具备明显的独立性,因此很难在单位时间内实现对待搜索节点的定向安排,而数据和查询确定性的存在,则有效避免了上述情况的发生,不仅能够将既定搜索节点妥善安排在指向性位置上,也能避免因电子差异化传输,而造成的搜索分类精准度下降等问题。在不考虑其他影响条件的情况下,可将数据确定性、查询确定性分为两个互不干扰的独立分量[6-7]。所谓数据确定性也叫电子资源的查询妥善性,受到信号输出均值qˉ、Top-k 查询上限参量e1、Top-k 查询下限参量e0的共同影响。信号输出均值描述图书馆电子资源在单位时间内的分布情况,通常情况下,随着物理搜索时间的延长,该项物理量的数值水平不会发生改变。查询确定性也叫信息分类稳定性,是指在既定搜索区间内,所有图书馆电子资源数据均能保持相对稳定的输出形式,且不受查询时长等其他物理量的直接影响。设数据确定性指标为y′,查询确定性指标为w′,联立上述物理量,可将y′与w′分别表示为:
其中,μ代表既定数据查询系数,r0、r1分别代表两个不同的电子资源负载信息,i代表查询节点处的电子资源信号承载条件,p代表与图书馆电子资源相匹配的分类搜索权限。
排名函数是与Top-k 查询算法相关的电子资源分类部署原则,可按照相邻搜索节点间的实际限定关系,确定由一个图书馆电子资源数据到另一个图书馆电子资源数据间的最短传输距离,从而缩短电子信息参量查询所需的平均等待时间[8-9]。假设在一个固定搜索周期t内,排名在前的搜索节点所负载的图书馆电子资源总量始终高于排名在后的节点,且随着查询精度要求的不断提升,节点与节点之间的资源数据也一直处于流动性分布状态。为使Top-k 查询算法的约束能力得到最大化发挥,电子资源的分类搜索步长值必须在ε0~ε1之间来回波动,且最大化分类指标的实际表现数值也不得超过L,联立式(1),可将基于Top-k 查询算法的图书馆电子资源分类排名函数定义为:
其中,χ1、χ2分别代表两个不同的图书馆电子资源分类化查询标量值。
搜索器是图书馆电子资源分类搜索指令的核心实施部件,以Map/Reduce 服务器作为主体搭建结构,可在各类Web API 节点的作用下,实现对数据信号的挖掘处理,从而生成满足实际分类与搜索需求的评价指令[10]。应用电子可直接作用于Map/Reduce服务器主机,在输出多类型图书馆电子数据源信号的同时,建立聚集化搜索、分层化搜索、节点化搜索3 种基本查询模式[11-12]。总体来讲,搜索器具备较为完善的查询适应性,随着Top-k 算法执行能力的增强,结构体内部的信息负载量也开始逐渐累积,直至与图书馆电子资源的实际分类需求完全匹配。搜索器结构如图1 所示。
图1 搜索器结构图
信息索引模型规定了Top-k 查询算法的实际作用范围,可按照图书馆电子资源的现有存储形式,确定分类搜索处理的实际实施规划区间。通常情况下,待处理的物理区间范围越大,所需的信息索引数量也就越多,反之则越小[13-14]。若以图书馆电子资源数据总量f作为实际参考标准,在不出现其他干扰影响的情况下,信息索引模型的建立直接受到数据分类标准、搜索度量值两项物理量的直接影响。数据分类标准可表示为h,在Top-k 查询算法的支持下,该项物理量始终保持较强的应用稳定性。搜索度量值可表示为k,与实际搜索耗时保持相同的变化趋势,对最终的索引模型构建条件始终起到正向促进作用。在上述物理量的支持下,联立式(2),可将图书馆电子资源的信息索引模型定义为:
其中,f′代表图书馆电子资源数据的实际应用误差量,k′代表与搜索度量值相关的补充系数项,代表电子资源信号的单次最大搜索量。
分类节点兴趣代理是图书馆电子资源分类搜索方法搭建的末尾处理环节,可在Top-k 查询算法的作用下,直接操控核心搜索界面,再按照关键词与特征参量的分类形式,确定与代理服务器相关的数据匹配资源[15-16]。在图书馆电子资源存储数据库中,所有信息参量均保持连续性传输的调度形式,规定代理服务器始终处于良性连接的应用状态,则与信息数据联系越紧密的信号参量,越能代表最终的实际分类搜索需求,分类节点兴趣代理流程如图2 所示。
图2 分类节点兴趣代理流程图
至此,实现各项应用结构的连接与关键性指标的计算,在Top-k 查询算法的支持下,完成新型图书馆电子资源分类搜索方法的搭建。
为验证基于Top-k 查询算法图书馆电子资源分类搜索方法的实际应用能力,设计如下对比实验。对整个图书馆内的所有电力资源进行编号,将这些电子信号全部输入到监控主机中,分别以搭载新型分类搜索方法和传统CID 引擎索引器的实验主机,作为实验组与对照组的数据分析元件。分析电子信息查询等待时长、电量信号分类精度的具体变化情况。电子资源监控如图3 所示。
图3 电子资源监控
电子信息查询时间、电信号分类精度均能反映图书馆电子信息参量的实际搜索速率,通常情况下,查询时间越短、分类精度越高,电子信息的搜索速率也就越快,反之则越慢。
调节资源监控设备,使电子信息查询量在10×109T~90×109T 之间来回波动,记录各个特征节点处实际查询等待时间的具体数值水平。电子信息查询等待时间对比结果如表2 所示。
表2 电子信息查询等待时间对比表
分析表2 可知,在两次数值记录结果中,实验组查询等待时间的波动变化趋势相对较小,全局最大值0.48 ms 与全局最小值0.45 ms 之间的差值结果仅为0.03 ms;对照组查询等待时间则一直保持不断增大的变化趋势,全局最大值1.43 ms 与实验组极值相比上升了0.95 ms,与全局最小值1.33 ms 的差值结果为0.1 ms,远高于实验组数值水平。
根据电子资源监控设备中显示的数值可知,在实验时间处于10~90 min 之间时,电量信号分类精度的反应数值最为平稳,表3 反映了实验组、对照组的具体实验结果。
分析表3 可知,在整个实验过程中,实验组电量信号分类精度始终保持先下降、再上升的变化趋势;对照组电量信号分类精度则保持先下降、再稳定的变化趋势,全局最大值为68%,与实验组极大值90%相比,下降了22%。
表3 电量信号分类精度对比表
综上可知,应用基于Top-k 查询算法的图书馆电子资源分类搜索方法后,电子信息查询时长得到有效控制,而信号分类精度却出现明显上升,可在严格遵循分类查询规则的基础上,完成对图书馆电子信息参量的快速查找。
新型图书馆电子资源分类搜索方法,在传统CID 引擎索引器的基础上,针对查询等待时间长、分类精度低的问题进行改进,且随着Top-k 查询算法的不断完善,整体查询模式也逐渐向规范化方式演变。分析排名函数定义可知,信息索引模型能够完全满足分类节点兴趣代理的处理需求,实现快速查找图书馆电子信息参量的实际应用要求。