萨支斌 许 震
(1.闽江学院图书馆 福建福州 350108)
(2.中国科学技术信息研究所 北京 100038)
在图书馆技术和形式发生转变的同时, 其传统的借阅式和信息咨询式服务转化为以网络平台为支撑的信息化服务模式。在数字图书馆的资源建设中,如何提高资源利用率、如何评估数字资源、如何使读者感觉到满意、读者所需资源有哪些、如何为读者提供更加个性化和优质的服务, 均是数字图书馆发展中需要解决的问题。为此,有专家提出,数字图书馆资源推送提取的关键在于能够提供个性化资源服务。
个性化资源服务是数字图书馆发展的趋势之一,也是提高数字图书馆服务水平的重要途径,而学习资源提取服务又是个性化资源服务中的一种重要资源服务方式。传统的学习资源提取服务只能被动的针对不同的需求者提供单一的服务, 数字图书馆的个性化资源服务则是针对每个需求者特定的需求主动的资源提取服务。在数字图书馆资源服务中,储存了大量的历史访问数据, 通过先进的数据分析和挖掘手段,能够有效解决“提取什么”“如何提取”和“提取给谁”等问题,实现针对性的学习资源提取过程。
目前, 已有学者在数字图书馆个性化资源提取领域提出了一些较为成熟的研究结果, 相关的数字图书馆学习资源检索提取方法也较多, 如刘喜球和张兴旺指出,在未来几年,国内视觉数据规模与种类增长会非常快,亟待进行相关数据的研究分析。为此提出一种“互联网+”时代数字图书馆信息检索新方法,首先针对移动视觉检索研究历史进行分析,并将检索划分成了四个阶段, 然后对当前数字图书馆移动视觉检索的功能和整体特点进行分析, 同时针对数字图书馆检索的基础程序和服务模式等进行归纳,提出详细实践思路,实现数字图书馆资源检索提取;李广丽等指出,在大数据技术不断发展的背景下, 资源检索方法的出现对于数字图书馆的交互性能增强有着重大意义, 可以促使数字图书馆服务升级。 为此提出一种面向大数据的数字图书馆多媒体资源检索方法, 由跨模态中的相关性分析和层次化知识推理等相关方面的分析提出数字图书馆学习资源检索方法方案并进行实证;李莉将智能代理Agent 技术引入高校数字图书馆个性化资源检索中,首先阐述了现如今数字图书馆个性化资源服务面临的问题, 并建立基于多Agent 技术的数字图书馆个性化资源检索总体结构, 来改善高校图书馆用户获取信息资源准确度低的现状。
上述几种资源检索方法虽然在一定程度上提高了数字图书馆学习资源提取、检索的能力,但在用户满意度和提取过程响应效率方面,效果依旧不理想。为了更好地解决当前方法中存在的不足, 本文提出了基于个性化推送服务的数字图书馆学习资源提取方法。 思路如下:
(1)对用户个性化信息进行采集,并选择小型日志文件解析工具直接对其进行解析和保存;
(2)利用聚类法对数字图书馆访问用户开展模糊聚类, 根据最优聚类情况为用户提供个性化推送服务;
(3)利用模糊识别方法识别用户状况,根据识别结果作为用户检索资源反馈给用户, 实现学习资源的准确检索和提取。
以方便用户获取信息为目的, 很多图书馆均会建设电子资源访问系统, 并将所有的数字资源访问聚集到一个平台中进行管理, 以便用户访问或者下载资源。 数字资源的访问系统通常在一定范围内能够利用IP 地址直接访问,但在很多情况下需要利用客户端和数字图书馆系统进行对接, 利用用户名和密码即可访问资源。
为了实现学习资源的个性化推送服务, 提高用户满意度, 针对数字图书馆访问系统用户行为进行相应分析,前提是要采集用户访问数据。目前较为主流的采集方式为网络爬虫与开放API 平台。 两种数据采集方法均能够利用计算机程序迅速精准地获取需要的数据信息。 在数字图书馆用户行为分析过程中,针对的是Web 使用记录进行挖掘,因此选择依据读者访问日志对用户行为进行分析。
如果用户对数字图书馆资源进行访问, 系统会在后台将每个读者每一步操作记录下来。 在用户的访问日志中包含了读者在资源访问过程中的各种行为, 利用挖掘读者行为能够更深层次地识别读者实际需求。
实际上,对于用户行为信息的采集,数据抓取过程为直接对资源访问服务器中的访问日志进行过滤采集(用户行为日志处理流程见图1)。 其中用户日志信息中包含访问资源日志、访问或资源下载信息、访问URL 内容以及系统访问时间等。
因日志文件自身具备非结构化特性, 且数据规模大,页面也相对复杂,结构统一性较差,需在分析前进行相应处理, 从非结构化数据中将结构化数据提取出来。 信息数据处理是以挖掘为目的,针对原始Web 日志文件中信息数据进行识别提取、分解和融合,最终转化成可以进行数据挖掘的格式,同时保存至关系型数据库表,亦或是数据仓库,待做下一步处理。以往的数据处理方式中主要包含数据清洗、访问者识别和会话检测以及路径补充等环节。数据处理能够提高数据挖掘质量, 并在一定程度上提高图书馆资源检索提取精度, 同时能够降低资源提取耗时,提高资源推送效率。
图1 用户日志处理过程示意图
数字图书馆资源访问系统中的日志包含了各读者访问页面、资源访问时间、关键词、检索内容和资源下载主要内容等。 利用小型日志文件解析工具直接针对文件进行相应解析, 将解析得到的数据保存至MySQL或者Oracle 数据库。 数据库中保存的主要内容中包含访问时间、原IP 和目的地IP 以及资源名称等。
数字图书馆资源访问日志文件中主要包含读者访问、资源检索和下载记录等。资源数据以网页调用模板通过数据归纳统计与分析的形式呈现。
在上述用户行为数据采集与处理的基础上,利用等价矩阵下的聚类法针对数字图书馆访问用户开展模糊聚类, 基于最优聚类中用户浏览和借阅情况与资源利用情况为用户提供个性化推送服务。 利用模糊识别方法识别目标用户个体状况, 根据识别结果作为用户检索资源反馈给用户, 实现学习资源的准确提取。
数字图书馆个性化推送服务的主要基础为了解用户基本需求, 依据用户个体特性实现数字图书馆学习资源检索提取。模糊聚类建立在用户特性、兴趣爱好和学科背景等信息基础上, 依据采集到的相关数据实现聚类。在上述数据采集的基础上,还可以利用问卷调查和座谈等方法了解用户需求, 同时获取原始数据。
数字图书馆学习资源提取的详细过程如下:
(1)数据标准化。 假设X={x,x,…,x}代表采集到的访问用户数据信息集合,对用户的m 个特征进行分析, 那么各对象均能够根据一组数据x,x,…,x来描述第i 个用户m 个特征, 其中i∈[1,n],由此获取一个n×m 阶的原始数据矩阵:
针对获取的原始矩阵基于模糊矩阵需求实行变换,其中变换形式为平移标准差p 和平移极差q的计算过程如下:
(2)构建模糊相似矩阵同时求解模糊等价矩阵。结合变换之后的模糊矩阵对对象x之间相似度r,通过最大最小法获取相似系数r,则有:
根据式(4)构建数字图书馆用户模糊相似R=[r]矩阵。 对获取的相似矩阵R 具有传递性与否进行检验,假设有传递性,则R 是模糊等价矩阵,并能够直接进行聚类;假设不存在传递性,以聚类为目的,其需要为等价矩阵, 也就是利用逐次平方对传递闭包进行求解, 根据其形式得知传递闭包是模糊等价矩阵。 针对传递闭包取适当最佳阈值λ,λ 取值范围为λ∈[0,1],根据λ 截矩阵即可获取动态聚类。
其服从自由度是r-1、n-r 的F 分布, 分子描述的是类和类之间距离, 分母描述的是类内元素之间的距离,由此F 值越大,则表示类和类之间的距离就越大,分类效果就越好。
针对给定信度值α,根据F 临界值表获取F,接着将各个F 和F进行对比,假设F 大于F,基于数理统计方差方法,了解了类间存在显著的差异性,表明分类较为合理;当F 大于F的情况下,选取与FF中最大F 相应的λ 当作最佳λ, 相应分类就是最佳分类。
在此基础上, 通过有关因素开展读者模糊聚类相关分析, 统计同时提供出各聚类的读者个性化推送,以便用户提取相应资源。
(4)模糊识别。 在模糊识别中采用择近原则,假设A={A,…,A}代表论域U 中的n 个模糊集,利用其组建一个标准模型库,B 代表待识别模型。 假设有i∈[1,…,n],使σ(A,B)=maxσ(A,B),那么表示B和A 最为贴近,则应该将B 归类到模型A 中,依次进行,直到所有的模糊集均实现归类判断,完成模糊识别。
针对每个用户注册过程中提供的基本数据信息和行为信息情况自主进行模糊识别, 根据识别结果的种类进行数字图书馆学习资源的个性化推荐服务。在对个体用户实行模糊识别的过程中,因采集得到的信息可能存在缺项情况, 需对缺项部分暂时忽略,利用采集到的有关信息进行相应识别,提供推荐方案,依据推荐效果的分析对识别信息进行调节,一直到用户满意为止。当推荐结果是用户需要的,则实现提取学习资源的过程。
为了测试本文所提的基于个性化推送服务的数字图书馆学习资源提取方法的实际应用性能, 设计如下仿真实验进行验证。
实验环境设置情况如下: 实验中以某高校图书馆为对象,以调查问卷和读者访问Web 日志的形式采集读者相关信息数据,将所得数据当作实验数据。问卷发放数量为1500 份,有效问卷回收数量为1100份。 将实验平台搭建在matlab 上, 分别以用户满意度、 资源检索响应效率和学习资源提取准确性为实验指标对不同研究成果性能进行验证。
根据上述实验条件的设定, 进行数字图书馆学习资源提取方法的性能测试。
首先对个性化用户信息进行采集(用户访问Web日志的信息采集过程见图2)。
图2 用户访问Web 日志的信息采集过程示意图
3.2.1 用户满意度测试
为准确验证基于个性化推送服务的数字图书馆学习资源提取方法的有效性, 设计如下对比实验。将该方法与文献[4]中的“互联网+”时代数字图书馆信息检索新方法、文献[5]中的面向大数据的数字图书馆多媒体资源检索方法和文献[6]中的基于多Agent 技术的数字图书馆个性化资源提取方法进行对比,首先根据问卷调查结果获得用户满意度(结果见图3)。
据图可知,随着实验次数的不断增加,不同方法的用户满意度也在不断发生变化。 其中,文献[2]方法和文献[3]方法下的用户满意度比较相近, 文献[4]方法下的用户满意度比文献[2]方法和文献[3]方法略高,但均小于本文方法下的用户满意度。本文所提的基于个性化推送服务的数字图书馆学习资源提取方法的用户满意度始终维持在95%左右, 能够有效实现数字图书馆学习资源的个性化推送。 这是因为在资源推送过程中, 所提的基于个性化推送服务的数字图书馆学习资源提取方法以用户行为和兴趣爱好为主,体现了个性化推送,对于提高用户满意度而言十分有利,有效增强了所提方法运行效能。
图3 不同研究成果的用户满意度对比
3.2.2 响应效率测试
为验证基于个性化推送服务的数字图书馆学习资源提取方法的响应效率, 测试不同方法的响应加速比。加速比是处理程序中运行消耗时间的比率,用来衡量程序的性能和效果。加速比的计算方式如下:
其中,t 表示执行时间,p 表示学习资源提取程序中处理器的数量,T表示当有p 个处理器时学习资源提取程序的执行时间(不同方法的响应加速比见图4)。
图4 不同研究方法的响应加速比对比
据图4 可知, 随着用户数量和实验次数的不断变化,不同方法的响应加速比也在变化。 文献[2]方法的响应加速比波动情况较明显,文献[3]和文献[4]方法的响应加速比较为接近,但均小于基于个性化推送服务的数字图书馆学习资源提取方法的相应加速比,能够证明所提方法的运行性能更为优越。产生这样结果的原因是因为所提的基于个性化推送服务的数字图书馆学习资源提取方法在采集用户日志行为等相关数据之后, 对采集到的数据进行了相应处理,如识别提取、分解和融合,最终将采集到的数据转化成可以进行数据挖掘的格式, 有效提高了方法推送服务的响应速度。
3.2.3 提取准确率测试
在一个学习资源提取程序中, 提取的效果可从资源召回率和提取准确性两方面反映出来。 而召回率和提取准确性成反比,召回率越高,提取准确性越低。因此为验证本文设计方法的提取准确性,测试不同学习资源提取方法的资源召回率, 得到相应对比结果(见表1)。
表1 不同学习资源提取方法的资源召回率对比
据表可知,随着迭代次数的增加,不同方法的资源召回率也在随之变化。文献[3]方法的资源召回率上升幅度在三种方法中最大, 然而资源召回率比文献[2]方法略小。本文所提的基于个性化推送服务的数字图书馆学习资源提取方法的资源召回率在三种方法中始终最低, 证明本文所提得到的提取准确性最高。 产生这样结果的原因是因为提高了数字图书馆学习资源检索效率, 即所提的基于个性化推送服务的数字图书馆学习资源提取方法利用等价矩阵下的聚类法对数字图书馆访问用户开展模糊聚类,利用最优聚类中用户浏览与借阅及资源利用情况为用户提供个性化推送服务,有效降低了提取误差,因此资源召回率最小。
对数字图书馆服务模式进行研究可有效提升服务质量、完善和优化数字资源的建设、提升数字资源的利用率和智能化服务,可谓意义重大。由于当前数字图书馆学习资源提取的相关研究成果性能待优化, 本文提出基于个性化推送服务的数字图书馆学习资源提取方法。 利用用户行为数据采集与处理为基础, 引入模糊识别方法实现数字图书馆学习资源个性化推送,用户根据推送结果提取所需资源。通过实验对所提方法进行验证, 结果显示该方法具有可靠性,实际应用价值相较当前成果更高。在未来研究阶段,可结合模糊识别和智能寻优算法,进一步提高推荐结果的精确度。