刘学平(潍坊学院图书馆)
信息推送服务是图书馆的一项重要服务,但受资源复杂性、推送及时性差、针对性弱、推送方式被动的局限,推送服务出现了读者需求兴趣点难以捕捉、多元化需求难以满足、推送知识不能准确描述读者真实需求、过多无用推送等弊端。因此,如何匹配读者需求以及选取怎样的路径推送读者需求成为图书馆亟需解决的问题。本文参考相关研究成果,以“知识找人”为出发点,将读者需求的获取渠道、组织方式、推送内容三者连为一体,[1]提出了一条以了解、分析、预测、匹配为特征的读者需求匹配推送路径,该路径包括读者需求的获取、表示、关联、匹配、推送等环节,其关键是需求匹配问题,将匹配得到的特征知识推送给相关读者。[2]它在强化读者与读者、需求与匹配、匹配与推送、推送与反馈之间互动的同时,实现读者需求推送的精准化与知识重用的目标。
(1)读者快速获取准确性知识的需要。知识爆炸时代,读者对资讯、思想和审美等需求的数量迅猛上升,而需求等待的耐心呈明显减弱趋向。与此同时,快节奏的学习、工作和思维方式驱使读者产生求便、求全、求新的知识获取需求心理,而目前图书馆的知识服务需要读者从海量资源中过滤和筛选出其所需的知识,这与读者的需求心理相违背。
(2) 读者对需求匹配推送的期望。网络技术的快速发展使得技术与资源充分融合,学科知识出现协同化趋向。随着协同化学科知识之间关联性与交叉性的不断增强,促使读者的学习研究需要具有前瞻性、挑战性和实用性资源,这使得读者迫切期望图书馆将关联与匹配且具有广度和深度的知识推送给自己。[3]读者的需要和期望,构成了读者需求匹配推送的动力源泉。
(1)匹配技术。该技术将具有关联关系的读者需求资源进行标准化处理后,对需求状态资源与标准状态资源进行匹配,从而确定需求资源状态等级。目前,有基于本体和基于语义相似度两种匹配算法,两种技术分别从不同的角度将需求资源匹配特征逐个与读者需求分解得到的任务指令进行匹配,[4]使其形成满足读者需求的资源组合。
(2) 路径规划技术。该技术主要是确定需求资源传递过程中起点与终点之间的中转节点,即通过中转节点的数量、传送半径、当前剩余能力确定需求资源传送过程中的中转点。中转节点的确定,是确保资源传递的及时性与准确性、防止资源传递冲突的关键。
(3)作者耦合分析。作者耦合关系通常包括作者引文耦合和作者关键词耦合等。单一选择作者引文或作者关键词无法显示某一领域知识关联网络的全貌,如果将多个耦合结合使用,则可以更好地研究一个领域的全貌,并在此基础上更精确地度量作者耦合度,为读者带来相似作者群体的资源推荐,提高推荐结果的新颖度。[5]
(4)语义网技术。由于存在半结构化或非结构化数据,馆藏数字资源间缺乏相互的关联关系,使得数字资源形成一个个“孤岛”。而语义网技术可以利用语义标签将离散的数字资源连接成紧密的、结构化的知识关联网络,优化数字资源组织结构并提高个性化推荐的水平和效率。其中,语义相似度是构建语义网的关键。语义相似度计算方法一般基于完备的英文或中文语义词典,如WordNet、FrameNet、MindNet 等英文词典和《知网》《同义词词林》等中文词典。[5]
(5)个性化推荐算法。数字资源聚合是对异构数字资源的重构和再组织,其中一个重要的目的是进行精准化的资源推荐。个性化推荐算法主要有基于内容的推荐、协同过滤推荐及组合推荐算法。目前,推荐技术的应用主要集中于以图书为对象的推荐,缺少对图书资源语义上的深层融合。因此,应结合基于多标签的协同过滤推荐算法,同时考虑相似作者、相似内容及相似用户的数字资源,并借助资源聚合模型改进传统的相似度计算方式,为读者进行精准化的资源推荐。[5]
推送路径受推送目标的指引。推送目标是实现图书馆资源与读者需求资源的精准匹配,即只给读者推送他所需要的资源。这种精准匹配关系的依据是领域知识库,推送原理是根据读者需求的关键词库以及读者检索行为,自动扩充建立图书馆领域的“标准关键词库”。基于图书馆管理系统,利用系统中大量的读者信息建立一个比较完整的读者数据库,并对每位读者加注标准关键词,形成推送系统所参照的目标数据库。动态选定目标数据库中与读者需求相关的资源,并随着其研究领域的变化随时对其进行“关键词化”,形成动态的“推送对象关键词”。利用基于语义的分析技术,实现内容的自动分组和标准关键词的自动标注。利用智能分词技术,将欲推送的“资源关键词”和“推送对象关键词”与已建立的“标准关键词库”进行比对,根据资源—读者—数据库的对应关系,实现个性化的读者需求推送。[6]依据推送的目的和原理,参照学者的相关研究成果,笔者构建的路径为:利用相关技术和方法,采集读者个体特征、需求倾向、需求偏好、需求目标、需求状况、需求风格、需求情境等特征数据,判断不同读者的不同需求。在对采集数据进行预处理、组织、整合、关联的基础上,将需求相似、偏好一致的读者进行聚合与归类,形成读者需求相似群体;利用匹配算法,对读者及读者相似群体的需求进行匹配,并将匹配结果进行推送。由于读者需求匹配本身是一个循环求精的过程,根据读者对推送结果的反馈,可循环回到需求匹配的前续阶段,对其进行更新与完善,尽而完成读者需求匹配推送路径的整个过程(见图1)。
图1 读者需求匹配推送路径框架
读者需求的获取主要通过读者与图书馆管理系统的交互行为而获得,具体包括三类需求。① 显性需求主要通过读者的注册信息获取,如姓名、性别、年龄、教育程度、职业、兴趣爱好等信息。② 隐性需求的获取是通过跟踪和记录读者与管理系统的交互行为实现的。读者在使用图书馆系统时的行为会在后台留下记录,如选取的数据库、输入的检索词、点击的链接、浏览的文章、撰写的评论、下载的资料、阅读浏览的时长等,这些内容构成了读者日志。[7]获取读者日志后,从“整体”到“个体”对需求进行细分,利用聚类组织法将相似的需求内容归类,利用关联组织法将具有关系性质的需求联系在一起,获取读者的隐性需求。③ 动态需求主要通过与读者的沟通与互动进行获取,在了解其研究领域的基础上,利用图书馆技术优势,随时了解读者的动态需求,利用信息追踪法对读者感兴趣的信息进行追踪,并将其进行整合与归纳。用语义组织法将具有联想、判断、比较、推理特征的需求形成语义关系,充分揭示读者需求关联分析的广度、深度和有效性。用趋势预测技术,根据上述的需求关联和读者对需求资源利用的反馈,来预测需求的变化趋向,获取读者的动态演变需求。[8]
由于获取的读者需求信息本身是一个非结构化的文本文件,因而要进行进一步处理。① 标准化预处理是根据数据分析的要求,利用数据清洗、关键字段识别与提取、部分内容还原、语义分解、数据合并等方法,将非结构化的需求信息数据转化为适合进行数据分析的结构化数据,并保存到数据库中等待进一步处理。[7]②以学科和专业等需求知识为分界,利用树形结构分类组织法,对预处理的需求进行组织,将与需求知识点相关的信息组织到同一个知识单元中,该单元中的信息可以是该知识点的文本、视频、图片等不同类型的信息,也可是与该知识点相关的其他知识点信息。[9]③ 通过资源计量统计分析、引证文献关系、高相关度资源、交叉资源等技术,对需求资源知识进行分析、挖掘与整合,使不同需求节点之间的关系充分显示出来。[10]④将读者的行为需求(需求类型、需求内容、浏览主题、互动程度等)与心理需求(需求兴趣、需求策略、需求状态、自我效能感、需求归因等)做同类合并处理,挖掘出需求知识点之间的联系,实现需求知识的内容聚合,明确需求知识的主题分布、知识点之间的关联与演化趋势,[11]从而满足读者“长尾”需求。
① 将读者需求特征分为属性特征和行为特征。属性特征包括性别、年龄、职业、教育和收入等。行为特征包括学习、研究、工作、生活、娱乐等。②在对读者需求特征进行标注定义的基础上,利用爬虫网络方法在与需求相关联的网站中提取读者的需求特征,并与已标注定义的需求特征相匹配。③ 根据读者的属性特征,聚类出不同的相似读者群i,即任何一个具有以上属性特征或部分特征的读者都可以找到所属的一个或多个相似读者群i。同理,根据读者的行为特征聚类出不同的相似读者群j。在读者还没有产生较多需求的情况下,可以用相似读者群的需求偏好代替读者需求偏好,进而在需求无法匹配到读者的情况下,通过相似读者群匹配推送给该读者,从而为读者提供更多、更贴合的个性化需求信息。[12]
读者与相似读者群之间需求相似度的计算分为属性特征相似度计算和行为特征相似度计算,二者的计算方法相同,在此以属性特征相似度的计算为例。
利用空间向量,把读者和相似读者群i 的属性特征进行标注定义,获得与读者X 的属性特征及相似读者群i 的属性特征对应的向量,读者的属性特征向量与相似读者群的属性特征向量的维数相同,具体采用以下表示。
其中,X1,X2,…,Xm分别表示读者的性别、年龄…收入,y1,y2,…ym分别表示相似读者群i 的性别、年龄…收入。把读者和相似读者群i 的属性特征向量进行量化处理,由于得到的读者特征可能是部分的、不完整的,而相似读者群的读者特征是完整的,因此在标注定义时用0 代替相似读者群具有而读者没有的读者特征。再采用以下公式计算读者X 的属性特征和相似读者群i 的属性特征之间的相似度A。
当相似度A=1 时,读者和该相似读者群i 的属性特征完全相同;当相似度A 接近于1 时,读者和该相似读者群i 的属性特征相似。[12]
在确定需求匹配度阈值的基础上,依据读者需求信息确定其需求专业领域,并针对不同的需求提取特征属性,利用匹配求解算法计算特征属性的匹配值,按匹配值的高低顺序形成需求知识集合,完成读者、读者相似群的需求与资源库中需求知识的匹配。
由于资源库中的知识不断扩充,为避免因扩充而导致检索知识数量过多的弊端,要先把匹配度过低的知识资源删除。匹配度过低的界限就是匹配度阈值,匹配度阈值是限制需求属性关键词集合与匹配知识关键词集合之间的最低匹配度。当两者匹配度小于匹配度阈值时,要将该匹配知识从待选的资源知识列表中剔除。系统对所有匹配度大于阈值的匹配知识按照匹配度大小的顺序进行排列,为匹配推送做好准备。可见,匹配度阈值的确定是推送成功的关键。阈值过大可能导致推送给读者的匹配知识太少,不利于读者的研究创新;阈值过小可能导致推送的匹配知识与读者的需求知识相差偏大,增加了读者选取匹配知识的工作量。因此,在设置匹配度阈值时,需要结合读者的需求特点,以获得适合读者需求的匹配度阈值。[13]
单个读者的需求匹配见图2。其中,E1…En 表示n 个特征属性的阈值,E* 表示综合特征值,是E1…En 的n 个特征属性的加权平均。①提取读者需求的关键特征或属性,利用匹配求解算法计算特征属性的匹配值。②进行多规则分层匹配。图2 给出了特征属性上限匹配方式,即当某一特征或属性或综合特征值满足上限阈值要求时,表示该需求知识满足匹配条件,可以输出。需要说明的是,匹配也可以采用特征属性下限筛选的方式,特征值达到下限时直接结束,各个特征值没有超出下限阈值并综合特征值满足要求时才可以匹配输出,形成筛选后的需求知识集合。③ 匹配计算。对读者的实际需求和筛选后的需求知识进行匹配性计算,得到读者实际需求知识匹配值,[14]进而输出需求待推送的知识列表。
相似读者群的需求匹配见图3。首先在由多条需求构成的需求库中寻找包含与需求特征关键词组匹配的需求,将找到的需求中的词组进行标注定义,然后逐一将找到的需求与相似读者群的读者特征进行匹配得到相似度,相似度大于设定阈值则代表该需求就是相应的相似读者群需求。[12]
图2 读者需求知识匹配过程
图3 需求的关键词与读者特征关键词相似匹配
需求展示是指通过对读者需求内容的分析,得出读者的研究方向,将符合读者需求的资源以适合的方式展示出来并供读者检索和下载,满足读者的学习与科研需求。展示的主要方法有主题表示法、分类表示法、向量空间模型表示法、层次表示法。其中,比较成熟的方式是层次表示法中的多层树状结构展示法,此方法用概念集来表示概念树的不同级别分枝,形成多层次概念树。可根据读者需求的所属级别,通过概念树表示读者不同的兴趣点,读者需求的所有兴趣点组成了整棵概念树,即读者需求的兴趣集合。
考虑读者自身知识背景及需求应用的基础上,结合读者的检索历史及需求订阅要求,根据知识匹配算法,获取知识资源库中与读者需求相匹配的知识资源,并将此知识资源按照相似度降序排列,依次推送给读者。同时,如果读者有需要,还可进行多次推送,在充分满足读者对资源个性化需求的同时,实现读者需求知识资源的有效利用。[16]
(1)推送方案。推送方案包括读者特征建模、基于大数据分析的读者特征提取、相似读者群建模、读者与相似读者群之间的相似度计算、利用相似度进行需求推送等步骤,[12]具体表现为:确定相似读者群后,根据相似读者群的需求偏好推测推送目标读者的潜在偏好。通过对读者需求行为数据的挖掘,参照读者的检索行为,计算出读者需求主题的兴趣度并用树形结构模型表示。用空间向量表示读者兴趣,读者需求信息用向量的各个分量表示,利用文本相似度方法计算读者各个需求之间的相似度,[13]通过读者需求的匹配算法构建读者需求推荐模型,按照需求相似度降序排列,依次推送给读者(见图4)。
图4 推送方案
(2)推送方式。读者需求的匹配推送方式通常采用网页、邮件、移动终端等形式。网页形式的推送包括频道式推送和个性化推送。其中,频道式推送是将读者需求资源按关键词、分类号或主题词进行知识资源和服务的组织陈列,生成符合RSS FEED 格式要求的XML 文件,让读者自主选择自己感兴趣的需求知识;个性化推送则由系统根据读者需求倾向,主动向读者进行需求知识的推送。邮件推送则由推送系统通过分析读者需求,通过电子邮件方式向读者主动推送需求知识;移动终端推送将需求知识推送到读者的移动终端上,读者可随时随地进行阅览和下载,实现知识学习与利用的实时化和个性化。就推送的效果而言,频道式推送适合群体读者,网页推送和邮件推送适合个体读者。[11]
(3)推送过程。推送过程是将适切的读者需求按指定路径传送至读者的过程,在追踪推送过程的同时,完成推送质量评价。在实际推送过程中,为保证推送的需求是最切合读者的需求,就要找到读者需求与已有需求的对接点,寻找需求对接点需要借助于已经建立的需求知识库。按照目标分类理论,将需求库中的读者需求分为认知、情感和动作技能三个类型,并将其细化为认识、理解、应用、分析、评价、创造六个层次。这样,就形成了一个树状的需求知识结构序列模式,树的最顶端是最基本需求信息点,每一类需求知识点都被做出相应的标记,按照节点值的状态明确读者处在哪个知识点。再根据相似度匹配计算,判断出读者需求状态、风格及其相关的读者群体,最后将最切合的需求推送给读者,从而完成读者需求匹配推送的整个过程(见图5)。[17]
图5 匹配推送过程
(4) 推送反馈与更新。反馈是图书馆对读者使用获取知识的行为进行收集、对读者隐性需求进行挖掘及对读者需求更新做出的具体反映。主要包括:需求推送是否及时、服务承诺是否落实到位、读者需求满足后的情感体验是否得到分享、读者更高层次的服务需求或愿望是否得到实现等。面对反馈信息,一方面,要进行储存,为以后处理同类问题时作参考和借鉴,另一方面,要根据反馈信息对读者需求进行更新,更新的方式有增加和删除两种。增加方式:假如某一条需求知识信息经常出现,我们就认为该知识类型是读者感兴趣的需求知识。提取该知识类型的关键词,计算出关键词的相对词频,将词频大于设定值的关键词增加到读者需求集合中。删除方式:若读者某一需求兴趣的特征长期不在推送的知识中,我们就认为该需求兴趣不能准确地表达读者需求,或者读者已经失去对该知识的兴趣,当该特征出现的频率低于设定值时,我们就将需求知识从读者需求集合中剔除。[13]
本文构建了一条包括读者需求知识的获取、表示、关联、相似群确定、匹配、展示、推送、反馈、更新等环节的完整的读者需求匹配推送路径,实现了读者需求知识获取的动态联动,最终实现知识重用的目标。① 按照路径中对读者需求知识的处理办法,随着推送服务的深入,使读者的隐性需求显性化,形成可以量化的需求模型,在对需求作相应的匹配后,实现点对点、块对块的需求智能化推送;② 对读者需求匹配采用相似度匹配算法,根据对需求的整合与关联推测读者静态需求与动态需求,用以预测读者当前需求的状态和特征,继而为读者推送适切的需求知识;③ 读者需求匹配推送过程是一个复杂的过程,推送过程打破了需求知识在物理空间和逻辑上的分割和独立,在虚拟的网络空间完成知识的重用和创新;④完整的读者需求匹配推送路径是一条多发的路径,路径中涉及需求的采集、整合、关联、匹配、推送、反馈、更新等环节,因而需求知识之间关联点的匹配能力显得尤为关键,而推送路径的完整性恰恰为这一能力的实现提供了机遇。