文利情
(广东省立中山图书馆,广州 510110)
推动全民阅读,是培育和践行社会主义核心价值观、展现中华文化永久魅力和时代风采的重要途径,也是提高人民素质、满足人民文化需求和增强人民精神力量的重要方式。2014 年以来,全民阅读已经连续八次写入政府工作报告。2021 年3 月11 日,十三届全国人大四次会议批准《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》[1]。其中,“提升公共文化服务水平”一章中专门提出“深入推进全民阅读,建设 ‘书香中国’”。如何高效、有效地开展阅读推广活动,使之实现全民阅读的目标,成为图书馆关注和研究的焦点。图书馆阅读推广包括以线下纸媒为支撑的传统模式、以信息技术为支撑的新模式。基于信息技术的阅读推广模式与传统模式相比,具有覆盖面广、效率高、对读者有吸引力等优势和特色。如何充分利用信息技术,有效提高读者关注度和推广效率成为研究的重点。
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系[2]。知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。知识图谱的应用主要包括明晰学科基本框架、探究学科研究内容、描述学科研究人员、预测学科研究进展、揭示学科间关系、面向实际应用等。知识图谱可以直观地揭示图书、读者、著者等实体之间的关联,可以更好地指导阅读推广工作。
目前国内外图书馆都在积极推进阅读推广,甚至各种为图书馆提供馆藏的传统资源供应商,都开始逐渐转型为提供线上线下相结合的阅读推广活动的服务型资源。而对于图书馆,本身掌握着海量信息,如何利用好这些信息,为读者做出更好的“个性化服务”也是阅读推广面临的一个考验性的问题。对于推广工作,目前大部分公共图书馆的阅读推广工作方式均较为传统,大部分是采用图书推荐、读书会、主题活动或知识竞赛等方式。由于目前大数据技术在图书馆的应用也仅限于数据收集和简单的功能展现,而且这些功能与读者的需求交互体验效果较差,显然想要实现“个性化”的推广是有一定难度的。
笔者以“Information Technology/Reading Promotion、Knowledge Graph/Reading Promotion”作为主题词、关键词或者题名,分别在EBSCO 数据库、WOS数据库和Springerlink 数据库中进行查询,检索到的信息技术在阅读推广方面的研究经筛选最相关的有2 篇,LISA 等讨论了大学图书馆通过开发信息素养游戏来进行阅读推广的模式[3]。MANSO-RODRIGUEZ 等通过对读者行为和相关信息技术工具的分析,指出网络环境下的读书俱乐部开展阅读推广活动,充分利用了博客、社交网络等进行共享和传播[4]。
以“图书馆/ 阅读推广”“信息技术/ 阅读推广”和“知识图谱/阅读推广”作为主题词、关键词或者题名,分别在CNKI 数据库、万方数据库中进行查询,检索到的针对信息化技术在阅读推广中的相关文献经筛选后共有55 篇,其研究主要集中在以下6 个方面。
(1)基于数字图书馆、移动图书馆的推广模式[5];
(2)基于微信、微博等新媒体平台的推广模式[6-10];
(3)基于大数据的推广模式[11-14],如图书馆提供用户阅读账单、个性化阅读推荐等服务,如IBM 公司的“3A5 步”法等[15]、利益相关者共赢策略[16]、利用读者行为精准营销[17];
(4)基于新媒体技术的推广模式,通过微视频、微电影等直观推广,以及通过点播直播等流媒体方式进行推广[18-22];
(5)游戏式推广模式,通过小游戏增加与读者的沟通互动,推送阅读信息[23];
(6)基于虚拟现实技术,通过构建虚拟化导览系统、虚拟化明信片等推广图书馆相关信息[24,25]。
上述文献研究可见,针对读者个性化的阅读推广主要是集中在基于大数据的推广,而其他模式也并没有集中于为读者提供精准化推广服务,暂未发现与知识图谱相关的阅读推广理论研究和实例研究。
综上所述,无论是国内还是国外至今图书馆界对信息技术以及知识图谱在阅读推广应用方面的研究还较少,主要集中在基于大数据的研究模式,缺乏模式创新,且个性化推荐方面的精准阅读推广研究暂未有发现。
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。若两个节点之间存在关系,它们就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系(Relationship)。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。我们通常将知识图谱在逻辑上划分为两个层次:数据层和模式层。数据层存储真实的数据,如胡适-思想家-白话文学史、胡适-教授-北京大学。模式层在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理,即实体-关系-实体、实体-属性-性值。
基于知识图谱的阅读推广服务平台,重点在于构建关于文献、读者的基于知识图谱的数据库,并对“阅读推广”中两个重要因子“文献”“读者”进行知识图谱分析,得出它们的内在联系,以揭示文献与读者之间的关联关系,由此来提供阅读推广决策分析。第一,关于文献的知识图谱,从图书馆的书目数据库中抽取文献信息,如题名、主题、著者、出版社、出版地、出版时间等,经过融合后,形成文献知识图谱,根据该图谱,我们可以知道同一个主题下的所有图书、同一著者的所有著作、同一出版社的作品等。第二,关于读者的知识图谱,从图书馆的读者数据库和流通数据库中抽取如读者性别、职业、教育程度、住址、借阅记录等信息,同样经融合后,形成读者信息知识图谱,根据该图谱,我们可以知道图书借阅数据与读者性别、职业、教育程度、住址等的关系,进一步分析出读者阅读习惯主要受哪些因素影响。第三,文献和读者整合的图谱,我们可以知道哪些文献被同一读者借过,哪些读者借过同一文献,某些读者同时借过同一类文献等揭示一对多、多对一、多对多的关联关系,用以分析读者个人的、群体的阅读行为习惯,某一种图书或同一类图书受欢迎的程度。
构建知识图谱赋能的阅读推广服务平台的关键是构建知识图谱。知识图谱的构建流程主要有:构建本体、配置数据源、配置信息抽取、配置知识映射、知识融合和融合验证(可选),如图1 所示。
图1 阅读推广服务平台知识图谱构建流程图Fig.1 Construction flow chart of knowledge graph of the reading promotion service platform
(1)构建本体及配置数据源。这里可把本体确定为“文献-读者”,数据源可能是结构化的、非结构化的以及半结构化的,可通过一系列自动化或半自动化的技术手段,从原始数据中提取出知识要素,即实体和关系,如文献、读者、著者、借阅关系等,并将其存入我们的知识库的模式层和数据层。
(2)配置信息抽取。针对实体的特点,从不同的数据源中提取属性,形成全方面的描述,如文献的属性有题名、著者、出版社、出版日期、主题词等。文献和读者两个实体间的关系即为借阅关系、文献和著者之间是创作关系……实体之间的关系描述是关联分析的关键。
(3)配置知识映射。知识映射是将实体的多种类型数据进行关联存储。
(4)知识融合。知识融合是指在获得新知识之后,需要使用相似函数对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。
(5)融合验证。若在创建图谱时,配置了知识融合,则需要进行融合验证,即验证当前知识融合的配置产生的结果是否符合预期。
在“文献-读者”知识图谱的基础之上,便可以搭建阅读推广智能服务平台[26],如图2 所示。阅读推广智能服务包括实现读者用户画像、发现不活跃读者和阅读推广精准化推荐。
图2 知识图谱赋能阅读推广服务平台架构图Fig.2 The architecture diagram of the knowledge graph-enabled reading promotion service platform
3.3.1 实现读者的用户画像
在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心——分析用户和理解用户。图书馆的服务对象是读者,图书馆需要一个能够与读者智能交互的平台,以更了解读者的情况。用户画像就是给用户打一组标签,每个标签给一个权重,权重代表了用户在这个方面兴趣的强烈程度,如图3所示,加大加粗的文字标签表示了该用户具有强烈兴趣的依次是阅读、房贷、活动和团购等[27]。知识图谱提供了一个构建读者用户画像的技术,帮助图书馆更全面地了解读者的需求。利用知识图谱作为背景知识来做标签扩展、标签推断,用以提高机器对用户标签的理解水平,实现基于标签的知识图谱的精准推荐。
图3 基于标签的用户典型性Fig.3 Label-based users' typical features
在用户画像的基础上,当读者提交一个检索需求后,可由后台经过图谱(用户画像)的分析,系统会根据不同的人而展现不同的结果,读者通过可视化结果做出更准确可靠的需求决策。图谱向读者展示未知的资源,引导读者阅读,增强阅读广度和深度,提升读者阅读体验,帮助读者有效达到发现目标。
3.3.2 发现不活跃读者
众所周知,图书馆存在着大量不活跃读者,他们来图书馆的次数不多,甚至可能因为交通不便、不在这个城市、在图书馆没找到想要的书等原因没有再来图书馆,变成了不活跃读者。这时我们可以通过知识图谱发现这类读者,对其“标签”属性进行分析,进而挖掘出他们可能具有的与其他活跃读者类似的阅读需求,并提供解决方案,如将图书馆的阅读服务与之匹配,或者根据他们的需求拓展新的服务模式,如“你选书、我买单”“网借服务”等形式,吸引读者重新使用图书馆,使他们从“不活跃”状态变为“活跃”状态。如此,借助知识图谱来提升阅读推广的广度。
3.3.3 实现阅读推广的精准化推荐
当前,图书馆的文献推荐只做到根据用户的检索关键字推荐相关的主题文献,模式比较单一。事实上,文献是可以根据著者、出版社、主题词、借阅者等信息关联起来的。在知识图谱的分析下,文献推荐的根据不再是简单的关键字,而是文献的信息关联关系,加上读者的用户画像,比如阅读习惯或需求,系统会向读者推荐更符合读者需求的阅读资源,这些阅读资源同时关联着更深层次的文献资源,读者根据可视化操作浏览各种资源,从而更快更准地挑选出需要的文献。如图4 所示,场景一:读者B 与读者D 可能会被互相推荐巴金和老舍的作品;场景二:当读者E 查询到《红楼梦》时可以关联查到读者A 借过的《红楼梦》和《胡适论红楼梦》,进一步可查看到胡适和曹雪芹的其他作品,再进一步可通过同时借过《容忍与自由》和《电》的读者C 关联到巴金的作品,继续往下关联可查看到老舍的作品。
图4 “文献-读者”知识图谱Fig.4 "Document-reader"knowledge graph
相比传统数据库而言,知识图谱以更加直观的展示形式表现实体间的关联关系。知识图谱将读者、文献、著者、出版社等元素(实体)相互关联,呈现给读者更全面的知识脉络。通过知识图谱我们可以发现这些元素本身并不是孤立的,它们相互关联,这就构成了这些实体间多样的关联关系。通过这种关联关系,多维度地向读者精准化推送更多信息,读者更容易发现或找到喜欢的文献,从而增强阅读兴趣。
“知识图谱”是一种基于大数据分析的可视化分析研究方式,可以利用部分知识图谱工具对文献信息和读者信息(如借阅、预约历史、个人信息等)做知识抽取,知识融合,建立数据仓库,并用可视化界面直接展示出来,利用这种技术可以更好地与读者进行需求交互,让读者可以自主选择更加适合自己的推荐。
传统意义的大数据分析,只能将问题、现象或者结果本身展现,不能串联成一个整体,无法提供具体的解决方法。而“知识图谱”可以直接展示多种逻辑联系。因此,图书馆能够利用知识图谱勾勒出阅读推广的思路图甚至是具体实施关键点,来更好地利用现有资源进行读者的阅读推广工作。读者也可以根据自己的情况,自行选择路径,筛选感兴趣的内容,提升推广的准确度和成功率。依托此技术展开的阅读推广,不仅可以让读者直观地进行自主判断选择,还能够以一种“引导”的方式启发读者新的阅读思路,提供让读者更为容易接纳的内容,完成个性化的阅读推广。
利用“知识图谱”分析的意义在于可自动完善读者的需求,甚至能够分析出隐藏的需求,并在解读后提供完整的、多维度的、可行性的解决方案。面对大众读者的阅读推广方面的应用研究,则可能是未来人工智能在图书馆应用的着陆点,该应用的研究会带来更加智能的自动需求交互。
知识图谱为图书馆的人工智能应用研究提供了一个好的数据库储备及分析表达方式。在日常工作及阅读推广的活动中,知识图谱将提供具体的解决方案。例如,在未来某个读者与图书馆的智能服务终端对话:“我现在大四,对未来很迷茫。”智能客服就可以将这段自然语言解析后与知识图谱信息结合,除了推荐就业规划方面的主题图书外,还能就“迷茫”一词所表述的心理状态给出如“鉴于您可能对心理学方面的著作比较感兴趣,我们推荐您阅读《弗洛伊德心理健康思想解析》《发展心理学》《心理咨询师手记》《心理咨询师国家职业资格考试专用辅导教材》”等达到多目标的建议,以此来展示读者未知的资源,引导读者阅读,增强阅读广度和深度,提升读者阅读体验,帮助读者有效达到获取知识的目标。
大数据环境下,图书馆作为全民阅读的重要阵地,为了进一步提升阅读推广工作效益,应积极探索精准化阅读推广服务新模式。基于此,图书馆可以利用知识图谱技术,构建“文献-读者”知识图谱,以更加直观的表现形式将图书馆本身拥有的文献、读者等相关的海量信息有效关联起来,用以搭建图书馆阅读推广智能服务平台。阅读推广智能服务平台可以应用于构建读者用户画像与读者进行需求交互、发现不活跃读者并解析其阅读需求提供解决方案、开拓精准推荐及引导阅读的新思路,增强阅读推广精准化力度,助推全民阅读。知识图谱赋能阅读推广的研究是知识图谱在图书馆资源发现和服务应用中的其中一方面,是智慧化图书馆服务的探索,为“十四五”时期公共图书馆贯彻高质量发展理念、建设“智慧图书馆”提供了新思路。