基于知识图谱的图书智能推荐系统的研究与实现

2021-07-08 09:46张佼占伟鹏王乾杰冯明杰江晓吴琪
数码影像时代 2021年7期
关键词:数据挖掘图谱可视化

张佼 占伟鹏 王乾杰 冯明杰 江晓 吴琪

编者按:知识图谱是一种通过对大量复杂信息进行处理,对其内在的关联关系进行更加直观的可视化展示的方法。本文以智能图书推荐系统为例进行介绍。该智能图书推荐系统以知识图谱可视化为基础,把用户搜索关键词相关的图书信息以知识体系的方式进行展现。该系统能够给每个用户建立自身的知识图谱,结合用户的历史搜索、历史借阅等数据的挖掘处理,基于用户当前搜索关键词,自动推荐用户最可能喜欢的图书。图书智能推荐系统具备传统的图书管理能力,适用于传统的线下传统图书馆以及电子图书馆。

引言

随着信息时代的快速发展,快速而高效地获取知识,成为了每个人必备的技能。不论是在校学习阶段还是毕业后的工作中,查阅图书必然是获取专业知识的一个重要途径。几个世纪前,同样的学科或者专业,其知识涵盖的范围远远无法和现在相提并论。在实际的场景中,人们往往会花费大量的时间去查阅资料、盲目地搜索、反复地试错,才能获取到有用的知识。

近些年快速发展起来的一些诸如数据挖掘技术、大数据技术等新技术,提供了很好的解决思路。本文则依托于这些对海量数据进行分析、处理及可视化展示的相关技术,提出并设计了一个基于可视化知识图谱的图书智能推荐系统。借此,用户可将自己从海量数据中搜寻书籍的情况中解放出来,把有限精力聚焦到知识或业务本身,从而大大提升自己学习效能。

关键技术

知识图谱技术

随着互联网的蓬勃发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容具备规模大、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph) 以其强大的语义处理能力,为互联网时代的知识化组织和智能应用奠定了基础。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。知识图谱的提出,是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱作为关键技术之一,已被广泛應用于智能搜索、智能问答、个性化推荐、内容分发等领域。知识图谱一般包含以下节点:实体、语义类概念、内容、属性值、节点关系。通过节点间的关系的建立,可建立起基于关键词的知识图谱,利用可视化的方式,即可直观地展示一个知识点的多元结构树。知识图片的构建如下图所示,一般由知识提取、知识标识、实体对齐、质量评估等功能域组成,能够将松散游离的结构化数据、非结构化数据、第三方数据库的数据源进行数据整合处理,形成基于实体的知识图谱进行可视化展示。

数据挖掘技术

数据挖掘是人工智能和数据库领域研究的热点问题,数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

利用词频进行数据分析是一种用于文本挖掘的技术,该方法可以评估一个资料库中一个词语的重复程度,出现次数越多说明它越受重视。本文使用定量分析方法基于用户搜索的词频分析筛选有意义的关键词,可推测当前访问用户的搜索热点,能够形成基于用户数据的搜索排行。

网络数据交换技术

Web Service是一个平台独立的、低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的交互操作的应用程序。Web服务通过Internet协议向外提供服务调用的接口,并定义了应用程序如何在Web服务上实现互操作性。由于其具备平台的无关性和良好的可扩展性,目前移动端和服务器端的数据交互采用基于REST风格的Web服务技术来完成。移动平台通过HTTP发送(GET、POST)请求对数据库资源进行获取、创建、修改和删除等操作。同时,服务器端和移动端之间数据交互采用JSON格式,JSON格式是一种轻量级的数据交互方式,易于阅读和编写,效率较高。

系统总体设计

系统设计原则

智能图书推荐系统在设计和实现过程中遵循以下原则。

1.实用性

系统设计上考虑各类数据接入的情况,对于数据源来说,系统可引接第三方数据库,可挖掘互联网上的实体关联信息等。通过对结构化数据、非结构化数据的整理和整合,将实体-属性-关系以可视化的方式进行展示,可快速帮助用户筛选出自己感兴趣的图书。

2.跨平台性

考虑到移动终端的快速发展及应用,系统同时支持PC端和移动端的访问和使用,因此系统开发需要考虑Android和IOS等主流操作系统平台的兼容性,使得该系统可同时运行在多种移动平台上。

3.软件开发框架

系统的架构设计采用B/S与C/S模式相结合的方法。用户既可以使用App终端登录系统,也可以通过用浏览器登录系统,实现更多丰富功能,满足不同平台用户的不同使用需求。平台应用使用MMVC模式进行构建,分离了视图、数据、逻辑,系统各个功能模块相对独立,可降低系统耦合性,降低系统维护升级成本。服务器端包括了Web应用服务器以及数据服务器。数据服务器搭载有Oracle数据库,用于存储移动平台用户信息、权限信息等。

系统功能设计

用户设计

系统用户设计包括两大类:浏览用户、后台维护人员。通过角色完成访问权限的管理。

浏览用户可使用账号管理、信息维护、查询搜索、充值管理、借阅购买管理等功能模块。用户可注册并维护自己的个人信息,完成储值,查询自己感兴趣的图书,并完成图书电子版的借阅或购买操作。而对于纸质图书,系统则通过匹配后台数据库的数据,展示书籍存放的图书馆的相应信息,如该图书馆提供预约授权,可通过该系统进行图书预约操作。同时,系统具备接入电商平台的能力,可链接到第三方平台进行书籍的购买。

后台维护人员可使用信息维护、数据接入、数据管理、用户管理等功能模块,维护人员可对后台数据进行维护管理,包括对用户的管理和对图书的管理两大功能域。

搜索及可视化模块设计

利用知识图谱的技术,实现对录入的图书的信息整合。本系统的数据源以结构化的数据为主,通过对导入的数据库数据的整合,完成知识体系的构建。

当用户输入关键词进行搜索时,通过语义匹配和关联查询,将该关键词作为知识实体的中心节点,结合对用户历史搜索数据及借阅图书数据进行信息整合处理,完成对基于该中心节点的知识图谱的构建,最终通过可视化的方式对其进行展示,如下图所示。同时给出最多三级关联节点的展示,使用户可不断点击新的中心节点进行关联图书的查询。

当用户选中某个节点(图书)时,如果存在对应的电子版图书,将会从下方弹出页面对其简述信息进行展示,用户可自行确定是否订阅或购买,同时系统会保留用户的阅读进度,以便用户利用碎片化时间进行阅读。

用户信息挖掘管理模块

用户信息管理模块包括用户基础信息管理、用户搜索历史管理、用户借阅历史管理。通过对用户搜索历史、借阅历史的存储和处理,系统可以推荐用户感兴趣的书籍,并可根据用户借阅历史及借阅習惯,自动形成推荐信息的相关书籍组成的知识图谱,用户只需点击即可进行查阅。该模块能够使用户更加系统化地掌握知识网络,具备同时提升用户体验、增加用户粘度等优势。

多元化信息展示模块

智能图书推荐系统具备多元化信息展示功能,通过书籍合集展示、借阅排行榜、用户推荐榜等方式,通过用户的内驱力完成对信息的整合展示。

书籍合集展示:系统对录入系统的图书进行分类管理,通过对互联网数据的挖掘,形成诸如“中国文学经典合集”“外国文学的经典合集”等推荐合集,能够使用户聚焦“重点”图书。

借阅排行展示:通过对系统用户的阅读数据整合处理,形成图书搜索和借阅排行榜,让用户通过自己的查询及借阅行为对后台数据进行“加工”,让用户自己创造数据,成为大数据的亲历者。

推荐榜展示:用户在阅读完书籍后,可通过收藏、点赞、评论的方式对图书内容、质量等各个维度进行评价,而系统会形成针对图书的各类榜单,包括收藏排行榜、点赞排行榜、评论排行榜等,让独自读书变成用户集群参与的一种群体性行为,使枯燥的知识获取过程变得不那么乏味。

后台数据管理模块

系统提供对后台数据的维护管理,后台维护人员能够对系统数据进行管理,包括电子版图书管理、图书信息录入、网购平台信息维护、数据库备份、会员管理、系统日志等功能,维护人员通过对系统后台数据的维护管理,确保系统用户访问系统、搜索图书、在线阅读、购买图书等功能的正常使用。

结语

本文设计并实现了基于知识图谱的可视化图书推荐系统,该系统通过对大量无序的数据进行整合和处理,通过可视化的方式对数据进行了有效的展现,体现了较强的用户交互性。同时该系统可扩展性较强,可接入第三方的电子图书馆数据库、电商平台甚至是传统的图书馆,真正做到了大数据互联互通,让用户能够更加便捷地获取到自己感兴趣的知识。

参考文献:

[1]王勇,宋增禄,陈亚琳,等.基于知识图谱的国内职业教育改革现状分析[J].职业技术,2021,20(05):1-6.

张洁,王红.基于词频分析和可视化共词网络图的国内外移动学习研究热点对比分析[J].现代远距离教育,2014(02):76-83.

[3]钟良.青年马克思主义者培养工程研究热点述评和前瞻——基于Citespace可视化图谱分析(2007-2020)[J].新生代,2021(03):4-12.

[4]刘迪.基于CiteSpace图谱的学科领域研究发展历程分析——以泰国华文教育为例[J].现代职业教育,2020(26):32-34.

[5]颜昌武,杨郑媛.我国基本公共服务均等化研究的知识图谱——基于Citespace的可视化计量分析[J].中国延安干部学院学报,2020,13(04):58-67.

[6]杨国立,李品,刘竟.我国图书馆学研究知识图谱分析[J].国家图书馆学刊,2012,21(01):52-59.

作者简介:张佼(1989—) ,男,汉族,四川巴中人,工程师,工学硕士,计算机软件开发,西南电子设备研究所;冯明杰(1988—) ,男,汉族,四川成都人,工程师,工学硕士,计算机软件开发,西南电子设备研究所;占伟鹏(1990—) ,男,汉族,江西九江人,工程师,工学硕士,计算机软件开发,西南电子设备研究所;江  晓(1988—) ,女,汉族,四川达州人,工程师,工学硕士,计算机软件开发,西南电子设备研究所;王乾杰(1995—) ,男,汉族,湖北武汉人,助理工程师,工学硕士,计算机软件开发,西南电子设备研究所;吴  琪(1990—) ,男,汉族,四川自贡人,工程师,工学硕士,计算机软件开发,西南电子设备研究所。

猜你喜欢
数据挖掘图谱可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
补肾强身片UPLC指纹图谱
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
杂草图谱