刘昱甫
摘 要:现代信息技术的发展使得网络中的信息数据呈爆炸式增长。海量的数据确实对社会发展产生了巨大贡献,但同时庞大数据的提取与应用则成为一个难题,尤其在对成千上万类别的信息数据进行搜索时,其为搜索引擎的功能、性能都带来巨大考验。现有的搜索引擎主要是针对网络中的数据全文进行索引,而缺少足够的针对性,难以充分满足用户的信息筛选需求。因此,如何对现有搜索引擎技术进行改善和优化就成为互联网领域的一个重要研究课题。文章主要围绕特定领域内基于知识图谱的搜索引擎技术及其实现展开研究,提出了一种更能够理解用户需求的搜索引擎解决方案。
关键词:搜索引擎;知识图谱;数据提取;用户需求
1 基于知识图谱的搜索引擎技术概述
知识图谱是融合现代应用数学、图形学、信息可视化技术、计量学引文分析等理论与方法而形成的一种现代理论[1-4]。在互联网领域,知识图谱则具体指基于实体或概念之间的语义关系构建而形成的一种知识网络。一直以来,知识图谱都是互联网领域的重点研究对象,并且在一些领域的信息抽取系统中得到深入应用,如Never-Ending语言学习系统、Google搜索引擎等。而随着互联网的高速发展,针对某一领域或全网范围进行知识图谱的建构也是当前互联网领域的重点工作之一[5]。目前,基于知识图谱的搜索引擎技术主包含本体库、网络爬虫、索引和查询等[6]。而这些技术形成不同的模块共同构成了基于知识图谱的搜索引擎。此外,这种搜索引擎的体系结构一般包含3部分:网络爬虫模块、索引与检索模块、知识图谱模块[7]。
2 基于知识图谱的搜索引擎技术
2.1 爬虫技术
在互联网搜索引擎中,爬虫技术是最重要的技术之一[8-9]。搜索过程中网络爬虫会自动的对所有可以访问的内容进行采集同时按照搜索要求从中抓取相应数据。从互联网搜索引擎诞生之初,该技术就一直在被应用。网络爬虫技术的实现涉及协议处理器、内容提取、URL提取以及URL处理器4部分。而网络爬虫在进行页面信息抓取时通常采取广度优先、深度优先以及最优选择3种策略。
2.2 索引与检索技术
索引与检索技术的基础是Lucene开源全文检索框架[10]。该框架能够有效融入程序,从而使各种应用借助这一框架实现搜索功能。该检索框架由索引组件以及搜索组件两部分组成。索引组件的主要作用在于将原始数据转换成可以被检索的数据,以提升数据检索效率。搜索组件则主要用以进行目标关键词与相关条目的匹配,进而完成数据搜索命中的任务。
2.3 知识图谱技术
知识图谱技术是互联网搜索引擎技术领域中的一个巨大突破,它为网络搜索引擎的发展带来巨大变革。以知识图谱技术为基础,搜索引擎可以更深入地理解用户需求,理解相关搜索问题并提供信息和知识解答。可以说,知识图谱技术使搜索引擎摆脱了传统泛化搜索的局面。
知识图谱技术主要涉及知识图谱模型的构建方法,而其模型又主要由Web实体挖掘及数据处理模块、知识表示模块、知识图谱引擎模块和数据分析接口模块构成。
3 基于知识图谱的搜索引擎技术应用
作为一种先进的搜索引擎技术,基于知识图谱的搜索引擎在具体应用中需要通过以下项目的构建来实现。
3.1 搜索引擎构建
搜索引擎的构建需要确定好相应的数据爬取框架和索引引擎。此处搜索引擎的构建采用Scrapy框架与Solr索引引擎。Scrapy爬虫在相应的网站中进行实体数据的实现方法如图1所示。
Solr数据检索的构建和实现可以分为实体数据向索引数据的转换和匹配关键词完成数据检索两部分。
3.2 知识图谱构建
知识图谱的构建过程如下:首先需要将相关搜索领域的实体插入图谱,随后再将内容实体插入,最后将内容实体与其他实体之间的关联建构起来,从而形成一个完整的知识图谱。此外,在节点的插入过程中,还应该依据实体类型来进行属性信息索引的建构,从而进一步提升检索的准确性和效率。
3.3 检索结果排序
基于知识图谱的搜索引擎构建还涉及最终的检索结果排序问题。本文采用的Lucene框架下的搜索结果排序方式一般有按照索引先后顺序和按照匹配相似度计算的分值两种,但这两种排序方式都有一定的弊端。因此,本文提出了一个全新的检索结构排序模型。该模型下的基本排序步骤为:(1)对每个实体及其属性值与检索词的匹配值进行计算;(2)对属性匹配值与属性权重累加和进行相乘;(3)对命中实体和其他命中实体的关系值进行相加,若两者有关系,记为1,若无关则记为0;(4)将上述计算值乘以权重再求和。
3.4 信息推荐
在搜索引擎中,检索得到最终结果后还需要对检索到的内容进行推荐,这也是搜索引擎构建中必须要完成的一环。由于传统搜索引擎基于内容的推荐算法已经无法满足人们的需求,本文在构建搜索引擎的过程中以知识图谱为基础提出了一种信息推荐方法,即以命中实体与其他实体间的距离来进行推荐,而这一距离则代表着实体间的匹配度。A,B两个节点间的距离由路径代表。在信息推荐过程中依据对每种关系的赋值就可以将不同节点间的距离准确计算出来,随后再结合这一距离值进行信息的推荐。这一推荐方式可以在实践中优先推荐与特定实体匹配度高的实体。
4 结语
通过上述基于知识图谱的搜索引擎技术及其应用的研究,我们基本可以了解到这一技术的基本内容和搜索引擎构建的基本思路。然而在实际应用中,该技术还需要技术人员明确具体的应用领域后,有针对性地开展搜索引擎构建、知识图谱构建以及排序方式和信息推荐方式的设计。该技术在实践中仍有较大的研究空间。
[参考文献]
[1]郭蕴颖.基于知识图谱的电网信息搜索引擎的设计与实现[D].北京:中国科学院大学,2020.
[2]秦长江,侯汉清.知识图谱—信息管理与知识管理的新领域[J].大学图书馆学报,2009(1):30-37,96.
[3]陈悦,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究,2008(3):449-460.
[4]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005(2):149-154.
[5]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016(4):589-606.
[6]刘春圃.基于疾病知识图谱的关联搜索技术研究[D].哈尔滨:哈尔滨工业大学,2019.
[7]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016(3):582-600.
[8]孫立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010(15):4112-4115.
[9]周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005(9):1965-1969.
[10]高龙,张涵初,杨亮.基于知识图谱与语义计算的智能信息搜索技术研究[J].情报理论与实践,2018(7):42-47.
(编辑 傅金睿)