霍珊
摘要
在网络信息时代到来的今天,大数据技术在诸多领域中得到越来越广泛的应用,知识工程也随之获得人们的关注。对大数据进行分析的一个重要前提是从海量数据中提出有利用价值的信息,知识图谱的出现为这一问题的解决提供了有利条件。基于此点,本文从知识图谱及其特点分析入手,论述了知识图谱实现的技术流程。
【关键词】知识图谱 实现 技术流程
1 知识图谱及其特点分析
知识图谱是一个全新的概念,它是由全球最大的搜索引擎公司谷歌于2012正式提出的,这一概念的提出为搜索引擎智能化奠定了坚实的基础。知识图谱将多种学科理论与技术方法相结合,将具有复杂性的知识领域以图形绘制的形式显示出来,最终目的是对知识领域的动态发展规律进行揭示,为学科研究提供有价值的参考依据。知识图谱的特点体现在如下几个方面:
(1)当用户对某个知识领域搜索的次数越多,查询的范围越广,谷歌便可从中获取到更多的信息;
(2)知识图谱能够赋予字串全新的意义;
(3)知识图谱融合了大量的学科,保证了用户对某个知识领域搜索时的连贯性;
(4)知识图谱能够为用户找到更为准确的信息,通过总结可以使提供的信息内容更有深度;
(5)知识图谱可将与关键词有关的知识体系完整地呈现给用户。
2 知识图谱实现的技术流程
知识图谱实现的技术流程如图1所示。
2.1 信息抽取的关键技术
在知识图谱的实现流程中,信息抽取是最为重要的前提和基础,也是整个流程中的关键步骤,对后续流程的实现具有直接影响,从异构数据源中抽取构建知识图谱所需的信息是该环节的重点内容,具体可以通过如下技术予以实现:
2.1.1 NER技术
NER即实体识别技术,也被称之为实体抽取,它可以从文本数据集当中,对命名的实体进行自动识别。在实体识别过程中,抽取的实体准确率对知识的获取效率及质量具有一定的影响。目前,较为常用的实体抽取方法有以下几种:基于规则、基于统计机器、面向开放域。在上述三种方法中,基于规则的实体抽取,需要依赖于大量的模板,总体的覆盖范围相对较小,当数据出现变化时,无法满足新的抽取需求;基于统计机器的实体抽取准确率约为70%;面向开放域是以已知的实体语义特征,对命名的实体进行大范围搜索,再以聚类算法进行聚类,由此可进一步提升实体抽取的准确率。
2.1.2 关系抽取技术
对于不同的实体而言,存在着语义链接的问题,通过关系抽取技术能够使这一问题得到有效的解决。目前,常用的关系抽取方法有以下几种:基于开放式实体、基于联合推理等。在基于开放式实体的关系抽取中,OLLIE在抽取結果的准确性方面效果最佳;基于联合推理的关系抽取中,MLN是最为经典的一种方法,其能够自动生成抽取器,在确保准确率的基础上,还能大幅度提升召回率。
2.1.3 属性抽取技术
该技术针对的主要对象为实体,借助相关的属性能够对实体进行完整地勾画。在属性抽取中,较为常用的方法有基于启发式算法,它的抽取准确率较高,通常能够达到95%以上。
2.2 知识融合的关键技术
通过信息抽取得到的结果中存在一定的错误信息,并且数据与数据之间的逻辑性略显不足,所以需要对抽取到的信息进行整合处理。知识融合由两个部分组成,一部分是链接,另一部是合并,经过融合以后,可将错误的信息从结果中剔除掉。
2.2.1 实体链接
这是一种将抽取到的实体与知识库中对应的正确实体对象进行链接的操作过程,其中的核心技术为相似度计算。当存在同名实体时,会产生歧义的问题,此时可以运用实体消歧技术进行处理,即按当前的语境,通过聚类的方法建立准确的实体链接。该技术的应用可以使搜索引擎对用户的搜索意图进行更加准确的理解,给出更符合要求的结果,有助于搜索质量的提升。
2.2.2 知识合并
对知识图谱进行构建的过程中,需要对外部知识库和关系数据库进行合并处理,在对外部知识库进行本地融合时,主要是对数据层和模式层的融合,可以应用LDIF(开放数据集成框架)。而对关系数据库进行合并时,则可应用RDF(资源描述框架)。
2.3 知识加工的关键技术
知识加工的主要作用是获得结构化的知识体系,加工过程涉及三个方面的内容,即构建本体,对知识进行推理,对加工质量进行评估。在对本体进行构建时,可以借助计算机和相关的编辑软件来完成;知识推理的常用方法有两种,一种是基于逻辑,另一种是基于图,当实体关系较为复杂时,可通过描述进行推理;质量评估是确保知识库质量的关键环节,采用可信度修正的方法,能够降低判断信息正确或错误的不确定性,从而确保了知识的质量。
2.4 知识更新的关键技术
信息与知识量会随着时间的推移而不断增长,为使知识图谱能够始终满足用户的使用需要,就必须对其中的知识进行更新。在对知识库进行更新的过程中,涉及两个方面的内容,即概念层和数据层,可以借助百科类网站中的数据资源,将其中出现频率较高的数据加入到知识库当中,并由专业团队对更新的内容进行审核,将不符合要求内容去除掉。
3 结论
综上所述,知识图谱作为一个涵盖海量数据信息的知识库,其可以为智能搜索提供强有力的支撑,由此为多个学科领域的深入研究带来了机会。从知识图谱出现至今,虽然只有短短几年的时间,但却使其成为业内专家学者研究的重点,这为知识图谱的构建与应用奠定了坚实基础。
参考文献
[1]周丽娜,马志强.基于知识图谱的网络信息体系智能参考架构设计[J].中国电子科学研究院学报,2018(08):78-79.
[2]郭琳面向Web数据的知识图谱学习与推理关键技术研究[D].西安邮电大学,2018.
[3]张兆锋,张均胜,姚长青.一种基于知识图谱的技术功效图自动构建方法[J].情报理论与实践,2017(11):121-122.