大数据背景下知识融合研究综述

2019-09-10 08:37高国伟梁力琛李永先郭琪
电子商务 2019年6期
关键词:知识服务大数据

高国伟 梁力琛 李永先 郭琪

摘要:网络大数据中包含着海量的知识资源,这些资源在知识服务的过程中发挥着极其重要的作用。如何从多源异构的海量数据中准确地提取知识并加以有效利用成为当前知识服务的热点问题。本文以当前大数据背景下知识融合研究现状为出发点,对当前知识融合领域内的相关文献资料进行分析,从传统的知识融合的理论结构、关键技术、学科或领域间的交互运用入手,归纳并总结知识融合的理论方法与框架模型,从而探讨大数据环境背景下的知识融合研究的新进展以及对未来做出展望,同时在此基础上进行评述,以期为该领域更为深入的发展提供参考。

关键词:大数据;知识融合;知识服务

伴随着互联网技术的不断普及和创新,大数据时代逐渐走进我们的视野。大数据不仅是一种实用性很强的分析工具,而且也是一种重要的思维方式。但大数据为我们带来许多积极影响的同时也面临着众多亟待解决的问题。在大数据背景下,知识库的容量不断被丰富,如何让所得知识得到最大化利用就成为了现阶段知识学科需要面对的头等问题。为了突破这个难点,相关知识领域的专家学者提出了“知识融合”这一概念并对其进行了深度研究。不断地促进和发展相关理论与技术,从而达到解决问题的目标。

知识融合是一门交叉学科,它通过对多元异构的分布式知识进行组织提取,以知识需求作为最终目的对知识进行转化融合等过程,从而获取高效、高价值的新知识。自20世纪90年代以后知识融合概念进入学术界以来,国内外的众多学者对知识融合问题开展了多方面的研究,综合现阶段的知识融合领域相关文献,可以发现当前的研究重点主要在融合算法和体系建设两方面。知识融合的相关文献在不断的增长,但还未有一个相对全面的的研究综述和系统归纳。

本文通过对当前知识融合领域的相关文献期刊进行分析,并分别从知识融合的理论结构、融合算法、学科或领域间的交互应用等方面进行归纳总结,并对知识融合的未来发展提出了展望,以期为知识服务的相关研究提供一些借鉴和参考。

1、知识融合的研究概况

我们在中国知网数据库中,限定主题词为“知识融合”进行模糊检索,结果得到文献总数5732篇。再对检索结果进行可视化计量分析。由此得到图1的知识融合共现图谱。

通过图1的共现图谱,我们可以发现大数据,知识服务,知识融合,知识表示这四个主题之间联系密切。知识融合作为知识管理的主要内容,已经成为知识管理中极其重要的一个环节,对于实现知识的有效利用有着重要作用。而数据到信息再到知识这一过程则体现了前三者之间的相互依存关系,缺一不可。

在关键词分布中,我们可以发现在本主题中用知识融合做关键词的文献所占比重高居所有结果中的第二位,这说明知识融合已经是融合领域特别是知识学科的一大研究热点。再从学科分布情况来看,知识融合涉及到的学科众多,分布广泛,在教育学和图书情报学领域研究较多,也同样是这两个学科的研究热点之一。

2、知识融合的理论发展

在大数据背景下,知识的内容和来源极其丰富多样,多元化的知识具有更加广泛的深度,也因此更难以利用处理。但通过知识融合的相关理论方法却可以对其进行提取和利用,从而构建一个更为完整且可信度更高的知识体系,而提升知识服务的整体质量。但因为各学科对这一新兴概念的解释存在着不同的立场,含有一定的学科特色,所以到目前为止,学术界对知识融合这一概念并没有形成一个相对统一的定义或解释。

国外学者A.Preece认为知识融合“是从多种异构源中定位并获取知识且对所获知识进行转换的过程,从而可以将这种结果运用于相关知识问题的求解。”在这个结论中我们发现A.Preece关注知识融合过程中的三个要素,即如何去定位知识,提取知识,对知识进行转换。最后再对获取到的结果进行融合利用,解决实际问题。而另一位学者A.Smirnov则认为“知识融合的目标是产生新的知识,将松耦合来源的知识集成,从而构成一个合成资源,用来弥补不完全的知识[2]”,该观点与A.Preece所提观点又有所不同,体现在知识融合的结果不同,前者是为了弥补不足的知识,后者则是着重于解决问题。

上述观点主要是对知识融合的内涵进行归纳总结,此外还有对知识融合的体系构架的描述,例如著名的KRAFT理论,此理论的重点在于描述知识融合相关元素和它们之间的关系以及各元素之间的相互作用等。A.Nikolov等人提出了知识融合系统KnoFuss,该系统提供了面向子任务的方法,而且可以从中选择更为正确的方法。

通过以上分析,虽然各个学者对于知识融合有着不同的看法和出发点,但其本质都是一样的,都是为了使知识最大化程度利用。据此,我们认为,知识融合就是在大数据背景下,从异构数据源出发,运用语义规则等相关技术,对知识进行获取和转换以得到其中的相关关系,并由此创造出新知识,用以解决知识服务所面临的各种问题。

3、知识融合的关键技术

3.1融合算法

在知识融合的过程中,如何运用相关技术对知识进行提取整合是极其重要的一步。在语义规则方面,E.Gregoire在逻辑规则中引入一种新的语义规则来融合異源知识,这种方式在于处理相互冲突或不完整的信息,并减少对于融合公式的遗漏。在贝叶斯网络方面,E.Santos将数学概率模型作为贝叶斯理论的基础,从而提出融合算法。这主要有三个过程,即概率获取、融合处理和最佳决策。D-S理论又被称为证据组合理论,它是对贝叶斯论的进一步发展,结果可以直接表示为“不知道”或“不确定”。今天学界广泛使用的理论是由Dempester所提出的并做了进一步完善。该理论通过获取不同结果间的信任函数,再根据所提供的组合规则将所得函数融合,最后来判断组合后的函数,以此来确定最优决策。模糊集理论建立在证据理论知识基础上,进一步放宽了概率论方法的限制条件。模糊集理论的方法可以处理不精确的知识,对开放网络知识的评估非常有效。

此外,在国内的关键技术研究中扩展到了交叉学科。例如,缑锦提出基于遗传算法的知识融合算法;蒋黎黎等提出基于粒度计算理论的知识融合模型。由此可见,国内对于知识融合算法更为具体和广泛,也有了一定程度的综合运用,但主要还停留在理论层面,并未进行更为深层的发掘。

3.2框架与模型

国内学者徐赐军、李爱平等提出了基于本体的知识融合框架,有利于控制知识融合结果的规模,提高了知识的语义相关性和准确度。其中涵盖了如何构造元知识集、确定测度指标、设计算法和反馈处理等核心功能。此外,林海伦、王元卓等以开放知识网络OpenKN作为网络大数据知识统一表示和计算的框架,总结了面向大数据背景的知识融合框架模式。该框架自下而上包含数据收集、知识获取和知识融合功能。

通过上述分析,我们发现建立一个合适高效的知识融合框架有利于管理知识融合的结果,提高知识的语义相关性,除此之外还能通过相关的评价方法获取更为精准的知识,从而构建一个实用的框架来解决实际问题。目前来看,知识融合的相关算法和系统框架的研究已经有了一定的成果,但在越来越复杂的网络大数据背景下,知识融合仍将会是一项极具挑战的工作,知识融合相关技术仍然存在着诸多缺陷,还有大量问题亟待解决。例如,网络大数据因为其高度动态性,就要求知识评估具有实时性的特点;实体扩充和大规模异构分类体系的扩充方法能够面对更为广泛的领域发挥作用等。

4、學科领域间的交互运用

通过综合国内外知识融合研究文献的学科分布情况,我们发现知识融合相关研究最主要集中在“计算机科学”、“经济管理学”和“图书情报学”这三个领域。

早期知识融合主要由军事领域发展而来,随着计算机网络飞速发展和大数据时代的到来,知识融合的应用领域不断的扩大,更多的被应用于诸如云计算、物联网等相关应用上。同时伴随着知识学科的深入发展,知识库中的知识转化、知识库的构建和知识图谱等都需要更为高效的知识融合技术。

谢能付提出了面向基于农业本体的知识融合框架,用于解决知识服务所面对的精度低、冗余等问题,并运用实例进行分析,发现知识融合可以有效解决农业知识领域在此方面的不足之处;国外学者GeE等利用知识融合分析了H5N1禽流感,整合了多学科来分析传染病的流行因素。

我们发现,在上述知识融合各领域运用的有关情况是知识学科近年来的热点问题,但大部分主要还是构建模型,距离真正运用到实际中还有待发展。在互联网行业中,知识融合则是取得了较大的进展,一些企业对于数据挖掘和知识融合已经有了不错的成功经验,如维基百科、谷歌知识图谱等。

5、存在问题及未来的发展趋势

过去十多年来学界针对知识融合的体系架构、技术方法等做了大量工作,知识融合在应用中发挥着越来越重要的作用,针对知识融合中的一些关键性问题也有很多新的算法和技术被提出改进。但知识融合仍然存在一些问题,主要体现在以下几个方面:

(1)当前的研究主要重点是针对特定知识类型在特定场景下的融合手段研究。这种方法的通用性还有不足之处。如何针对最基本的知识元素构建一个通用规范的融合框架是我们需要进一步探索的问题。

(2)大多数融合算法需要借助于本体之间的交互作用,而本体本身的复杂性降低了算法的效率。本体的管理过程相对复杂,如何尽可能的利用本体论技术优势为知识融合提供服务,又克服本体论中固有的难点对知识融合的影响也是今后值得深思的问题。

(3)由于知识融合的结果往往是一个规模庞大的知识集,其中的有些知识甚至是无用的,所以在融合规则指导下产生的新知识的有效性还有待通过相关评价机制进行检验。融合评价是知识融合过程中极为重要的一个环节,这不仅包括对结果的正确与否进行检验,也包括对知识融合的整个过程进行反馈。

(4)此外,有必要对知识元理论加以研究,并基于知识元理论对知识融合乃至整个知识服务进行整合研究。同时对于现实中的知识融合问题而言,必然是一个多样而复杂的过程,如何让这种过程更加灵活,适应大数据的网络环境有待深思。

6、结语

通过对知识融合的研究状况进行分析,我们发现,近年来知识融合已经渐渐成为知识学科领域的前沿热点问题,各个领域的学者对于知识融合的理论定义、框架模型等关键问题都做出了不同程度的解释,极大地丰富和发展了知识融合的内容,取得了一定的成果。

在网络大数据的背景下,知识呈现出更加多样化和巨量的特点,如何处理知识的准确度和知识库的实用性给我们带来巨大的挑战。当前知识融合的研究工作在我国大多还处在理论探讨方面,对于实际生活中的应用相对较少,这方面发展空间很大,可以作为以后知识融合的发展方向。另外,对于知识融合来说,各个学科有着不同的解读,学界还缺乏一个标准统一的框架规则,如何统一知识融合各个模块之间的关系也是今后需要研究的问题。知识融合的最终目的是要服务于用户问题,将知识融合运用于更多学科,充分发挥其对知识服务的关键作用。郾参考文献

[1] PREECE A,HUI K,GRAY A.KRAFT: an agent architecturefor knowledge fusion[J]. International journal ofcooperative information systems,2001,10(1-2):171- 195.

[2] SMIRNOV A,PASHKIN M,CHILOV N.Multi-agentarchitecture for knowledge fusion from distributedsources[M]. Berlin:Springer, 2002:293- 302.

[3]林海伦等.面向网络大数据的知识融合方法综述[J].计算机学报,2017(1):0254-4164.

[4]谢能付.基于农业本体和融合规则的知识融合框架研究[J].安徽农业科学,2013,41(1):395-397.

[5] GE E.Using knowledge fusion to analyze avian influenzaH5N1 in East and Southeast Asia[J]. PloS One,2012,7(5).

猜你喜欢
知识服务大数据
基于知识服务的档案管理模式研究
跨境电商供应链中的知识服务供需匹配模型研究
构建图书馆知识服务理论体系的思考
嵌入心理契约的馆员知识服务能力建设研究
从西方国家保护消费者权益政策看用户信息消费的安全管理
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索