胡慕海,王 蕊,夏火松
(武汉纺织大学 管理学院,湖北 武汉430200)
“互联网+”时代,知识融合已成为大数据环境下知识服务和创新的支撑点(王曰芬[1])。大数据背景下的知识融合,概念上的共识是:融合过程是以特定问题和知识需求为导向,在海量多源异构的数据中全面准确定位并融合各种知识对象及其载体,最终产出满足用户需求和解决应用问题的新知识。用户的科学问题求解过程对应着科研进程中一系列知识需求的产生、响应和满足。科研进程中的知识需求会沿着进程时间维,阶段性的发生核心需求的变化,当前时段内的核心需求会演化成下一时段内的不同核心需求;并且随着科研的继续,会持续产生新的需求演化,直至科研结束。
整合应用这种在科研进程中沿时间轴不断演化的核心知识需求能提升知识融合的效用。这是因为:需求的演化能够提供匹配A、B 两个需求的知识对象间在问题求解进程中的时序关联(对于求解当前科研问题,对知识对象b 的需求是在对知识对象a 的需求产生之后再产生)和专业关联(面对当前科研问题的求解,同时需要知识对象a、b),依据这种知识对象的关联,可以在全局知识中发现更多潜在有利于问题求解的知识对象,也可以作为判定用户实时的、和预测未来可能需求的依据,基于这一应用思路,可以创新知识融合机制,使得融合产生的新知识对于当前研究问题的求解更具有可用性,能更好满足用户当下的和未来可能的知识需求。
目前已有的知识融合研究,一种研究视角是知识单元间自发的主动式融合,这种融合运算的规模较大,主要关注知识的高效高质量的管理,并不以特定用户知识需求的满足为目标。另一种研究视角是以用户知识需求作为调节、控制机制,驱动知识融合。在知识科学视角下,主要关注融合对象动态演化视角下的知识融合研究。Preece[2]在KRAFT 系统中提出随规模增长重组KRAFT 网络的方法。Scherl[3]提出感知动态情境的军事知识融合机制。Liu[4]面向企业不断演化的知识需求,构建了动态本体。Brahami[5]面向决策活动的变化,提出知识地图融合方法。近年来,唐晓波[6]、邱均平[7]、李广建[8]开始关注大数据演化性对知识融合的影响,指出需要根据数据源的变化,调整融合机制。Wu[9]利用知识图谱研究动态演化的碎片化知识的建模问题。在基于关联数据的知识融合研究中,高劲松[10]通过用户反馈来调整融合算法。孙济庆[11]构建了匹配不同研究时段核心需求的多个簇状知识空间。
总体而言,(1)大数据背景下,知识融合研究大部分是以碎片化知识为融合对象,进行碎片化知识建模或融合形成全局知识的研究,融合过程不以用户需求和问题求解为导向,直接在现有知识基础上调整知识对象的概念化约束条件;(2)融合过程中一些规则、约束、本体等,在不同的运算环境下,也以一种动态调整的方式发挥作用;(3)目前用户需求的演化特性在知识融合研究中有所欠缺,大部分研究还是将需求视为静态的、断点式的;制定融合规则的依据不够完备,规则有片面性,局限性,导致潜在有用的知识对象的缺失,也不利于发现用户隐性的知识需求,最终影响知识融合的效用。(4)一些研究提出要基于评价反馈等用户数据来改进、优化融合机制,具有前瞻性;但目前缺乏大数据视角下系统性的知识融合服务理论、机制研究。因此有必要系统性研究大数据环境下科研进程中用户需求演化全景感知的知识融合问题,首要工作是构建科研需求全景感知的知识融合模型,以提供后续研究的理论基础和实践途径。
面向科研需求全景感知的知识融合服务诉求表现在:
(1)知识融合服务能够利用异构多源用户历史数据,描述科研工作者科研进程中至当前时点的知识需求变化全景,为知识融合提供融合规则、约束条件等的制定、调整依据?
(2)知识融合服务能够利用知识对象间的时序关联、专业关联入手,利用演化的需求,从全局知识空间中划分出个人解知识空间?这是一种对个人问题求解而言,更加完备且规模可控的知识体系,能涵盖对于问题求解潜在有用的知识对象。
(3)知识融合服务能够面向个人解知识空间的结构特征,提出知识对象搜索和融合的机制? 从而使得产生的新知识对于专业问题的求解具备更多潜在可用性,并且可以满足用户当下的,和未来可能的知识需求。
(4)知识融合服务能够系统性利用大数据支撑用户需求演化全景感知的知识融合全过程,能够①跨平台采集、整合异构数据,增加了数据量和密度,并能记录需求细微且完整的变化,利于需求变化的精细、全景描述;②数据流、在线学习等大数据分析技术能识别需求建模中的“概念漂移”,利于需求变化的精准描述;③通过“数据密集型科学”范式、以及大数据驱动的管理决策理论的指导,可以对需求间“泛在”联系中隐性的需求进行发掘和应用,丰富融合规则的制定依据。
根据上文分析,我们提出科研需求全景感知的知识融合模型,如图1。
图1 知识融合模型
将多源异构的用户历史数据时序化,实证核心需求的演化特性;检测出科研进程中到当前时点的所有知识需求改变的时点;将科研进程分割为若干时段,获取每个时段的核心需求;形成知识需求演化的全景模型。实现机制包括:基于用户历史数据,验证需求的演化现象,引入兴趣波动和衰减理论加以分析;鉴于数据稀疏性,引入超图分割方法对用户数据聚类,通过簇结构变化识别需求变化时点序列;采用词频统计、共词分析法等确定每个时段的核心需求,整合形成全景模型。
基于最新改变的核心知识需求的解知识空间基层构建:以需求改变的最新时点后的核心知识需求,构建融合规则,从全局知识空间中分割一个子空间,子空间涵盖当前可能最迫切需要的知识;实现机制包括:以最新需求变化时点后的核心需求形成需求实体,采用蚁群优化算法,在全局知识图谱中寻找一个最小子集,该子集和需求节点间的属性匹配度最大。整合子集对象的节点和边,形成个人解知识空间的基层。
实现跨时点知识关系的基层拓展:主要是依据跨需求变化时点的,不同核心需求间的匹配关系,确定分属基层空间和补空间上的若干知识节点对(a,b),(a,b)表征知识对象在专业上的关联性;采集a、b间的显性关系,推理a、b 间的隐性关系,预测a、b 间的可能关系,通过全局知识图谱更新,将预测存在的关系显性化,这些关系对应的知识对象,潜在能满足用户隐性需求;实现机制包括:基于跨需求变化时点不同核心需求的匹配,确定路径始终点。首先,改进随机游走等路径规划算法,基于路径经过节点和未变化的需求实体对应节点的关联度差异,确定最优路径,完成显性关系的采集;其次,引入基于逻辑的推理或图推理方法,基于已有节点关系,推理隐性关系;然后,引入链接预测方法,如马尔科夫链,基于已有网络结构预测节点间可能存在的关系,触发全局知识图谱的增量更新;最后,融合获取的所有关系,完成基层拓展。
将上述知识节点关系和基层整合,形成和科研进程时间序列一致的,由基层外拓的时序化多层空间。由基层向外,层次上知识对象的潜在需求迫切程度依次递减。实现机制包括:(1)实时查询的图结构建模。采用面向非结构化文本的实体、属性和关系抽取技术,构建查询图。(2)查询图和图谱子图的匹配度。改进已有的图结构相似度、语义相似度方法,经过线性组合计算,构建匹配度测度方法。(3)跨层搜索方法。根据知识插值和群体映射的局部性原理,优化搜索范围,对匹配度较高的子图节点,将其关联紧密的其他节点赋予更高的搜索优先级;引入层次索引模式,按层次的时序关系,由内到外,依次进行层内、层间搜索。(4)查询结果跨层融合方法。对应每个层内和相邻层间,匹配出若干组候选结果,每层产生一组,赋予本层的序号;每次融合只发生于时序上相邻两组间,从近时点对应组中识别具有高匹配度的子图a,确定需要补全的分支,到远时点对应组的候选结果中找到和该分支匹配度高的子图b,实现a、b 融合。
实时查询图建模:实时输入的查询实体可以是提问或检索语,将用户实时查询的非结构化文本转换为图结构模型;
查询图和图谱子图的匹配度测度:应用知识图谱描述知识空间,通过结构和语义匹配度的线性组合,计算查询图和图谱子图的匹配度;
时序化多层空间内的跨层搜索:提出优化搜索的方法,以跨层未发生改变的需求作为路径选择的“情境”,通过分析情境和备选路径的关系强度确定最佳路径,按层次的时序关系,由内到外,依次进行层内、层间搜索,依序搜索有利于优先搜索出迫切需要的知识,跨层搜索则使得搜索结果能满足专业、隐性的需求;
面向子图补全的查询结果跨层融合:如果缺少查询图的完全匹配子图(或匹配度不高),分属不同层的匹配子图要以提升融合结果的匹配度为目标,在相邻图层间依序进行融合,依序融合有利于优先融合迫切需要的知识,跨层融合则使得融合结果能满足专业、隐性的需求。
本研究提出整合应用科研进程中动态演化的用户需求能提升知识融合的效用。构建了能感知科研需求全景的知识融合模型,模型的产出是新知识,实现路径包括三点:(1)建立知识节点在专业上的关联,通过跨时点的不同核心需求间的匹配关系为依据,建立知识节点的关联,使得融合产出的新知识满足专业的知识需求;(2)确定解知识空间跨层路径始、终点,从而发现跨层知识节点间的隐性和未知关系,以此满足隐性的知识需求;(3)基于需求演化全景序列,进行基层拓展,建立按知识的需求迫切程度形成时序化结构特征的解知识空间,以满足迫切的知识需求。
早期研究主要关注用户静态的、断点式的需求在知识融合中的整合应用问题,本研究的意义在于基于科研进程中用户需求演化全景特性整合应用,支持知识融合,是一个新的研究视角。本研究提出的科研进程中用户需求全景感知的知识融合机制,为知识融合的拓展应用、知识服务的创新设计提供新的视角和理论基础,为知识融合的创新提供新的实施路径和技术,为开发知识融合系统提出大数据技术方案,能高效满足用户在科研进程中的专业、隐性,迫切需求,从而增强用户的洞悉力和创造力,加快“转识成智”。下一阶段,将根据本研究构建的理论模型,整合相关算法、平台,检验和优化本研究成果。