基于PageRank的领域知识图谱核心概念识别方法研究

2018-06-14 05:46王祎珺高俊平
数字技术与应用 2018年3期
关键词:三元组网页图谱

王祎珺 高俊平

(1.西南石油大学网络与信息化中心,四川成都 610500;2.西南石油大学研究生院(一流学科建设办公室),四川成都 610500)

领域知识图谱在学习中具有重要的作用,对学习者学习领域知识、了解知识发展脉络与演进关系具有重要的指导意义[1]。随着互联网技术的发展,各行各业的数据信息量呈井喷式增长。网络信息数据具有数量庞大、内容丰富、类型多样、流动性强、无序性大的特点,因此,需要挖掘出领域知识间所隐含的特殊的某种关系或联系,而领域知识间的演化关系对于协助梳理领域知识的前序和后续逻辑关系具有重要意义。利用领域知识演化关系抽取的研究[2],所得到领域知识的演化关系三元组,可以构建领域知识图谱提供逻辑关系,为学习者了解知识的发展进程提供了方便。但是,对于一个新兴学科,并不能揭示该领域中对学习者具有重要指导意义的核心概念或知识。针对这一问题,本文提出基于PageRank的领域知识图谱核心概念识别方法,并验证了该方法的可行性。

1 相关现状

知识图谱作为一门新兴研究,知识图谱的构建主要是以引文分析与共引、耦合网络、词频分析与共词网络、社会分析与科研合作网络理论为基础。知识图谱的应用为科研、教育、社会问题解决领域带来了便利。

但是对于新兴的知识图谱,需要从中识别蕴含丰富的有价值的知识或概念,给学习者的学习提供指导。在情报科学中,有类似识别具有情报价值主题的研究。殷沈琴等[3]根据时间序列进行分析,揭示其研究的发展趋势和方向。唐果媛等[4]以关键词频次和共现频次量化计算为基础,通过计算主题相似度,来分析学科主题的演化轨迹。叶春雷等[5]利用LDA模型进行优化,实验证明能够有效提升识别效率。Martin提出利用文本中抽取的术语来构建概念图,克服了向量空间模型中关键词独立的缺陷,较基于特征和基于结构的知识发现更优[6]。基于频次、词典的方法是最简单、使用最广泛的主题识别方法,但仅根据主题词的频次和分布情况进行识别,并未考虑主题词间的关联,难以全面揭示文本中蕴含的主题信息。

表1 点度中心性前5数据结果

2 基于PageRank的核心概念识别方法

知识图谱是一种重要的可视化分析工具,以图结构的模式,直观、清晰地展示其中结点和边对应的对象及关系。随着信息抽取技术的发展,如何准确识别文本主题重要度一定的必要性。所以,根据中心度来区分主题的重要性,进而识别出核心主题以及主题之间的结构关系成为了可能。

PageRank算法是通过分析网络的链接结构来获得网络中网页的重要性排名,其借鉴了传统引文分析思想[7]。详细的,设网页 p的页面重要度为 P R(p),Ti为指向网页 p的其他页面,其中, i = 1 ,2,...,n ,设C(Ti)为网页 Ti向外指出的链接数目。可以得出网页 p的 PR值是。改进后的PageRank算法提出设定基尼系数α为0.85。所以,一个网页p值可以由下式表示: P R(p ) = ( 1- α ) + α。

本文先根据基于CRF的句子层面上关系抽取算法,抽取出句子中包含的演化关系三元组对象[2],再利用基于以PageRank的知识图谱中核心概念识别算法,识别知识图谱中的核心概念。

知识图谱核心概念识别主要有5个步骤:

(1)参数构建:利用句法分析函数对句子成份进行处理,解析句法结构;(2)特征选取:利用特征选择函数对句子进行特征抽取;(3)序列标注:利用CRF模型对句子成份进行序列标注,训练抽取模型;(4)关系抽取:利用关系抽取函数获得演化关系三元组;(5)点度中心性计算:利用PageRank算法计算获取到的演化关系三元组中概念的点度中心性,再根据点度中心性排序,将结果输出。

最后,通过计算点度中心性的结果,结合人工评价的方法判断计算结果的准确性与有效性,验证算法的可行性。

3 实验结果

实验数据来自于中文维基百科,选择了与“机器学习”领域知识话题相关的1000个网页进行实验。利用获取的演化关系三元组计算各概念的点度中心性,选取点度中心性排序前5的数据结果,如表1所示。

从表1可知,点度中心性靠前的概念为“机器学习”、“信息论”、“概率论”、“统计学”等,表明其是重要的核心概念,这也表明数据来源的相关性与准确性,为验证这些概念是知识图谱中的核心概念,选取机器学习领域知识图谱中包含这些概念的部分知识图谱[2](如图1所示),进行人工评价。

从图1可以看出,“机器学习”、“概率论”、“统计学”等概念点度中心性较高,是连接各种概念的重要节点,表明其是学习中需要重视的知识,即核心概念。由于选择的仅是局部的知识图谱,而且只计算各概念的点度中心性,忽视了概念间的有序关系,因此图谱中只出现了表1中的部分概念。但是根据人工评价,点度中心性能够反映概念的重要程度,鉴定其是否属于核心概念,因此本文提出的方法具有一定的可行性。

图1 机器学习知识图谱(局部)

4 结论

知识图谱的应用领域广泛,能够有效的给学习者了解知识间的逻辑关系具有重要意义,但是对于新兴学科,无法揭示该领域中对学习者具有重要指导意义的核心概念或知识。针对这一问题,本文提出一种基于PageRank的知识图谱核心概念识别方法,利用已获取的演化关系三元组,计算概念的点度中心性,再结合人工评价,验证了本文方法的可行性。由于PageRank算法存在主题漂移、偏重旧网页、忽视用户个性化等缺陷[8],可能对算法的有效性存在一定影响,后续的研究中可以尝试对该方法进行改进,以提高核心概念识别的准确性。在后续的研究中可以考虑中介中心性及接近中心性指标,从多角度检验本文方法的有效性和普适性。

[1]王萍.网络环境下的领域知识挖掘[D].上海:华东师范大学,2010.

[2]高俊平,张晖,赵旭剑,杨春明,李波.面向维基百科的领域知识演化关系抽取[J].计算机学,2016,39(10):2088-2101.

[3]殷沈琴,张计龙,任磊.基于关键词共现和社会网络分析法的数字图书馆研究热点分析[J].大学图书馆学报,2011,29(4):25-30.

[4]唐果媛,张薇.基于共词分析法的学科主题演化研究进展与分析[J].图书情报工作,2015, 59(5):128-136.

[5]Ye C, Feng L. The research of theme identification in scientific documents[C]// IEEE International Conference on Computer Science and Automation Engineering. IEEE, 2012:715-718.

[6]Martin B, Eklund P. From Concepts to Concept Lattice: A Border Algorithm for Making Covers Explicit[C]// International Conference on Formal Concept Analysis. Springer-Verlag, 2008:78-89.

[7]李稚楹,杨武,谢治军.PageRank算法研究综述[J].计算机科学,2011(b10):185-188.

[8]宋歌,叶继元.基于SNA的图书情报学期刊互引网络结构分析[J].中国图书馆学报, 2009, 35(3):27-34.

猜你喜欢
三元组网页图谱
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
特征标三元组的本原诱导子
绘一张成长图谱
关于余挠三元组的periodic-模
基于CSS的网页导航栏的设计
补肾强身片UPLC指纹图谱
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
10个必知的网页设计术语
三元组辐射场的建模与仿真