概率式关联可信中文知识图谱
——“文脉”

2022-02-03 13:12李文浩刘文长孙茂松矣晓沅
中文信息学报 2022年12期
关键词:维基百科词条词频

李文浩,刘文长,孙茂松,5,矣晓沅

(1. 清华大学 计算机科学与技术系,北京 100084;2. 清华大学 人工智能研究院,北京 100084;3. 北京信息科学与技术国家研究中心,北京 100084;4. 加州大学戴维斯分校 计算机科学系,加利福尼亚州 95616;5. 江苏高校语言能力协同创新中心,江苏 徐州 221009;6. 微软亚洲研究院,北京 100080)

0 引言

维基百科、百度百科等成系统的知识库,蕴含着群体智能所整理的丰富的信息,广大学界学者也对其进行了挖掘。近年来学界整理的中文知识图谱,如zhishi.me[1],XLORE[2]与CN-DBPedia[3]等,均是以维基百科、百度百科、互动百科等为知识源进行整理的。这些知识图谱均是根据维基百科的实体名片(Infobox)信息和分类体系(Category)信息整理得到。因为这两部分信息具有定义明确的关系名称和术语体系,更便于抽取结构化的三元组。

但维基百科中同样具有数量庞大的内部链接(以下简称“链接”)信息,如图1中,关羽就与刘备、曹操等相关人物,《三国演义》等作品,以及“五虎上将”等称号相链接,但这些都是关羽的Infobox中不具有的和关羽相关的重要关联性信息。并且,我们进一步发现,在关羽词条的定义文本中,该链接实体出现的频度也可以作为此链接重要程度的合理度量。举例来说,关羽词条文本中出现“刘备”的次数,比出现“秃发傉檀”(十六国一君主,曾对关羽做出评价,故有链接)的频度更多,而其与刘备的关系也与秃发傉檀更强。故而,我们利用这一基本思想,利用文本处理中常见的TF-IDF指标对这种边权强弱进行了度量,并将边权归一化得到了转移概率,构造了概率关联式知识图谱。

但这种链接亦存在一个问题,即其中可能有偶发提及,如关羽词条中提及了优酷、朱子语类等,但关羽与其的关联明显较弱。为了解决此问题,我们设计了一个基于图表示学习等特征的可信链接筛选机制,对此类链接进行了去除。最终构造出了一个概率式关联可信中文知识图谱,我们将其命名为“文脉”。

故而,本文的贡献点如下:

(1) 利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。这种概率式中文知识图谱的构建方法当属首例;

(2) 提出了一种基于图表示学习等特征的可信链接筛选机制,对偶发链接进行了去除,使知识图谱更加可信;

(3) 将得到的知识图谱“文脉”在GitHub上进行了开源,并制作了展示界面。

本文的第1节介绍中文知识图谱资源的相关工作。第2节介绍如何预处理维基百科的数据及如何从中构建边和得到边的权值,包括实体整理、频度计算与边权指标选取。第3节介绍可信链接筛选的相关方法。第4节介绍数据统计信息与开源地址。第5节为总结。

图1 维基百科的词条页面示例正文中深色的为链接信息,页面右方为实体名片信息

1 相关工作

现有的有论文支撑的中文通用知识图谱开放资源,大多数都是以维基百科、互动百科和百度百科作为知识来源,尤其将其中的Infobox信息和Category信息作为信息提取的来源,而特殊地,zhishi.me[1]还运用了外部链接等信息。CASIA[4]利用了其他的非结构化文本信息,即利用新浪微博和搜狗新闻的文本信息,利用模板的方式抽取出一些特定关系的三元组。 XLORE[2]和 XLORE 2[5]进行了跨语言的实体对齐,并利用英文维基百科中的信息对中文百科进行了补充。而CN-DBPedia[3]和CN-DBPedia 2[6]则是利用了神经网络对实体的属性和类别进行了补全,并利用神经网络和人工标注的方式进行了错误修正。

但是,正如引言所述,其所有知识图谱都以三元组的形式出现,其边均无边权或概率转移的信息,这正是本文工作的创新点所在。

2 实体整理与边权计算

2.1 实体整理

因为本文主要进行中文知识图谱的构建,故而我们只希望保留中文实体有关信息,因此,我们对维基百科原有的条目通过以下几个步骤进行了整理:

(1)繁简转换: 将繁体的条目与描述文本均转换为简体。

(2)非中文条目去除: 对于条目名称中完全不含中文字符的条目进行去除。

(3)消歧义条目去除: 对于维基百科的消歧义条目(即带有“(消歧义)”后缀的条目,为维基百科中的一种特殊的功能性条目,不指向实际实体)去除。

(4)功能性条目去除: 按照维基百科官方所给信息,对功能性条目(即起到构建维基百科体系功能而非描述现实实体的条目,例如类别(Category)条目,讨论(Talk)条目,用户(User)条目等)进行去除。

(5)重定向合并: 我们对维基百科中带有重定向关系的条目(重定向指维基百科会自动将对某个条目的查询发送到另一个条目,如“关圣帝君”“关云长”“汉寿亭侯”等均会重定向到“关羽”)进行了合并。

由此,我们得到了所构建的知识图谱中的实体列表,用于下一步的抽取。

2.2 频度计算

在得到实体列表后,我们利用维基百科条目文章中对其他条目的内部链接构造有向边,得到链接图。根据此链接图统计每条内部链接所对应的边中,尾实体(该边的终点)在头实体(该边的起点)所对应条目文章中提及次数,以进一步得到该边的边权。在这一步统计中,我们做了如下详细考量:

(1) 对于有多个重定向名的实体,分开统计其每个重定向名的出现频度并将这些频度之和作为该实体在此条目文章中出现的总频度。

(2) 对于实体名中带有说明的实体[如“建安(东汉)”],利用其去掉说明的部分(此例中“建安”),进行统计。因为在正文中,此实体往往以去掉说明的形式(此例中“建安”)而非带说明的形式(此例中“建安(东汉)”)进行提及,故而我们以前者作为匹配的依据。

(3) 对于任一维基百科条目文章,只统计正文,而不统计参考资料、外部链接、扩展阅读、注释等信息。

(4) 因为维基百科条目文章在前文提到一实体,对其加上内部链接之后,往往在下文再次提及时不加内部链接,故而我们统计时对所有加内部链接和不加内部链接的提及,都计入统计。但特殊地,对于单字实体,这种方法可能会造成较多错误统计,故对于单字实体只统计其加内部链接的部分。同时,若一源实体链接了多个去掉说明后重名的实体(例如“刘备”存在链接到“三国志”“三国志(动画电影)”与“三国志(漫画)”),则不加链接的提及,只计入不带说明的实体(此例中“三国志”)的统计。若不存在不带说明的实体,则不加链接的提及不计入任何实体的统计。

(5) 若一实体名为另一实体名的子串,则在父串出现处,子串出现不计入统计。

2.3 边权指标选取

通过以上统计方式,我们得到了链接图中每条边所对应的出现频度,即尾实体在头实体条目文章中对应的词频(Term Frequency,TF)。我们同时还可以得到每一实体在多少条目文章中出现过,作为其文档频率(Document Frequency,DF),我们利用这两个指标,计算出TF-IDF(Term Frequency-Inverse Document Frequency)作为边权,再对每个实体图谱中对应的出边进行归一化,得到每条边的转移概率。而我们选择TF-IDF而非简单的词频作为边权的衡量指标的原因,是因为其能更好地识别出链接的独特性,使得到的边权值及排名与客观事实更加接近。

例如,表1为实体“琵琶”所链接实体中边权值排名最高的六个实体及其边权。可以看出,如果单纯对TF进行排名,“唐朝”“中国”等实体都是高于“拨弦乐器”的。但是“拨弦乐器”与“琵琶”的关系显然更具有独特性,关系更强。而利用TF-IDF进行排名就能更好地捕捉到这种独特性。

表1 边权指标对比

3 可信链接筛选

正如引言中所述,维基百科的有些链接为不可信偶发提及,故而我们需要将其从知识图谱中去除。故而我们利用一些指标对链接是否可信进行了衡量:

词频指标经过对大量例子的观察我们发现,上文提到的弱链接,往往是词条只在文章中偶尔提到一次或两次。如果在某一词条维基百科正文文本中该词条被提到三次或以上,则证明这一种提及并非偶然提及,而是暗示了这两个词条之间的较强关系。故而,我们所取的第一个指标,就是对所带词频属性大于或等于3的链接全部进行保留。

双向指标我们还对两个实体链接的双向性进行了观察。在我们的观察中发现,如果两个实体互相有连接,即有双向连接而非单向连接,说明两个实体的连接也是稳定的,这也与我们的直觉符合。

TF-IDF增加比例指标对某些对应文章较短的实体,因为其总体链接较少,故而其词频较低的链接很多也是强相关的,对这些链接我们也应该予以保留。经过对多个指标的观察,我们确定了TF-IDF增加比例这个指标,并也将其作为保留的依据之一。其计算方式为,先把一个实体链接指向的实体按照第2节所计算出的TF-IDF值进行排序,然后按照式(1)计算出每个链接所对应的增加比例。之所以选取这个指标而没有简单地保留定量的实体,是因为这个指标能更好地在关联链接数目不同的实体之间动态保留不同数目的链接。经过对大量例子的观察,我们对增加比例在0.005以上的实体进行了保留,如式(1)所示。

(1)

链接图表示指标以上指标主要是利用每条边本身的信息对是否保留进行判断。除此之外,我们还想利用链接图的整体特征,即利用每条边邻域的拓扑特征,对这条边的强弱进行判别。这就需要用到图表示学习的方法,对每个节点到每条边的特征进行建模。在这里,我们主要使用了两种图表示学习方法,TransR[7]与PTransE[8],前者将不同关系建模为不同空间,加强了模型针对不同关系的特异性;后者对关系的多跳路径进行建模,考虑了关系的复合。但要训练这两个模型,则必须有每条边上的关系,因为TF-IDF过于连续,不好进行划分,故而我们利用每条边对应的TF值对关系作了划分,也是基于上文所提到的“词频大于或等于3基本都不是偶然提及”这一思想,具体算法如下所示。

表2 两种知识表示学习方法“关羽”词条结果比较

续表

(1) 若TF=1,将关系标注为“存疑(Q)”。

(2) 若TF=2,将关系标注为“弱(W)”。

(3) 将每个实体的每条出边按照TF从大到小排序,若其20%分位数对应边的TF大于或等于3,则将前20%的链接关系全部标注为“极强(VS)”。

(4) 将其余的关系标注为“强(S)”。

下一步,我们即利用这些划分好关系的三元组训练得到了TransR 和 PTransE两个图表征模型。在推断时,我们对每条边枚举四种关系并将关系三元组输入模型中,得到模型的损失函数值作为每条边的强度分数。对词频为1的链接,我们选取了极强关系或强关系损失函数排名在所有相连实体的25%以内的边予以保留;对词频为2的链接,选取了极强关系或强关系损失函数排名在所有相连实体的30%以内的边予以保留。在指标选取时,我们对TransR和PTransE两种方法得到的结果进行了对比,“关羽”词条的部分结果比较如表2所示。其中,刘表为关羽一时之主,庞统为其同殿之臣,均与其高度相关,两种表示学习方法也一致同意将其保留。而“东京梦华录”“晋出帝”“李德裕”与其不太相关,两种表示学习方法也一致同意将其删去。在有分歧的几个词条中,关羽为章回小说《三国演义》中主要人物,其正史《三国志》注为裴松之作,而章武为刘备之年号,此关彝为关羽之孙,刘封为刘备之继子,两种方法的保留都有一定的合理性。故而,我们选择将两种方法均作为其为我们此处知识表示学习的方法,即对两种方法保留的实体取并集,作为这一部分最终保留的实体。

若以上四条指标满足一条,则将此条链接保留,如果均不满足,则去除。经过这一方法的筛选,我们就得到了的最终结果——概率式关联可信中文知识图谱“文脉”。这种筛选方式针对“关羽”词条的部分筛选结果如表3所示。从结果可以看到,基于这四个指标的可信链接筛选机制,可以较好地保留可信链接并删除不可信链接。在本例中,“朱子语类”“南齐书”“优酷”等实体,确实比起“青龙偃月刀”“廖化”“东汉末年”“五虎将”“黄中军”等实体与关羽的相关度更低。这证明了我们提出的要信链接筛选机制与人类直观较为符合。

表3 针对“关羽”词条的可信链接筛选结果展示

4 统计信息及开源信息

我们从原中文维基百科的5 441 558个条目中筛选合并出了979 951个实体,作为我们知识图谱中的节点。初步的维基百科链接图谱在这些节点上通过内部链接构造了16 719 189条有向边。在此基础上,通过可信链接筛选得到的“文脉”则保留了其中的15 277 295条边,去除率为8.62%。故而,我们最后得到的“文脉”有979 951个实体节点和15 277 295条链接边。

我们还将所挖掘的概率式中文知识图谱“文脉”在GitHub上进行了开源(1)https://github.com/THUNLP-AIPoet/ParCKG,同时,我们也编写了展示界面(2)https://williamlwclwc.github.io/KG-Demo/,用户可以自由地增加、删除节点,并查看每个顶点对应的实体链接状况,展示页面如图2所示。

图2 展示页面示例 在知识图谱“文脉”中和中心节点对应实体(上图中的“刘备”)连接边权度越大的实体,在左图离中心点距离越近,右图词云字体越大。

5 总结

本文通过对维基百科内部链接信息的抽取及定义文本中的词频统计,得到了维基百科实体之间的带权有向链接,并提出了一种可信链接筛选算法,对其中的偶发链接进行了去除,最终得到了概率式关联可信中文知识图谱“文脉”,并在GitHub上进行了开源,并构造了展示页面进行展示。下一步我们还会将维基百科的类别体系加到我们的图谱里,进一步添加图谱的丰富性。还拟基于此图谱,进行知识指导的自然语言处理和生成相关研究。

猜你喜欢
维基百科词条词频
维基百科青年
利用简单的公式快速分隔中英文词条
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史
APP
以关键词词频法透视《大学图书馆学报》学术研究特色
IBM的监视
汉语音节累积词频对同音字听觉词汇表征的激活作用*
借力HTML5技术在线多人协作编辑视频,维基百科正式迈入视频时代!