王燕红 司徒凌云 杨海平 程 为
(1.南京大学信息管理学院 南京 210023;2.南京农业大学信息科技学院 南京 210023)
知识发现的定义是由Fayyad等在1996年提出,指从数据集中提取有效的、新颖的、潜在有用的、可理解的模式的非平凡过程。知识发现过程呈现“数据—信息—知识”的逻辑演变[1]。从知识发现的视角,通过文献内容挖掘与分析建立文献内容之间的内部链接关系,向下通过具象化加工处理成时间、地点、人物等分类实体数据,向上通过关联化发现有价值的知识,表明数据分析有利于挖掘隐性知识并赋能知识发现,促使信息资源向知识型信息资源转换,体现出三者相互融合、层层递进的逻辑演变。
但武汉大学马费成教授[2]提出人工智能、大数据等新技术在很大程度上将传统的由事实、数据、信息、知识、情报(智能)所构成的、渐进式的信息链机构发生改变,对知识、情报和解决方案的挖掘可以在任意阶段进行。因而,本研究希望对南海书证目录的知识发现研究,通过利用知识图谱技术,在对数据进行深度挖掘和分析的基础上,提炼升华成知识,促使其实现直接从数据层到知识层的跨越,深度揭示不同知识对象,并支持关联与组织,从而探索知识发现的新研究范式。
在南海档案资料整理的检索工具编制方面,早在1948年, 我国著名图书馆学家杜定友先生编纂的专题书目《东西南沙群岛资料目录》[3]。此后,1973年福建省图书馆编纂的《我国南海诸岛资料联合目录》[4],1981年许崇灏、郑资约、杜定友、丘岳宋续编的《琼崖志略·南录》合辑[5];1994年,中国社会科学院中国边疆史地研究中心李国强、寇俊敏编辑的《海南及南海诸岛史地论著资料索引》[6];1998年,吴士存、沈固朝、李秀领编辑的《南海资料索引》[7];2013年,范伊然主编的《南海考古资料整理与述评》[8];2016年,国家图书馆中国边疆文献研究中心编著的《南海诸岛图籍录》[9](全三册),一直也从未停止。这些出版的文献整理工具都是对资料的梳理,通过目录学的方法将文献整理成不同类别的目录,汇集成册,逐渐实现了从文献层次到数据层次的迈进。
随着信息的数字化程度越来越高,资料来源越来越分散,整理工具也从原先的文献目录发展到了数据库等信息化平台。厦门大学图书馆构建“东南海疆研究数据库”以及南京大学信息管理学院协力中国南海研究协同创新中心构建的《南海文库》数字资源库,都昭示着数据库将成为今后做南海文献发掘与整理的重要基础性工具。但随着网络的发展和越来越多沉睡文献的公开,南海疆文献资料系统性、完整性、关联性不足的问题越来越凸显,现有南海疆文献整理与挖掘成果缺乏对文献资料内容的深度挖掘以及知识关联,需要从知识发现视角,对资料进行深层揭示,实现南海文献资料从数据层向知识层转化。
对南海书证目录的研究,将以构建知识图谱的方式,实现知识发现的目的。知识图谱是通过数据模型构建实体之间关系的图形,它是一种有向关系图,构建这张图的过程中,需要对原始数据清理,采用自然语言进行实体识别,基于特征向量构建实体关系,采用图论知识绘制实体和关系,采用数据挖掘技术获得知识,分析出潜在关系等,最终达到深入获得数据之间关联关系的目的,实现知识挖掘[10]。
2.1数据来源及预处理研究选取的是由厦门大学出版社于2018年8月出版《中国在南海的历史性权利及证据目录》[11]一书,本书是由李剑依历史事件发生的年代或朝代先后顺序对历史证据集中编排。对书证目录的实体标注与抽取,将以本书的主体部分,即第三章《南海主权证据表》作为主要的数据来源。另外,本研究采集了部分百度百科的数据作为明确实体实例的补充。《中国在南海的历史性权利及证据目录》的第三章《南海主权证据表》,它以半结构化的表格形式按时序列举组织了每一条证据的“主题序号”“序号”“时间(公元)/朝代”“事件/描述”及“文献来源”五大属性内容,其中有些同一描述在多个“文献来源”中被记载,凡空白之处与紧邻的上一表格框内容相同。文本中一条证据内容如例1所示,其中 表示单元格分割符,后面紧接括号内内容表示前面单元格的内容属性。
例1:S1 (主题序号)1 (序号)25-220年/东汉 (时间(公元)/朝代)有关“涨海”和“涨海崎头”的记载,其中“涨海”为我国古代对包括南海诸岛在内的南海之称谓,“崎头”为古代对海中的礁屿、浅滩的称呼,“涨海崎头”即泛指南海诸岛礁滩 (事件/描述)杨孚:《异物志》,见(明)唐胄《正德琼台志》卷9,土产下,药之属,引《异物志》,第14页。1964年上海古籍书店据宁波天一阁藏明正德残本影印 (文献来源)。
证据表中的“主题序号”是有实际意义的为字母标识,单字母标识是最上位大类,其对应含义见表1。
表1 主题序号及对应的含义表
利用OCR文字识别技术对《南海主权证据表》进行文本化处理,并参照原文本人工校对纠错,获得该表格中共有711条形如例1的证据记载,将近17万字,用于后续处理。
2.2书证目录与实体、属性的对应关系经过数据预处理,可以发现证据表是基于半结构化的文本组织,由于表格行列相关的属性,单独单元格的文本信息并不孤立,它与同行的其他信息同属一条证据,存在相关关系;与同列的其他信息同属一种信息类型,具有相似文本结构。因此根据半结构化数据的特点,可以以各列组成的不同相似文本集合为对象,分析文本结构,根据待抽取文本及其上下文的特征,定义规则对每一行即一条证据的各字段进行遍历抽取。本研究选择利用正则表达式表达规则构造文本匹配模式,从而获取不同规则对应的信息。
在信息抽取中,书证目录与实体、属性的对应关系,如图1所示。实体是指现实世界中客观存在并可相互区分的事物,在自然语言处理领域指文本中有特定意义、可指向某一具体事物的字段,如人名、地名等。从书证目录文本中抽取的四个实体分为引源著作、引源责任者、涉证岛礁、古地名。在“事件/描述”字段可获取文本中南海岛礁的实体信息,由于证据表中的每一条事件记载都具有历史性证据的性质,而岛礁名又是证据中的一个重要属性,因此为表示岛礁名在证据中的重要性,将南海岛屿这一实体类型命名为“涉证岛礁”,由于古籍中存在岛礁古今名对照的说明,所以增加“古地名”这一实体类型,用于揭示岛礁的古今对照关系。在“文献来源”字段可获取各条证据对应的记载出处,也即证据表中各证据的引源信息,对文本中的作者、书名、信息进行抽取,并从揭示这些实体类型具有引用源出处的性质对实体规范化命名,如作者对应“引源责任者”,书名对应“引源著作”等。
图1 目录与实体、属性以及实体与属性对应关系图
属性是属于描述实体某一性质的数据,在上面所抽取的信息中,有些数据是数值型数据而无法单独作为一种实体类型,例如时间、卷次等。由于时间与证据记载以及文献来源都是相互对应的关系,因此可作为“引源著作”的时间属性,除此之外,卷次、期次、页码都是在“文献来源”部分作为证据详细出处的补充说明,因此作为“引源著作”的来源属性。证据的主题序号用来揭示证据的分类信息,因此可以用“引源著作”与“涉证岛礁”两实体组成的每一组关系来对应各证据的主题属性。
2.3实体与属性抽取规则对于实体抽取的规则,本研究以南京大学中国南海协同创新中心所创建的《南海地名关键词表》作为依据,按照关键词表中的古今同义将所有地名关键词分为古名和今名两大类,在每一条“事件/描述”字段中,分别对古今两类各南海地名关键词遍历匹配,将每条证据中匹配成功的古今地名关键词抽取出来,即完成对每条证据中“涉证岛礁”及“古地名”实例的抽取。
引源著作即来自于“文献来源”字段中的具体文献,而文献的形式特点就是由书名号分割出来的,因此定义规则“《(.*?)》”,将“文献来源”字段中所有由书名号包括起来的字符串文本抽取出来,再在其起始字符前和终止字符后分别加上左书名号和右书名号,实现每一条证据中引源著作的自动抽取。
分析“文献来源”字段的形式特点,可以发现“引源责任者”的出现位置是固定的,它出现在“文献来源”的最开始,其最常见的两种模式是:“宋濂:《元史》……”“柯劭忞撰《新元史》......”,可以发现引源责任者与引源著作之间是相对较为固定的分割模式,比如冒号以及编、撰、校等动词,因此可以依次指定规则来抽取引源责任者,由“(.*?)[:|编|校|撰|著|辑]《(.*?)》”来返回由引源责任者和引源著作组成的抽取结果,而这一个结果对也是存在相关关系的两个实体实例。
对于属性抽取的规则,主题属性抽取通过逐行获取每一条证据内容,获取第一个单元格的内容即为“主题序号”,根据表1中提到的“主题序号”标识及其对应的实际意义,进行文本替换,用来揭示该条证据的主题类型。其中部分证据涉及多个分类,例如“S60/MS1”则表示该条证据同时属于“主权宣示”和“维权”两个主题分类,因此在文本转换时需要将两个主题序号都进行替换且并列存储。采取的方法是首先用“/”对主题序号中涉及多个分类的实例进行切分,再利用主题序号-主题类型对应表对每一条证据的主题序号遍历进行替换并抽取。
分析文本中的“时间(公元)/朝代”内容,虽然已经是较为规则的单一字段,但是仍有不同的书写格式,分析同种类型的文本格式,通过正则表达式进行匹配,获取字段内的时间及朝代,不同格式示例及对应正则表达式抽取规则,按照该规则分别抽取每一条证据中的公元时间和朝代。
卷次、期次以及页码的表达是相对固定的,例如卷次有“第1卷”“卷9”“上卷”这种常见表达,期次有“第16期”“第8、9合期”这样的固定表达,页码有“第1-2页”“第3页”这样的固定表达,同时,也有卷次、期次混合表达如“第8卷2期”,以及期次页码的混合表达如“第2期36页”等。由于文本中卷次、期次、页码总是在上下文接连着出现,因此当我们定义“第(.*?)期”的规则去抽取期次时,会在诸如“第1卷,第2期”这样的表达中抽取出“1卷,第2”这样错误的文本信息,因此采取对出现字符进行限定的方式进行抽取。最终,从书证目录中抽取到的信息如图2所示。
图2 书证目录信息抽取结构图
2.4数据审查依据规则对每一条证据中的各实体及各属性进行抽取后,就得到了证据中所包含的各实体实例以及实体属性值,也使得实体实例之间基于同属一条证据内容而建立起依赖关系,例如同一条证据中,“引源责任者”与“引源著作”之间存在着广义上的创作关系。但是,由于部分证据文本的细微差异性,因此我们需要对自动抽取的数据进行人工审查,例如基于原文本抽取“引源责任者”时分别出现以下两种情况:“(清)明谊”、“嵇璜、曹仁虎、戴衢亨”,前者需要删去括号内内容;后者需要按顿号分隔3位责任者。本研究选择两组审查人员分别对相同的内容进行审查,在审查结束后将两组审查结果进行对比,审查结果不一致的数据进行讨论并最终确定正确的数据。
完成对711条证据中各实体及属性的自动抽取与人工核对后,即形成了原证据表中各行证据里诸实体及属性组成的二维表,每一行文本信息来自于原证据表中同一条证据,每一列代表一种具体实体或属性类型。由于本实验构建南海地名书证索引的需要,因此对于每一行数据,“涉证岛礁”和“古地名”两种实体类型至少有一个非空,“引源著作”类型一定非空,经过筛选有462条证据在“事件/描述”字段有涉证岛礁或古地名实例的同时在“文献来源”字段中有引源著作实例。基于规则抽取出各实体实例的总频次与非重复实体实例个数见表2,抽取出的各属性实例总频次见表3。
表2 各实体实例总频次及非重复实例个数
表3 各属性实例总频次
2.5涉证岛礁消歧由文本表述的差异性和南海岛礁名在历史中演变,使得本研究中获取到的涉证岛礁名存在异名同指和同名异指的情况,只有对这些歧义进行处理,才能更好地集中细粒度的实体及其关系,更好地进行知识挖掘分析,因此应分别对其进行处理。
2.5.1 异名同指 异名同指的一大原因是文本中的表述差异性导致的实体名不规范,例文本中出现“东沙、西沙群岛”,当我们将其标注为两个实体实例时,“东沙”实际上指“东沙群岛”,对于这一异名同指的情况,由标注人员在熟悉原文本的情况下,结合上下文语境,判断实体是由于表述差异而导致的岛礁名简写,将其按照规范命名方式补全。异名同指的另一原因是岛礁别名,本研究采取的策略主要有两个方向:一是根据原文本内容提取出岛礁的学名——别名对应关系,其中学名在本研究中被定义为规范实体词;第二种策略是依据最大最全的中文百科信息集合——百度百科,根据人工标注的所有涉证岛礁实体词去重后构建词表,以遍历的方式利用关键词搜索爬取百度百科的基本简介和三元组信息,并对三元组人工筛选组信息,保存有“别名”“外文名”属性的实体词信息,作为对应实体词的属性补充及异名同指对应关系的数据支撑。
在《南海主权证据表》文本中及百度百科数据中,一个涉证岛礁的规范实体词最多可能包含除自身外13种异名同指歧义,表4列出了异名同指歧义数量大于等于3的8个规范实体词(规范实体词自身除外)。
表4 涉证岛礁异名同指数量最多的8个规范实体词
2.5.2 同名异指 同名异指在本研究种出现的主要原因是历史中对岛礁命名的演变,历史中曾有时期将多个岛作为一个总称。关于地名研究比较复杂,不同阶段有不同的分歧和研究成果,截止目前,只能根据多数结论作为参照。例原文本中出现内容:“‘万里长沙’即东沙和西沙群岛,‘万里石塘’指中沙和南沙群岛”,即“万里长沙”既指东沙群岛,也指西沙群岛;“万里石塘”既指中沙群岛,也指南沙群岛,它们均可看作两个涉证岛礁的规范实体词作为一个整体的别名。因此本研究中采取的策略与异名同指歧义消除一致,即抽取岛礁的学名——别名对应关系,不同之处是当别名指向两个作为整体的实体规范词时,构建两条关系,例:东沙群岛——万里长沙,西沙群岛——万里长沙。
3.1知识图谱节点及关系定义知识图谱的基本组成是节点及节点之间的相互关系,因此需要分别对其做出定义。首先以本研究中的实体类型为依据定义节点类型,“涉证岛礁”“引源责任者”和“引源著作”分别定义为三类。根据上面涉证岛礁消歧,实际上是对涉证岛礁做了进一步细分,即分为规范实体词和规范实体词的其他表达,其他表达主要有两种形式:一是历规范实体词史中曾出现过的别名,二是其外文名或外国称呼,因此,将规范实体词仍划分为“涉证岛礁”类型,并且由“别名”“外文名”分化出两种新的节点类型,共5种节点类型。
实体关系的挖掘来自于原文本,分析《南海主权证据表》文本内容,责任者对著作具有编、校、撰等多种不同责任,但是广义上,它们都属于创作,因此可以定义“引源责任者”对“引源著作”有“创作”关系。从证据记载的形式看,“引源著作”对“涉证岛礁”有“提及”关系,但是由于每条证据都根据其主题内容进行了分类,即对该证据的描述可以划分为对中国主权立场支撑的某种确定主权类型(具体分类见表1),因此可以采用证据的主题范畴进一步将“提及”细化为8种关系,从主题分类的角度更深层次地揭示“涉证岛礁”在何种主题内容内被“引源著作”提及,完善历史文献对主权相关事件记载的信息与意义。根据百度百科三元组信息及原文本内容分析,无论是别名或外文名,都曾是历史中某一国家或朝代对相关岛屿的称呼,因此定义“涉证岛礁”对“别名”和“外文名”有“地名演变”关系,用来显示它们之间因时间或空间差异所导致的同义关系。
在构建知识图谱的过程中,除了节点和关系,还有属性需要定义。首先,《南海主权证据表》在组织证据时,是以历史时间排列,而这一确定的历史时间与文献来源中有相关记载的历史文献发表时间是吻合的,因此,将之前从文本中抽取的公元纪年及朝代作为“引源著作”的属性,从时间维度完善知识图谱,可以为研究提供更多知识分析的角度。另外,在涉证岛礁消歧过程中采集的百度百科数据,其基本简介和部分三元组信息,可以作为“涉证岛礁”的属性,既可以帮助明确每一规范实体词的实际意义,也易于与其别名、外文名区分。定义完节点与节点之间的关系以及它们的属性,则构成了知识图谱基本的关系描述模型。
3.2知识图谱架构及数据存储根据上面提出的知识图谱基本关系描述模型,首先需要选择关系数据库来表示关系描述模型,并以数据库的形式对人工标注并抽取的单张二维表进行分解,转化为表示关系描述模型的多张二维表进行组织和存储。根据上文,单张二维表中是存储了主题类型、时间、朝代、涉证岛礁、引源责任者、引源著作的六元组结构,它们之间存在一一对应的关系,二维表分解的主要过程是在保持原有数据间关系依赖的基础上,以关系描述模型为基础,用节点二维表逻辑表示节点及其属性,并用关系二维表揭示节点之间的逻辑关系,构造数据库模式。在这一过程中遵守主键存在且唯一、外键参照主键、关系表两主键成员一一对应等原则,最终构建了5张节点信息二维表,以及11张关系信息二维表,其数据库模式如图3所示。
图3 南海书证岛礁索引数据库模式
Neo4j是高性能的NoSQL图形数据库,是构建知识图谱的高效工具,另一方面,它也方便直接将由二维表存储的数据转换为节点关系的存储形式,因此本研究利用其构建南海书证岛礁索引的知识图谱。将5张节点表和11张关系表转换为完成后,共得到733个唯一节点,1 494条唯一关系,具体节点及关系数据如表5所示。
表5 各节点及关系数
3.3基于知识图谱的知识挖掘与分析通过Neo4j,最终构建南海书证岛礁索引知识表示模型如图4所示。在知识表示模型中,可以清楚看到每一条书证目录信息里的知识都可以通过实体及其属性之间的表示和关联来揭示。其中“公元时间”“朝代”的时间属性和“卷次”“期次”和“页码”的来源属性直接属于引源著作,通过与引源责任者的关联来揭示书证目录中书证来源相关的知识;引源著作与涉证岛礁之间的关系则揭示了当前书证的文献来源信息与证据内容,从而在实体关联的基础上实现了单条书证知识的细粒度表示。基于书证目录的知识表示模型,将非结构化或半结构化的文本内容进行结构化表示,完成批量书证目录知识的规范化描述,并在此基础上实现书证之间关系的挖掘。
图4 南海书证岛礁索引知识表示模型
基于书证目录的知识表示模型完成南海领域书证实例的知识图谱构建,并从书证关联、地名演变、创作关系三个方面进行了基于知识图谱的知识关联实例分析。
从书证关联的角度,以“中沙群岛”这一涉证岛礁的两条书证记录为实例进行关联分析与展示,如图5所示。《中国分省新图》和《海国见闻录》的两条书证通过“中沙群岛”实现了直接关联,两个引源著作在对“中沙群岛”的记录上的相互印证可以增强其作为证据的可信度,借此可以尝试去构建南海书证证据的证据链。以链接形成的证据组合能够对事实产生更为合情理的认知和信念, 远远大于单独考虑两个孤立证据的效果, 即“1加1”大于2。同时,在两个“引源著作”节点的“properties”属性确定了书证的详细出处,可以作为文献线索,查找书证原始文件。“涉证岛礁”和“引源著作”的关联中,两条书证的主题类型都属于“主权宣示”,进一步揭示了两者在主题类型上的关联性,后续可以从证据主题分类角度组织书证目录,进一步利用知识图谱。此外,在关系“properties”属性中的“content”完整存储证据内容,实现文献线索与内容事实的关联。
图5 书证实例知识图谱图
从地名演变角度,将涉证岛礁的别名、外文名进行关联,可便于搜集证据,查找国内外相关南海维权证据。同时挖掘这些涉证岛礁背后外文名的由来,例如曾经被侵占、争议,可以跟踪线索去查找相关国家的南海资料。如图6所示,“南沙群岛”“南海诸岛”“西沙群岛”的地名演变实例图。其中,西沙群岛的其中一个外文名为“Paracel Islands”即帕拉塞尔群岛,它是越南语的汉语音译,研究人员在查找外国文献时,亦可以用“Paracel Islands”作为检索词保证文献检索的检全率。
图6 “地名演变”实例知识图谱图
从创作关系揭示引源责任者与引源著作间的关系,可以发掘、处理南海维权领域重点文献资料以及重点的学者和研究者。多个引源著作涉及同一个引源责任者,说明这个责任者对南海的关注,可以深度挖掘该责任者相关的其他资料,确认是否还有遗漏未发现的南海相关书证资料,以及探究其关注南海的原因和目的,以加强书证证据之间的“有助益的支撑” 。“有助益的支撑”是指提升可信性的概率值。一个证据对另一个证据的助益并非使两者证成为真, 而只是促使彼此变得更为可信[12]。如图7所示,引源责任者康泰涉及创作关系的图书有四部《扶南传》《古海国遗书钞》《外国杂传》《太平御览》,将其作为重点关注对象,进一步了解这位引源责任者的相关资料。发现康泰是三国东吴时期吴国出使南海的官员,约在黄武五年,交州刺史吕岱派中郎将他出使南海诸国,进行外交活动。通过结合康泰的官方身份背景,其记载的南海有关信息的可信度将进一步增强。
图7 “创作”关系实例知识图谱图
通过实例,研究认为基于书证目录的知识表示模型可以完整且细致地揭示书证文献线索和内容事实,并通过实体、属性或关系的共现来揭示不同书证之间的关联关系,对知识图谱的利用,可以从书证关联、地点演变、创作关系等角度挖掘隐含知识,实现其知识发现的功能,后续也可以考虑从时间序列、证据主题类型等不同角度组织书证目录。
3.4南海书证目录的知识图谱构建意义南海书证目录知识图谱的构建能够部分实现南海维权文献资料的知识关联。通过系统梳理南海维权文献资源,使现存散乱的南海疆文献历史书证资料变得有序化、结构化、关联化,同时书证目录与证据内容的结合,为后续搭建面向知识关联的南海疆文献资料检索工具建立基础,搭建的检索工具能同时满足学者对南海文献历史性证据的“检” (找线索)和“索” (取原文)功能的“一站式”获取需求[13],提高研究人员资料获取的速度与质量,提升学者南海维权研究深度与厚度。
南海疆文献资料的书证资料作为历史证据,是其作为维权证据的重要一部分,是证据链构建的重要资源之一。南海疆历史书证证据的证据链构建是南海疆证据链构建的初步探索和尝试,为其他证据的证据链构建提供参考。南海书证目录,只是作为南海维权证据的证据清单呈现,其弊端在于纯粹的“罗列”,需要去实现“串并联”,而通过对其的知识组织、知识发现,能够呈现书证目录间的组织关系,表达事实认定的内在结构与逻辑轨迹,实现南海疆维权的证据链的表达[14]。南海书证目录知识图谱的构建,通过目录数据的序化,可以协助研究,减轻工作量,有利于进一步挖掘和整理。同时,它将大量数据中存在的各种实体以及其相关关系用图的方式形象准确地表述出来,有助于聚合大量概念主题,从而实现知识的快速响应和推理。
研究提出的定义规则的方式,成功抽取从南海历史书证目录中的4个实体,6种属性,实现了对历史书目证据的有序化、结构化,对后续南海维权构建证据链做好数据基础。同时,对涉证岛礁、引源著者、引源责任者、古地名等实体进行揭示和关联化,通构建南海书证岛礁索引知识表示模型,完整且细致地揭示书证文献线索和内容事实,并从书证关联、地名演变、实体关系等多角度深度挖掘南海书目证据中的隐含知识,通过知识图谱以可视化方式进行展示,基本实现南海书证目录数据资源向知识资源的转化与升华。
但是,目前南海书证目录的知识图谱数据来源较为单一,后续的研究中可以提升数据规模,同时将其他类型的南海文献资料作为数据来源,将进一步利用知识融合等技术,对多数据源的知识进行处理,实现南海文献资源大数据碎片化知识的融合、关联与深度挖掘,提升知识发现的深度与广度。