孙浩洋 沈固朝
(1.南京大学信息管理学院 南京 210046;2.中国南海研究协同创新中心 南京 210046)
文献资源是史地研究的基础,传统研究对于文献的运用主要是基于研究者自己对其知识内容进行人工挖掘和展示,但随着文献数量的激增和用户对知识获取精准、便捷和高效的需求,要求文献工作者深入文献内部,对海量、细粒度、半结构化的数据进行深入研究,挖掘其内在特征和潜在联系,将文献内容元素特征及相互关系以一种更直观和可视化的方式呈现出来,便于计算机进行数据层面而非传统的文献层面的处理,也就是说,从过去以篇为单位展开的检索语言研究转向到从段落、句子等更细粒化知识内容进行探索。知识元(Knowledge Element)的概念就是在这样的背景下提出的,它是不可再分最小知识单元,是包含了描述型语言及相关属性的集合。本文引入知识元对南海历史文献知识元内容标引与抽取规则进行探索性研究,对不同维度的知识粒度量化进行探讨,以期构造出历史文献中南海问题知识元模型,利用知识元关联争端事件演变过程,提高知识利用和挖掘效率。
在认知体系中,知识元构成知识及新知识单元的基础是其知识结构的最小元素(基元)[1],故知识单元包含了知识元。王渝丽将知识元定义为知识组成的结构要素,用来表示知识元的描述就是内容概括的关键词或词组,在人类认知体系中包括概念、定律、规则等[2]。孙成江认为知识元是可以根据用户需求、描述知识存取与组织、检索和利用的,能够自由切分的描述知识内容的最小知识单位[3]。
常见的文献资源知识元内容抽取方法是基于规则的抽取方法,借助句式结构、语言描述框架,对文献资源中的知识元进行识别和抽取,需要依赖专家对大量文本进行人工标注,并总结各类知识元的描述规则[4]。胡昌平提出用半自动化技术进行抽取,由专家进行少量知识元内容抽取,通过自然语言处理获得标识词,对标识词位置、语法特征等建立映射规则,结合专家经验对抽取规则进行完善[5]。化柏林采用内容分析法,分析大量文献,识别出科技文献中的方法知识元,将其定义为“定义、关系、特点、流程、功能”5个维度,并分别进行抽取[6]。赵蓉英基于主题词表对中文智库成果进行知识元抽取,归纳了知识元的描述规则,包括方法说明型和研究思路型两种规则[7]。毕崇武根据方法知识元在描述知识步骤、特征、关系等属性,构建了基于知识标识、基于知识描述和基于知识关系3个层面的知识元描述框架,并依据框架对方法知识元进行抽取[8]。
综上所述,不同领域对知识元的认知与研究角度不同,应用于文献与知识组织的模型也不一致。本文将完整描述民国南海文献中相关知识与概念的最小知识单元,定义为南海文献知识元,并借鉴上述研究提出一种从文献抽取知识元内容描述的方法:先识别知识元内容描述的动词,对动词在文本中的位置和语法特征进行规则组配,形成知识元内容描述规则,然后通过规则识别文本序列中的其他标识词,同时抽象规则;再利用规则匹配文献资源的文本内容,抽取满足条件的内容描述,最后进行人工校对,保留满足规则且符合内容描述的知识元入库。
民国时期中国南海问题的文献资源具有当时的时代特性,反映着当时外交、民生、社会、学术领域最真实最前沿的问题和探讨,是佐证南海问题主权归属的重要环节。南海文献知识元的内容由对知识内容描述的完整语句、段落或者篇章组成。知识元的名称是基于知识元标识词——规范化文献资源的标题(档案资源中标为“事由”)与知识元属性如背景、关系、结论等组合而成,这些属性在知识元来源中并非都有直接的、显在的表示,但却可以通过对知识内容描述分析后得到,可称为隐性属性。由于南海文献内容多样而复杂,基于前文对知识元的描述,现提出基于规则的民国南海史地文献知识元提取方法,其规则提取模型如图1所示。
图1 基于规则的知识元提取模型
首先,对民国南海文献类型进行确定,其中包括政府文件和公开资料(如论文、剪报、地图等),根据获取文献信息的元数据,确定类型的文献文本,直接获取知识元的来源。其次,对文献的文本进行分句,利用主题词构建知识元标识词表,结合句法匹配规则提取出对知识元内容进行描述的候选句,对候选语句归纳总结,形成术语句式,采用人工校对与分类,对知识元内容描述规则进行提炼,形成规则模板;对于候选语句中无法形成术语句式的句子,识别谓词扩展补充知识元标识词表。再次,将南海文献分句与知识元内容描述规则进行匹配,通过人工干预确定知识元的内容。最后,将获取的知识元内容信息,与文献元数据结合,获取文献资源中对南海争端问题内容描述的完整知识元信息,并将其抽取后存入知识元数据库中,方便将来南海维权数据内容获取。
为了能在计算机中实现对知识元内容提取,需要建立一系列提取规则,并进行规则描述。构建完善的抽取规则是知识元抽取的关键。正如前述,化柏林通过对大量文献进行内容分析,人工审核与合并归类,研究了基于模式的规则,利用已定义的3种知识元类型,使用规则对方法知识元进行抽取[6]。谭荧等则利用命名实体识别和事件抽取的模式,通过命名实体与触发词表的匹配规则实现事件知识元的抽取,并对于识别命名实体不同部分进行规则制定[9]。
研究民国南海问题的文献具有描述事件背景突出、聚焦问题前沿、语言丰富、学者各抒己见等特点,因而本文把民国文献内容描述的知识元分为陈述型和程序型,前者包括背景知识元、事实知识元等陈述型文字内容,后者包括方法知识元和过程知识元,具有内在逻辑的文字内容。见表1。
表1 民国南海文献知识元分类
陈述型知识元描述的是南海文献中对已存在的事实描述或者对争端事件进行背景介绍以及对于相关术语或者知识进行定义,或者对事件的评述、解决方案或事件结果直接进行内容描述,是知识元抽取的重要部分。通过对民国文献归纳,将南海问题描述的陈述型知识元分为背景、事实、定义和结论。
3.1.1背景知识元
背景知识元是研究者对南海问题发生的背景环境、现存问题以及已有认知情况进行的文字化描述。本研究通过对民国文献的整理,提炼出3种类型的背景知识元描述规则,分别由不同涵义的谓语代表直述型、观点型。见表2。
表2 背景知识元描述规则
直述型即直接叙述型语句,对南海文献中的人、事、物等直接进行语言描述和表示,不具备典型的规则标引语句,一般情况是由标识词表示知识元内容的主语,通过谓语衔接描述内容,由于直述型描述是对背景知识的介绍,没有句式上的修辞。观点型是描述者对文献内容背景介绍的理解描述,指示民国南海文献中背景描述的观点信息,其句式结构特点简单,规则架构一般衔接观点发出者,评述背景的观点内容或者作者对观点的释义,广泛存在于文献资源的综述研究、前期研究或对背景知识介绍后的作者评述,立场声明等内容之中。
3.1.2事实知识元
事实知识元是对南海争端发生的既定事实或事件信息的描述。本文将事实知识元分为观点型、事件型、序列型。见表3。
表3 事实知识元描述规则
观点型是对文献中观点的事实信息进行描述,其句式结构简单与背景知识元中的观点型描述规则类似,表述南海争议的立场和观点,广泛存在于前期研究成果或作者评述、国际立场声明等内容中。事件型是对南海事件的客观描述,具有明显的时间、地点或时间地点组合信息,通过标识词对事件概括,衔接事件的内容等信息的描述。序列型是一种形式化的描述,其句式通过序列连词与事实知识结合构成,既可以是描述顺序的第一、第二、第三等数字连词,也可以是首先,其次,再次等关系连词,在文献中大量的事实分类描述是通过序列型表达,对于事实知识元描述的内容具有表达明确,逻辑清晰,条理分明,结构清楚的特点。
在民国南海文献内容研究中,背景知识元和事实知识元数量庞大,构成了南海知识元的重要知识元资源库,利用上述规则识别、标引出南海知识元,使得以篇为单位的文章简化为以片段为单位的知识元,结合时空信息构成专属事实、背景知识元库,为后续研究提供客观资料。同时半结构化规则的归纳与制定也成为知识细粒化的资源结构,为南海知识元检索提供了方法。
3.1.3定义知识元
定义知识元多是对南海事件或争端问题中的政策概念、法律术语等概念和原理的解释。包括内涵解释型和外延解释型描述规则,前者对其概念原理的说明,后者描述其概念或原理的包含范畴,见表4。
表4 定义知识元描述规则
内涵型和外延型分别对应民国南海文献法理、命名等概念和原理内涵与外延的释义,内涵型是对描述的南海相关内容本身进行释义,一般标引出民国南海文献中的政策、原理、法律概念的解读。外延型是对释义的补充或所含有实例的解读,对同一定义的描述,其内涵型与外延型的描述规则共同构成对此知识元定义概念的描述。
定义知识元所描述的是已有或已研究或社会共识性已认可的概念定义知识。在维护南海主权层面,多为国际社会共同认可的法律概念或国家政策、法律法规的定义等。这些概念性知识描述对于南海维权中的理论学习、定义检索有直接的辅助作用。
3.1.4结论知识元
结论知识元是对南海历史事实或争端事件的客观事实、作用、推断等内容的描述,但具有明显的现在时或将来时的时间信息特点。与背景和事实知识元描述的最大区别就是时效性,背景/事实知识元都是在过去的时间点或时间段中对南海问题进行的描述,即对既成事实的客观描述,有明显的过去时表达特点。结论知识元同样分为直述型、序列型、观点型,与前者区别在于结论知识元描述南海相关内容的时间节点在选用事件主题词所表达的时间段之后。同时结论知识元还包括归纳推断型,共4种描述规则类型,见表5。
表5 结论知识元描述规则
归纳推断型是在民国南海文献中对内容描述归纳性结论型语句的表达,有两种表达类型,一类是用“由……可见/从……来看/通过……可知”等形式的语义描述规则将被归纳的对象与文本的结论信息进行连接;一类是通过“综上以观/由此观之……”等形式规则直接对上文中的内容描述进行归纳,并连接结论内容。
结论知识元是对民国南海文献研究内容的总结,用于指导、决策或建议,是组成南海知识元库的重要组分。其描述的内容是当时时事分析、研究讨论结果中知识价值最突出的知识资源,也是表达作者观点的重要依据。归纳推断型是对前期南海问题研究的深层总结,归纳性强。对已有的南海问题的探讨及研究得到的结论知识元,是从现实层面衡量民国南海文献价值的重要依据,也为后续研究提供了理论基础知识资源。
程序型知识元说明在民国南海文献内容描述中存在事件间或者内容间的内在联系,这种联系既可以是文本内容对研究方法的说明,也可以是对研究内容流程或文本描述过程的内在关系的表示,分为方法知识元和过程知识元。
3.2.1方法知识元
方法知识元在民国南海文献中的描述并不是直述式的表达,常常是文中段首概括性的描述,定为方法类型。方法类型是对文章的研究方法或者文献内容的详细情况摘要说明。如“……欲研究此问题,(进而/然后)……”对后文的方法知识描述进行概括,见表6。
表6 方法知识元描述规则
3.2.2过程知识元
过程知识元是民国南海文献逻辑上程序式的表达,是对文章内容撰写的步骤说明,是对文章中提出的研究问题做出应对的反馈,描述的是研究者对解决问题的研究过程,定为因果型,见表7。
表7 过程知识元描述规则
研究者对于南海问题事实的描述,更多的是对于事件内容以及研究过程的描述,揭示南海事件内容的内部关系,通过对过程的客观因果描述,引出研究者的观点和建议,内容描述服务于研究结论。
基于数据的民国南海文献知识元在“规则”的引导下进行内容抽取,具有细粒化文献内容、多维度语义关联的优势,对于民国南海维权内容研究、南海资料的数据挖掘与知识发现以及南海文献数字化研究有重要的应用价值。
前文中将南海文献不同类型知识元通过具体描述内容的不同分为了背景知识元、事实知识元、定义知识元、结论知识元、方法知识元和过程知识元,分别对每种知识元描述的语法规则与常用句式结合,归纳出知识元内容的抽取规则。根据上文知识元描述规则句法表达示例,可知不同知识元间有重复的类型描述,如直述型、观点型、序列型,不同的类型描述拥有固定的句式,这些句式中包括其固有的词组或固定的描述语序。利用上述描述的固定句式,归纳总结并提取一个规则模型,通过模型对不同类型的南海知识元描述进行提取。
上文对知识元描述规则做了详细的分析说明,根据其句式结构,语义描述特征,以及描述规则关键词和标识词的位置问题,将前文中方法类型的描述规则并入序类型,因果型并入归纳型。以此归纳出6种描述规则,用于形成知识元提取描述规则集合,分别是直述型、观点型、事件型、序列型、定义型、归纳型。
定义提取规则是多个知识元描述句句法规则的集合,在中文文本信息描述中,句法规则包含实体、词性、触发词(标识词)等几个组成部分,归纳总结其具体描述如下:
知识元抽取规则={ SR1,SR2,SR3,……SRi};
(SRi表示知识元描述句法规则)
SRi= <知识元属性><描述类型><知识元标识词><触发词><触发词词性><位置>,其中知识元属性包括前文中提到的背景、事实、定义、结论、过程、方法、建议、评价,描述类型包括直述型、序列型、观点型等。知识元标识词(Wi)是指相应知识元属性所描述的主题词汇或命名实体。触发词(Tw)描述知识元标识词即将链接的内容的主要谓词,是对知识元属性和描述类型确定的标识,例如定义型的用词常常是“所谓……”或“……是/包含……”。触发词词性(Tp)表示标识的触发词的词性。位置(pos)标识知识元的标识词与触发词的位置关系以及两者间的词距,有两种形式位置关系,即在标识词位置之前(pre)和标识词位置之后(sub),其词距步长设置为正整数,故而pre1则表示标识词与触发词之间的距离为1,说明两者是紧邻关系,sub1亦然。当描述的知识元标识词与触发词之间的距离小于2,则定义为两者是紧邻关系,没有数值时,则表示非紧邻关系。
在定义句法规则后,可以为前文归纳汇总的每一类知识元描述规则建立相应的句法提取规则,具体提取规则如表8所示。
表8 知识元抽取句法规则示例
根据上节中归纳的知识元抽取句法规则,将规则与标识词和文章描述内容的主题词结合,获取映射匹配结果,分析民国南海文献内容,匹配句法规则与文本内容的句法结构,利用匹配算法获取满足知识元抽取句法规则且包含有相应标识词及南海相关主题词的分句。根据知识元的内容描述规则提取民国南海文献中的知识元内容,将结果存入知识元标引数据库中。本节对知识元内容描述进行抽取,基于规则的时空角度民国南海文献知识元抽取流程如图1所示。
本文数据来源为教育部重大项目“民国时期中国政府维护南海主权的档案资料整理与研究”结项成果民国资料部分,共收集209篇民国时期的资料,包括报纸、报告、论文,全文化处理后共计约20万字,为了便于过程描述,本节选取《法占华南九小岛事》[10]第五节的一段内容进行说明,见图2。
图2 《法占华南九小岛事》第五节“理论上之推究”的知识元示意图
上述文档材料中双下划线的表示归纳型知识元,曲下划线的表示观点型知识元,点下划线的表示定义型知识元。据表8中的实例描述基于规则的知识元提取实现过程。表9则是从实例中提取的知识元句法规则组合及知识元名称及属性类型。
表9 知识元提取规则组合示例
根据文档《法占华南九小岛事》说明知识元内容抽取的实现过程,为了便于理解,此处对文档中定义知识元进行介绍。
a.参照上文总结的知识元描述规则,在计算机中构建知识元各属性的基于知识元描述规则的句法抽取规则表,构建定义知识元句法描述规则,其规则描述如表10所示。
表10 定义知识元提取规则句法描述
b.抽取文本描述标识词:“法占华南九小岛”,及文本主题词:“先占”。利用民国南海文献的标识词与句法抽取规则进行组配(标注标识词或主题词出现的位置),获取满足知识元内容提取规则的句法规则组合。如[标识词]+[句法规则]。
c.句法规则组配,得到知识元描述规则句法结构组合表,如表11所示。
表11 定义知识元描述规则句法组合
d.句法描述规则组合与分句结果进行匹配,提取候选语句。
分句结果:
①五 理论上之推究
②根据国际公法而推究此次法国占领九小岛事,法国并无充分之理由,查国际公法本有先占之原则,其客体须为国际法上无主之地。
③ 这就是说“惟没有国家领有之土地,方得为先占之客体,此项土地,犹如荒岛,无人类居住于该岛上,或为土人所居住,而其社会之组织不能认为国家者,十人所居住之地域,部落之组织不得视为国家”。
④又“凡属于一国之土地而该国抛弃之,亦得为先占之标的地”。
⑤今此项岛屿在我中国海之内为中国渔民历来居住,往来渔猎之所、且西南政府曾一度派员测勘,则此等岛屿不得视为无主之土地,盖已彰明昭著矣。
⑥且巴黎八月廿一日电称关于此次法国占领九岛中,内有二岛住有中国渔民。
⑦由此可知,法国所占领之九岛中,至少二岛有华人居住,有人居住之土地,岂能称为无主之土地乎?
⑧ 更进而言之:此项法国宣布先占之土地,即系中国所有,则法国当然无攘夺之可能。
⑨盖先占之成立必须为有效之占领,所谓有效之占领者须包含占有与管理(Possession and administration)之现象。
⑩ 而“占有须经公告,悬旗,惟此种形式之行为,除在其七地上有行政之设备,则其本身仅能成假定之先占。
获得候选知识元描述语句:②,③,④,⑥,⑦,⑧,⑨,⑩,,
e.人工选择,确定知识元(保留候选语句②,③,⑦,⑧,⑨,,)。
f.根据知识元各元数据提取规则,获得其属性信息,构成南海知识元,如表12所示。
表12 定义知识元示例
续表12 定义知识元示例
g.将步骤5与步骤6中获取的知识元的描述信息存入民国南海文献知识元库,并规范化南海知识元元数据信息。
为了实现民国南海文献知识元内容的准确抽取,提高知识元内容描述完整性,本文提出了基于描述规则的知识元抽取方法,实现从以篇幅为单位的主题词关键词抽取到以句为单位的知识元数据级抽取。首先将文献内容描述根据知识元分类分为陈述型和程序型,归纳总结多种方法对不同知识元内容进行抽取的规则模板,分别对其进行详细说明。然后根据归纳的规则模板,对民国南海文献进行匹配映射,获取满足规则模板的文本片段,通过人工筛选校对,保留既满足规则又能准确描述文本内容的知识元。最后对知识元抽取规则进行了验证,结果表明这种基于句法描述规则的知识元抽取方法能够较好地完成从民国南海文献中对知识元的抽取。
本文重点关注的是如何归纳总结知识元内容描述规则以完整地抽取民国南海文献中的知识元。在研究过程中发现这些类型中知识元的描述句法结构有独特的特征,利用其特征提取相应的知识元内容会出现冗余信息,增加人工校对工作量,因此如何降低冗余内容描述抽取结果需要进一步探索。同时,知识元内容抽取结果压缩了研究者对民国南海文献的阅读量,但提高了细粒度知识的获取质量和效率,为更准确地获取南海维权证据性材料提供了数据支持。