司徒凌云 石 进 杨海平 沈固朝
(南京大学信息管理学院 南京 210023)
南海疆占中国海洋国土面积的三分之二,不仅是国家安全的天然屏障、重要的出海口与战略通道,也是未来重要的能源接续区与资源基地。大国博弈背景下,南海疆维权关乎国家安全、区域和平与亚太经济发展。随着域外势力对南海疆域的持续介入与南海问题司法化进程的不断推进,加快收集、整理南海疆维权资料,深入挖掘维权证据,充分厘清证据关系,有序组织证据链条,设计构建南海疆维权证据链系统,已成为支撑南海疆维权斗争,服务中国海洋强国战略的重要任务与迫切需求。
众多研究机构在南海疆资料的收集与整理方面进行了大量工作,取得了阶段性成果。以中国南海研究协同创新中心、中国南海研究院等机构为例,经过十多年的努力,在对南海疆资料人工收集、整理、编码以及数字化的基础上,初步建立了文献数据库、法律数据库、地图数据库、网络信息数据库、影像数据库、民国档案数据库、索引数据库以及外国档案数据库。这些数据库群的建立为南海疆维权证据链系统的构建奠定了扎实的数据基础。
南海疆维权所需的历史证据和法理证据淹没在文献的汪洋大海之中,尽管数字化的全文数据库群可在一定程度上减轻了人们在传统图书馆中皓首穷经的时间耗费,但要从成千上万的图书、论文、网页、地图等数字载体上高效、便捷地读取所需的关键证据信息,仍然非常困难。南海疆维权证据链系统的构建就是致力于实现面向多形式、多载体的知识关联和内容分析系统,使之完成证据信息的挖掘工作,并清晰地展现给用户。目前,南海疆维权证据链系统构建所面临关键问题在于如何基于内容语义进行细粒度证据实体的抽取与表示,对多模态证据实体进行深层次的关系挖掘与关联,以及基于司法维权视角有效进行证据组织与可视化。
本文首先总结了南海疆维权证据链的国内外研究现状,指出了目前研究工作的局限;然后,在明确定义南海疆维权证据链相关概念的基础上,设计了南海疆维权证据链系统的总体架构与核心功能;接着,提出了基于多模态知识图谱的南海疆维权证据链系统构建技术体系,详细阐述了核心技术,包括多模态细粒度证据实体的抽取与表示,证据实体的多层次关系抽取与跨模态链接,以及司法维权视角下的证据链的有效组织与可视化。最后,从服务南海疆域维权实践、南海疆数据挖掘与知识发现,以及南海疆数字人文叙事三个方面论述了基于多模态知识图谱的南海疆维权证据链系统的应用价值。
南海疆维权证据链的研究涉及南海疆资料的收集与整理、证据链理论设计与构建实践、以及多模态知识图谱的应用。
1.1南海疆资料收集与整理国内外南海疆资料的收集与整理研究呈现出数据类型多元化、资料处理数字化的特征,目前基于南海疆资料进行维权证据链构建的研究较少。
1.1.1 数据多元化 随着南海疆资料整理工作的不断推进,资料来源、数据类型、载体形式极大丰富。除了传统的纸质文献外,音频、视频、地图、画像、口述历史、档案文件等也纳入了整理范畴。厦门大学的韩振华教授组织众多专家在全国各地搜集了丰富的历史记录,并于1988年出版了《我国南海诸岛史料汇编》,其中收录了各类文献形式的资料,包括图书、杂志、方志、地图、档案、报纸以及调查资料等[1];1996年中国南海研究院吴士存的《民国时期的南海诸岛问题》揭示了一批国民政府在南海诸岛主权维护上的档案[2];2016年中国边疆文献中心编著的《南海诸岛图集录》,以图文形式梳理了古今记载南海诸岛情况的文献与图像,共包含文献313种、图像876幅;2018年厦门大学的李剑出版了《中国在南海的历史性权利及证据目录》[3],为开展相关研究工作提供了便利。
1.1.2 资料数字化 资料整理工作从文本化走向数字化与智能化,数据库等信息技术被广泛用于南海疆资料的整理研究。1994年中国社科院边疆研究所的李国强编撰了《海南及南海诸岛史地论著资料索引》[4]。1998年,吴士存等编撰的《南海资料索引》[5]为资料的搜集与整理提供了便利;2015年,厦门大学图书馆的郑咏青以族谱、碑刻、田野调查、地方史料和中外地图资料构建了的“东南海疆研究数据库”[6];2012年开始,沈固朝教授依托南京大学中国南海研究协同创新中心和信息管理学院,组织南海疆数字资源建设,相关工作已持续了十余年,目前仍在进行中。这些数字化的资源建设为面向南海疆领域的知识组织与知识发现,以及南海疆维权证据链系统的构建奠定了扎实的基础。
1.2证据链理论与构建实践证据链的概念源于法学界,应用于海疆维权的研究,目前主要以理论研究为主,构建与实现仍处于起步阶段。
1.2.1 证据链理论模型 证据链的概念产生于司法实践,普通法与国际法学者在证据的认定标准以及证据证明力大小的评判等方面都存在分歧。陈为钢对刑事证据链的概念进行了梳理与归纳,将证据链定义为两个或两个以上证据的集合,是证据之间相互联结形成的能够相互印证、揭示案件事实的证明集合体[7];栗峥对证据链的结构主义进行了论述[8]。郑飞对证据链中证据的属性层次进行了探讨[9]。蔡作斌阐述了证据链完整性的标准与审查判断的规则[9]。这些研究主要停留在概念辨析与理论模型阶段。
1.2.2 证据链构建实践 2011年,Kuntze N使用可信计算模型构建了安全证据生成器,通过对安全事件的收集与关联构建了数字证据链[11]。熊胜于2012年利用BP神经网络对电子证据进行收集与分析,根据不同主线输出相应的证据链条[12]。马国富在2013年提出了可信电子证据的获取与鉴定模型,将证据链应用于司法鉴定[13]。秦东在2016年提出了三层框架的数据关联模型,为南海文献资料证据链的构建提供模型支撑[14]。2019年,陈书鹏设计了基于AI的南海主权证据知识管理系统[15]。张卫彬提出基于证明力大小构造论证中国拥有南沙群岛主权证据链[16]。这些研究所能处理的数据类型单一、以文本型数据为主,数据规模有限,未充分考虑司法维权应用场景的特征和需求,可拓展性有待提高。
1.3多模态知识图谱的应用多模态知识图谱技术对多模态数据的表示与关联能力可以很好的应用于多元数据的组织、分析与关联。国内外关于知识图谱技术的发展与应用研究已经有了一定的积累。
1.3.1 多模态知识图谱的发展 知识图谱技术最早由Google于2012年提出,经过近10年的发展,已经成为了一种有效的知识表示、组织、关联与展示技术,被广泛应用于推荐系统、自动问答、信息检索等方面[17]。2019年,多模态知识图谱[18]被提出,相较于传统的知识图谱,多模态知识图谱实现了对多种模态(包含视觉模态)实体的支持,可以对多种模态实体间的多层次语义关系进行关联[19]。以IMGpedia、MMKG、Richpedia等为代表的多模态知识图谱系统已经验证了该技术对多模态类型数据组织关联的可行性和先进性。
1.3.2 知识图谱的司法应用 在司法场景中应用知识图谱,国内外已有一些初步尝试。2017年FILTZ E提出了奥地利法律法规、法院判决的表示方法,并构建了法律、法规的知识图谱[20]。2019年陈彦光等利用文本分类和信息抽取技术构建面向刑事案例的知识图谱[21]。陈建峡等基于Neo4j构建了司法案件的知识图谱,并支持可视化展示[22]。但是,目前知识图谱的应用研究还是主要面向单一模态的文本类型数据,对于多模态知识图谱技术的司法应用研究较少。
系统总体设计是南海疆维权证据链系统构建的基础。我们首先界定了南海疆维权证据链系统的相关概念,然后基于软件工程方法设计了南海疆维权证据链系统的层次架构与核心功能。
2.1概念的界定南海疆维权证据链工程研究是融合法学、计算机科学、情报学等多学科的交叉学科研究。为了避免由于学科差异造成对相关概念理解的偏差,首先对文中出现的南海疆维权证据链相关概念,如证据、证据链、维权证据链、南海疆维权证据链以及南海疆维权证据链系统进行说明。
证据是指依照司法诉讼规则可被用于证明案件事实的各种证明材料[5]。证明材料是司法诉讼中当事人向法院提供的,法院依照职权收集的用于证明案件事实的材料。证据来源于证明材料,只有具备证据特征,即相关性、真实性、合法性、适格性以及证明性的证明材料才能称为证据[9]。证据分为直接证据与间接证据。直接证据是指能够单独、直接证明案件主要事实的证据。间接证据是指不能单独、直接证明,需要与其他证据结合才能证明案件主要事实的证据。证据的类型可简要概括为物证、书证、言证等。
证据链是指由两个或两个以上不同证据组成,用于证明案件事实的证据集合[5]。证据链要求逻辑性、顺序性、唯一性以及完整性的统一。其中,逻辑性要求构成证据链的各个证据之间存在必然的、内在的联系并且可以相互印证。顺序性要求证据链上各个证据的排布要按照一定的顺序,如案件发生的时间顺序等。唯一性不仅要求证据链的各个证据所证明的内容是唯一的,而且要求各证据构成的具有证明作用的证据链也是唯一的。完整性是指按照诉讼法的规定,经依法收集并提交法庭审查、判断,据以认定案件事实的证据所达到的确实、充分的程度[9]。要达到确实、充分的程度,必须满足:第一,对待证事实,即与案件有关的全部事实,都已收集与之相对应的证据;第二,所收集的证据已查证属实;第三,证据之间、证据与案件事实之间不存在矛盾或矛盾已得到合理排除;第四,借助上述证据进行逻辑上的分析、判断、归纳、综合,得出的结论是唯一的。
南海疆维权证据链是指国际司法诉讼场景下维护南海疆权益主张的证据链。其中,南海疆权益主张包括领土主权和主权性权利,一般通过证据说明早发现、早命名、先占等来进行证明[23]。南海疆维权证据链系统是以软件系统的形式,进行自动化的南海疆数字资料的存储与处理,实现多模态细粒度证据的抽取与表示、检索与关联、组织与展示等功能,应用于国际司法场景,为维护南海疆权益主张快速提供证明链条。维权证据链系统主要为研究人员提供被称之为证据的材料或信息。至于证据的价值,需要研究人员在证据学的指导下,参照有关学科的理论和实践经验进行判断。
2.2系统架构设计面向司法维权的应用场景,笔者设计了如图1所示的南海疆维权证据链系统的层次架构。自底向上,该系统可以划分为六个层次,分别为资料层、处理层、数据层、证据层、关系层以及应用层。
图1 证据链系统的架构设计
资料层是指南海疆相关的原始资料。资料的类型包括文献资料,如期刊论文、会议论文、学位论文、科技报告、图书报纸等;档案资料,即从各类档案馆收集的馆藏档案;图片资料,如南海疆相关的地图、画册、碑刻等;影音资料,即广播电视、历史口述、会议录音、人物采访的音频、视频等;法律资料,即各时期普通法与国际法中与海疆相关的条文与规范等。
处理层是指对资料层进行预处理的工具集,负责将粗粒度、非结构化的原始资料自动、批量地转化为细粒度、结构化的数据。该层主要包含外文翻译、文言识别、音视频文字化、元数据标引和分类,以及长内容的细化切分等,通过将庞大繁杂的原始资料表示为细粒度的、结构化的、全文化的可编辑数据,在经过一定程度的人工标注与语义转化后存储到相应的数据库。
数据层是南海疆的数据仓库,是存储预处理之后细粒度、结构化数据的多种类型数据库的集成,并提供对不同类型数据的维护与更新。数据层底层支持多种类型的数据库,包括关系型数据库、 图形数据库、列式数据库、 键值数据库和分布式数据库等。
证据层是南海疆维权证据链系统构建的核心。一方面,负责对数据库中存储的数据进行进一步的分析,实现数据到证据的转化,包括证据实体抽取、证据关系抽取、实体的消歧、共指的消解等。另一方面,负责对结构化数据进行自动化的属性标引,从而形成带标签的证据实体。
关系层是南海疆维权证据链系统构建的关键。一方面,负责对证据间深层次关系的抽取以及关联规则的挖掘;另一方面,负责将标记好的证据实体,根据证据关系与关联规则进行有效组织,包括证据属性共现关系的组织,司法论证逻辑关系的组织、以及证明力大小关系的组织等。
应用层是南海疆维权证据链系统的实际应用,主要面向具体用户,服务于具体应用场景,支撑具体的南海疆维权实际工作,包括证据实体的智能检索与排序,证据链条的知识图谱展示,证据内容的分享与推荐,证据知识的发现与关联等。
2.3系统功能设计南海疆维权证据链系统的主要功能设计如图2所示,大致可以划分为数据预处理、证据实体抽取、证据关系抽取、证据关联组织以及证据链应用交互等五大功能模块。
图2 证据链系统的功能设计
数据预处理功能模块对应一组预处理工具集,以实现原始资料的文本化、图片化和结构化。该工具集一般包括:a.外文翻译工具,主要负责将非中文的南海疆文字资料翻译为中文,将手写体转换为印刷体,以便于后续的处理;b.古籍识别工具,主要负责对历史文献中以书法、篆刻、文言、竖排等形式的古籍文字进行自动化识别与数字化;c.图片转译工具,主要实现对图片内容的识别,自动化将图片中出现的文字解析为文本文字;d.音视频打点软件,主要负责对音、视频内容进行解析,自动提炼出南海疆维权相关的片段;e.内容切割软件,主要负责对文本、音视频等长内容进行细粒度的切割,将长篇、冗长的文献与音视频切分为以句或段为单元,以分钟为单元的细粒度内容。
证据实体抽取功能主要有三个子功能构成,分别为基于规则的证据实体抽取模块、基于统计的证据实体抽取,以及基于学习的证据实体抽取,三个子功能可以独立使用,也可以融合并用。针对不同的数据类型,可以调整不同方法的使用。基于规则的证据实体抽取,基本思想是依赖人工分析与专家知识制定的通用的抽取规则,同时建立面向特定领域场景的语料库,进而通过软件程序实现自动化的实体抽取;基于统计的证据实体抽取的基本思想则是基于词频统计,将符合语料信息且频繁出现的关键词进行抽取,从而形成证据实体;基于学习的证据实体抽取一般先通过少量的人工标记,然后运用人工智能算法进行模型训练,进而基于训练模型进行实体识别。
证据关系抽取功能主要考虑三种层次的关系抽取,分别为属性层关系、逻辑层关系以及证明层关系。其中,属性层关系是通过对证据的时间、空间、人物、事件、类型、来源、载体等客观属性的刻画,并抽取不同证据之间横向(如同一、共指等)与纵向(如时间变化、地点迁移等)的关系。逻辑层关系是指证据论证运用的演绎逻辑与归纳逻辑关系等;证明层关系则具体指司法维权场景下证据材料类型证明力大小的关系。
证据关联组织功能主要基于证据属性、证据关系以及证明主张,按照一定的规则将证据进行结构形式上与语义内容上的组织,形成单一或复合链条形式的证据链。笔者设计了四种典型的证据关联组织模式,即基于属性共现的关联组织、基于论证逻辑的关联组织、基于证明力大小的关联组织和基于维权主张的关联组织。四种组织模式的制定源于实际的运用需求,其中属性共现的关联有助于快速的证据分类,论证逻辑的组织有助于诉讼下的证据博弈与推荐,证明力大小的组织有利于司法诉讼的证据选择,维权主张的组织有利于主张相关维权证据的快速检索。
证据链应用交互功能是为各类实际应用提供交互接口,服务于南海疆证据链系统的实际用户与具体场景。一方面,基于多模态知识图谱的南海疆维权证据链系统可以提供多种关联组织形态的可视化证据呈现,便于用户查阅与调整;另一方面,支持用户对南海疆维权证据各层次数据(包括原始资料、数据、证据等)的智慧检索与排序;同时,支持围绕特定权益主张展示多形态的支撑证据链条,以及证据主题聚类的知识图谱。进一步,还可以为南海疆数据挖掘与知识发现提供数据资源,为南海疆数字人文叙事启发叙述脉络。
基于多模态知识图谱的南海疆维权证据链系统的构建技术体系如图3所示,其核心技术包括多模态细粒度证据实体的抽取与表示、证据实体的关系抽取与跨模态链接,以及司法维权视角下的证据组织与可视化。
图3 南海疆维权证据链系统构建技术体系
3.1多模态细粒度证据实体抽取与表示技术证据实体的抽取是证据链系统构建的基础。原始的南海疆资料具有多模态与粗粒度特征。一方面,原始资料包含文本、图像、音频、视频等多种类型数据;另一方面,原始资料的证据知识粒度较粗,长篇的文献或音、视频资料中可能只有局部内容才可作为具有专指性、针对性的证据。为此,多模态细粒度证据实体的抽取与表示是南海疆维权证据链系统构建的核心技术之一。
第一,多模态证据实体的元数据建模技术。基于对多模态原始资料的预处理,包括文本化、图片化与片段化等,结合证据要素特征,构建证据多模态证据实体元数据模型,并从概念、属性、关系等维度对文本化与图片化的数据进行统一表示,以便于证据实体挖掘。
第二,细粒度证据实体的智能抽取技术。通过人工定义的抽取规则,人工标注细粒度证据实体构建原始训练数据集,进一步融合人工标注结果与机器学习算法(如条件随机场等)或深度学习算法(如长短期记忆网络等)进行证据实体的自动识别与抽取。
第三,多模态证据实体的噪声过滤技术。证据链要求的可靠和价值属性是建立在证据实体唯一性的基础之上,为了提升实体抽取的准确性,保障证据实体的唯一性,基于实体抽取的初步结果,使用聚类算法(如k-means算法等)合并语义相同的有效实体,并过滤掉语义相关性较低的噪声实体。
3.2证据实体的关系抽取与跨模态链接技术证据实体的关系关联是证据链系统构建的核心。在司法维权场景下,证据实体的关系不仅包含时间、地点、人物、事件等证据的客观属性关系,还包括因果、印证、对立等证据的论证逻辑关系以及证据证明力大小等关系。为此,证据实体的多层次关系抽取与跨模态链接是南海疆维权证据链系统构建的核心技术之一。
第一,证据实体的关系抽取技术。从司法实践的视角出发,利用深度学习方法实现对证据实体多层次关系的智能抽取,主要考虑三个层次的关系。属性层关系,如时间、地点、归属、人物、事件等;逻辑层关系,如是否存在因果联系、是否相互印证或是否相互矛盾等基于演绎推理与归纳推理的逻辑关系抽取是保障证据链逻辑性的关键;证明层关系,如基于证据的主题相关性、证据的载体类型分量、证据的客观性、真实性与合法性等要素界定的证据证明力大小关系等;
第二,证据实体的跨模态链接技术。基于证据实体与关系抽取的结果,进行多模态证据间的有效关联,主要包括:跨模态实体的消歧技术,利用语义模型实现证据实体的消歧,利用统计机器学习算法进行证据实体的共指消解;多模态实体的融合技术,对多模态的证据实体(如图片、文字等)采用不同的神经网络提取结构化表示,并引入注意力机制(Attention Mechanism)对多模态实体进行表示融合;跨模态实体的对齐技术,通过网页链接形式,对多模态的证据实体与关系进行表征。
3.3维权视角下的证据链组织与可视化技术证据链的组织与可视化是系统应用的关键。在南海疆维权的实践工作中,在司法维权的实际场景下,证据链组织的合理性、严谨性、完整性,以及证据链呈现的准确性、直观性,直接关乎权益主张的论证说服力。为了提高维权证据链在司法场景中应用的有效性与效率,司法维权视角下的证据链组织与可视化也是核心技术之一。
第一,南海疆维权证据链的组织技术。结合司法维权的论证逻辑、证据铺陈顺序特征,进行证据实体的有效组织,包括完整的属性共现关系链条组织(如时间序列链条、地点变迁链条、人物关系链条、事件发展链条等),严谨的论证逻辑关系链条组织(如因果逻辑链条、支撑证明链条、对立证伪链条等),多权益主张主题链条组织(如先占权益链条、有效统治权益证明链条等)。多维度链条的关系组织也是对于证据链顺序性、逻辑性、完整性要求的有力支撑。
第二,南海疆维权证据链的可视化技术。利用可视化工具实现证据链多样形式(如表格,鱼刺图、树状图、网状图、甘特图、气泡图等)的灵活展示,提供用户友好性交互接口,支持用户动态调整证据链的构成与组织,包括证据实体的剔除与补缺等,进而支撑不同立场下的证据链应用。
基于多模态知识图谱的南海疆维权证据链系统有着细粒度内容、多模态类型、多维度语义关联的优势,对于南海疆维权实践工作、南海疆数据挖掘与知识发现,以及南海疆数字人文叙事有着重要的应用价值。
4.1南海疆维权实践工作的支撑平台面向南海疆维权的实践工作,基于多模态知识图谱的南海疆维权证据链系统是重要的支撑平台。首先,它表现为证据链系统的应用,可以实现对海量、多元、异构的南海疆资料进行自动化预处理、细粒度切割、结构化存储,实现南海疆原始资料的批量清洗与精化;其次,证据链系统的应用,可以通过便捷的查询与推荐,为南海疆权益主张,快速提供证据的支撑;再次,证据链系统的应用,可以在司法维权的诉讼场景下,基于论证逻辑提供多维度的证据链条,用“证据组合拳”,驳斥对方举证;最后,在国际外交舆论战场上,证据链系统的应用,可以提供多重脉络、多种形式的证据链条展示,以直观、严谨、系统的证据链条完整地“还原”历史全貌,驳斥不当孤证的权益主张,有理有据地抵制和消弭歪曲历史真相的舆论,维护我国南海疆权益。
4.2南海疆数据挖掘与知识发现的资源库面向南海疆数据挖掘与知识发现,基于多模态知识图谱的南海疆维权证据链系统是重要的资源宝库。证据链系统的应用,可以一定程度摆脱对各种繁杂无序数据的人工处理,实现南海疆数字资源的自动化收集与整理;证据链系统中存储的海量、多元的有效数据,包括大量结构化的文献、图片、影音资料等,为进一步的海疆数据挖掘奠定了重要的数据基础;证据链系统中内置了的众多语料库与标记规则集合,集成了众多语义分析算法、智能分析工具、知识表示与知识推理组件,为面向具体问题的知识发现提供了便利条件;十多年来证据链工程建设已经较系统地抽取并梳理出了众多史实事件、时序关系、逻辑脉络,为进一步的面向核心争点问题的研究提供了重要的线索。
4.3南海疆数字人文叙事的重要依托面向南海疆数字人文历史叙事,基于多模态知识图谱的南海疆维权证据链系统是重要的依托,对于真实地还原史实、生动地叙述历史、讲好中国故事有着重要的意义。历史叙事对于史料的真实性、叙事脉络的条理性有着严格的要求。基于多模态知识图谱的南海疆维权证据链系统的应用,一方面可以基于真实资料构建的证据链条,实现从局部证据到完整内容的有效追溯,可以实现从碎片史料到关联史料以及全景史料的探究,可以实现从单一脉络到多重脉络的史实还原与印证。另一方面,基于多模态知识图谱的南海疆维权证据链系统已有的深层次关系挖掘与关联组织优势,可以为数字人文叙事的艺术创作提供新的启迪,创新叙事逻辑与脉络,揭示史料独特的解读视角,结合多种模态数据,利用多种媒体手段,以通俗易懂、生动形象的方式讲好中国故事。
笔者总结了南海疆维权证据链的国内外研究现状,指出了目前研究工作的局限与挑战,设计了南海疆维权证据链系统的层次架构与核心功能,提出了基于多模态知识图谱的南海疆维权证据链系统构建技术体系,并从服务南海疆域维权实践工作、南海疆数据挖掘与知识发现,以及南海疆数字人文叙事三个维度分析了基于多模态知识图谱的南海疆维权证据链系统的应用价值。
笔者认为,基于多模态知识图谱的南海疆维权证据链系统架构与功能的设计,以及构建技术体系的建立,可为南海疆维权证据链系统的实现奠定基础和指明方向。南海疆维权证据链系统的构建是一个复杂工程,应秉持以实际需求为导向、多学科融合为途径,人工与计算协同为方法,通过迭代式、增量式、反馈制导的方式有序推进基于多模态知识图谱的南海疆维权证据链系统的实现与优化。