●董 慧,徐 雷,王 菲,俞思伟(武汉大学信息资源研究中心,武汉 430072)
基于语义系统的中华史籍分析研究
●董慧,徐雷,王菲,俞思伟
(武汉大学信息资源研究中心,武汉430072)
[关键词]语义系统;中华史籍;本体
[摘要]随着知识需求的凸显以及网络的迅速发展,将语义技术应用于中华史籍研究成为新的研究课题。基于语义系统的中华史籍分析研究以“中华基本史籍分析系统”为依托,以《二十四史》为资源基础,建立了基于语义系统史籍分析研究的理论框架、技术路线、逻辑结构,论述了史籍语义系统的内涵,成功地开发了《中华基本史籍分析系统》,并理论联系实际制定了较为科学的史籍语义分析动态流程,为建立领域语义分析体系提供了新思路。
1.1基于语义系统的史籍研究现状
近年来,随着知识需求的凸显以及网络资源的快速发展,语义信息在计算机与信息系统的相关研究中呈现出越来越重要的作用。所谓语义信息,它属于知识的范畴,指与某一研究领域有关的语义实体以及语义实体之间的语义关系。其中的语义关系揭示了语义实体之间的数量、时间、因果、方式、状态等。语义系统,即语义信息系统(Semantic Information System,SIS),是一种特定的知识管理系统,以描述、提取、存储、处理、组织、查询和分析某一个领域大量语义实体以及语义实体关系为目的。目前,在人文历史学科,特别是古籍研究领域,语义资源是一种稀缺的资源。人文历史学科知识的语义系统构建研究更是甚少,相关古籍的数字化程度也比较低。由于人文历史领域知识资源的时空依赖性、主观性、模糊性和争议性等特性也使得构建历史领域,特别是古籍语义系统处于非常复杂和困难的境地。
目前,在知识管理领域中对知识表达、知识组织、知识挖掘、海量数据处理和软件重用等方面出现了很多新问题,包括网络异构环境下的互操作问题(如技术互操作、资源互操作和组织互操作等),Web资源相融合成指数级增长的海量信息带来的扩展性、可控性和可管理性问题,面向全球开放模式涉及的跨语言和跨文化问题等。这三者相互交织在一起,对知识存储和知识服务提出了更高要求。近年来,知识工程研究者应用语义核心技术——本体知识系统建模,开始了诸多新探索。本体及其相关技术对于促进知识系统的发展、古籍分析等都具有十分重要的作用,而且这也是将计算机分析研究方法全面深入地引入人文社会科学知识管理的又一次有益尝试。
在这种环境下,武汉大学信息资源研究中心和中华书局合作开展的“基于语义系统的中华古籍分析研究”以“中华基本史籍分析系统”为依托,利用本体思想和方法对我国人文历史学科资源(《二十四史》)进行知识组织和知识表达,一方面为历史领域的爱好者提供更好的研究和学习平台,另一方面也为知识管理领域语义系统发展提供探索与借鉴的实证。
1.2“中华基本史籍分析系统”研究概述
1.2.1研究内容
以用户需求为导向,充分了解相关课题的研究现状,建立基于语义系统的中华史籍分析研究的理论框架,制定研究技术路线,设计系统研究逻辑结构,开发“中华基本史籍分析系统”,并以该系统作为“基于语义系统的中华史籍分析研究”的平台,为用户提供服务。
(1)用户需求分析。2009年6月开始对中华书局有限公司提出的关于建立《二十四史》分析系统的课
题进行了需求分析,通过分析我们认为《二十四史》具有时空依赖性、主观性、模糊性和争议性等特性,其研究工作量大、难度大、涉及面广。根据分析确立了研究原则,即研究内容仅仅涉及史籍文本本身,反映史籍本身,表现史籍本身,而不考证和判断正误。
(2)现状研究。课题组根据用户需求对国内外相关研究进行了网络调研,对已有的研究成果进行了考察、比较,并进行了可行性分析,确立了研究目标,即以《二十四史》为中华基本史籍分析系统的基础,研究基于该分析系统的史籍分析,找出史籍中人物、时间、地点和事件等实体本身的特性以及他们之间的关系。
(3)建立“基于语义系统的中华史籍分析研究”理论框架。理论框架,是保证系统研发沿着正确路径进展的指导思想。该课题汇聚了信息系统、软件工程、信息检索、知识组织尤其是本体论方面的诸多理论,并对这些理论方法进行了创造性尝试,如本体逆向工程、本体半自动构建、查询优化等。
(4)制定研究技术路线。技术路线是保证项目研究按阶段进行的指南,按照技术路线循序渐进发现问题并解决问题,不断优化,保证项目的顺利进行。理论框架与技术路线互为补充,理论框架可解决技术路线各个阶段的难题,技术路线的各个阶段对遇到的新问题提出了解决的新方法,从而进一步丰富了理论框架。
(5)设计研究逻辑结构。逻辑结构是部署整个系统主要部件的逻辑关系图,是避免系统部件重复开发的必要措施。逻辑结构分全文检索、系统导航、实例分析、语义检索、系统推理和图形处理七大类以及大类下的十六个功能子类。
(6)开发以“中华基本史籍分析系统”为基础的“基于语义系统的中华史籍分析研究”平台。[1]该平台是本研究课题的一个研究实体,从人物、时间、地点和事件等多方面探索史籍知识点本身以及之间的联系,寻求史籍多维度、全方位、立体型的脸谱展示,为研究者提供研究史籍的新方法、新思路、新途径,为推动行业技术进步提供新思维。
1.2.2成果规模
以中华书局出版的《二十四史》[2]为研究主线,参考了《中国历史地名大辞典》《二十四史纪传人名索引》《二十五史人名大辞典》《中国古今地名对照表》《中国史历日与中西历日对照表》《中国历史纪年表》《中国历史地图集》等史书。处理汉字107,835,000个,参考图组20个,地图304幅。对《二十四史》(约3200卷,4700万汉字)中的人物、时间、地点实体进行了全面标注。本体库构建本体类122个、对象属性32个、数据属性28个,推理属性15个和实例179,503个。其中,事件本体实例225个,人物本体实例54,036个,时间本体实例5490个,地点本体实例115,985个。行政区域实例3767个。时空分析人物308个,地图地点标注12,736个。
1.2.3功能描述
以“中华基本史籍分析系统”为依托的“基于语义系统的中华史籍分析研究”,系统分为前台和后台两部分。后台基本功能包括:①系统维护;②资源建设和维护;③本体库建设和维护等,开发了资源录入工具包、地图标注软件、底本转换与索引工具包、关系模式转换语义模式工具包等。前台的基本功能包括:①全文阅读;②史籍检索;③知识检索;④时空分析。
1.2.4技术特征
由于中华史籍具有时空依赖性、主观性、模糊性和争议性等特性,决定了研究实现技术处理上的特殊性,数据处理量大,难度大;为了反映中华文化长河中的星星点点,功能要求齐全;由于史籍用户群的特殊性,决定了用户操作上的特别性,即将现代知识表达和传统信息检索[3-7]无缝连接的检索新机制,展现多维度的立体史籍脸谱。
“基于语义系统的中华史籍分析研究”理论框架是指导课题研究的理论依据,是保证系统研发沿着正确路径进展的指导思想,是课题研究的重要组成部分。理论框架如图1所示。
2.1理论基础
2.1.1知识组织与检索
知识组织[8]是在信息组织的基础上,依靠专门的技术,按照知识的本质属性组织知识、建立知识系统的方法和手段。知识组织的核心是对知识及知识间的关联进行揭示和组织。知识组织的显著特征表现为整体性和关联性。所谓整体性,是指知识组织系统内部的不可分割性和有机关联性。关联性是整体性的延续,即体现知识概念的关联性,以保持学科知识体系的完整性和系统性;体现不同知识系统间的关联,以保持人类知识体系的整体性;注意知识系统与信息环境的关联,以促进社会大环境中知识的共享和交换。
图1 “基于语义系统的中华史籍分析研究”理论框架
知识检索,[9-10]就是综合应用信息管理科学、人
工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理的多种方法与技术,充分表达和优化用户需求,高效存取所有媒体类型的知识源(文本、图像、视频、声音等),并能准确精选用户需要的结果。
史籍知识是一种特殊领域的知识。我国历史经历了许多朝代,每一个朝代都有史籍总结前一朝的史实。《二十四史》最为典型,它是清代乾隆时期所确定的二十四部正史,“基于语义系统的中华史籍分析研究”所用的《二十四史》底本是中华书局出版的。其知识的组织十分复杂,知识资源所涉及的学科和领域极其广泛,几乎包括社会的政治、经济、法律制度、文化发展、自然地理等各个方面。时间跨度大,《二十四史》记载内容的时间起于传说中的黄帝(前2550),止于明朝崇祯十七年(1644),超过4000年的时间间隔。知识处理数量大,《二十四史》文本3213卷,约4000万字,古汉语对事件、人物等描述简洁,普遍使用单音节词,编撰时间长达1800多年,经历了各朝各代不同撰写人的辛勤劳动,其记载风格各异,各史特点不同,变化多样,这些都为知识组织带来极大的难度。
2.1.2本体理论
本体[11-13]是一个源于哲学的概念,在计算机界应用后,本体最终目标就是精确地表示显性或隐性信息,使它们可被软件系统重用和共享。具体来说,一个本体是对概念化的精确描述,它刻画了概念之间的内在联系。从形式上,一个本体可以用语义网格来表示。在语义网格中,每个结点表示一个概念而结点之间的联系表示概念之间的关系。
作为一种有效表示概念层次结构和语义关系的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,本体良好的概念层次和对逻辑推理的支持,基于本体的知识组织和检索是基于知识的、语义的匹配过程,[14,15]在查全率和查准率上有更好的保证。近年来,本体理论及技术的发展和逐步成熟为知识组织和知识检索技术的发展带来了新动力。
本体理论是实现史籍知识组织与检索的重要理论基础,利用领域本体对领域知识进行组织,建立史籍中的人物、时间、地点和事件的概念,通过概念及概念与概念之间的关系和推理机制构建语义网络,创建多维史籍语义分析体系。
2.1.3史籍分析
本课题研究的史籍分析是基于语义的史籍知识分析。从史籍的知识发现、知识收集、知识转化到知识组织,就是对史籍知识分析的过程。(1)史籍知识发现。从大量复杂的史籍文本数据中提取人物、时间、地点和事件等信息,对史籍信息的预处理、提取、评价的结果构建史籍知识库。知识发现的目的是屏蔽原始数据的繁琐细节,从原始数据中提取有意义的、精炼的、能够对史籍产生直接影响的知识产品,在知识服务中提供决策支持。(2)知识收集。其任务就是对史籍数据进行分类、聚类,对史籍数据的衰减进行统计建模,对其数字值进行预测衰退和预报,建立史籍中人物、时间、地点和事件之间的关联和确定其相关性,判断史籍数据集的顺序,描述和辨别史籍数据组的特征规则,发现属性值的趋势。(3)知识转化。就是对史籍中的数据对象的规则抽取和知识抽取,从而形成史籍领域的规则库和本体库,构建史籍知识库供用户使用。
2.1.4边界问题
中华史籍知识丰富、关联复杂,基于语义的史籍知识网络是一个错综复杂的网络知识群,在用户面前如何展现一个清晰的人物关系,必须对错综复杂的网络知识群进行梳理,有序的反应就需要对庞大的检索结果定出边界,本研究的依托系统——“中华基本史籍分析系统”展现在用户面前的边界为20个关系,其他关系被隐藏,根据用户需要再展开。
2.2环境架构
系统实现采用了Struts2框架来实现MVC模式,前端使用Jsp/JavaScript/Ajax以及Applet等技术实现语义检索结果的异步加载与可视化,模型层采用了Alle-
groGraph Triple Store存储语义数据即《二十四史》知识库以及使用Lucene来索引史籍RDFa文档,同时提供了SPARQL Endpoint供控制层调用,完成语义检索功能。史籍知识的推理部分使用了Jena规则推理、Pellet逻辑推理以及SPIN查询推理等。同时,系统使用了MySQL数据库来管理用户信息,提供基本的增删改查功能以及权限设置。使用JSON以及嵌入式数据库H2来缓存系统查询的中间结果或最终结果,实现系统结果高效反馈的性能。
3.1系统需求分析
传统的史籍检索系统对于史籍资源的阅读和全文检索功能支持较好,这类系统的主要使用对象是对历史知识感兴趣的大众用户和史籍文献校勘对比研究的史学学者。这类系统的信息资源主要来自原始的史籍电子文本,查找到的结果需要花费大量时间和精力阅读或校对。对于当前快速信息生成与消费的环境,这类史籍检索系统已经越来越不能满足想快速了解历史知识的用户需求,对于专家型用户,也无法提供其他史学研究的已有成果。因此,在万维网环境下,为用户提供一个便捷快速的、图形化的知识获取与分析平台改善用户的体验,是当前史籍分析系统设计的必然趋势。
史籍分析系统的设计需要围绕用户的需求开展,用户对历史领域相关系统的需要包括:①史籍语料中人物等实体对象的全息分析;②史籍语料的碎片化与语料重排;③将时间和空间维度引入史籍文献,即实现史籍文献的时空分析。
人物等实体对象的全息分析是指对于史籍文本中的实体对象主要是人物,进行全方位的、立体式的分析,展现人物所处特定情境下与其他各种对象之间的复杂关系,如《三国志》中曹操的全息分析包括:人物的生平、字号、血缘关系等信息,以及在某一历史时刻和空间内,与其他人物、事件等对象之间的关系;史籍语料的碎片化与重排的需求是针对现有史籍检索系统的,传统的信息检索系统一般采用布尔模型或向量空间模型,将相关的检索结果片段排序后罗列出来,评价指标主要是查全率和查准率。史籍语料的碎片化是对文本内容结构的进一步细化,相对于文本片段来讲,它对文本片段进行了分类,如关于人物的简介、事件经过等类别,同时,对文本段落进行了语义标注,能够识别文本中的实体信息,并在此基础上根据用户的检索需求,对这些碎片化的语料进行重新组合,一个语料组合对应一个完整的知识面,即所谓的语料重排,相对于传统的信息检索,其检索结果具有更高的查全率和查准率,它符合历史研究人员对史籍检索结果全面准确的需求;史籍文本的时空分析主要针对史籍人物及其生平事迹以及时间跨度和地理信息两个维度对人物行踪进行可视化动态的展示,全面揭示人物在该时空环境下的活动状态。
3.2系统功能分析
该系统面向用户的前台具有四大功能。
(1)全文阅读。通过导航目录用户可以进入任意一部史书阅读内容,标引文字具有详细说明,内容具有“横排”、“竖排”、“下一卷”等功能。
(2)史籍检索(语料重排)。①人物检索。查找《二十四史》中的纪传人物名称,包括人物的姓名、字、号、别称、官名等,得到人物的相关信息。②地点检索。查找古代地名,可得到含有该地点的相关段落,并得到该地名的现今名称。③时间检索。分为两种检索方式,一种是以古代时间查找,一种以公元纪年方式查找。④自由词检索。按史书输入任一字串,以字符匹配的方式查找文本。
回溯列表区域保存了用户检索过的内容,可以点击这些链接进行快速回溯。
(3)知识检索。①实例检索。查找纪传人物、公元时间、地点、历史事件,得到人物、公元时间、地点、历史事件的关系网络图,根据需要可以进一步展开,形成一个复杂关系网络群。②关系检索。在上下输入框中分别查找不同的实例,得到两个结果集,在不同的结果集中各选一个进行组配,得到两个实例之间的关系图。③属性检索。分为人物、时间、地点、事件四种检索方式,在各种检索方式中查找所需的内容,得到相关的属性图。④图形的操作。以上得到的各种关系图可以用鼠标进行拖动,通过操作下方的滚动条对图像进行放大、缩小。节点可以单击、双击、右键操作,鼠标可移至边上显示边的信息。界面左下部分是回溯检索,里面记录了用户已经检索过的实例或关系,属性可以通过点击其中的选项,进行快速的回溯检索。点击清空按钮将清空界面中所有的结果。另外,用户单击节点时会弹出该节点的说明,如果单击的是事件节点,可在弹出说明中选中的部分文字,右键进行检索操作,将在史籍原文中找到该事件对应的段落。
(4)时空分析。在人物名称表单中输入查找人物,如“张飞”,将在三国地图中显示张飞的生平轨
迹,地图可以放大缩小。点击“显示所有地标”,将会显示所有地标,点击地标,会弹出该人物在此地的活动情况。在地名框中,输入一个地名查询可在地图上定位该地点。
3.3系统的逻辑结构
系统逻辑结构描述了整个系统主要要件的逻辑关系,该关系为层次结构。其逻辑结构分史籍阅读、时空分析、系统导航、知识检索、史籍检索、系统推理和图形处理七大类,大类下的十六个功能由子类组成(如图2所示)。
图2 “基于语义系统的中华史籍分析研究”系统逻辑结构
3.4实现的技术路线
技术路线是指导项目研究正常进行的指南和保证。技术路线的不断优化、研究团队的协同合作是研究成功的重要保证(见图3)。
图3 “基于语义系统的中华史籍分析研究”系统技术路线
从图3可见,详细设计完成以后如何使系统开发者与用户通过互动对开发感到满意,是应用系统开发成功的关键。这个过程需要两者从开始就要有良好的互动。正如图中的描述,开发者将系统完善以后及时地交付用户使用,用户通过使用发现问题反馈开发者进一步完善,通过反复互动、不断完善、不断实践,达到用户满意的应用水平。
(1)利用语义推理机制构建了多维史籍语义分析体系。利用语义SPARQL-DL Reasoner(OWL DL Reasoner)、Jena rule-based Reasoner(规则推理)、PION Reasoner(不一致性本体的推理)、SPIN查询推理等推理机制,对史籍语料进行组织,对史籍底本实体进行语义标注与抽取、底本格式转换与索引、关系模式到语义模式转换、地点沿革分析等,实现了标注底本全文阅读、史籍语义检索、知识的可视化检索、时空分析等功能,产生了相应的辅助性配套工具,形成了一套完整的、科学的、可操作的史籍语义分析框架,构建了人物、时间、地点和事件等多维史籍语义分析体系。
(2)应用知识点与传统检索技术相结合的无缝连接,创建了全新的检索机制,展现了全新的史籍脸谱。应用语义网络的表达方式表示知识内、知识与知识之间的关联以及关联度,构成复杂知识网络,通过知识节点上的知识与其所在的史书连接,形成史籍人物、时间、地点和事件之间的关联,构造多维度的(时间、地点和事件)、立体型(时空)的中华史籍脸谱。突出了以知识为导向的网络知识群,创建了知识点与文本之间无缝连接的、全新的检索机制,为用户查找知识开创了一个全新、形象和生动的环境,展现了全新的史籍脸谱。
(3)设计完整的史籍语义分析流程,创建了史籍语义分析平台。研究以《二十四史》为主线,设计以《中华基本史籍分析系统》理论框架为指导的技术路线。理论联系实际制定了较为科学的史籍语义分析动态流程,为建立领域语义分析体系提供了新思路。《中华基本史籍分析系统》研究实践创建的史籍语义分析平台,进一步证明了新思路的科学性、可行性和可操作性。
[参考文献]
[1]GB/T 8567-1988计算机软件产品开发文件编制指南[S].1988.
[2]吴家驹.局本《二十四史》述略[J].图书馆理论与实践,2007(5):128-129.
[3]张开旭,等.基于条件随机场的古文自动断句与标点方法[J].清华大学学报(自然科学版),2009(10):163-166.
[4]黄水清,吴欣.汉语古籍全文检索的试验与探讨[J].中文信息,1996(1):30-33.
[5]肖立军,徐悦.全文检索25史(电子版)与历史教学[J].历史教学(高校版),2009(3):81.
[6]满鹏.全文检索的原理与实现探讨[J].现代情报,2009(7):138-140.
[7]杨一平.中文全文检索算法研究[J].计算机系统应用,1997(9):30-31.
[8]马文峰,杜小勇.知识检索研究[J].情报理论与实践,2006(2):157-160,219.
[9]程慧平,陈永超.国内知识检索研究进展[J].图书情报工作,2011(10):126-129.
[10]刘玉仙.基于Ontology的知识表示、知识组织与检索机制探讨[D].上海:上海大学,2004.
[11]柳巧玲,尚艳艳.基于领域本体的语义知识检索研究[J].图书情报工作,2011(6):61-65.
[12]赵冬,等.知识本体的检索机制研究[J].微电子学与计算机,2011(10):129-132,136.
[13]董慧,等.基于数字图书馆的本体应用环境研究[J].中国图书馆学报,2009(9):47-53.
[14]Marc Ehrig,et al.The Karlsruhe View on Ontologies [EB/OL].[2013-04-24].http://www.aifb.uni-karlsruhe.de/WBS/.
[15]OWL 2 Web Ontology Language Primer(Second Edition)[EB/OL].[2013-06-23].http://www.w3. org/TR/owl2-primer/.
[收稿日期]2014-12-12 [责任编辑]菊秋芳
[作者简介]董慧(1941-),男,教授,研究方向:本体与数字图书馆、信息系统工程;徐雷(1986-),博士生,研究方向:语义检索、本体推理;王菲(1976-),女,博士,研究方向:语义检索;俞思伟(1962-),男,博士,副主任技师,研究方向:语义检索。
[基金项目]本文系中华书局有限公司合作项目“中华基本史籍分析系统”(项目编号:104-239080)和中央高校基本科研业务费专项资金资助项目“基于描述逻辑的本体推理机制及其技术研究”(项目编号:2012104010202)的研究成果之一。
[文章编号]1005-8214(2015)04-0001-05
[文献标志码]A
[中图分类号]G250.74