刘亚男,肖 明(北京师范大学政府管理学院)
传记是记述人物事迹、反映人物思想的作品。凡是包括人物生平与经历的相关文献、音频、视频等资源都可归为传记资源。对传记资源进行发掘与研究历来被研究者们所关注,从传记资源中发现的一些事件细节对于还原历史真相、丰富人物形象能都起到至关重要的作用,数量宏丰的传记资源为当代学者的研究工作提供了极大的帮助。我国历来有对传记资源进行发掘与整理的经验,面对来源广泛、类型多样的传记资源,探索如何从资源组织的角度进行研究,对于更加充分地利用传记资源至关重要。
知识地图是一种组织与管理知识资源的工具,其目的在于用一种通用、直观的方式来对知识进行获取与描述,用可视化技术显示知识及其关系,具有解读显性知识和挖掘隐性知识等特点。学术领域的知识地图最早由英国情报学家布鲁克斯于1981年提出,他希望能够通过知识地图将相互影响、相互关联的知识连接起来,揭示出知识的有机结构。[1]目前,企业、高校、图书馆等均已对知识地图的应用展开研究。[2-4]本文通过分析现有的传记资源组织方式,并结合传记资源特点,构造了相应的知识地图模型,在此基础上,以王重民传记资料为例,实现了传记资源知识地图的构建与可视化。结果表明,传记资源知识地图能够直观地反映出节点信息与人物之间的关系,为传记资源的组织提供了新思路。
传记资源以人物为核心,是一种围绕传主的生平或经历来进行记述与组织的资源。随着传记的发展,现代传记家不再满足于仅叙述传主的事迹,他们越来越重视展示传主的个性或人格,并对传主人格的发展进行解释。[5]由于传记资源的文体类型多样,具有地域性、时代性等特征,所以整理传记资源时应该注意从多角度、按照标准化的流程来进行揭示,[6]由传记资源来探究人物之间的交往、学术往来等关系历来被研究者们所重视。现有的关于传记资源组织方法的研究大多基于图书馆领域对资源的组织方式进行探索,主要可以分为元数据法、分类组织法和主题组织法三种。
元数据是用来描述信息资源特征、揭示相互关系、实现相应操作的一整套编码体系。[7]元数据通过结构化的表示方式揭示信息资源特征,使无序的信息资源转变得有序,从而实现对资源的整合、管理和利用。根据不同领域数据的特点和研究者的需要,可以使用多种元数据标准对信息资源进行揭示,根据载体的不同来描述资源特征、揭示其属性,有利于资源更好地被检索和利用。李芳等设计了传记资源元数据框架,在描述传记资源物理和内容特征的基础上,对传主的姓名、身份、职业、国别进行元数据标注,以提供传记资源检索的多种途径。[8]
分类组织法是根据资源内容来分门别类地组织资源的方法。分类号能够客观且直观地反映资源所属类别,如在《中国图书馆分类法》中,K81为传记类,而对于马克思、列宁、毛泽东等人物的相关传记资源又会单独分类,同时由于传记资源本身具有很高的文学性,相当数量的传记资源也收录在“I文学”类目下。在《杜威十进分类法》中,除了“800文学”“900历史、地理与传记”之外,对传记资源的组织则是根据传主所研究的学科领域将传记资源归类到各个学科中。在具体的传记资源组织实践中,按照传主的国别、身份、地域、学科、时代等特征,也进行了大量的资源组织工作,数据库方面如“中国历史人物传记资源库”按照文献、姓氏、朝代、地域四个方面来进行分类,纸质文献方面如《中国文学家传记》(中央书店,1937)、《世界著名数学家传记》(科学出版社,1995)、《宋元明清人物》(华文出版社,2004)等。
主题法是按照信息内容的主题名称来标引与组织信息的方法,按照主题名称的字顺排列,一般包括标题法、叙词法和关键词法。[9]标题法是一种以标题词作为主题标识、以词表预先确定的组配方式标引和检索的主题法;叙词法是通过概念组配方式表达文献主题的主题法分类;关键词法是随着计算机而出现的、为适应索引编制自动化的需要而产生的主题法类型。传记资源的主题法可以以学科主题词和传主姓名作为重点标引内容。传记以传主为研究和论述的主要对象,一般分为以多人为论述对象和以个人为研究对象两种类型。在主题标引多人列传时,应按照传记资料所覆盖的范围或所涉及的领域来进行主题划分,如某一时代、学科、组织的人物传记资料汇编,应以时代、学科、组织和人物类型等主题词为主标题,以传记资源类型等为副标题。赵萍萍认为,多人列传主题标引侧重群体属性对应的学科主题词和国家、地区、时代对应的主题词,且多人传记中应对标引的人物数量做明确界定,如若达到一定数量,则可只著录前数名传主信息,但需在“描述”字段中对著录的规则加以说明。[10]
知识地图的构建需根据一定的原则,采用信息标引、分类聚类等信息组织方式,结合一定的技术手段实现对知识的良好组织与挖掘。前期的信息组织是采用一定的标准对信息进行序化和归类,完成对信息的整理与准确表达,进而完成信息的提取工作;知识的挖掘则是在信息组织的基础上,利用元数据或关联规则形成知识之间的关联。
2.1.1 构建原则
① 主题明确。主题是指所构建知识地图的性质,如领域专家知识地图、旅游路线知识地图、企业管理知识地图等。知识地图的构建应严格围绕所确定的主题,明确的主题能够使用户更清晰地了解整个知识地图。② 以需求为导向。构建知识地图应充分考虑用户需求,具有良好的实用性,确定所构建的知识地图用于什么目的、要达到什么样的目标。③ 结构清晰。设计知识地图应明确其基础结构,明确其构成成分、节点关系及相关属性,结构清晰的知识地图对于用户更好地理解内容至关重要。④ 可扩展性与可维护性。知识地图的构建并不是一成不变的,随着相关信息的不断完善,仍需要对其进行扩展和维护,因此知识地图在使用过程中应具有良好的可扩展性和维护性,以保证其时效性和准确性。
2.1.2 构建方法与工具
知识地图的构建方法主要是指在利用信息组织相关理论的基础上,结合描述语言或本体相关技术来构建知识地图。信息组织相关理论主要包括信息标引、分类聚类、数据挖掘等。其中,信息标引可以采用人工标引和自动标引等方式从文献中提取出标引项,如标题、作者、关键词等字段,借助信息组织理论可以使资源更加规范化,有利于知识地图的交流和共享。Ontolingua、OIL、OWL和XML是常用的知识地图描述语言,其中XML由于具有良好的可扩展性,更适合于构建网络知识地图。[11]目前,可用于构建知识地图的软件主要有 OntolinguaServer、OntoEdit、Protégé等,因本体可以很好地解决信息异构问题,使不同领域的知识地图实现互联与共享,所以越来越多的研究者们开始探索利用本体技术来构建知识地图的方法,以更好地实现知识的良好组织并提高检索效率。
按照资源类型,可以将传记资源划分为文献资源、图片与音视频资源两种类型,其中文献资源包括传记文、书籍、书信与日记,书信与日记都是由传主本人所创作的,而其他类型的资源大都是由其后人或研究者们所创作、整理而来的。为了在对传记资源进行组织的基础上更好地展示人物之间的关系,笔者认为,传记资源的组织应以传主为核心元素,以传记类型为组织元素,以作传者或相关人物为特征元素来对传记资源进行整理。针对不同的资源类型,作传者的标识符可能有所不同,如书籍与传记文应为其著者、书信应为收信人、图片及音视频资源应为其制作者,其元素之间的关系见图1。
图1 传记资源元素关系
传主是传记资源整理组织中的核心元素,以传主为核心能够更为清晰地展示传主的所有传记资料,有利于读者全面地了解和把握人物情况。本文将传记资源按照类型划分为传记文、书籍、书信、日记、图片与音视频文件,不同类型的资源其描述元素会有所不同,如书籍的“出版地”元素,在传记文中是“来源刊”,在音视频文件中则是“发行方”,可见按照类型来对传记资源进行组织具有其合理性与有效性。特征元素可以进一步描述传记资源的特点,可以更好地体现人物之间的关系,其种类有很多,如传记文中对“著者”“来源刊”“卷次”“期次”“日期”等元素的描述。
知识地图采用形象、直观的方式为用户提供服务,而本体则能够通过明确、规范的概念体系和关系网络为知识地图的构建与维护提供坚实的基础。[12]随着本体技术在知识地图构建中的应用,结合本体构建模型来建立传记资源知识地图模型能够更好地规范传记资源知识地图的构建与应用。如图2所示,基于本体的传记资源知识地图模型一共分为三个层次。① 资源层是传记资源知识地图的底层,也是构建整个知识地图的基础,本文按照人工划分资源类型的方式来对其进行组织,其来源主要包括相关数据库、文献资源以及网络资源。② 本体层在划分资源类型的基础上对传记资源进行知识提取,主要涉及RDF和知识描述两部分:在RDF中,所有资源都能通过一个统一资源识别码(Uniform Resource Identifier,URI)进行唯一标识;知识描述采用元数据等形式来描述资源的内容或结构等信息。③ 展示层将构建完成的本体进行可视化展示,在可视化界面与知识描述之间建立知识链接,为用户提供多种形式的展示方式。展示层主要涉及知识节点与知识节点之间的关联,知识节点一般是某领域知识通用的概念或术语,用户可以通过知识节点之间的关联来了解知识结构的交流和演化情况。
图2 基于本体的传记资源知识地图模型
依据上文构建的传记资源知识地图模型,本文选取王重民先生作为传主,对其传记资料进行整理与组织。王重民(1903-1975),字有三,号冷庐主人,河北高阳县人,现代著名目录学家、考据学家、敦煌学家、图书馆学教育家,是具有广泛影响力的国学大师,在目录学、版本学、校勘学、敦煌学等领域都有高深的造诣。
通过对知识地图构建方法与工具的分析,结合传记资源的元素特征,本文选择本体构建工具Protégé来构建传记资源知识地图。首先,Protégé具有良好的工作界面和一定的扩展功能,用户利用插件可以实现可视化等功能;其次,Protégé属于开源软件,有较为详细的使用教程且能够较好地支持中文的使用。其构建过程主要包括以下步骤。
(1)创建类与子类,明确类与类之间的关系。本文在组织传记资源中构建了“人物”和“传记资源”两个大类。“人物”用来存放资源中涉及到的所有人物,包括传主及作传者;“传记资源”包括书籍、传记文、图片与音视频资源、书信、日记五个子类。在传记资源之外另设“人物”类主要是因为传记资源是以人物为核心进行组织的,随着传记资源的增加,“人物”类中的人名必定会越来越多。现有传记资料除传主本身所作的以外,大部分是由其家人、师友或后学所作,往往流露着对传主本身或其成就的某种情感,因此,将作传者归入“人物”类能更直观的体现人物关系。本文以王重民为传主进行组织,故“人物”类中包含王重民及与其相关的人物。
(2)添加实体,设置实体的属性。实体主要包括人物及各种传记资源,如傅振伦曾为王重民撰写传记文“王重民别传”,故“傅振伦”应归入人物类、“王重民别传”应归入传记文类。人物类的属性主要有名、字、号、生卒年、籍贯、曾任职、配偶等。不同的传记资源类具有不同的属性,如传记文类属性主要包括题名、著者、期刊名、卷号、期号、出版时间等。
(3)创建实体之间的关系。以三元组的形式来定义实体之间的关系,如“王重民”的“配偶”是“刘修业”、“王重民别传”的“著者”是“傅振伦”等,通过实体之间的关联可以更加明确各实体之间的关系。按照以上所列的步骤构建知识地图,将所搜集到的传记资源进行分类,然后逐一进行实例添加。由于传记资源来源广泛,所以本文采用人工方式对搜集到的资源进行初步的类别分析与实例化。
3.2.1 传记资源的可视化
将相关人物及传记资源进行实例化之后,可以将传记资源知识地图以可视化的形式进行展示。Protégé软件自带的OntoGraf插件可以很好地呈现知识节点与知识关联,它不仅能够展示类目之间的层次结构,还可以显示实例之间的关系。图3展示了王重民传记文资源的知识地图,图中包含人物及传记文,人物与传记文之间通过“著者”属性进行关联,如人物类的实体“崔文印”与传记文类的实体“王重民先生略传”的“著者”是人物类的实体“崔文印”。将鼠标放置在图中的某个节点上,就能够以框架的形式展示该节点的详细信息,如“王重民先生略传”节点的相关信息如下:著者为人物类实体“崔文印”,出版时间为“1983年”,期刊名为“晋阳学刊”,期号为“1期”(见图 4)。
图3 王重民传记文资源可视化展示
图4 “王重民先生略传”节点信息展示
3.2.2 相关人物检索
OntoGraf能够通过语词匹配来进行检索,本文以“刘修业”为检索词,发现与刘修业相关的关联有3个:一是在传记文中有5篇为刘修业所撰,二是与王重民之间存在配偶关系,三是刘修业本身属于人物类(见图5)。OntoGraf在检索中不要求完全匹配,只要节点中包含检索的信息就能够被检索到,这种方式能提高检全率。
由于传记资源类型多样,本文在传记资源搜集与整理的基础上,探析基于知识地图的传记资源组织方法,构建传记资源知识地图模型,并结合王重民传记资源进行实例化构建与展示。结果表明,知识地图在资源组织与关系揭示上具有良好的适用性,能够为传记资源的组织提供较好的借鉴作用。但同时,本文基于资源类型的不同对传记资源进行划分,以人物来体现传记资源与传主之间的关系,只体现了对不同类型资源的组织以及人物之间的简单关系,并未对传记资源的内容进行提取和分析。对于知识地图而言,如何利用可视化的工具表示、挖掘资源的内部特征,仍将是未来深入研究的重点内容。