满族民间故事口述档案知识组织研究

2022-01-06 12:52王志宇
兰台世界 2021年12期
关键词:民间故事满族实例

邓 君 吕 佳 王志宇

一、引言

进入21世纪以来,非物质文化遗产的保护与传承愈发受到国内与国际社会的普遍关注,《保护非物质文化遗产公约》在联合国教科文组织的统筹推动下得以颁布,世界多国也纷纷响应,出台相关政策。其中,我国依托《中华人民共和国非物质文化遗产保护法》,将非物质文化遗产的保护与传承纳入国家法律层面。满族民间故事作为国家级非物质文化遗产,是满族的集体记忆和中华民族宝贵的文化财富。现代生产生活方式快速变化发展,口耳相传的满族民间故事活态传承受到冲击,除了培养“非遗”传承人外,深入田野采录满族民间故事将其“固化”到一定载体上也是一种良好的保护传承方式,而这一保护方式形成的直接成果即为满族民间故事口述档案。

“口述档案是指以录音或根据录音逐字记录的方式对个人有计划采访形成的档案。”[1]77结合满族民间故事采集实际情况,笔者认为,满族民间故事口述档案是个人或组织在对满族民间故事进行调查时,对满族民间故事讲述人的讲述内容以录音、录像、文字等方式记录从而形成的有价值的原始材料。目前,满族民间故事口述档案开发利用方式较为传统,以传统编研出版为主,但这远不能满足数字时代用户的知识需求。因此,迫切需要创新满族民间故事知识组织技术与方法,从而促进满族民间故事的保护与传承。

知识组织由信息组织发展而来,是对知识单元之间的关系进行揭示、描述和发掘的活动。知识组织方法众多,其中分类法按学科体系组织知识,具有很强的系统性;主题法按问题组织知识,灵活性较强,但两者均是线性知识组织方法,不能充分揭示知识内在本质和知识间复杂关联;元数据是目前描述档案内容、背景和结构信息以及过程管理信息的主流方法[2]36,但难以达到不同粒度的知识揭示。本体(Ontology)作为知识组织的核心方法,是共享概念模型的形式化、明确的规范[3]199,其跨越了语义鸿沟,在机器和人之间建立了广泛的表达连接,充分实现领域知识模型概念交换和重用。笔者以知识组织视角切入,采用本体方法对满族民间故事口述档案进行知识层面组织,以网络化、非线性、可视化的方式揭示满族民间故事口述档案中知识及其关联关系,推动满族民间故事口述档案知识面向语义化、精细化组织。

二、文献回顾

“口述档案”这一概念始源于1984年国际档案理事会出版的《档案术语词典》中出现的法文词条“Archives orals”[4]42。我国关于口述档案的研究发轫于20世纪80年代中期,1986年吕明军[5]6进行口述档案理论探讨,包括其概念、价值、兴起及原因等方面内容,拉开了我国口述档案的研究序幕。时至今日,口述档案已历经30多年的研究历程,取得了丰富的研究成果。在基础理论研究方面,王茂跃[6]15、张仕君[7]12、王景高[8]6、张锦[9]5等学者对口述档案概念进行辨析,主要在“‘口述档案’是否属于档案”这一问题上进行了激烈的争辩;刘旭光[10]88、冯舫女[11]31、黄霄羽[12]4等人对口述档案的价值与作用进行深入探讨,认为口述档案除了本身具有凭证价值和参考价值外,还有填补历史空白、构建社会记忆、保护民族文化遗产等价值。在口述档案实践研究方面,李小江[13]26、李涛[14]12、古琬莹[15]87等人从不同视角对口述档案的搜集与整理进行重要阐述;傅华[16]41、杨祥银[17]60、蒋琳[18]70对国外口述档案实务工作进行介绍和推广,以期为我国口述档案工作提供借鉴和参考。口述档案开发利用研究能有效推进口述档案价值实现,其研究成果目前已涉及各专门领域,如历史名人口述档案[19]、高校口述档案[20]33和党史口述档案[21]84开发利用等。在政府大力倡导保护非物质文化遗产的背景下,加之少数民族文字档案匮乏,众多学者将目光聚焦于少数民族口述档案研究。如子志月[22]、孙丽娜[23]、邓宝瑚[24]78、董甜甜[25]23分别探讨了云南少数民族口述档案、佤族口述档案、瑶族口述档案和白族民间故事口述档案的开发利用,并从增强开发利用意识、完善法律制度、注重编研成果多样化、举办展览、出版书刊、拍摄影视作品等角度创新开发路径。

相比于图书、情报等其他信息资源,档案具有一定封闭性,知识服务体系相对独立,知识组织研究起步相对较晚,故而档案学界对理论研究相对匮乏。熊志云[26]29认为,以知识组织方式开辟档案服务网站是整合档案信息资源的有效手段;王应解[27]23阐述了数字社会信息化浪潮下档案知识组织的必要性,并就“如何进行档案知识组织”做了初步探讨。方法技术层面,学者们主要探讨了各类知识组织方法应用于档案资源的适用性,如李婉月等人[28]56对分面组织、本体和关联数据档案资源知识组织方法和技术进行调研分析,以期建立合适的档案知识组织框架;吕元智[29]44分析了关联数据在档案资源知识组织中的可行性和必要性,并提出“关联”组织框架及完善建议;张斌等[30]51提出,基于本体的档案知识表示和组织是档案知识库知识处理的最佳选择,并提出基于知识库的知识服务模型。领域应用方面,近年涌现出了一批依托相关领域档案资源进行知识组织实践的成果。如陈海玉等[31]111对“南昌起义”这一事件的数字资源进行本体构建,实现知识聚合和可视化,推进抗战档案资源知识服务;陈忻等[32]80通过LDA模型对北京香山红色档案进行深入挖掘并构建本体,实现知识细粒度关联,促进红色档案资源开发利用;祝振媛[33]72以《吴氏西宅宗谱》为研究对象,构建了吴氏家谱本体,推动“新乡贤建设”和“家风建设”。

综上所述,口述档案领域研究成果丰硕,内容丰富,经历了从理论探讨到实践研究这一主线转变,且研究方向仍在继续拓展,但对口述档案开发利用方式的研究还不够创新。档案资源知识组织的研究成果随着档案知识服务需求的增长而不断增加,尤其在知识组织方法技术方面,学界已普遍认同本体是档案资源良好的知识表示和知识组织形式。但对档案资源进行本体构建实践的研究尚处于初级阶段,对于非物质文化遗产口述档案方面也尚未有构建先例。本体具有开放集成性、语义化、共享性等优势,因此笔者选择对满族民间故事口述档案进行本体构建,实现知识组织向多维网络化、可视化方向发展,促进满族民间故事口述档案深层次的开发利用。

三、满族民间故事口述档案本体模型构建

笔者以斯坦福大学创建的七步法[34]为基础,并根据满族民间故事口述档案知识的特点,设计了针对满族民间故事口述档案的本体构建方法,并以Protege作为其本体开发工具,具体步骤包括:确定本体专业领域及复用本体、确定数据来源与数据预处理、定义类和类的等级体系、定义类的属性、实例可视化和知识检索。

1.确定本体专业领域及复用本体。

(1)确定本体专业领域范畴。满族民间故事口述档案以一则则满族民间故事为主体内容,以口述者、采集者、采集时间、采集地点等描述性信息为辅助内容。其中故事主要包括反映建州女真起源的神话,反映人物、史事和地方风物的传说,反映人与自然、阶级社会关系以及满族动植物崇拜的幻想故事,反映农耕满族经验与际遇的生活故事等[35],是珍贵的非物质文化遗产。因此,涉及的领域主要是非物质文化遗产领域和口述档案领域。

(2)考察可复用本体。CIDOC-CRM是文化遗产领域重要的本体模型,它是20多年开发和维护工作的结果,开发旨在通过为基于证据的文化遗产信息集成提供通用且可扩展的语义框架来促进对文化遗产信息的共享理解。其最新版本是2021年5月发布的7.1.1版本,共包含81个实体(Entity)和160个属性(Property),内容涵盖文化遗产领域的历史史实、时间、地点、人物等信息[36],可用于满族民间故事口述档案本体模型的复用。

同时,笔者根据国家档案局发布的行业标准《口述历史电子档案元数据方案》(DA/T-2015)相关规定,结合满族民间故事口述档案知识实际情况,进行部分本体自定义。为了日后能在语义网环境中实现本体复用与共享,需要了解或定义本体的前缀及IRI。CIDOC-CRM本体模型前缀为ecrm,IRI为http://erlangen-crm.org/150716/,类的命名方式为“实体代码”+“实体名称”,如“人物”类为“E21 Person”,属性命名方式为“属性代码”+“属性名称”,如属性“参与了”命名为“P11 had participant”。自定义的本体前缀为mfs,IRI为http://www.semanticweb.org/mfs#。为清晰地区分类与属性,将类标记上角标c,将对象属性和数值属性分别标记上角标op和dp。

2.确定数据来源与数据预处理。本研究以《满族民间故事·辽东卷》(上中下卷)[37]数字资源作为主要数据源,其收录513篇满族民间故事,每篇故事后附相关采录信息,为构建本体提供了翔实的数据基础。同时,为确保数据的丰富性和代表性,以中国非物质文化遗产网[38]、辽宁非物质文化遗产(国家级)多媒体资源库[39]、《满族民间故事选》[40]、《满族民间故事选》(第一集)[41]和《满族民间故事选》(第二集)[42]的数字化文本作为补充数据源。采用人工方式对以文本格式、图片格式存在的数据进行采集,获取有关满族民间故事的内容数据与口述档案形成过程中的描述性数据。采集后,对数据进行预处理,剔除重复数据,对有效数据进行校对核查。

3.定义类和类的等级体系。类是具有某种共同属性的事物集合,确定本体的类及子类是本体构建的基础。笔者对上文采集的数据进行深入分析与概念归纳,并结合CIDOC-CRM和《口述历史电子档案元数据方案》(DA/T-2015)有关实体与元数据,对满族民间故事内容信息进行概念提取,得到“民间故事”“故事角色”“故事地点”“习俗”“风物”和“方言”;对描述性信息进行概念提取,得到“口述者”“采集者”“采集时间”“采集地点”。其中“民间故事”类可按其表达内容的不同划分为“神话”“传说”“故事”三个子类,“口述者”“采集者”都是人物,所以两个子类归为“人物”大类,但“故事角色”中包括神仙、鬼怪等非真实存在人物,因此不能将其归入“人物”大类,而单独设类。同理,将“采集地点”和“故事地点”归为“地点”大类,将“采集时间”和“故事时间”归为“时间实体”大类,最终形成八个大类。满族民间故事口述档案类及说明具体见表1(见下页),类及类的层次结构如图1(见下页)所示。

图1 满族民间故事口述档案本体类及类的层次结构

表1 满族民间故事口述档案本体类及其说明

4.定义类的属性。定义好满族民间故事口述档案的类与其子类后,需要对类的属性进行定义,可以更好地体现类的内涵和实现类之间的相互关联,从而实现单一的线性向网络化的知识组织模式转变。

类的属性包括对象属性和数据属性。对象属性是实现语义推理的重要基础,因为它是连接类之间、类与实例之间、实例与实例之间的桥梁,相当于语法结构中的谓语动词,属性的定义域相当于语法结构中的主语,其值域相当于语法结构中的宾语。比如属性“讲述了”将作为定义域的“口述者”和作为值域的“民间故事”相连接,对象属性除了能将两个不同的类之间进行关联,还可以指向自身,满族民间故事中,故事角色往往有一定的社会关系,如姐妹关系、父子关系、师徒关系,而这类关系两端相连的都是“故事角色”类,因此属性关系指向“故事角色”自身。

数据属性是描述类自身特性的内在属性,能使类的内涵更为丰富。其定义域是类,值域是某一数据类型,如xsd:string、xsd:integer、xsd:float、xsd:int等。在满族民间故事口述档案中,口述者的数据属性十分重要,口述者年龄、性别、职业、文化程度可以在一定程度上揭示满族民间故事的保护与传承情况,甚至可以为下一步的保护措施提供有益参考。如口述者的年龄大多在70岁以上,说明口述者队伍年龄老化,则需要加强满族民间故事传承人的发展培养,确保其能够活态地传承发展下去。满族民间故事口述档案的属性定义具体见表2,添加属性后的知识本体见图2。其中实线代表父类与子类的关联,虚线代表定义的各属性,连线的箭头代表从定义域指向值域。

图2 添加属性后的满族民间故事口述档案知识本体

表2 满族民间故事口述档案本体属性及其说明

5.实例可视化。对满族民间故事口述档案进行类与属性的定义后,是完成了本体模型的框架搭建,是概念层面的构建,需要向其中添加实例才能丰富知识本体,是应用层面的构建。笔者对采集到的满族民间故事口述档案数据进行评估取舍,选取了代表性实例进行添加,共录入129个实例,其中民间故事类28个、人物类21个、时间实体类14个、地点类22个、习俗类6个、方言类10个、风物类7个、故事角色类21个。表3(见下页)为添加的部分实例,图3(见下页)展现了添加实例后的本体模型。

图3 添加实例后的满族民间故事口述档案知识本体

表3 满族民间故事口述档案部分实例

6.知识检索。知识组织旨在实现知识检索,知识检索是进行知识组织的归宿。本体构建完成后,笔者采用Protege中OntoGraf插件自带的Search检索功能进行基本的知识检索,以验证模型的可用性。以搜索“康熙”二字为例,为清晰表达各知识单元属性,根据OntoGraf检索界面呈现结果,绘制可视化图,见图4。

图4 以“康熙”为关键词进行的知识检索

在本体库中所有与“康熙”有关的内容被检索出来。从类与实例的关联观察,可以看到“康熙”和“乾隆”是“故事角色”的实例,“康熙与乾隆的一副对联”是“传说”的一个实例,“康熙年间”是“故事时间”的一个实例,也就是说,可以检索出与“康熙”二字有关的所有实例,并关联其所属类别。从实例与实例的关联观察,可以从关联线数最多的“康熙与乾隆的一副对联”出发,以此为中心,了解它与其他实例的关系,我们可以清晰地了解到“康熙与乾隆的一副对联”采集地点在本溪满族自治县偏岭镇泥塔村,采集时间为2008年7月19日,口述者为爱新觉罗·庆凯,采集者为张莹,故事发生地点为北京,故事发生时间为康熙年间,康熙与乾隆是此故事的角色,且二者为爷孙关系。此外,在Protege系统中点击爱新觉罗·庆凯,可以看到其具体的数值属性,其出生日期为1935年7月,民族为满族,文化程度为初中文化,性别为男,采集故事时其年龄为74岁。

由此可见,知识检索实现了满族民间故事口述档案不同类型知识单元的关联,当检索某一知识时,与其有关联的所有知识以可视化方式呈现,并能展现其具体关系,充分体现满族民间故事口述档案内涵,实现了其知识内部细粒度挖掘和开发利用,有利于人们从细微角度了解满族民间故事,从而感受民族精神与民族智慧。

四、总结

本文以满族民间故事口述档案为研究对象,以本体模型构建方法为基础对其进行知识组织,探索满族民间故事口述档案深度开发,揭示满族民间故事口述档案知识间动态关联,为民间故事口述档案本体构建与知识检索提供了一定参考价值,但同时也存在不足之处:对于数据的采集与分类使用手工方式,使采集数据量有限且效率较低,质量缺乏保障,类与属性的定义有待进一步完善。未来,笔者将在以下方面继续开展深入研究:(1)融合机器学习、自然语言处理等人工智能技术,将传统的手工数据采集转变为半自动、自动方式,高效高质对模型进行科学性维护。(2)应用SPARQL语言查询满族民间故事口述档案知识本体语义关系,增强知识检索能力与语义化程度。(3)实现满族民间故事口述档案知识推理,将不能通过可视化图清晰展现的属性采用知识推理机制挖掘隐性关联。

猜你喜欢
民间故事满族实例
友谊使者讲述的民间故事
说说民间故事
民间故事为什么感动人
魔法糖的故事(三)
浅谈呼和浩特市满族文化
满族服饰元素在现代女装设计中的应用
完形填空Ⅱ
完形填空Ⅰ
满族风俗图谱(民间信仰)