国家图书馆民国图书资源知识化探究

2024-09-19 00:00吴茗
河北科技图苑 2024年4期

摘要:文章对国家图书馆民国图书资源库中的资源和开发利用现状进行了初步调研,并在智慧图书馆建设背景下,尝试提供知识化思路及解决方案,探索创建基于四个层次知识内容揭示的技术体系,并以此为基础促进民国图书资源库知识化建设,为资源体系的转型升级提供解决思路。

关键词:民国图书;地方志;本体;知识化

中图分类号:G256文献标识码:A

DOI:10.13897/j.cnki.hbkjty.2024.0048

0引言

随着“民国时期文献保护计划”的正式启动,民国文献的普查、保护、数字资源建设以及宣传推广等工作顺利推进,并取得丰硕的阶段性成果。作为全国最大的民国文献收藏机构之一的国家图书馆,充分挖掘和利用馆藏资源,已建成多个综合性全文数据库和专题数据库,为项目延续性开展和知识化建设提供了充分的数据保障。

民国文献资源库的建设,一直沿袭同一套建设标准规范和模式,有效保障了数据的稳定性和一致性,但在智慧图书馆建设阶段,如何将资源进行整合与深度揭示,如何利用智慧技术手段将“资源”转化为“知识”,是业界亟待解决的重点及难点。本文以国家图书馆“民国图书资源库”中的资源作为研究对象,进行资源建设利用u0HCFxFWa+INIhpd3LXB5B9poBrDvrAnYExDz225mr4=的现实调研和知识化建设探讨。

1民国图书资源库资源分析及开发利用现状

1.1资源库的文献类型

2005年,国家图书馆启动民国图书数字化项目,用模转数技术将缩微胶片转换成数字影像,建成国家图书馆民国图书全文影像资源库。截至2020年底,国家图书馆已建设完成民国图书数字化资源113 027种2 177万页[1]。在已发布的数字资源中,社会科学类资源数量占比约82%,其中“文学”类图书占比最高,约18%;“政治、法律”类位列第二,约占15%;“文化、科学、教育、体育”类位列第三,约占13%;“经济”类和“历史、地理”类并列第四,各占约10%。

1.2资源库的特色文献

1.2.1民国方志

方志文献反映了区域社会经济的变动和地方各种势力的起伏,是区域社会史研究中极其重要的文献。民国方志在体例、内容、章法等方面基本沿袭了古籍方志的特点,同时存在不同的创新。国家图书馆通过政府调拨、接受捐赠、采购、征集等方式积极扩充馆藏,所藏民国时期编纂的方志不仅数量庞大,

而且品种齐全,包括全国志、省志、市志、县志、乡镇志和山水志等几种主要类型,在民国图书资源库中发布的方志文献约300余种,其中省志和市县志占比最高,约90%以上,省志涉及的行政区覆盖范围更是达到100%。例如,全国志有白眉初著 《中华民国省区全志》;省志包括林传甲总纂 《大中华山西省地理志》《大中华浙江省地理志》《大中华直隶省地理志》等;市县志包括云南昆明市政公所总务课编纂《昆明市志》、叶楚伧、柳诒徵主编《首都志》、张其昀主编《遵义新志》、梅文昭总纂《宁安县志》、李镇华等纂修《通化县志》等;乡镇志包括金正元纂 《西安县乡土志》、徐宗伟总纂《珲春乡土志》等;山水志包括钱文选编辑《天目山名胜志》,陆璇卿著《虎邱山小志》等。

1.2.2官方出版物

民国时期,从北洋政府到南京政府,都曾发行过大量的官方出版物。除了各级政府部门及相关机构出版的文献,还包括具有官方性质的协会、组织等出版的文献。国家图书馆所藏官方出版物的来源主要依靠征集和调拨[2]。

在国家图书馆“民国图书资源库”中,分别以“责任者”和“出版者”为检索字段进行遴选,可初步统计出资源库中所藏政府出版物约10 000余种。从出版机构来看,包括国民政府时期国民党各级党部、中央及地方各级政府及其附属机构和具备官方性质的组织、协会等;从文献类型上看,包括工作报告、职员录、统计资料、调查报告、会议报告、外交公约、言论、法令汇编等;从内容上看,涉及到政治、经济、法律、军事、外交、工业、农业、资源、交通运输、社会、文化等多个领域。这类文献包含了大量准确详实的信息,是可以从中了解当时科技发展水平、政治经济状况及各项政策的权威性官方文献,为今天的历史研究者提供了大量珍贵资料。民国时期的官方出版物是国家图书馆重要而富有特色的馆藏资源。

1.3资源库的开发利用现状

1.3.1版权使用层面

根据现行《中华人民共和国著作权法》第二章第二十三条,“法人或者非法人组织的作品、著作权(署名权除外)由法人或者非法人组织享有的职务作品,其发表权的保护期为五十年,截止于作品创作完成后第五十年的12月31日;本法第十条第一款第五项至第十七项规定的权利的保护期为五十年,截止于作品首次发表后第五十年的12月31日,但作品自创作完成后五十年内未发表的,本法不再保护[3]”。依据该条款,民国时期以机构、组织等名义发表的作品,其大部分著作权主体因为政权更迭自然缺乏承继,即使在新中国成立后仍然存在的小部分,其作品也都在1999年12月31日以后进入公有领域,成为社会共同财富,不再需要获取授权。

除了已经进入公有领域的民国文献,还有大量尚处于著作权保护期的作品受到现行著作权法的保护,这部分文献仍需要获得相应权利人的授权。

1.3.2数据资源基础层面

民国图书资源库可以提供 “题名”“责任者”“出版地”“出版者”“出版时间”“主题词”“摘要”等检索途径,还可以提供基于篇章目录的层级标引,并实现全文PDF图像浏览。无论在资源规模、资源覆盖面、读者服务范围都具有突出优势,产生了较大的社会影响,为进一步深化资源开发,多维度拓展资源功能夯实了基础。

目前,国家图书馆民国图书资源库依然采取的是传统的资源组织形式和资源揭示方式,是以外部文献特征为检索点,通过关键词匹配用户检索的信息, 用户从返回的检索结果中查找、提取所需要的知识。搜索还没有深入到内容层面,无法进行知识挖掘,更无法揭示文献信息的知识关联,难以满足用户多样性、深层次的知识需求。各类特色资源深埋于民国图书资源库,海量而无序,没有进行有效开发和利用,其资源价值没有得到充分体现。

1.4资源开发转型的迫切需要

图书馆的发展已经从传统的物理图书馆、数字移动图书馆走向智慧图书馆。近几年来,国家图书馆一直寻求依据智慧图书馆理念,逐步引入本体、关联数据、知识图谱等技术手段,并为此进行了大量的理论研究与实践探索来开展民国文献知识化建设,目的是使民国文献不再是处于静态的、单一的,等待被使用的境地。国家图书馆不仅希望将文献提供给读者,更希望借助多学科的多领域技术方法协助用户内化知识,构建起知识学习网络,更期待能够有效推动知识创造和建立知识服务意识,促进图书馆资源体系与服务保障体系的转型升级。图书馆服务在智慧服务阶段展现出个性化、智能化、社交化的特点[4]。

2未来发展的思路

2.1资源组织层面

目前,国家图书馆依据文献内容建成的专题库有“民国法律数字化资源库”“东京审判资源库”“日本细菌战资源库”“日本战争罪行审判史料编译”。可以在此基础上,根据民国文献特色和国家图书馆服务需要,对数字文献进行重新分析和整合,从不同的研究理念和视角构建凸显文献特色的专题资源平台,组织建构高质量的完整化、系统化的资源体系,将各类文献的内容进行析出、精细遴选后,梳理构建形成人物专题、地方志专题、机构行业专题、统计专题、政务专题等多个特色鲜明的专题库。例如,利用政府、机构、协会等的工作报告,构建民国公文数据库;利用统计资料构建民国时期行业发展历史专题库;利用会议文献构建民国会议相关专题库;利用地方志及相关文献构建民国时期地方性文献专题库。用户通过精准检索可在专题库中发现所需信息及其相关资源,并可对照阅读相关文献。

2.2资源呈现层面

仅仅依靠全文检索这种方式难以有效地将其所有事件要素及其关联展示出来。比如一个人物涉及的时间、地点、事件、组织机构等基本要素,仅仅依靠全文检索,是很难对相关要素进行有效梳理并清晰立体呈现的。依托坚实的馆藏民国文献信息资源,在构建专题库平台基础上,利用GIS、可视化、文本挖掘以及关联数据等新的计算机技术,开展基于信息内容单元的知识组织技术探索,以知识本体建设为核心,将相对独立分散的信息点整合,形成层次清晰的知识图谱体系,准确地捕捉用户的搜索意图,挖掘资源所蕴藏的深层次知识,展现更多的文献资源信息和资源关系,再通过友好的用户界面提供给使用者,从而为使用者提供知识智慧化服务。

为了满足用户发现知识内容、利用知识关联的使用需求,国家图书馆在提供篇章目录的数据检索和全文图像浏览基础上,通过精细化标引,实现细粒度与多维度的知识发现服务和知识图谱服务,建成了“民国时期地方文献知识库”。目前,知识库利用文字识别技术(OCR)、自然语言处理技术(NLP)、语义分析技术(SA)、知识图谱(KG)等智慧技术手段,已经完成研发民国时期地方文献319种,实现了约5万余条的包括人物、机构、时间、地名、物产等的知识抽取,以及2万余个图表的内容析出;开发了包括“人物社会关系网络分析”“地理名称历史沿革分析”“历史事件时空维度分析”“志书机构时空维度分析”“志书物产专题分析”“地理—人物关联分析”等6个知识图谱工具,可实现图像、文本的对照阅读,资源聚合展示、关联发现、数据融合等服务。

3资源知识化建设探索

利用智慧手段开展民国文献的知识化建设,是全国智慧图书馆体系资源建设的重要组成部分。选择合适的知识组织工具是知识组织的关键。民国时期的资源可选用本体构建工具进行知识组织,通过知识处理及可视化类工具,建立知识之间的深层次关联,形成知识网络,并通过合适的方式展现给用户。开展民国文献的知识化建设,填补民国文献在知识化加工领域的空白,国家图书馆在资源规模、内容覆盖、服务范围等方面都具有突出优势。

3.1完善底层信息化基础

目前,国家图书馆的民国数字文献尚未开展OCR文字识别加工,意味着不能对全文文献进行深层次的挖掘和提取。OCR全文数据是进一步开展数字人文研究的重要基础,开展OCR变得尤为迫切。基于全文的检索服务,检索信息全面,可充分利用并展现文献价值,充分挖掘其巨大的知识服务潜力。

因民国文献特性,其印刷质量参差不齐,字迹模糊难辨,还存在竖排版、手工刻版等情况,极大影响了OCR文字识别的正确率,而且对人工校对的依存度较高,需要克服诸多技术难关,需要基于机器学习技术,持续自训练、自提升,提高OCR识别率和智能纠错能力。

3.2细化文献层次结构

在现有国家图书馆民国图书资源库的资源中,资源的组织结构是以“种”“册”“页”建立的三级存储结构,第三级别“页”的文献结构一般根据文献目录页的内容,据实进行目录信息全文著录,可以实现揭示图书结构和层次,但是很多民国图书没有原始目录,或者即使有目录也不能够充分反映其主要内容和全书架构,其重要信息并没有充分揭示,尤其是一些包含重要信息的照片、图表、地图、插图、附录等结构单元也不能完整体现出来。

我们可在此基础上将文献结构细化到最小知识单元,增加版权页、题词页、书影、照片、责任者名录页、文摘页、图表、跋、广告等结构单元,并根据各结构单元特点及内容制定充分展示其内容的著录规则,使资源拥有清晰的结构脉络。

以《江蘇省鄕土志》为例,现有资源库可以呈现的层次结构目录页的内容,详见图1。图2是精细化标引的文献层次结构。可以看出,图2的结构划分层次分明,揭示的内容更加详尽充分。

3.3建设本体知识库

3.3.1构建本体模型

民国图书文献的本体模型,可在基于现有民国图书元数据方案的基础上进行构建,定义描述概念本身特性和关系的数据属性和关系属性。民国图书的书目数据对于题名项、责任者项、出版社项、出版年份项等文献特征描述完整、定义清晰,可直接在本体构建中复用。以民国方志为例,可在复用元数据描述项的基础上,根据文献内容特征,抽取出包括人物、机构、事件、时间、地点、物产等信息,利用本体构建工具得到民国方志本体模型。例如人物类,数据属性可包括姓名、性别、身份、职业、职位、籍贯、生卒日期等,关系属性可包括人物亲属关系、人物担任职位、职位从属机构、人物参与历史事件发生时间、发生地点等关系。再例如地点类,数据属性可包括地名、行政层级、沿革、经纬度等,关系属性可包括隶属、辖区等。

3.3.2实例抽取

实例抽取是从文本中识别实体信息并类别划分,利用深度学习和自然语言处理技术,结合人工修订,对文献的非结构化数据和元数据、数据库的结构化数据进行知识抽取、知识标引、知识加工,建立本体知识集合。通过构建本体知识库,形成结构化的知识资源,为其共享、检索和传播提供支持。实例抽取是整个本体建设中一项重要内容,实例化的质量直接关系到知识检索的效率和知识图谱的质量,也是最为耗时耗力的部分。以民国方志《江蘇省鄕土志》的内容为例,根据资源的内容特征和所构建的本体模型,自动抽取 “范純仁”“堯夫”“仲淹”“純佑”“王安石”“司馬光”等人物名称,以及“弼州”“永州”等地理名称,依据数据属性和关系模型,形成“范純仁”的知识集合体,详见图3。

3.4知识揭示

通过机器学习和数据关联,对规范后的资源概念和关系进行挖掘,揭示知识和深层语义关系。根据用户的需求,运用检索技术、推理技术、关联分析技术等对知识关系链或知识仓储进行运算,从而实现知识服务;另一方面,采集用户需求信息和使用系统信息,并将这些信息传递给知识组织层,为建立用户行为分析知识关系链提供客观数据[5]。民国文献数字化资源经过知识化加工,利用本体技术,确立知识图谱中的节点、属性和关系,建立知识导航图谱,最终实现语义组织和共享式开放数据服务。

图4展示了“范純仁”的部分节点与关系实例。通过对人名、地名等实例的抽取,整合相关信息,确立知识图谱的人物节点、地名节点以及相互关系,从而更清晰地将隐含在文献中的人物属性、人物关系、人物与地理名称的关系呈现出来。

4结语

民国文献资源的知识化建设是一项艰巨的任务,需要多个研发阶段才能初具规模和服务功能。民国文献中待开发的非结构性化数据,还包含了大量的表格、照片等图表类资源,这些图表类资源能够真实、生动、直观地再现当时的客观现实和情形,具有极高的史料价值,但由于自然语言的复杂性,这种资源的关键信息往往很难通过计算机深度学习匹配进行抽取,自动或半自动处理的本体需要大量的人工干预,需要稳定的具有较高知识素养、业务能力的加工队伍。同时,知识本体建设过程中的术语提取、关系抽取、资源存储、资源可视化也需要大量的技术支持。这些都在很大程度上为资源的知识化建设增加了难度,对图书馆业界的馆员智慧化素质提出了更高的要求。

参考文献

[1]熊远明.国家图书馆年鉴2021[M].北京:国家图书馆出版社,2022.

[2]荣杰.国家图书馆藏民国文献调研与分析[J].国家图书馆学刊,2012,21(4):30-34.

[3]中国人大网.中华人民共和国著作权法释义[EB/OL].[2024-03-12]. http://www.npc.gov.cn/npc/c2/c30834/202011/t20201119_308796.html.

[4]沈奎林.智慧图书馆建设思考与实践[J].大学图书情报学刊,2022,40(1):7-14.

[5]徐绪堪.面向知识服务的知识组织框架体系构建[J].情报学报,2013,32(12):1278-1287.

作者简介:

吴茗,男,国家图书馆副研究馆员。研究方向:古籍文献知识化。

(收稿日期:2024-03-26责任编辑:马玉娟)

Intellectualization Exploration on Holding of Books of the

Republic of China in National Library of China

Wu Ming

Abstract:

This paper makes a preliminary investigation on the current situation of the development and utilization of databases of books in the Republic of China in the National Library of China, and tries to provide intellectualization ideas and solutions under the background of smart libraries, explores the establishment of a technical system based on four levels of knowledge content disclosure. On this basis, this paper hopes to promote the intellectualization construction of databases of books in the Republic of China, and provide solutions for the transformation and upgrading of resource system.

Keywords:Books in the Republic of China;Local chronicles;Ontology;Intellectualization