曹鑫新
现首先介绍民国报纸资源建设的意义,其次对当前民国报纸数字化资源利用存在的难点进行分析,再次总结数字化建设的方向,最后提出民国报纸数字化建设改造重点与知识资源建设实施路径。希望对民国时期文献知识资源建设提供参考。
近年来,图书馆业务形态从传统图书馆到数字图书馆再到智慧图书馆的转变,促进了图书馆相关业务的推陈出新。如何利用当前资源为读者提供智慧化服务,进行智慧化转型,成为图书馆在新阶段需要思考的问题。民国文献是对民国时期政治、经济、文化、民生等方面的记载,在史料中有着十分重要的地位。民国报纸具有覆盖地域范围广、出版周期短等特点,能够从多方面立体地呈现出民国时期社会面貌及相关知识。因此,对民国报纸的加工与建设也成为民国文献保护与利用的重要工作之一。
民国报纸资源建设的重要意义
为学科研究提供史料依据
笔者对中国知网“篇名=民国+报纸、篇名=民国+报刊”的中文文献进行搜索,截至2023年2月,共获得相关文献351篇。对其内容进行分析研究发现,民国报纸的文献研究涉及历史、广告、图书馆学等多学科,研究内容基本分为两大类别,分别为报纸内容信息的利用和民国报纸馆藏建设。数量庞大的民国报纸内容信息利用的文献研究表明民国报纸在民国文献中的重要价值,并从侧面体现出各个学科的内容,挖掘民国报纸中的知识信息对历史、文学、文化、艺术等方面具有的深远意义。如陈雅莉以民国报纸对“国货”意义的生产为例,阐释了中国近代时尚观念对民族意识的双重构建问题[1]。
充分揭示馆藏资源
民国不同阶段的报纸资源建设文献研究侧重点不同。2014年至2015年初,图书馆强调民国报纸的保护和开发,侧重报纸实体的保护与修复,对民国报纸数字化等再生性保护进行了初步探索,如上海图书馆、重庆图书馆等。2015年至2020年间,图书馆侧重民国报纸的数字化工作,将缩微胶片进行数字化转换,分地区、分主题进行数字化加工,有些图书馆开始尝试对标题、作者等信息进行著录,如国家图书馆、首都图书馆等。在此期间还出现了专题特色文献数据库的探索性建设、影印资源建设。2021年,随着智慧图书馆概念的普及与推广,图书馆开始注重对数字资源的语义标注,并引入细粒度标引,强调知识的关联与可视化。
当前民国报纸数字化资源利用存在的难点
关于民国报纸建设的研究,有的图书馆注重数据库的建设,也有的图书馆注重知识化抽取的探索。在数字化形式上有PDF格式的全文数字化,也有标题OCR文字识别[2]。在数字化成品利用上应注重数据库的建设,如大而全且覆盖范围较广的综合数据库、围绕某一专题建设的特色主题数据库[3]。
目前,检索的结果很大程度源于搜索者对搜索主题的认识,因此这种检索在一定程度上难以充分展示相关主题的馆藏资源。当前各图书馆都在开展民国报纸数字化项目,该项目是建立在自身馆藏资源与数字化建设基础上的,在成品展现上各具特色。“百家争鸣”虽然可以促进建设的良性前进,但与此同时也造成了资源的浪费,重复的资源建设所体现出的“投入与产出”显然不太合理。
在智能化时代,通過对数字资源进行统计分析,在已有资源的基础上进行决策,为已完成建设或即将投入建设的数字资源赋予新的生命力,使原有的已完成建设的“信息孤岛”式的数据成品转变为关联数据库数据或者汇编资源,知识资源建设可以更好地实现从信息到知识网的螺旋式上升。“十四五”时期,我国图书馆信息资源建设需要实现从认识到实践的多维度转变,即信息资源从藏到用、从单一纸质到多类型资源以及从信息资源的组织到语义化组织、从信息表达到向词表数据治理的转变[4]。对民国报纸数字资源进行知识抽取能够最大限度地体现出民国报纸在民国历史时期的作用,因此新时期民国报纸的建设要在原有的基础上进行细化。
数字化建设方向
智慧图书馆的智慧化管理、智慧化建设与服务突出了智慧图书馆更加全面与个性化的服务。图书馆对资源的建设工作更加侧重资源的统筹与数据的关联性建设。智慧图书馆对内容的建设已经从最初的以收藏为主体转变为以增值为目的[5]。
资源从数据向知识转化
通常数字资源可以通过自建、合作共建、征集等方式获取,文献类型可以分为图书、期刊、报纸等,体现了数字资源来源与建设内容的多样化。以往数字化加工多针对某一主题的相关资源,在完成当前主题资源的加工与发布后,资源会进入库房得到长期保存,变成一种“一次性数字资源”。王世伟指出,在数字图书馆建设基础上,智慧图书馆使得以往文献能够按照一定的规则呈现给读者,并为其提供丰富的服务,使文献“活化”且更加智能化,有利于读者更加便捷地获取所需资源[6]。因此,如何让文献“活化”与智能化这个问题将成为智慧图书馆时代知识资源建设的核心工作。
知识资源共建化
智慧图书馆的检索平台主要提供知识的可视化与智慧服务。读者不仅能够一站式获取相关资源,同时也为平台带来了产生更多信息增值的可能。读者在享受精准化服务的同时,也能参与数据建设,并在其中扮演数据建设方、质检方、文献提供方等角色。依据用户类型标签及需求进行智能推送的同时,邀请读者参与知识资源建设服务与勘误工作,并通过收集用户平台行为确定新的建设方向,指导下一步知识资源建设工作。知识资源建设不再是“一劳永逸”的工作,而是一项随着不同角色进入、调整、更新形成的“至臻完美”的工作。
数据类型多样化
随着新媒体、新技术的不断迭代更新,数字资源也有了相应的改变,除了以往原生数字资源、馆藏实体资源的再生资源以外,还涉及针对某一主题建设形成的AR、VR、MR等类型的新型数字资源。资源类型的多样化与知识资源建设的个性化密切相关,需要在建设初期考虑后期阅读推广可能出现的问题,例如推广针对的人群、推广的平台以及实践模式与策略等。
民国报纸数字化建设改造重点
对民国报纸资源进行知识化加工,能够在保护纸质资源的前提下,达到对数字资源利用最大化的目的。在梳理知识化加工的工作环节后发现,开展知识资源加工工作还面临一些挑战。
语料库范围的设定
民国报纸资源的语料库主要以纸质资源为基础,在原有的数字化前提下进行建设。因此,语料库建设的批次与范围需要具体斟酌,特色数据库的建设是基于丰富的语料库搭建的。就加工而言,需要区分不同内容主题文本篇目,如在文章分类上分为广告、新闻、文学作品等。不同的分类元素是否需要加入语料库则需要进一步斟酌。
多类型知识资源的描述
报纸的数字化涉及不同的文档类型。在进行知识化加工时,如何描述不同类型的知识资源,以及在提质增效的同时最大限度地展现知识资源内容也是需要进一步思考的问题。
建设语料库解决的是从哪里抽取、从多大范围内抽取的问题,关键字段的抽取就是具体抽取谁,如何抽取的问题。这涉及对不同类型篇目的知识元分类,比如新闻性篇目的知识元分类、广告篇目的知识元分类以及图片篇目的知识元分类,一个好的知识元分类能够涉及民国报纸中所有类型篇目的信息,并且能在不同类型信息上完成非必备字段的标引。“自动抽取加人工描述”的运用使得知识资源的描述更加科学化,有助于最大限度地对资源进行知识抽取。
识别准确率的把控
知识资源建设要基于全文内容进行检索与抽取。在报纸文章构成上,有纯文字篇目、文字加配图篇目、图片篇与漫画篇目。这就意味着知识资源建设工作的要求要比以往的数字资源建设更加详细与准确。不论是报纸信息的噪点处理、文字的识别工作,还是民国时期语言、语法的检查等工作,都需要在标题识别的基础上更加精准化。
民国报纸知识资源揭示与服务
知识资源数据类型决定了知识资源建设的服务形态,这意味着在进行知识资源建设的同时还需要考虑数字化成品的揭示与服务问题。不论是知识网络、知识图谱等的可视化呈现,还是形成针对某一主题的专题库、针对不同类型读者的有声库等,抑或是可以让读者身临其境的VR资源,这些不同的服务形态资源的统筹与建设都是进一步开展知识资源加工需要考虑的问题。
民国报纸知识资源建设实施路径
引入深度学习识别技术,提升识别准确率
传统的OCR技术已经无法满足文字方向不定、纸张噪点较多、文档类型多样的民国报纸知识资源建设的需求,因此应当引入深度学习识别技术,对语料库进行更新与校正,降低人工成本,用机器识别代替大规模的人力投入,一方面能够节省人力成本,另一方面也能最大限度地避免由于工作人员失误所造成的资源提取缺失等问题的发生。
知识资源深加工与共建整合,推陈出新
对知识内容、主题词、分类、作者、标题、地域、时间、事件等进行标引,细化加工粒度,方便后续开展资源的关联性加工等工作。未来已经建成的数字资源成品不再是以某一项目主题为单位的建设,而是更加注重知识内容的深度挖掘,通过前期对资源的精细化标引,针对某一主题将多项目资源、多类型资源进行整合,对项目的揭示注重关联性建设,从某项目资源转向专题数据库建设、多库联合以及知识图谱的建设,通过这样的转变完成对资源的深度揭示,以便为专题领域的研究提供相应的史料参考。当前国内开展知识资源建设的单位应该联合起来,发挥各家特长,在数字化、知识化与技术化等不同领域中贡献力量,合力促成知识资源的共建共享。
联合读者互动建设,鼓励创作
在智能时代,读者不仅是知识的获取者,也是知识的提供者,不同类型读者的加入使得知识网络更加立体。文献不再是建设完成后的“一潭死水”,而是源源不断的“涓涓细流”。各个专题库与平台间的标准化设计与简易链接能够助推读者参与到知识资源建设当中。图书馆的读者不乏具有各个专业特长的“大家”,将“读者、专家、学者”引入图书馆知识资源建设中来,使其成为知识资源建设的一份子,帮助图书馆资源建设单位更精准、更客观地呈现知识资源。
更新培养机制,识人善任
在智慧图书馆中,图书馆馆员的角色也发生了变化,智慧图书馆馆员在数据、数字人文、学术交流、出版、创客、智库、阅读推广、健康信息等方面均能发挥作用[7]。在知识资源加工工作的每一个环节中,图书馆馆员充当了决策者、执行者、质检者、验收者、管理者等多个角色。简单来说,图书馆馆员参与了知識资源建设工作的全流程,并在其中发挥了至关重要的作用。因此数字图书馆馆员本身的素养,包括其学科背景与专业水平等在一定程度上影响着数字化建设中资源整合与揭示的程度。
对知识资源建设人才的培养要从人才引进策略、培养流程与机制以及激励机制三方面着手,在高效率完成数字化工作的同时,保障长效持久且吸引人才的政策,完善人员构成,制定人才配置规划。
在智慧图书馆背景下,知识资源建设工作是在原有数字化的基础上进行深度整合,挖掘文献知识信息,对相应节点进行细粒度标引,建立文献数据库,将以往独立的信息或项目通过关键词或知识项关联起来,将不同类型的资源按照知识体系汇总成库,为读者提供一站式知识服务。随着智慧图书馆的建设,未来知识资源建设工作必将有更加广阔的发展空间。
注释
[1]陈雅莉.中国近代时尚观念对民族意识的双重建构——以民国报纸对“国货”意义的生产为例[J].新闻大学,2022(09):60-72+119.
[2]任静,林卫东,李洪梅.公共图书馆民国报刊数字化建设现状研究[J].山东图书馆学刊,2021(03):88-92.
[3]姚昕.智慧图书馆环境下图书馆报纸专题库建设探讨[J].河南图书馆学刊,2022,42(05):96-100.
[4]苏力.“十四五”时期图书馆信息资源建设的发展转向[J].甘肃科技,2021,37(14):84-85.
[5]吴建中.从数字图书馆到智慧图书馆:机遇、挑战和创新[J].图书馆杂志,2021,40(12):4-11.
[6]王世伟.图书馆智慧体是对图书馆有机体的全面超越[J].图书馆建设,2022(03):4-9.
[7]顾品浩.图书馆智慧化转型中馆员角色转变研究[J].图书馆学刊,2023,45(01):1-6.