关键词:智慧图书馆;报纸专题库;国家图书馆;数字化项目
摘 要:报纸资源是图书馆馆藏资源的重要组成部分,具有较高的史料价值和学术价值。文章以国家图书馆在建报纸数字化项目为例,对不同类型报纸的数据库建设要点进行了对比分析,旨在为其他图书馆报纸专题库建设提供参考。
中图分类号:G250.7 文献标识码:A 文章编号:1003-1588(2022)05-0096-05
图书馆馆藏资源数字化是图书馆信息资源建设的重要内容,可提高馆藏资源利用率,满足用户多元化的信息需求。在智慧图书馆背景下,图书馆可通过数据资源挖掘实现知识增值和服务创新。报纸专题数据库是图书馆按照某一主题(学科、领域、事件、时间等)进行内容遴选[1],通过知识组织、数据挖掘、数据加工和数字化转换、数据关联等步骤,用计算机可识别和处理的文本、图片或其他多媒体形式组建起来的可供用户查询和检索使用的数据资源集成[2]。报纸资源是图书馆馆藏资源的重要组成部分,是记录各个时期中国政治、经济、军事、外交、生活等的重要文献,具有很高的史料价值和学术价值。但其出版形式和载体形态具有特殊性:报纸数量庞大但保存情况不容乐观,参考价值高但数字化揭示程度低。特别是承载着中国特殊变革时期的民国报纸,产生于机械化造纸初期:造纸材料混杂、制浆工艺落后,导致报纸酸性强、保存性差。笔者曾深入国家图书馆报纸典藏库调研,发现民国报纸破损程度非常高,页面发黄,纸质发脆;相当一部分年代久远的报纸已经丧失阅览功能,束之高阁无人问津。报纸资源较高的文献价值和较低的利用率这对矛盾,使开展馆藏报纸资源的保护和深度开发工作迫在眉睫,报纸专题数据库建设应运而生。笔者在国家图书馆从事文献数字化工作多年,参与了多个报纸专题库建设,在此对不同类型报纸的数据库建设要点进行对比分析,希望能为其他图书馆报纸资源专题库建设提供参考。
1 报纸专题库建设的意义
1.1 报纸专题库建设是智慧图书馆资源建设和保护的重要途径
一方面,开展报纸专题数据库建设可以保护馆藏纸质报纸资源,特别是民国时期破旧老报纸资源,延长报纸资源的使用寿命;另一方面,专题库建设是实现报纸资源增值服务的重要途径[3]。报纸资源的载体多为实体资源和缩微胶片,亟待保护的年代久远的纸质报纸资源已经逐渐丧失了阅览功能,而缩微胶片对读者的阅读设备、使用技巧要求较高,且不能提供一站式检索服务,阅读成本高而阅读效率底,用户体验差。报纸专题库的建设从根本上解决了老旧报纸的保护和利用问题。一方面,数字化后的实体报纸资源免去了复制、翻阅之难,纸质文献可以被更好地保护;另一方面,报纸专题库的建设实现了报纸资源生命周期的延续,使静态无序的报纸资源“活过来”了。
1.2 报纸专题库建设是智慧图书馆为读者提供纵深服务的重要举措
大数据时代,智慧图书馆是继数字图书馆、移动图书馆后在“互联网+”时代应运而生的新型图书馆模式。智慧图书馆要求图书馆能够通过物联网、云计算、大数据等新一代信息技术的运用,改变图书馆系统和用户的交互方式,进而提高交互的精准度、灵活性和响应速度[4]。图书馆在建数字化项目都要以为用户提供无时不在、无处不在的个性化定制服务为目标。报纸专题库可以根据不同的主题呈现不同规模的集合体。例如,国家图书馆“中国历史文献总库·近代报纸数据库”(即民国报纸数据库)就是将所有馆藏民国报纸缩微胶片数字化并进行报纸标题内容OCR(Optical Character Recognition,光学字符识别)文字识别,数据库设置了任意词、区域、拼音等检索入口,实现了馆藏民国报纸一站式导航服务,读者也摆脱了必须到馆查閱资料的困难,人机交互随时随地[5]。
2 国家图书馆报纸专题库建设现状
截止到2021年12月,国家图书馆馆藏中文报纸实体资源196,764(合订)册,外文报纸资源102,238册;馆藏数字化报纸资源3,430种。门户网站中,已建成并免费对读者开放的大型报纸专题数据库有中国历史文献总库·红色文献数据库、近代报纸数据库、申报、Newspaper Source(EBSCO)等18个。在众多报纸专题数据库中,笔者曾参与了民国报纸缩微胶片数字化项目和中华人民共和国大事记馆藏报纸展项目。在数据库建设形式方面,以上项目基本包括了现阶段我国图书馆报纸资源数字化工作的两个方向:基于全文ORC识别的小型专题数据库以及基于标题识别、标引的大而全数据库。笔者将从专题库建设涉及的主题内容遴选、标准规范制定和其他相关特殊事项等方面分析不同类型专题库的不同特点。
3 报纸专题库建设要点对比分析
3.1 专题内容遴选
数据资源是数据库的核心。不同类型数据库的数据采集策略不同,无论是大型专题数据库如民国报纸数据库,还是小型展览型特色主题数据库,资源的采访原则都应精而全,要选择完整的、具有馆藏特色的报纸资源。
3.1.1 综合性数据库。国家图书馆民国报纸缩微数字化项目是国家图书馆和出版社、外包公司合作完成的民国报纸专题数据库,该项目以1919—1949年间的民国报纸为对象,尽可能收录民国期间出版发行的所有报纸资源。馆藏报纸缩微胶片资源是其加工对象,大而全是其特点,不仅有《新华日报》《大刚报》这样的大报,还有读者广泛、内容休闲又具趣味性的小报,如《电影报》《北平小报》《新儿童报》《文艺新闻》等。由于报纸版面数量巨大,经费有限,且民国报纸破损严重,本着最大限度抢救报纸资源的原则,项目组最后将该项目的流程确定为:在每版扫描图像的基础上对版面篇目标题(包括引题、标题、副题)进行OCR文字识别,并对篇目的位置范围进行置标,最终实现了基于篇目标题检索的民国报纸库阅览服务[6]。
3.1.2 特色主题数据库。国家图书馆另一报纸资源库中华人民共和国大事记线上展览项目是为庆祝中华人民共和国成立七十周年建设的,该数据库通过对1949—2019年国内外发生的重大历史事件及相关报道的揭示,客观真实地反映了我国近70年来发生的巨大变化,献礼共和国成立七十周年。与此同时,项目组将建成的专题数据库对外开放,为专家学者提供知识服务[7]。该项目围绕中华人民共和国成立七十周年这一主题,以1949—2019年《人民日报》为加工对象,以共和国70年来重大历史事件报道为脉络,遴选相关度较高的报道并辅以图书、讲座等其他馆藏资源,形成关联数据以丰富事件内容。较之覆盖面较广的综合性民国报纸数据库,大事记报纸资源展虽然信息源遴选单一、专指性强,但丰富的关联数据资源使该报纸展览资源库更加立体。下页表1对以上两类自建库的特点进行了对比分析,图书馆可根据需求和馆藏资源特点决定建库类型。
3.2 项目标准规范
3.2.1 元数据标准。民国报纸数字化加工项目是在图像扫描的基础上进行文章标题内容的文字识别,由专业的外包公司完成数字化加工,国家图书馆负责数据验收。民国报纸元数据的内容由两部分组成:馆藏缩微胶片的元数据(MARC格式)以及加工过程中产生的新的元数据内容(使用ACCESS数据库和XML文件保存)。元数据内容包括:版面信息元数据(题名、卷期、版次、出版日期等)、正文元数据(栏目、标题、副标题、作者等)、图片元数据(图片版次、栏目、标题、副题)、广告元数据(卷期、版次等)等[8]。
中华人民共和国大事记线上展览项目则是对报纸内容做了更深层次揭示的专题报纸数据库。数据库网站首页提供年份导航,用户可根据年份浏览共和国70年来的重大事件。例如,1967年6月17日,中国第一颗氢弹空爆试验成功。点击“查看报纸”按钮,读者可以浏览与此大事件所有相关的报道的图片和文字以及与此事件相关的馆藏图书、展览等资源。在该项目加工过程中,涉及的图像文件信息以说明文件的形式存在,包括唯一标识号、出版日期、版面、事件年份、事件编号、备注以及事件描述等信息。
3.2.2 对象数据标准。经过项目组成员的大量测试和对比分析,最终确定民国报纸长期保存级数据为不压缩TIFF格式,发布服务级为JPG格式和双层PDF格式:上层为图像,下层为文本;而大事记线上展览项目的原始图像文件也采用TIFF格式,发布服务级采用JPG格式和TXT文本数据,方便读者阅读和利用。
参考《国家图书馆图像数据加工标准和操作指南》中普通文献的扫描分辨率,民国报纸缩微胶片数字化项目和中华人民共和国大事记项目图像扫描参数都选择400dpi。不同的是,由于大多数民国报纸印刷都是黑色文字和图片,几乎没有彩色字样,该项目在启动之初经过黑白二值扫描和灰度扫描对比测试,最后确定民国报纸数字化扫描采用灰度扫描;而大事记项目是缩微胶片数字化和实体报纸扫描相结合,涉及大量彩色图像,故该项目原始TIFF图像的扫描和格式存储标准涉及灰度图像和彩色图像两种,详见表2、表3。
3.2.3 存储结构。一般来讲,一个数字对象就是一个具有唯一标识的数字资源,每个对象数据在加工过程中会被赋予不同的存储结构和路径。民国报纸的对象数据存储路径分为三层:第一层为报纸的唯一标识号,不同报纸被赋予不同的唯一标识号,号码来自报纸缩微胶片元数据;第二层为8位数字组成的期号;第三层为三位数字组成的版数。例如,唯一标识号为00N000418,出版日期为1948年5月31号的《福建时报》第1版的图像扫描文件的存储路径为\\00N000418\\19480531\\001。
194901002.jpg
194901003.jpg
194901事件描述.txt
中华人民共和国大事记线上展览项目的加工对象是馆藏《人民日报》缩微胶片数字化后的图像文件以及馆藏纸质报纸经扫描后的图像文件。在此项目中,对象数据包括三种类型:原始TIFF文件、JPG文件及文本文件。TIFF文件进行纠偏、去黑边、格式转化、添加水印、目标篇目画框等一系列数字化加工后,生成发布服务级JPG文件(用JPG_S表示)。TIFF文件和JPG文件命名规则一致,在此以JPG图像举例说明:图像文件的唯一标识号设为9位数字,前四位为事件发生年份,中间两位是该年份事件编号,而后三位则是以001起始的数字序号。例如,若1949年发生的编号为1的重要事件涉及两张报纸图像,则1949年事件1的第一张图像命名为194901001,第二张图像命名为194901002。与此同时,为照顾不同用户的阅读习惯,项目特增加事件描述的文本文件(以TXT格式呈现事件全文内容),文件存放于发布级成品数据JPG_S文件中该事件子目录下。例如,1949年事件1的三张图像和描述文件的命名和存储路径如下:
中华人民共和国大事记\JPG_S\1949\01\194901001.jpg
3.3 特殊事项
不同类型报纸库的数据结构和平台展示方式不同,在数字化过程中会采用不同的加工策略。鉴于民国报纸数据结构的复杂性以及未来平台检索服务的需求,项目采用XML定义报纸数据结构,每版报纸标记为一个XML文件,文件包含该版次所属该期报纸的基本信息、各个篇目的标题识别文字、篇目范围置标数据等具体内容,通过坐标定位实现标引,保证用户通过大小标题和作者检索能够准确定位该篇范围。XML具体实例和版面呈现见图1、图2。
与此不同,大事记线上展览项目报纸库的目标定位方式为基于年代的图像数据浏览式,数据结构简单,所以采用在JPG图像上画红色框线的方式实现事件关联度最高篇目的展示。详见下页图3。
除了揭示方式不同,报纸库的知识标引深度也不尽相同。已实现全文数字化的现当代报纸资源库既提供全文检索服务,又提供基于专题内容的浏览服务;而民国报纸资源实现全文OCR文字识别的范围却很有限,大部分都是PDF格式的全文数字化[9]。图书馆在报纸专题库建设过程中,考虑的已经不是要不要数字化,而是如何更高效地数字化以提高成品利用率,这就要求报纸库建设过程中要不断挖掘知识单元,建立知识联系,实现知识增值服务,使这块资源宝库源源不断地创造价值。
4 结语
馆藏报纸是图书馆资源不可或缺的重要组成部分。近现代报纸逐渐被灰尘布满,被书虫侵蚀,老旧报纸因不停翻阅而碎屑遍地,数量骤减,随着历史见证者、记录者逐渐老去、消失,人类将会面临巨大的损失。保护和开发报纸资源不仅是对历史负责,也是当今智慧图书馆建设的要求。抢救老旧报纸、挖掘专题宝库离不开多馆合作和共建共享,重复建设易造成资源浪费,在建设类似民国报纸专题数据库这样的综合数据库的同时,各地图书馆更应深挖地方特色报纸资源,建设特色专题库,避免资源的重复建设。与此同时,智慧图书馆环境下,新媒体的运用显得格外重要,图书馆只有加强宣传推广工作,把数据库做“活”做“大”,才能让用户看到,从而让知识去找读者,让专题数据库在专业领域发挥作用,为读者提供更精准有效的服务。
参考文献:
[1]孙建军.人文社科专题数据库建设关键技术与方法研究[J].信息资源管理学报,2020(5):11.
[2]李丽环.高校档案专题数据库建设研究与实践[J].兰台世界,2014(7):38-39.
[3]陈桂香.浅议民国报纸的数字化建设:以重庆图书馆为例[J].科技情报开发与经济,2013(4):27-29.
[4]严栋.基于物联网的智慧图书馆[J].图书馆学刊,2010(7):65-68.
[5]中国历史文献总库·近代报纸数据库[EB/OL].[2022-01-05].http://bz.nlcpress.com/library/publish/defa ult/Main.jsp.
[6]肖红.民国报纸数字化实践中的主要问题及处理策略[J].图书馆学研究,2017(4):22-37.
[7]中華人民共和国大事记馆藏报纸展[EB/OL].[2022-01-05].http://www.nlc.cn/dsb_zt/xzzt/ghgdsj./.
[8]肖红,吴茗,曾燕.民国报纸缩微胶片数字化及服务探析:以国家图书馆为例[J].图书馆学刊,2015(10):89-92.
[9]任静,林卫东,李洪梅.公共图书馆民国报刊数字化建设现状研究[J].山东图书馆学刊,2021(3):88-92.
(编校:周雪芹)
收稿日期:2022-04-24
作者简介:姚昕(1987— ),国家图书馆馆员。