地方文献数字化的探索与实践
——以山东文史资料专题数据库为例

2019-03-05 01:30刘婷婷
山东图书馆学刊 2019年1期
关键词:文史资料山东山东省

朱 男 刘婷婷

(山东省图书馆,山东济南 250100)

随着《中华人民共和国公共图书馆法》的颁布实施,中国图书馆事业迈进了黄金发展时期,地方文献建设工作受到各级图书馆的高度重视,也得到国家的大力支持。地方文献数字化有利于充分满足读者需求,有利于文献保护及发挥文献的价值,还有利于文化信息资源共享。地方文献的数字化成为新环境下地方文献工作发展的重中之重。然而受到资金、标准、版权、技术等多方面因素的影响,地方文献数字化工作的推进在全国范围内尚有多方面不足。山东省图书馆在地方文献的数字化方面进行了探索与实践,制作了山东文史资料专题数据库。在保护了地方文献的同时,也满足了读者需求,还取得了相应的社会效益。

1 背景

文史资料是全国各级政协主编的反映中国近代历史、文化、社会掌故等方面的文献资料。以其鲜明的“三亲”(亲历、亲见、亲闻)特色,最详尽全面的叙述中国近代历史。其中绝大部分内容由事件的亲历者执笔叙述。[1]时过境迁其中大多数叙述者已经作古,这些记载几成绝唱。因而这些文献具有重要的历史价值,极为珍贵。

1959年4月29日,在全国政协举行的倡导政协文史资料工作茶话会上,时任全国政协主席周恩来提出了“政协委员要为国家文史资料工作做贡献”这一指示。同年7月20日,政协全国委员会成立了文史资料研究委员会,其任务是“计划、组织和推动全国委员会的委员和有关人士对于我国的近代史资料进行搜集、撰写和研究工作。”经过传达部署,全国大多数省市自治区政协委员会都成立了专门工作机构,积极开展史料征集工作,并且扩大到中小城市和县一级的政协委员会。至1963年时,文史资料工作在全国已经发展到370多个省市县级政协组织。

一般意义的文史资料有多种内容形式,一种是全国性的文史资料,定名为《文史资料选辑》,由中国文史出版社出版;一种是专科文史资料,冠以专科名称,如《辛亥革命史料》;还有一种是地方省市县各级文史资料,在文史资料前冠以地区名,由地方出版社出版,如《山东文史资料》等[2]。

1982年1月,政协山东省委员会文史资料研究委员会重新印制出版了“文革”前编辑的《山东文史资料》第一至四辑。自此,山东省各地市政协开始大规模编辑各类文史资料。之后据不完全统计,山东省县以上政协编辑出版的各类文史资料近1100册。为了更好地保护这些地方文献,更好地发挥其价值,山东省图书馆积极进行了探索与实践,制作了山东文史资料专题数据库。

2 山东文史资料专题数据库

山东文史资料专题数据库由山东省图书馆主持建设。该数据库是以《山东文史资料》及济南、德州、潍坊、青岛、临沂、聊城及其他所辖地市文史资料数字化成果为基础,利用专业制作的数据库发布平台开展的地方文献数字化建设的项目。该项目以保留文史资料的原版原貌为建设原则,以保护山东地方文献为中心,为山东近现代史研究的专家学者提供资料,实现文献资源的共建共享。

2.1 项目周期

2016年,山东省图书馆启动了山东文史资料专题数据库建设项目,由数据库发布服务平台的建设工作和文史资料的数字化工作两部分组成。2017年3月,发布平台建设完成。2017年4月15日,山东文史资料专题数据库平台正式运行,并发布部分已数字化的文史资料(加工批次1、2)。之后文史资料的数字化工作分批次进行,于2017年9月和2018年8月分别发布了部分数字化文史资料(加工批次3、4)。项目计划2020年完成全部山东地方文史资料的数字化工作。如表1所示。

表1 山东文史资料专题数据库建设周期表

注:加工批次1由北京超星赠送

2.2 项目的资金、人员、设备

山东文史资料专题数据库项目的资金由数字图书馆推广工程地方文献数字化项目(以下简称:推广工程)资金和部分自筹资金组成。山东省图书馆采用政府招标的形式,通过与社会力量合作建设开展了该项目。山东文史资料专题数据库资金、合作方、主要设备如表2所示。

表2 山东文史资料专题数据库项目表

注:发布平台、加工批次1由北京超星赠送

2.3 数据库的建设

前面已提到,山东文史资料专题数据库建设由数据库发布服务平台的建设工作和文史资料的数字化工作两部分组成,以下是具体工作进程。

2.3.1 发布服务平台的建设

2016年山东省图书馆开始对发布平台进行规划,后委托由北京世纪超星信息技术发展有限责任公司(以下简称:北京超星)负责开发。该平台系统是一款基于Java+SQL Server的数字化资源管理发布系统软件,是一个经过完善设计并适用于各种服务器环境(如UNIX、LINUX、WINDOWS等)的高效、全新、快速、安全的数字化资源管理发布服务平台。

2.3.2 文史资料的数字化

文史资料的数字化工作是项目的重中之重,数字化文史资料的质量决定了数据库的质量,决定了未来的服务效能。文史资料的数字化工作分为加工和验收两部分。加工由合作方完成,分为:图书扫描、TIFF图片处理、TIFF图片命名、TXT文字转换、发布级PDF对象数据制作几个步骤。验收由山东省图书馆专人负责。截止2018年8月,各合作方共完成了数字化文史资料492种/册111385页,存储总量约800GB,如表3所示。

表3 山东文史资料专题数据库数字化文献种/册/页数

注:加工批次1中后有15种/册被剔除

2.4 数据库的展示

在对山东文史资料专题数据库进行页面设计时,考虑到数字化的文史资料总种/册数较少,因此页面设计以简洁、便利为主。数据库主页面划分为检索区、图书分类区、图书推荐区、公告区及排行榜四大区域。其中能够实现的功能有:浏览数据库栏目,了解全库概貌;检索功能,读者可以选择书名、作者、主题词三项关键词检索所需文史资料;浏览功能,读者可以浏览文史资料全文。山东文史资料专题数据库页面左侧图书分类区按地域划分展示了《山东文史资料》及其他所辖地市文史资料,分为18个子栏目,各栏目如表4所示。

表4 山东文史资料专题数据库类目表

3 山东文史资料数据库的建设特色

3.1 保护地方文献

为更好地保护山东省地方文献,山东省图书馆于2002年底开始筹备建设山东地方文献专藏。2003年,山东省图书馆地方文献阅览室正式开放。目前,山东省图书馆地方文献阅览室共有馆藏约45000多种70000多册,主要收藏1949年以后出版的在内容上具有山东地方特征的文献,如地方志、年鉴、地方人物传记、文史资料等。

山东省图书馆地方文献阅览室设立了文史资料专架,藏有《山东文史资料》及地市文史资料600余种1000余册。这些文史资料主要由山东省及各地市政协、出版社缴送而来,其中1990年之前出版的300余种400余册多为非正式出版物且破损严重。山东文史资料专题数据库的建设,为有效保护这批地方文献起到了重要的作用。

3.2 解决版权问题

众所周知,版权问题是地方文献数字化工作的最大难点。版权问题的处理结果直接影响数据库的建设和使用范围。近些年来随着全社会版权意识提高,版权转让费用居高不下,很多版权的转让费用远远高于文献数字化制作的费用。如果使用进入公有领域的地方文献进行数字化,其版权的甄别工作量又相对复杂,耗时较长。山东文史资料专题数据库在建设过程中,较好的解决了版权问题。

山东省政协主持撰修了《山东文史资料》及山东所辖地市区县文史资料,是版权所有者。山东省图书馆通过参与山东省“两会”的会场服务工作以及提供参政议政专题资料,与山东省政协建立了长期良好的合作关系。

在山东文史资料专题数据库建设过程中,山东省图书馆与山东省政协展开了多次磋商。最终,山东省政协同意山东省图书馆对《山东文史资料》及山东所辖地市区县文史资料进行数字化,并在局域网内免费使用数字化后的文史资料。因此,山东省图书馆一次性解决了大量书籍的版权问题,节省了人力、物力、财力。

3.3 有效利用推广工程

数字图书馆推广工程(以下简称:推广工程)是由文化部、财政部在“十二五”期间启动的重大文化惠民工程。推广工程地方文献数字化项目是推广工程的子项目之一,选取具有鲜明地域特色、较高文献和历史价值的1949年以来出版的方志、地方文史资料、珍贵少数民族语言资料等地方图书、期刊和报纸资源进行数字化加工。

山东省图书馆承建的2015-2018年度推广工程地方文献数字化项目,包含地方图书数字化、地方报纸数字化、地方少数民族语言书刊数字化3个子项目。其目的是整合各地区特色资源,保证核心资源的永久储存,充分发挥公共图书馆的“资源保存、文化传承”作用。

在山东文史资料专题数据库的建设过程中,山东省图书馆有效利用了推广工程的资金、标准、指导和技术支持。

3.3.1 推广工程的资金

自2016年起,国家向山东省图书馆划拨专项资金,用于推广工程地方文献数字化项目。山东省图书馆将推广工程地方图书数字化项目中间产生的加工批次2、3的数字化文史资料发布在山东文史资料专题数据库中。

山东地方文史资料专题数据库已完成的4批次地方文史资料数字化工作中,计划资金47万元,实际使用资金39.43万元,其中32万元为2015、2017年度地方图书数字化项目资金。山东省图书馆历年来地方文献数字项目专项资金如表5所示。

表5 山东省图书馆地方文献数字项目(专项资金)分配表

注:2016、2018年度山东省图书馆申请地方报纸数字化项目

在完成2015、2017年度地方图书数字化项目的同时,山东省图书馆有效利用了推广工程的资金,加快了山东文史资料专题数据库的建设进程。

3.3.2 推广工程的标准

标准的制定是地方文献数字化工作中的难点。在推广工程实施之前,全国范围内地方文献数字化建设一直没有采用统一的标准。

山东文史资料专题数据库建设初期,考虑到首先需要完成2015年度地方图书数字化项目,故文献加工标准采用国家图书馆《推广工程数字资源联合建设地方文献数字化加工规则(2015)》[3](以下简称:《加工规则2015版》)。该标准经过国家图书馆多次论证并经过实践检验,设置详尽、科学、合理。

《加工规则2015版》主要涵盖了图像数字化和命名规则、双层PDF标准、图像文本转换要求、数据库命名及加工、数据备份、说明文件、存储介质命名几个部分。结合山东文史资料专题数据库的实际需求,所制定的加工标准最主要部分包括:图像标准、命名规则、数据存储规则和元数据著录规则四个部分。如图像标准要求存储数据为非压缩TIFF格式图片,其分辨率为普通字体300dpi(小于5号字体400dpi);其色彩位深为黑白页和灰度页8位(彩色页24位)等。

3.3.3 推广工程的指导和技术支持

地方文献的数字化过程中,会出现各类技术问题,影响了地方文献数字化工作的建设进程。推广工程采用了“专题培训+专人指导”的模式对各地图书馆地方文献数字建设给予指导和技术支持。

文化部印发的《文化部关于加快实施数字图书馆推广工程的意见》(文公共发【2012】33号)指出,国家图书馆每年完成不少于3次面向省级数字图书馆从业人员的专题培训;省级图书馆对区域内图书馆每年组织不少于2次的数字图书馆专题培训。同时,推广工程设置了“地方文献数字化”工作QQ群,由6名专业技术人员负责,对各地图书馆地方文献数字建设给予指导。

既有系统的定期培训,又有便捷的专人指导,推广工程指导和技术支持为山东文史资料专题数据库的建设扫清了技术障碍。

3.4 利用率较高

数据库的利用率是衡量其服务效能的关键指标。自2017年4月15日山东文史资料专题数据库上线以来,截止至2018年6月30日,数据库总访问量为3786人/次。与此相比,近年来山东省图书馆地方文献阅览室读者到馆人次分别为2015年1029人/次,2016年612人/次,2017年825人/次,访总量为2466人/次。数据库的总浏览量为8244人/次。且同一时段内,山东省图书馆晚清民国期刊全文据库(镜像站)浏览总量为2284人/次。

数据库上线以来,其访问量、浏览量呈明显成上升趋势,这说明山东文史资料专题数据库为读者研究山东地方文史资料发挥了积极的作用。如图1所示。(单位:人/次)

图1 山东文史资料专题数据库2017年4月-2018年6月访问量、浏览量柱状图

3.5 与社会力量合作

在山东文史资料专题数据库的建设过程中,山东省图书馆与一些社会力量就发布服务平台的建设工作和文史资料的数字化工作开展了较为深入的合作。它们分别是北京超星公司、北京今朝在线科技有限公司和福州志科信息技术有限公司。

与社会力量合作主要是考虑到社会力量有以下优点:(1)技术成熟,有专业的资源建设和质检团队,拥有多家公共图书馆类似项目成功运营的经验;(2)价格合理,相关从业企业较多,行业内价格相对透明;(3)服务完善,有相应的建设实施流程和保证措施;(4)具有相关资格、资质,符合《中华人民共和国采购法》[4]第二十二条规定供应商资格条件,如:具有独立承担民事责任的能力;具有良好的商业信誉和健全的财务会计制度等。

4 建设过程中存在的问题

通过近两年的建设,山东文史资料专题数据库虽然呈现了令人较为满意的成果,但在建设过程中也出现了各方面的问题。

4.1 标准问题

山东文史资料专题数据库陆续制作了4批次数字化文史资料,其中第1、2批次的数字化文史资料采用的标准以《加工规则2015版》为蓝本。

2017年起,国家图书馆修订了《地方文献数字化加工规则(2017)》[5](以下简称:《加工规则2017版》),这版规则与《加工规则2015版》相比,有多项修改,其中有两项给山东文史资料专题数据库的建设带来了困难,这两项修改分别是:(1)修改了PDF图像的要求,由双层PDF修改为单层双PDF;(2)修改了TXT文本文件的质量要求,由TXT文本的错误率从不超过0.3‰修改为正确率达到90%。

与此同时,专项资金也由2015年度的10元/页减少到2017年度的4元/页。由于缺乏资金,第3批次的数字化文史资料无法与第1、2批次的数字化文史资料制作标准一致。标准的差异造成了后期自筹资金建设的第4批次数字化文史资料选取标准的困难。

最终经过多方面权衡,第3、4批次的数字化文史资料采用的标准以《加工规则2017版》为蓝本。

4.2 加工质量问题

文史资料的数字化工作严守招标流程,造成了每个批次的加工商也有所不同。而不同的加工商容易出现的加工错误也有所不同:有的加工商TIFF图片制作过程中容易造成批量图片的歪斜;有的加工商在TXT文本制作中文字的OCR准确率尚能达到标准,而数字、标点符号OCR识别率却很低;有的加工商不严守加工流程,TIFF图片尚未经过审校,就开始制作PDF图像,一旦出现错误就需要反复修改。

针对加工质量出现的问题,山东省图书馆制定了“一通三查”的监管制度,即:(1)数字化工作开始前与加工商多次沟通,使其准确理解项目需求;(2)扫描完TIFF图片进行抽查,并对照发现的错误督促其修改,保证图片质量没有“通病”;(3)对OCR识别后的TXT文本进行抽查,并对照个别错误督促其修改,保证文本质量没有“通病”;(4)对加工商最终提交的数字化文史资料数据进行抽查并提出修改意见。通过“一通三查”制度的实施,数字化文史资料的加工质量得到了有效的保证。

5 结语

山东文史资料专题数据库自2017年4月15日投入运行以来,分批次陆续发布了数字化文史资料492册111385页。山东省图书馆计划于2019年完成30000页左右文史资料的数字化工作,并在未来2年内完成馆藏约600种《山东文史资料》及部分地市文史资料的全部数字化工作。山东省图书馆将已数字化的文史资料赠送给山东省政协文史委保存,并提供山东文史资料专题数据库镜像站点在山东省政协网站上发布。这为政协委员们查阅资料提供了方便,并得到了政协委员们的一致好评。山东文史资料专题数据库的建设,在有效地保护了地方文献的同时,也满足了读者需求,还取得了相应的社会效益。

猜你喜欢
文史资料山东山东省
山东省交通运输研究会正式成立
山东图片库
RCEP对山东省高质量对外开放的影响
逆势上扬的山东,再出发
『山东舰』入列一周年
眷 恋
——山东省济宁市老年大学之歌
融媒体时代如何使政协文史资料“活起来”
山东的路幸福的路
穿插文史资料优化初中历史教学 
山东省即墨市