基于TPI的特色数据库建设探索——以民国文献数据库为例

2012-02-15 13:39:34
图书馆学刊 2012年8期
关键词:文献数据库标引民国

(辽宁省图书馆,辽宁 沈阳 110015)

郭 男,1981年生。本科学历,馆员。

民国元年(1911年)至民国38年(1949年)是从清王朝到中华人民共和国成立之间的一个历史时期,它经历了辛亥革命、五四运动、北伐战争、抗日战争和解放战争,是中国社会发生深刻变革的历史时期,图书报刊等文献资料作为重要的传播手段,在这一变革中发挥了重要作用。民国文献即指1911年辛亥革命到1949年9月期间我国出版发行的中文文献。这些文献从不同侧面反映了民国时期的政治军事、社会经济、教育科学、历史文化、文学艺术等多方面的内容,既具有重要的史料价值,也具有很高的研究利用价值。

1 建设民国文献数据库的意义

1.1 保护珍贵文献的需要

民国文献的年代虽距今并不久远,但却是馆藏所有文献中很不易保存、损坏情况非常严重的。由于当时机械造纸工艺落后,造纸材料混杂,使用酸性化学浆纸,使得纸张的酸性强、质量差、保存期短。据2004年国家图书馆完成的“馆藏纸质文献酸性和保存现状的调查与分析”课题显示,国家图书馆收藏的民国文献老化、损毁现象相当严重,这些纸张的酸碱度平均值低于4.5。辽宁省图书馆也同样存在这一情况,民国图书普遍纸张发黄发脆掉渣,读者每翻阅一次都加大了其损坏的程度。据国内一些专家研究,民国时期普通报纸的保存寿命一般为50至100年,民国时期图书的保存寿命为100至200年,也就说,现存的民国文献大都已经达到或接近保存寿命,如果任由其发展下去,收藏于馆内的民国文献很有可能在50年至100年间消失殆尽。如何有效保护民国文献,延长其存世寿命,同时又能方便读者使用,解决保存与利用的矛盾,这是所有收藏有民国文献的图书馆所面临的一个重大问题。而对民国文献进行数字化处理,建立民国文献全文图片数据库,是一个最佳选择。所有民国文献进行数字化加工后,读者可上网浏览,而不必翻阅原件,原件可以在适合的环境中保存,这样就能使民国文献得到有效的保护。

1.2 民国文献数据库的建设有利于丰富图书馆资源,便于读者使用

辽宁省图书馆所保存的民国文献为读者研究中国现代史提供了丰富的原始资料,然而繁琐的借阅手续、损毁的图书,以及民国图书不能复印等等不利条件,都给读者查阅民国文献制造了不小的障碍,影响了读者的使用,而建立民国文献数据库就能很好地解决这一问题。读者只需有一台连通互联网的计算机,就能随时随地上网查询。读者可通过书名、著者、主题词检索等途径进行检索,方便又快捷,并且不受限制,一次可供多人查询,极大地满足了读者的需求。同时民国文献专题数据库的建立也极大地丰富、充实了本馆的数字资源,为开展网络信息服务提供了坚实的基础。

2 数据库建库模式与设计

2.1 电子书扫描与制作

此数据库将民国文献进行扫描(或缩微胶片转换)形成电子文档,通过著录得到每本书的题录信息,入库形成民国文献数据库。因图书文本为繁体字,竖排版,加之有破损情况,因此很难进行文字识别,所以应以图片形式存储为宜。使用TPI(清华同方专业数据库制作管理系统)系统的电子书制作工具制作成电子书,每条题录作为一条数据,对应一本CAJ电子书(显示为CAJ图片格式),生成图书名称索引,实现文献资料的题名、日期、作者、目录等的检索。这样做的优点是:用户接口多为菜单驱动型,易学易用,检索直接。确定收录范围后,由工作人员对图书进行扫描或者缩微拍摄。由于我们制作的是全文数据库,所以图书的每一页包括封面、书名页、前言页、目录、正文、后记页、封底等等都要扫描进计算机。扫描时要保持与原书页面内容的一致性和完整性,忠实于原始文献形态。假如某一页只有页码而无任何文字,这一空白页也要扫描,以保持页码的连贯性。扫描完成后,须从头到尾检查是否有漏扫的页面及重复扫描的页面,若有,则及时添加或删除。

2.2 元数据制定及录入

此库的元数据采取学术性和实用性的原则,严格按照《中国数字图书馆基本元数据标准规范》制定,著录时对照规范,结合此库特点,设立了包括题名、责任者、内容提要、目录、出版者等10个核心元素和包括副题名、出版发行年、地区、人名等项内容的12个修饰词,能较全面地反映图书的客观信息。同时为方便读者检索,将出版发行年同时转换并著录公元纪年。元数据在录入过程中,录入人员要做到认真核对,仔细校验,保证录入数据的准确。在录入后,上传已经制作好的电子书,这样,一条数据就制作完成了。

3 加工平台的使用

针对文献数字化加工的特点,辽宁省图书馆使用清华同方公司开发的TPI平台系统,以保证加工的高效及数据的质量。清华同方知网自主研发的TPI平台是基于非结构化文档管理而开发的大型智能内容管理系统,它围绕着数字图书馆建设内容而设计,能够同时管理文字、图片、多媒体、电子档案等信息。支持网页的动态发布,支持分级权限认证;电子图书制作及元数据加工工具系统共同实现了原始文献资料的数字化和组织;内容发布、检索网关和TPI检索服务器等共同实现资源的发布。平台具有以下功能:

3.1 电子书制作功能

TPI系统中的电子书加工工具为书籍电子化提供了一种快捷、方便、高效的全面解决方案。Book-Shop尤其支持各类纸质文档加工成电子书的全过程。其中包括书页图像扫描及管理、书面图像处理、书面图像识别导入及编改、目录加工处理、书页图像及目录合并形成电子书。利用这一特色功能,我们可以把扫描的每页图片加工成一整本书,便于读者下载和浏览。

3.2 元数据标引工具(MET)

MET是通过TCPPIP与FTS(全文检索服务器)相配合,对分配的元数据进行标引,因此标引工具与检索服务不必运行在同一台计算机上,可以进行远程标引工作,也可以多台机器同时运行,提高效率。数据标引就是给项目中记录的部分或全部字段填上合适的值,以此来标识这条记录,使用户能通过对字段的检索来搜索到此记录。数据标引中对原文类型为KDH、NH、PDF、HTML和WORD文件的记录可以通过原文进行标引。对不能通过原文进行标引的记录,需要利用相应的文档编辑器配合进行间接标引。

3.3 检查功能

检查工具(CKT)。CKT也是采用TCPPIP与FTS相联接,实现分布式的并行数据加工。检查操作是对标引、分类操作结果进行检查,将错误数据记录重新返回给标引工序,确保数据的正确性、准确性。

3.4 内容发布功能

内容发布系统(CPS)。CPS完成图书馆数据的分布式采编入库,实现网站信息的发布与管理,实现动态实时发布,即发即得,立即生效。CPS中提供了多种库结构模板以供选择,同时还可以根据需要进行自定义。在CPS中还可以建立Web访问数据库的账号及操作员账号。前者允许限定账号的有效期限及指定访问的数据库,还可以通过IP地址限定访问者的范围。操作员的设置是为了更好地实现职责明确的信息加工,支持多人协同采编,实现信息发布之前的编审控制。根据需要赋予操作员标引、分类、检查等权限。CPS还可以进行数据库的分类管理,建立导航分类。

4 数据库发布

数据加工制作完毕后,就可以使用TPI系统中“内容发布工具”的“Web发布向导”功能进行数据库网上发布的相关配置。通过该向导可以实现设置数据库的版权信息、选择数据库发布模板、确立检索点指定字段属性、配置个性化的初级和高级检索界面等。根据数据库内容的不同,TPI系统预制了与之相对应的不同形式和不同特点的发布模板。系统提供了CNKI模板、Google模板、EI模板和OCLC模板等,本数据库采用的是CNKI模板。

5 问题与思考

5.1 提高数据库利用效率

图书馆自建数据库是为了更充分地满足用户对某专题信息的需求。自建数据库利用率的高低决定数据库建设效果的好坏。因此自建数据库的名称、专业类型是否清晰,在主页上的位置是否明显,是否具有使用帮助、检索界面友好性、检索策略的多样性、查准率与查全率、检索结果的输出方式、检索结果输出速度、系统稳定性等都将直接影响数据库的使用率。民国文献数据库与其他自建数字资源被一并整合在辽宁省图书馆主页中的数字资源栏目内,检索界面清晰、直观、界面友好,同时TPI系统的优点是检索结果准确,响应时间快,并且可以提供多种排序方式,便于读者使用,提高了利用率。

5.2 数据库后期维护与安全问题

民国文献数据库数据量比较大,在制作的过程中投入了大量的人力、物力,所以后期的维护与安全防护是一个很重要的问题。在数据库制作的过程中,每天进行自动备份,在数据库完成后,我们准备将这些数据刻录成光盘,作为物理备份,这样,即使服务器数据出现问题导致无法浏览,也可用物理备份进行恢复。这就为读者查阅使用和数据的安全性提供了保障。

5.3 知识产权问题

知识产权是数字图书馆发展中遇到的最大阻力。从图书馆发展建设的角度来看,特色馆藏资源是具有较高学术和史料价值的资料,比如本馆所建立的《盛京时报》数据库、东北抗战书目库、建国前东北期刊数据库等。但数据库开发涉及著作权许可和确认问题。如果对已经发表作品进行数字化,会涉及署名权、修改权、保护作品完整权、使用权和获得报酬的权利。图书馆进行公益性的文献数字化主要是为保护文献、方便读者使用,借助网络使更多人共享,但这又将侵害权利人的网络传播权,是建库的矛盾所在。为此,我们尽量选择年代久远的,过了保障期或即将过期的作品来规避版权问题,同时通过控制用户权限、IP登陆等方式,避免恶意下载,保护数据的安全性,以此来最大限度地保护著作权人的知识产权。

[1] 黄立华.TPI与我国数字图书馆建设[J].图书馆论坛,2004(4):76-78.

[2] 孙琴.民国文献数字化建设现状分析研究[J].山东图书馆季刊,2008(1):71-73.

[3] 温泉.馆藏民国图书数据库建设探讨[J].河南图书馆学刊,2010(8):96-98.

[4]万华英.民国文献数字化建设——以重庆图书馆为例[J].四川图书馆学报,2008(4):31-33.

猜你喜欢
文献数据库标引民国
《感染、炎症、修复》杂志检索数据库
《感染、炎症、修复》杂志检索数据库
档案主题标引与分类标引的比较分析
他们为何都爱民国?
电影(2018年10期)2018-10-26 01:55:26
本刊对来稿中关键词标引的要求
论我国学术文献数据库的质量调控
出版广角(2017年4期)2017-04-22 19:58:01
民国人爱刷朋友圈
百家讲坛(2016年6期)2016-09-28 08:10:15
中文文献数据库中撤销论文的分布规律研究
本刊对来稿中关键词标引的要求
民国书家与民国书风
传记文学(2014年8期)2014-03-11 20:16:56