日本国立国会图书馆大规模馆藏数字化工程

2014-02-12 11:08庞淑杰吉林大学图书馆长春130012
图书馆理论与实践 2014年9期
关键词:图像文件馆藏数字化

●庞淑杰(吉林大学图书馆,长春130012)

日本国立国会图书馆大规模馆藏数字化工程

●庞淑杰(吉林大学图书馆,长春130012)

数字化;经验;日本国立国会图书馆

日本国立国会图书馆(NDL)在世界性数字资源的建设中,一直处于行业领军地位,而且有自己的特色。在数字化实际工作中,NDL善于总结,推出新理念,不断修正过往路径,形成了一整套成熟经验。本文就NDL数字化工程的新进展与思路进行了论述,以期为国内同行提供借鉴。

1 引言

近年来,日本国立国会图书馆(NDL)馆藏数字化工程成绩斐然,仅在2009~2010年,数字化转化平均累计完成量已经达到总馆藏的四分之一。截至2013年2月21日,NDL可提供的数字化资料的总数,已达到223万种。与此同时,NDL不惜重金,大规模引入国内外数据库,同时大量收集网上数字化资源。到2011年年末,源自网上的累积数据量已达17.5万GB。[1]据NDL公布的最新消息,截至2014年3月12日,解决了著作权问题、可以在网上公开阅览的数字化资源已达到48万种。NDL的数字化工程,举世瞩目,其成功实践的主要经验,给我们重要启示。

2 NDL馆藏数字化工程成功实践的启示

2.1 政府大力扶持,营造宽松的法律环境

进行数字化建设,政府文化主管部门在预算方面充分给予了保障。首先,在特定年份,或遇到业界实施重大数字化项目之际,财政会安排特别拨款。如在2009年年度政府预算中,NDL资料数字化经费获得127亿日元的增加金额,大致相当于历年平均年拨款的上百倍。在2010年预算修正案里,又增拨10亿日元馆藏数字化档案整理经费。以后各年度,此项经费也是有充分保障的。其次,在常规年份,每个财政年度的年末,在国会审议下一财年由政府提交的财政预算报告之际,文部科学省都会就图书情报事业经费提出适度增加的要求,从而保证用于数字化建设所需软硬件方面的开发经费。作为数字化工程主力的NDL,自然受到资金方面更多的关照。如NDL于2012年上报的预算草案,总额为209亿5200万元,比上一年度增加了4.91%。该预算案获得批准实施,其中有一笔共计1亿1800万日元的专项拨款,专门用于基于数字化档案文献系统的服务计划的扩充升级。[2]

此外,文化事业的大规模推进也离不开法律法规的保驾护航。2009年,日本《著作权法》修订过程中,增设了第31条第2款,规定“在NDL,为防止馆藏资料的灭失、污损,可以将原始资料转化为电磁记录,并提供给公众利用”。这就意味着,为了长期保存馆藏资料,可以在不征得著作权人授权的情况下,对原作进行拍摄,制作成数字化图像文件。法律层面的认可,扫清了数字化计划实施的一些障碍。

2009年,NDL积极参与了ⅠFLA(世图联)及相关团体制定《针对图书馆和档案馆的版权免责及限制的公约》活动。该公约(3.0版提案)于2011年8月公布,直指《保障出版物利用的国际条约》存在的不完备之处。2011年,在ⅠFLA年会的全体大会上,该提案成为热议的焦点。ⅠFLA以该提案为基础,向WⅠPO(世界知识产权组织)开展工作,以期促成与时俱进的改变,目前已有重要进展。

2010年6月,日本法定存储系统理事会提交报告,旨在获取私人出版机构的在线出版物。截至2012年,NDL全力以赴推动后续立法工作取得重要成果,更多资源汇入了该馆的数字资源池中。[3]

2011年,日本政府的总务省、文部科学省、经济产业省共同发起举办了题为“充分利用网络资源及数字化社会的电子出版物”的座谈会。其后根据会议精神,文化厅召开了题为“方便快捷地实施电子书刊的流通与利用”的研讨会,确立了由图书馆无偿提供市民使用的原则。

2.2 探索新技术手段,突破关键环节

媒介转换新原则的确立,拉开了推进数字化工程突飞猛进的序幕。NDL最早都是采用缩微技术对馆藏劣质化档案资料加以转化替代。从2009年开始,数字化的“数据”成为纸质媒介的替代介质,这是日本业界的方针性转变。

从2000年起,NDL开始对明治维新时代(1868-1912年)、大正时代(1912-1926年)的图书进行数字化,同时处理相关的著作权问题。当时,财政拨付的专项经费每年才一两亿元。2009年,来自政府的项目费猛增,数字化元年开启,NDL数字化计划也随之做了大幅度调整,入选数字化计划的文献范围,从明治元年到1968年,涵盖了百年跨度的90多万种图书。空前的数字化工程,在全日本范围内尚属首创,发生各种问题与失误在所难免。NDL相关部门首先对业界的业务能力、整体实力、人员素质、所需扫描设备等情况进行了调查,并进行了周密的计划与研讨,在此基础上才开始将这一宏大工程付诸实践。具体实施采用外包方式,虽然工程外包给多家专业公司,但是标准统一。

在具体操作层面,首先对纸本文献采用系统开销式扫描仪进行扫描。为防止损坏原件,仪器上自动翻页功能一律关闭;在某些扫描仪无法满足原文多样性时,使用数码相机作为辅助工具。所形成的文件格式设定为24bit全彩色,分辨率为400dpit。而将胶片资料数字化,则先是把原胶片复制一份,再对这个复制件进行扫描,制成图像文件。原文由左右两页组成一页,制作成图像文件时则合成为一幅。所形成文件的格式,以8bit灰度级为准,分辨率采取A3纸400dpit。

其次,在完成对纸本与胶片的扫描后,以JPEG2000图片格式制作成两种用途(收藏、借阅)的图像文件。如果只有封面图像,就另用一种特殊的简略式图片格式制作成JPEG文件。原件的文字部分加以文本化,可通过目录进行检索,并直达图像部分。

在工程的整个过程中,有各种意想不到的困境。NDL相关部门不断和各实施主体以及受委托各方进行协调,对诸多障碍逐一加以克服,注重细节,稳步推进。[4]其中,关键技术环节是字符识别与文本转换,这是NDL最关注的。因为与其他语言相比,日文的文字体系极其复杂,除了音节字符、平假名和片假名,还包括约上万个汉字、促音和拨音等特殊音节。这些字符、字母和汉字既可以独立成词,也可以相互组合,衍化无穷。由于日语字符的宽度及其语言表达方式的特殊性,使其成为该语种文献大规模数字化面临的最严峻挑战与难题。

技术瓶颈问题实质性的突破,既受益于长期探索的积累,又得益于某种机遇。2009年,NDL为确保视力残障者访问相关数据库的便利性,提高全文本数据检索的准确性,开展了全文本数字化实证实验。这项实验与数字化工程同时进行,具体内容包括:利用OCR(光符字符识别软件),将制成的数字化图像文件转化成文本文件,建构文本数据校正并结构化的标准原型系统;进行试运行与评估作业。在进行全文本数字化过程中,不断根据这项实验结果作出调整与修正,加紧与各相关法人团体、机构间协调,直至计划完成。而且,攻关团队在字符识别、文本转换方面取得了技术突破。他们围绕OCR识别系统的升级,运用该技术开发出日趋成熟的各类软件,极大地提高了一次正确识别率。又根据数据库的类型建立了不同的字库,并且根据ⅠS010646国际标准内码,进一步开发构建了日文网络应用平台,解决了处理大汉字字符集的需要,还与国际互联网连接,可以实现全球浏览和检索。

除此之外,NDL还必须面对数据的保存等问题。在扫描纸本和胶片原件时,NDL制作了两种图像文件:一种是不可解压的小容量的供阅览图像文件,一种是可解压的大容量保存用图像文件。由于后者数据量极大,所以使用了同类介质中拥有最大容量的Blu-ray光盘作为储存媒介。然而,这类图像文件是用来作为永久保存的,随着时间推移,数字化资料将会出现数据劣化、灭失等现象,所以每隔一定时期,必须采取数据转存等措施加以防备。由于Blu-ray光盘是后来出现的媒介物,尚处于发展完善阶段,格式还需要完备,长期保存数据效应究竟如何,目前尚未知。因此,如何长期保存数字化文献资料,是当前也是今后加以探讨的课题。

长期不懈的攻关终有回报,作为数字化工程的一个副产品——《文献数字化业务指南(修订版)》诞生了。早在2005年,在建设数字化图书馆之际,NDL就制定了相应的标准与规范,作为通用的行动指针,同时也成了日本国内甚至国外同行及其他组织进行数字化工程的重要参考。现在,随着大规模数字化工程的推进,积累总结了更多的经验教训,对最初的业务条例加以修订,就具备了成熟的条件。2011年,上述修订版指南已在NDL网站上发布,为今后的数字化工程打下了更牢固的基础。

2.3 立足读者,以社会需求促进项目进展

数字化的最终目的在于改善与加强服务。当数字化馆藏初具规模后,NDL立即果断推向读者。早在2000年,NDL就致力于为电子图书馆资源建设而实施数字化项目。之后建成了近代数字图书馆和珍稀书籍图像式文本数据库,尽管其规模有限,但是NDL通过网站提供给读者。十多年后,凡是彻底解决了著作权问题的(著作权保护年限到期或已经过合法化处理的),NDL都将完成制作的数字化资料立即提供给读者。

此外,NDL还将书刊内容转化形成的数据,全部组织进近代数字图书馆和数据档案系统数据库,以不公开的内容在馆内阅读、公开的内容在Web网页上阅读的方式推向读者。目前,NDL在东京总馆、关西分馆辟有特定阅览室或专门阅览室提供电子杂志服务,在这里可以通过电子信息服务终端访问国立国会图书馆数字化资料。2011年4月,数据档案系统中公开的部分,以国立国会图书馆数字化资料的名义,在NDL网站上公开上线。内容包括NDL收集、积累的各种馆藏数字化文献与网上出版物,涵盖领域十分广阔。

2.4 另辟蹊径,大力扩充资源

就NDL所有馆藏资源的整体而言,数字化的只是一小部分。如何进一步加快文献资料的数字化,是今后需面对的重大课题。为此,NDL采取了外向型战略,寻求外援,加快推进。2012年,NDL引入ⅠBM参与数字化工作,并提供在线服务,以提高读者覆盖率。ⅠBM负责开发出原型技术,通过更加全面的识别日语字符,迅速将日文文献全文数字化。并且吸引用户参与进来,对数字化文献的字母、拼写和结构进行核查和改正。同时,此项技术的运用也旨在促进今后全球图书馆开展合作并实现标准化。具体实施是通过大众分包的方式,让众多读者能够高效巨量地迅速浏览全文并作适当修改加工。

NDL在进行资源扩充时,积极主张加速出版业电子化,由出版社构建电子出版物流通中心,建设功能更加完备的电子图书馆。就是将书籍信息存放到NDL的数据库,由图书馆免费将电子化书籍借给中心,读者可以通过该中心购买和借阅。此中心原则上为非营利机构,设立数量不限。2012年2月21日,日本政府推出出版物电子化补贴机制,之后不久,日本出版基础设施中心发表声明,补贴机制正式出台。财务省(原大藏省,中央财政部门)在2012年度第三次补充预算中列支9.97亿日元,专门用于对出版物电子化提供补贴。

NDL是日本唯一法定接受缴送本的图书馆,迄今为止出版社共提供了约400万册书的数据。NDL于2011年2月至3月已经进行了全文文本的检索试验,获得阶段性成果。舆论普遍认为,NDL馆藏数量如此巨大,实现数字化收藏和检索,使读者能够更方便地管理和阅读书刊,其历史与现实意义不可估量。

3 结语

NDL馆藏数字化成功实践的根本点在于敏锐抓住行业数字化转型的必然趋势,抢占先机,出手迅速;朝野合作,官民互动,舆论准备得力,理论创新与时俱进,法律与财力保障充分;全力以赴探索创新,占据相关技术的制高点,力争成为标准的制定者;紧盯目标,坚持不逾,始终坚守在全球数字化建设第一梯队的位置。这些都值得国内同行深入思考。

[1]「インタ一ネット资料收集保存事业(WARP)」をリニュ一アルしました[EB/OL].[2012-12-16].http://www.ndl.go.jp/jp/new.

[2]大沼太兵衛.大规模デジタル化の進步状况とデジタル化资料の提供について[J].図書館雑誌,2011(6):376-378.

[3]デジタルネットワ-ク社会における出版物の活利用の推進に関する懇談会報告.[EB/OL].[2012-10-11].http://www.soumu.go.jp/main_content/000075191.pdf.

[4]デジタルア-カイブシステム[EB/OL].[2013-01-16].http://www.ndl.go.jp/jp/aboutus/ndl-da.htm l.

G253;G259.313

A

1005-8214(2014)09-0086-03

庞淑杰(1963-),女,吉林大学图书馆副研究馆员。

2013-09-22[责任编辑]阎秋娟

猜你喜欢
图像文件馆藏数字化
馆藏几件残损《佚目》书画琐记
家纺业亟待数字化赋能
博物馆的生存之道:馆藏能否变卖?
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
知还印馆藏印选——古印篇
图像电子文件的归档格式及其转换研究
数字化制胜
介绍两件馆藏青铜器
两步把PDF转为Word文档