国外图书馆政府网站信息保存的实践与启示

2012-02-15 15:35长沙师范学校图书馆湖南长沙410100
图书馆建设 2012年12期
关键词:图书馆政府资源

邓 青(长沙师范学校图书馆 湖南 长沙 410100)

1 国外图书馆相关项目介绍

1.1 全面保存——加拿大的“GCWA”项目与瑞典的“KulturarW3”项目

全面保存主要是利用机器人、爬虫等工具对所有相关的政府网站信息资源进行自动抓取[1]。目前,国外采用全面保存策略已经完成或正在实施的项目包括以下两项。

1.1.1 加拿大的“GCWA”项目

2004年4月,加拿大国家图书档案馆(Library and Archives Canada,简称LAC)启动了专门收集和保存联邦政府网站资源的“加拿大政府网站归档”项目(Government of Canada Web Archive,简称GCWA)并得到允许。2005年12月,LAC下属的“信息管理中心” 正式开展对联邦政府网站信息的收集工作,收集工作每半年全面开展1次。2007年11月,LAC正式提供政府网站信息查询服务,此时“GCWA”项目平台已经保存的政府网站数据容量高达10TB。用户不仅可以使用关键词、机构名称和URL地址等检索点查询信息内容,还可以对已经加工处理成“.pdf”格式的文件进行下载。之后,LAC在其发布的《加拿大国家图书档案馆2008—2011年战略计划》中明确指出:“加拿大国家图书档案馆将致力于加拿大政府网站信息资源的开发与管理,并为政府机构制定政府网站信息存储计划和新的存储模式。”[2]经过几年的不懈努力,LAC政府网站信息数据库收集的内容几乎涵盖了加拿大所有政府机构的公共获取信息。为了方便用户使用这些网络信息成果,LAC开发了新的数字处理系统,该系统已于2011年9月开始测试[3]。

1.1.2 瑞典的“KulturarW3”项目

瑞典皇家图书馆(Kungliga Bilioteket,简称KB)从1996年起就开始了网站信息保存项目——KulturarW3。KulturarW3的目标就是保存瑞典国内现在及未来所有的网站信息并通过网络提供无障碍获取,政府网站是其主要的保存对象。KulturarW3的做法是先解决法律问题,再分析网站上的文件属性并制订保存策略,最后进行全面采集并提供信息的自由获取。至今,该项目利用NMA-Combine采集机保存该国域名为“.org”等的网站信息多达6500万条,数据量达300GB,文件以html和纯文本格式为主[1]。但由于该国缺少相关的法律,目前瑞典皇家图书馆尚未实现对政府网站以外的其他网络信息的公开访问和保存。

1.2 选择性保存——澳大利亚的“PANDORA”项目与美国的“CDL”项目

选择性保存是根据一定的原则和标准,对网站信息资源的历史、文化、经济价值等方面进行评价后,有选择性地采集和保存[1]。目前,国外采用选择性保存策略已经完成或正在实施的项目包括以下两项。

1.2.1 澳大利亚的“PANDORA”项目

1996年澳大利亚国家图书馆(National Library of Australia,简称NLA)启动了网站信息保存项目(Preserving and Accessing Networked Documentary Resources of Australia,简称 PANDORA)。PANDORA的目标是保存经过选择的网站及网站出版物,为公众提供长期获取[4]。2005年7月,PANDORA项目组第一次完成了对整个澳大利亚网站的选择性保存工作,并且为其保存的信息提供了全检索。政府网站是其最重要的保存对象之一,PANDORA项目组根据既定的收集方针有选择性地保存了包括澳大利亚共和讨论、选举、政党与政治人物等多方面在内的政府网站信息。在工作开展中,PANDORA的做法是:(1)NLA出面促使成立澳大利亚网站资源委员会,由该委员会负责制订网站信息的采集方针——《保存网上出版物的选择方针》,PANDORA项目组严格按照方针开展网站的保存工作。(2)广泛合作,选择保存。NLA首先与澳大利亚国家档案馆(National Archives of Australia,简称NAA)联合制订了《保护政府在线出版物:联邦出版者指南》并建成了PANDORA档案馆,然后与地方图书馆合作,每个参与的地方图书馆都可以根据自身情况拟订本馆的网站资源选择方针,负责地方或特殊网站资源的保存[5]。

1.2.2 美国的“CDL”项目

2004年9月,美国加利福尼亚数字图书馆(California Digital Library,简称CDL)开启了“在线政府信息资源保存项目”(通常称作“CDL”项目)。CDL项目是“美国国家数字信息基础结构和保存项目”(National Digital Information Infrastructure and Preservation program,简称NDIIPP)的子项目之一,并获得国会图书馆240万美金的拨款资助。CDL的目标就是为图书馆开发一种用以长期保存政府网站信息资源的网站存储工具与结构。CDL最初将工作重心放在保存联邦政府、州政府的网站信息及当地重要政治活动的相关网站信息。后来,在条件允许的情况下,选择性地保存国内其他地方的政府网站信息[6]。该项目的开展过程主要包括4个阶段:(1)内容确定阶段。从需求评估、爬行测试和分析、扩展评估等方面判定政府网站信息是否满足其保存的需要。(2)内容采集阶段。对适用于项目内容需求的信息进行分析、获取和采集。(3)内容还原和转换阶段。使用各种技术手段转换与还原政府网站信息。(4)建立合作阶段[7]。制订计划,建立基本的组织与合作关系。

1.3 专题保存——美国的“Minerva”项目

美国国会图书馆认为保存开放式的政府网站信息资源是其必须承担的重要使命,密涅瓦项目(Mapping the Internet Electronic Resources Virtual Archive,简称 Minerva)从2000年开始开展一些基于主题事件的网站信息保存工作。例如,它保存的关于“911”事件的网站数量多达3万余个,网页数则有3亿之多;它保存的关于总统大选的网站数量有近5千个,网页数则上亿;它保存的关于伊拉克战争的网站数也有近万个[8]。针对某一重要的事件进行专题信息收集,不仅能够反映某一个事件的全貌,而且能够更好地满足广大用户的信息需求。Minerva项目在开展过程中采取了与其他机构广泛合作的模式。例如,它和Internet Archive合作进行关于总统大选网站保存,Internet Archive提供了先进的保存技术,使用了Wayback machine为保存的网站信息建立索引,并提供了临时的数据存储空间。Minerva项目还得到了相关部门在法律与政策上的支持,如美国版权局曾明确提出:“如果网站信息符合项目采集的需求,国会图书馆不需要向政府网站出版者提出申请,有权利直接从网站上下载。如果网站信息达到项目保存的标准,国会图书馆在不需要得到政府网站出版者许可的情况下,可以直接保存有关信息。国会图书馆还有权利委托其他社会机构对政府网站信息进行收集和保存。”[9]这很好地解决了政府网站信息的知识产权问题,方便了Minerva项目工作的长期开展。

2 对我国图书馆的启示

目前,我国图书馆界还没有专门的政府网站保存实践项目,但国家图书馆已从2005年开始启动了一个试验项目——“网络信息采集与保存”项目。该项目根据中国政府网站的特点,确定的采集范围是域名以“.gov.cn”结尾的所有网站,以确保尽可能全面地覆盖中国政府网站信息。保存的数据格式包括网站的静(动)态页面、图片、Word文件、PDF文件等。

国外的政府网站信息保存项目各有特色,我国图书馆在立项政府网站信息保存项目时,应充分结合自身的实际条件,通过构建系统的保存体系和完善配套的保障机制,保证此项工作长期、有效地开展下去。

2.1 构建系统的保存体系

2.1.1 制订保存策略

制订政府网站信息保存项目的保存策略,第一步是确定项目的保存对象。政府网站一般都有明显的特征,即域名中含有“.gov”,但仅仅依靠域名来判断一个网站是否属于政府网站又是不科学的,因此我们在选择保存对象时,应使用以人工选择为主、自动选择为辅的方法。第二步是分析保存对象,即全面分析项目待保存网站的基本信息,包括网站的信息类型、信息格式、信息更新周期等。第三步是确定保存级别。图书馆应根据政府网站信息多样性和复杂性的特点选择保存级别。目前,国外常见的保存级别分为:(1)归档级(Archived),图书馆将政府网站信息资源存储在本馆的馆藏资源库中,由图书馆负责这些政府网站信息的长期存取并提供访问。(2)链接级(Linked),图书馆对存储于异地服务器上的政府网站信息进行链接,创建目录,开发检索工具供用户利用。(3)镜像级(Mirrored),图书馆使用特定的软件工具,以政府网站为信息单元保存全部网页信息,同时保留信息原有的目录结构[10]。

2.1.2 选定保存方式

国外常用的保存方式主要有以下两种:①推送模式(Push Model),是指政府机构主动将政府网站信息资源呈缴或捐赠给图书馆,图书馆被动地接受政府网站信息资源的模式。②拉取模式(Pull Model),是指图书馆使用特定的工具主动获取政府网站信息资源的模式。根据保存范围的不同,保存方式分为全面采集(Comprehensive Preservation)、选择性采集(Selective Preservation)与专题采集(Thematic Preservation)3种[10]。我国图书馆在启动政府网站信息保存项目时应根据项目的立项目标来选定合适的保存方式。

2.1.3 确定抓取周期

据中国互联网站信息资源数量调查报告显示,政府网站信息的更新频率仅次于商业网站,每月都有信息更新的政府网站占所有政府网站数的76.0%[6]。我国图书馆应准确把握政府网站信息的这一特点,并据此确定抓取周期。国外图书馆在这方面的经验值得借鉴,如美国北卡罗来纳州政府网站保存项目制订了“网站宏观评估计分表”,该表设定的评估项目包括信息量、独创性、更新频率、历史价值、证据价值、公众兴趣、政府关注,按照评价标准评分:“低价值”得1分、“中价值”得2分、“高价值”得3分,对于总得分为“7”的政府网站,每年抓取网站信息1次,对于总得分在“8~10”的政府网站,每季度抓取网站信息1次,对于总得分在“11~21”的政府网站,每月抓取网站信息1次[11]。

2.1.4 选择保存技术及工具

利用搜索引擎和网站爬虫能够找到政府网站的网址和数据库的检索入口,但是一些政府机构只允许社会机构、公众通过检索对其网站进行访问,不允许对其网站进行批量采集。因此,图书馆不得不借助一些专门的工具进行网站保存,这些工具包括:(1)DeepArc,它利用“XQuery”按照目标要求将存储有网站信息的政府数据库的内容转化为XML文件并从政府数据库中抽取出来,但使用DeepArc要求网站出版者必须先安装客户端,并且要求采集者必须对政府数据库的结构和数据模型有一定的了解[12]。(2)Deep Harvester,它能够保存并处理包括“HTML”、“PDF”、“DOC”、“TXT”等在内的近400种格式的文档,还可以获取政府机构内网和专网中的信息,具有最全面的信息保存功能和标准化模型,是目前国外使用最多的一种保存工具[13]。(3)元数据,借助它可以对政府网站信息进行定位和标注,捕获其元数据并存储于图书馆本地元数据库中,并在此基础上提供元数据的统一检索,可以在保证获取效率的同时确保信息的完整性。

2.2 完善配套的保障机制

2.2.1 制订有关的法律与政策

图书馆对政府网站信息资源进行保存之前必须经过政府机构的许可,获得政府机构的授权,所以,我国在国家层面上应出台配套的法律明确图书馆有权对政府网站信息资源进行采集与保存。例如,以法律的形式明确政府网站信息呈缴制度,要求政府机构定期向图书馆呈缴其网站信息。目前,英国、加拿大、瑞典等发达国家都已将网站信息纳入到了呈缴制度之中,澳大利亚、日本等国家也正在积极筹备网站文献法定缴送的相关立法工作。近年来,我国国家图书馆也在积极推进网站出版物的呈缴制度,但至今还没有相关的制度出台。同时,我国图书馆界还应呼吁相关政府部门完善现有的信息政策,建议在政策中体现出关于政府网站信息保存的内容,例如,美国的北德克萨斯州立大学在《保存国家政治遗产项目需求评估总结报告》中就曾要求有关政府机构制定政策明确政府网站保存的相关问题,如政府网站中哪些信息应该优先保存、政府网站信息保存可以采用哪些元数据标准等[14]。

2.2.2 建立形式多样的合作机制

政府网站信息资源保存项目的开展需要有长期、大量的资金投入。美国的Internet Archive项目组所做的一项统计显示,采集1TB网站信息资源大约需要花费3000美元[15]。如何争取如此巨额的资金呢?首先,我国图书馆应积极向上级文化部门与当地政府信息公开主管部门争取更多专项资金。其次,应吸引更多的商业机构参与进来,拓宽资金来源渠道,建立一个多元化的资金投入机制。最后,应充分挖掘降低政府网站信息保存成本的方法,使图书馆能够以最少的投入获得最大的效益。

我国图书馆可以与对保存政府网站信息感兴趣的社会机构合作,指导其建设保存项目,并确保在其对项目失去兴趣时,将其保存的所有信息提供给图书馆。同时,我国图书馆可以与国外图书馆加强交流与合作。根据参与机构的具体情况,图书馆可以选择高度分布式合作、平等分布式合作、集中分布式合作3种结构模型[16]。在合作过程中,图书馆必须协调好多个机构、个人的职责和权益。澳大利亚PANDORA项目负责人Webb C将该项目的成功归功于:NLA的领导作用与澳大利亚图书馆之间良好的合作传统[17]。

2.2.3 制订相关的技术标准规范

由于网站信息资源的复杂性,图书馆开展政府网站信息资源保存工作面临着诸多的技术挑战,包括如何保存动态的网站信息和深层网站信息资源,如何使获取的信息资源呈现原始面貌,如何保存一些做了加密处理的网站信息资源,如何构建存储系统的模型及存储元数据标准等。我国图书馆在启动政府网站信息资源保存项目之前,必须制订相关的标准规范,包括所采用的Web存档文件格式、保存基础结构、元数据标准、元数据编码与传输标准、数据存储转换格式标准等,各项工作都应在国家的标准框架内有序进行,避免因标准不统一而导致各保存项目无法实现信息共享。

2.2.4 加快专业技术人才的培养

图书馆政府网站信息保存工作需要专门的图书馆员来完成。美国许多图书馆设有专门的“政府出版物图书馆员(Government Publication Librarian)”,专门负责政府出版物的采集、保存、管理等工作。美国还特别重视对政府出版物图书馆员人才的培养及其业务能力的提升,例如,马里兰州大学研究生院的图书情报学硕士专业因此开设了“电子政府专修(E-Government Concentration)”课程,教授电子政府概论、信息政策、政府信息存取、电子记录保存等电子政府与图书馆服务相结合的内容。美国图书馆协会的政府文献圆桌会议(Government Documents Round Table,简称GODORT)为政府信息图书馆员提供讨论问题、交换意见的平台,同时还对政府信息图书馆员进行教育与培训。现阶段,我国图书馆要在争取专业人才支持的同时,努力加强对现有工作人员的培训,提高工作人员的业务技能与水平[18]。

[1]安兴茹.欧美国家图书馆网络信息保存的收集策略研究及启示[J].图书馆杂志,2007(9):53-54.

[2]Library and Archives Canada. Library and Archives Canada Business Plan: 2008—2011[EB/OL].[2012-06-26].http://collectionscanada.ca/about-us/012-307.01-e.html.

[3]Library and Archives Canada. Government: Products and Services[EB/OL] . [2012-06-26] http://www.collectionscanada.gc.ca/government/products-services/index-e.html.

[4]About Pandora.PANDORA [EB/OL].[2012-06-26].http://pandora.nla.gov.au.

[5]杨天军,常 青. 政府网站保存实践与思考[J].情报杂志,2008(3):109-114.

[6]唐 琼.政府网络信息资源长期保存研究[J].图书馆理论与实践,2007(2):62-64.

[7]杨道玲,于施洋.国外政府网站保存实践与思考[J].中国档案, 2007(7):64-65.

[8]Collecting and Preserving the WebMinerva[EB/OL].[2012-06-26].http://www.loc.gov/minerva.

[9]赵俊玲.美国国会图书馆网络信息保存项目Minerva及启示[J].图书馆建设,2005(5):40-42.

[10]何欢欢.政府网站信息资源采集策略[J].档案管理,2011(4):27-29.

[11]North Carolina Department of Cultural Resources. Standard for Automated WebSiteCapture[EB/OL].[2012-06-26].http://www.records.ncdcr.gov/Website/websiteStandards_20060717.pdf.

[12]刘 兰, 吴振新, 向 菁, 等.网络信息资源保存开源软件综述[J].现代图书情报技术,2009(5):11-17.

[13]Bright Planet. Deep Harvester[EB/OL]. [2012-06-26]. http://www.brightpla-net.com/solutions/deep-web-harvest.

[14]何欢欢.政府网站信息资源保存挑战及对策[J].图书情报工作,2011(4):130-133.

[15]United Nations Educationa.Iscientific and Cultural Organization Guidelines for the Preservation of Digital Heritage[EB/OL].[2012-06-26].http: //unesdoc. unesco. org/images/0013 /001300 /130071e. pdf.

[16]赵俊玲.守护e时代的记忆:网站信息资源保存研究[M]. 北京:北京图书馆出版社, 2007: 58-60.

[17]Webb C. Digital Preservation-a Many Layered Thing: Experience at the National Library of Australia[EB/OL].[2012-06-26].http:// www.clir.org/pubs/re-ports/pub107/webb.html.

[18]邓 青,邹 勇.中美公共图书馆政府信息服务的差距分析[J].图书馆学研究: 理论版, 2011(4):89-92.

猜你喜欢
图书馆政府资源
基础教育资源展示
一样的资源,不一样的收获
知法犯法的政府副秘书长
资源回收
图书馆
资源再生 欢迎订阅
依靠政府,我们才能有所作为
政府手里有三种工具
去图书馆
完形填空三则