WARC格式对描述与组织网络收割结果的支持

2010-06-14 08:28:04郭世明

图书馆理论与实践 2010年7期

●李睿，韩毅，郭世明

（1．中国科学院文献情报中心，北京 100080；2．四川大学公共管理学院，成都 610064）

保存网络资源不同于保存学术电子期刊（基于主题、学科或引用关系的高度结构化和有序化数据库资源），网络收割（抓取/爬行）的结果具有媒体格式版本多样，规模大小差异大，资源重复，外部关联复杂等特征。［1］IA（InternetArchive，由美国国会图书馆和SmithsonianInstitution共同构成，以为后代保存稍纵即逝的、具有历史性重大意义的“原生”互联网资源为目标）为存档网络爬行器的批量收割结果制定了ARC（ARChive）格式，之后，IIPC（International Internet PreservationConsortium，由IA和30多个国家图书馆组成，旨在开发Web Archive通用工具和技术标准）在各成员机构应用ARC的经验基础上，改进而成了一种标准化的管理和存储海量网络收割结果的文件格式WARC （WebARChive）。

WARC格式标准于2009年6月被正式批准成为ISO标准（ISO 28500:2009）。此外，互联网工程任务组 IETF（Internet Engineering Task Force）已批准登记WARC格式标准为RFC文件（请求注解文件），登记WARC格式的MIME类型为“application/warc”，国际互联网代理成员管理局IANA（Internet Assigned NumbersAuthority）也即将登记WARC格式的类型为“application/warc”。

1 WARC格式标准的基本规定［2］

WARC将多样化的网络资源收割结果连同相关描述信息一并整合到同一存档文件中。一个WARC格式的文件（file）由若干条记录（record）连接而成。每条记录以头标区（record header）开头，后跟内容块（record content block）。WARC记录的基本结构如下图所示。头标区使用文本数据对资源进行基本描述，内容块可以包含零字节或任意多字节，其中存储的记录类型随资源内容的不同而不同。

图 WARC格式基本结构示意图

WARC格式标准定义了8种记录类型：“warcinfo”“response”“resource”“request”“metadata”“revisit”“conversion”和“continuation”。在创建某一资源的存档文件的过程中，可以任意选择、按任意顺序组合各种记录类型。

WARC格式的字段类型包括：“warc-id”“data-length”“record-type”“subject-uri”“creation-date”“content-type”“record-id”“IP-address”“Segment-O-rigin-ID”“Segment-Number”“Truncated：reason-token”“Related-Record-ID”“Warcinfo-ID”等。用户可还以自定义添加新的字段类型。

2 WARC对网络收割结果的描述

2.1 基本描述

WARC文件中，每条记录的头标区负责标识该条记录的基本信息，包括记录长度、创建时间、主题URI等内容。

2.2 对资源来源的描述

WARC格式对资源来源的描述主要通过“request”和“response”两种类型的记录来实现。部分描述信息来源于TCP/IP连接过程，例如服务器的IP地址、资源名称、资源类型、资源语种、响应时间、服务器类型等，而大部分描述信息来源于HTTP请求与响应过程，分别被存储在“request”和“response”两种类型的记录中。

2.3 对收割活动的描述

“warcinfo”型记录用于描述其后所跟记录的收割活动，描述信息包括：网络爬行的目的、深度、时间间隔、速率等。“warcinfo”型记录可以出现在WARC文件中的其他任意位置，用于描述其后所跟的记录，其描述的有效性直到下一条“warcinfo”型记录出现为止。

2.4 对资源格式的描述

“conversion”型记录中存储的内容是某一记录内容的另一种媒体格式的版本。WARC格式标准规定：可以为某一资源创建任意数量的“conversion”型记录，以尽最大可能维持其在未来的活性。下文是一条“conversion”型记录，其中记载了目前资源的类型为images格式为jpg，包含3098比特二进制数据，在未来jpg格式过时后，资源可能被迁移为新格式image/neoimg，新格式版本将被存放在Related-Record-ID中。

2.5 对资源内容的描述

原始URI可以提示记录中资源内容的主题。在“warcinfo”型记录中，“subject-uri”字段的值是人工综合给定的，并且是文件名的一部分，“subject-uri”字段的值是爬行软件的检索目标的原始URI。

2.6 对节略资源的描述

规模过大的资源可能在被节略后存入WARC文件，在头标区增加“Truncated”字段可以显示该条记录为节略操作的结果，“Truncated”字段的值可以是“time”（表明节略原因是资源超过时效限制）或“length”（表明节略原因是资源超过长度限制）。

2.7 对资源重复访问的描述

“revisit”型记录用于记载对已存档内容进行重复访问的情况。下文为一条“revisit”型记录，其中记载了远程主机的HTTP响应未发生变化，Etag的值与先前的访问记录相同，说明资源内容未发生变化。

3 WARC对网络收割结果的组织

3.1 WARC对片段记录的组织

WARC格式规定：对规模过大的资源可将之分割为若干片段然后分别保存在多条“continuation”型记录中。记录中的“Segment-Origin-ID”字段负责将各内容片段记录与起始片段记录关联起来，“Segment-Number”字段负责对每一内容片段按先后顺序进行编号。下文是某资源的第2个记录片段的'continuation'型记录，它与起始记录uuid:a4b26b6b-f918-4136-af04-f859d75a ebe5关联在一起。

3.2 面向不同任务的WARC记录重组

当面向不同主题或事件（9.11、悉尼奥运、汶川地震）重组资源时，各种记录会被从不同的WARC文件中抽取出来，重新组合成新的文件，“Warcinfo-ID”字段则能够为重组后分布于不同的独立WARC文件中的记录提供与其原始“Warcinfo”记录的关联，保持资源的原貌。

3.3 基于外部关联的资源组织

WARC格式中内嵌了“metadata”型记录，采用RDF或其他以XML为基础的书写方式，其内容允许复用其他各种类型记录的内容，支持对资源间关联的语义描述。下文是一条简单的“metadata”型记录，Related-Record-ID字段中记载了与该资源相关联的其他资源。

3.4 基于外部索引的信息组织

WARC文件可以被外部工具索引，IA的ARC文件被存取工具Wayback以URL和收割时间作为索引点建立了外部索引数据库，［3］美国国会图书馆的LOC/SDSC项目分布式运行了18个Wayback子项目对其存档的ARC文件进行索引，1周时间内建成了100 GB 的索引数据库。［4］

4 ARC及WARC格式在各国的应用情况

丹麦皇家图书馆和丹麦国家与大学图书馆联合进行的Netarkivet项目使用Heritrix进行网络收割，存储WARC文件的系统BitArchives不久将达到20TB容量。［5］

法国国家图书馆Bnf WebArchive项目一年间存档的25000个ARC文件，对应于50万个主机和大于1亿 2 千多万个 URL。［6］

新西兰国家图书馆一年完成的收割任务中76%以ARC 格式存档。［7］

新加坡国家图书馆每年进行2次大规模网络收割，存档1.6TB ARC格式文件。［8］

芬兰国家图书馆的Annual Web Harvest项目采用Heritrix进行网络爬行，并且以WARC进行收割结果存档。［9］

德国国家图书馆总结了使用METS支持网络收割结果存档的利与弊，并提出了使用WARC格式的可行性。［10］

荷兰国家图书馆正计划将网络资源收割的结果以WARC格式存入 e-Depot中。［11］

美国国会图书馆的LOC/SDSC项目共存档了5.2 TBARC文件，平均每个文件的大小为128MB，平均每个文件容纳1000个网页。［11］

澳大利亚国家图书馆的PADORA项目一年存档的ARC 文件总量为 4.52TB。［12］

加州大学数字图书馆（CDL）的Web-at-Risk项目内置Heritrix作为收割软件，以ARC格式输出收割结果，并通过NutchWAX存取管理软件对存档的ARC文件建立索引。［13］

康奈尔大学的WebArchive项目——WebLibrary对数字图像和视频的收割结果进行了ARC格式保存，其中数字图像的ARC文件为14.9TB，相应的元数据DAT文件为0.84TB；视频的ARC文件为7.36TB，相应的元数据DAT文件为1.89TB。［14］

由欧洲若干国家图书馆（摩洛哥、捷克）及研究机构（University Hannover、Europe Archive Foundation等）共同承担的LiWA（LivingWebArchives）项目，将WARC格式拟定为网络收割结果的存档格式。［15］

受 JISC资助的 JISC-PoWR（Preservation of Web Resources）项目提出了“文档持续可访问、兼容元数据、符合OAIS模式、支持Web2.0资源”等存档原则，并着重参考WARC格式。［16］

意大利政府支持能源、环境、新技术等关系国家竞争力和可持续发展的代理平台——ENEA网格，也使用WARC存档其网络收割的结果。［17］

5 WARC应用于我国Web Archive工作的建议

尽管WARC格式也还存在诸多不足，例如尚缺乏对删除行为、迁移过程和去重过程的记载等，但它正处于快速的改良和发展中：IIPC已制定出管理文件内容的综合、可扩展、高速的框架———Libwarc，［18］并于2008年10月推出。WebArchive服务机构Hanzo开发了使ARC向WARC转换的操作工具，可在第三方软件上运行。［19］英、法、丹麦、瑞典、新西兰等国的国家图书馆正致力于WARC格式转换及相关WARC工具的第三阶段（PHASE III）研发和推广。［20］

根据WARC格式的应用经验和发展趋势，笔者建议我国国家图书馆将来应采纳WARC格式进行大规模的收割结果存档工作，以保障存档资源的可持续发展，同时实现与国际同类工作的兼容，支持未来国家记忆系统的互操作。

［1］Catherine Lupovici，Den Haag．Archiving the Web:the mass preservation challenge，Tools and Trends:International Conferenceon DigitalPreservation［EB/OL］.［2009－07－08］．http://www.kb.nl/hrd/congressen/tool strends/presentations/Lupovici.pdf.

［2］WARCFile Format（FinalworkingdraftforISOTC46/SC4,v.018,080618）［EB/OL］.［2009－08－13］．http://www.scribd.com/doc/4303719/WARC-ISO-28500-final-draft-v018-Zentveld-080618.

［3］Steen S Christensen．The Royal Library Archival Data FormatRequirements［EB/OL］.［2009－08－16］.http://netarchive.dk/publikationer/Archival_format_requirements-2004.pdf.

［4］David Minor，etc．Archiving,Indexing and Accessing Web Materials：Solutionsforlargeamounts ofdata［EB/OL］.［2009－08－02］．http://iwaw.europarchive.org/07/IWAW2007_minor.pdf.

［5］Niels H,Christen S.Preserving the bits of the Danish Internet［EB/OL］.［2009－08－11］．http://netarchive.dk/publikationer/iwaw05-christensen.pdf.

［6］Web Archiving at BnF［EB/OL］.［2009－07－15］.http://www.bnf.fr/pages/version_anglaise/depotleg/pdf/Bn Fnews200609.pdf.

［7］GordonPaynter，etc．AYearofSelectiveWebArchiving with the Web Curator at the National Library of New Zealand［J/OL］．D-LibMagazine，2008（14）.

［8］NLB．ParadigmShift:OwnershiptoOutsourcingtoGSPs［EB/OL］.［2009－08－04］．http://files.ngp.org.sg/GridAsia2009/presentations_slides/5-friday/gsp/1430-RajuBLN（NLB）.pdf.

［9］http://www.nationallibrary.fi/publishers/deposit/webharvesting.html.［2009－08－03］.

［10］Tobias Steinke．Harvester Results in a Digital PreservationSystem.IPRES2008［EB/OL］.［2009－08－01］．http://www.bl.uk/news/pdf/abstracts.pdf.

［11］Barbara Sierman,Koninklijke Bibliotheek.Enhancing ourdatamodelwithPremis［EB/OL］.［2009－08－07］．http://ils.unc.edu/digccurr2007/papers/sierman_paper_4-1.pdf.

［12］http://pandora.nla.gov.au/partners/annual_report06_07.pdf.［2009－08－06］.

［13］TracySeneca，Shifra Pride Rael．NDIIPP Web-at-Risk:TheDevelopmentofaWebArchivingServiceattheCalifornia Digital Library［EB/OL］.［2009－08－05］.http://www.cdlib.org/inside/projects/preservation/webat risk/documents/WebArchivingServiceCollection_Plan_Guidelines.pdf.

［14］DmitriyShtokman．Web Library:DataMovementSpring 2007 Report［EB/OL］.［2009－08－08］．http://weblab.infosci.cornell.edu/papers/Shtokman2007.pdf.

［15］http://iwaw.europarchive.org/08/IWAW2008-Pop-pres.pdf.［2009－08－04］.

［16］PoWR The Preservation of Web Resources Handbook［EB/OL］.［2009－08－05］．http://www.jisc.ac.uk/publications/documents/powrhandbook.aspx.

［17］S Raia，etc．Web Crawling on ENEA GRID infrastructuretoperformWebArchive［EB/OL］.［2009－08－03］.http://www.cresco.enea.it/Documenti/web/presentazioni/Poster_PON_Catania_2009_02_10/poster_catania/Poster_WebCrawler_Raia_010209_20-30.pdf.

［18］Libwac［EB/OL］.［2009－08－02］．http://code.google.com/p/warc-tools/.

［19］Hanzo［EB/OL］.［2009－08－10］．http://www.hanzoweb.com/.

［20］YounèsHafri．WARCTOOLSPHASEIII［EB/OL］.［2009－08－01］．http://warc-tools.googlecode.com/files/warc-tools_phase_III_frs_v5.pdf.