国家数字图书馆网络资源保存和服务思考

2016-02-13 10:06魏大威国家图书馆
图书馆理论与实践 2016年9期
关键词:网络资源图书馆资源

魏大威,张 炜(国家图书馆)

国家数字图书馆网络资源保存和服务思考

魏大威,张炜
(国家图书馆)

作为保存人类文化遗产、传播知识信息的枢纽,国家数字图书馆一直注重数据的建设、管理和利用。伴随现代科技和人类社会进步所形成的生态环境变化,国家数字图书馆开始对存在于网络中有价值的信息资源进行有效保存和利用,从而实现大数据环境下的融合和创新。

数字图书馆;网络资源;保存;服务

网络和信息技术的快速发展带来全球社会生态的重大变化。受社会对海量数据处理和深层发现的需求所趋,对网络大数据的有效管理和利用已被欧美、日韩等国家上升为国家战略。作为新一代信息技术和现代公共文化服务充分融合的图书馆行业,应该抓住知识社会中的这一创新机遇,加快对数量巨大、来源分散、格式多样的网络资源采集、存储和关联分析,从中发现新知识,创造新价值,提升新能力,实现数字图书馆的整体提升。

1 背景

据英国著名的调研机构Netcraft统计,2015年全球网站数量已接近10亿大关,国际电信联盟(ITU)发布的全球互联网使用情况报告预测,2015年底全球网民规模为32亿;据中国互联网信息中心(CNNIC)统计,2015年我国域名为2231万个,其中“.cn”的总数为1225万个,占总量的54.9%,国内网站357万个,其中CN下网站数为163万个,网民规模6.68亿,互联网普及率为48.8%。从这些数字可以看出,无论是网络信息的覆盖程度还是其作为战略资源所创造的价值,都达到了前所未有的高度。存在于互联网中的海量信息,一次又一次的刷新着世界的面貌,通过不断的流通、聚合,频繁的重组、关联,铸造着全球最大规模的海量信息资源库,其重要性,正随着全球信息化步伐的加快而越来越显现,网络信息已经真正成为推动国家进步的重要战略要素。然而,如此巨大而且重要的网络资源,其寿命却非常短暂,据统计,平均每周大约2%的网页会消失。因此,对其采取积极有效的保存措施并提供利用,能够使数字图书馆找到与科技更深入融合发展的新切入点。

随着信息环境的日新月异和现代社会变革与进步的加快,面对大量异构的网络资源,图书馆的文献保存职能已从传统的纸质文献迅速扩展到网络信息领域。国家数字图书馆作为保存人类文化遗产、传播知识信息的枢纽,一直注重数据的建设、管理和利用。建有磁带库、磁盘阵列、光纤导向器组成的整体存储系统,总存储量达到2270TB。截至2014年底,数字资源总量已经达到1024TB,其中,电子图书367万种414万册,电子期刊约5.8万种,电子报纸约1.5万种,学位论文约521万篇,会议论文约507万篇,音频资料约109万首,视频资料约13.2万小时。特色数字化资源超过2.6亿页。开展海外民国文献数字化、国家珍贵古籍数字化,馆藏音像资料数字化。外购数据库达到277个,其中中文数据库127个,外文数据库150个。开发的文津搜索系统,积累了超过3亿条元数据。数字化资源正在通过互联网、移动通信网、广电网等渠道以及触摸屏、智能手机、数字电视等终端,向读者提供海量知识信息。基于前期大数据的生产、挖掘和服务经验,国家数字图书馆将以海量网络信息资源的保存与服务为起点,对互联网中有价值的信息进行提炼和积累,利用创新思维、创新渠道推进网络信息资源的开放、共享,从而进一步整合完善现代公共文化服务体系,保障并促进中华优秀文明的广泛、久远的传播。

2 网络资源保存成为文化创新的重要途径

2.1国外网络资源保存的应用与实践

权威调研机构互联网数据中心(IDC)的报告显示,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),在过去几年里,全球的数据量以每年58%的速度在增长,未来这个速度还会更快,这其中绝大多数的数据来源于网络。网络资源不仅能全面反映国家社会各领域的真实面貌,还为政府决策、企业经营、网络安全和人民生活提供了重要的信息素材,对分析一个国家的发展现状并做出正确的判断和决策具有重要意义。

网络信息的保存与利用在世界各国已经受到普遍重视。2012年美国政府就发布了《大数据研究和发展计划》,面向网络信息进行收集、监控、分析和研究。美国国家安全局(NSA)在2011年投资20亿美元建成了犹他数据中心,其存储能力高达1YB,相当于人类目前为止产生的所有数据的1000倍。2013年5月,NSA动工新建了另一个高性能计算中心,规模是犹他数据中心的6倍。欧盟在2014年初启动了“地平线2020”计划来加强欧盟网络基础设施建设、泛欧洲的网络数据保存和管理、网络数据挖掘和利用,以实现整合欧盟各国的信息资源,促进科技创新,推动经济增长和就业。

近年来,国外许多科研和文化机构在网络信息保存方面已完成或正在推进的全球项目也有近百项。从国际影响力和成果来看,具有代表性的是美国的Internet Archive(IA)项目和美国国会图书馆的Minerva项目、法国国家图书馆的BNF WEBARCHIVE(BNF)项目、英国的UKWAC项目、澳大利亚国家图书馆的Pandora项目等。其中,美国的IA项目目前数据总量达到了9PB,保存了4000多亿个网页;法国的BNF项目,目前已经完成了对200亿个网络资源对象的保存,总数量达到450TB;英国的UKWAC项目目前已经对1.4万个网站进行了6.5万次以上的存档,共采集资源24TB;澳大利亚国家图书馆的Pandora项目目前已经完成了对10万个网站的保存工作,总文件数量达到了2.6亿个,数据量共12.22TB。

2.2国内网络资源保存工作的进展和效果

我国开展的网络信息采集与保存的实践性项目屈指可数。国内高校曾将网络信息保存作为科研项目开展过实践研究,北京大学网络实验室开发建设的“中国Web信息博物馆”(Web Infomall)项目,是2002年在国家“973”和“985”项目支持下开展的中国网页历史信息存储与展示系统。

2003年,国家数字图书馆在国内开展了网络信息资源采集试验;2007年,加入国际互联网保存联盟;2009年,成立了国家图书馆互联网信息保存保护中心,致力于中国互联网信息资源长期保存和保护。经过10多年的建设,在网络资源评价体系、采集策略、技术应用、平台建设、数据挖掘和分析,用户服务和体验、合作模式等方面都积累了一定经验。截至2015年,保存范围包括国内网站、国外网站和国内专题三部分。已累计的数据量超过100TB。(1)国家数字图书馆在对网络信息有针对性采集的同时,还注重有效的内容组织和发布,实现在公共互联网上,面向全社会的公益性查询服务。(2)尝试引入社会力量参与“网络信息保存项目”建设和合作,有效弥补前期建设中网络带宽、软件研发和队伍建设等方面的不足,从而保障数据的多元聚集和结构优化,降低项目运行成本,实现人员有效配置,进而运用商业平台的运作模式加快项目发展,实现效用的成果转化。(3)十分重视标准规范建设,积极推进符合我国国情和中文语境的网络信息采集技术应用与相关规范标准建设工作,建立元数据著录规则,加强采集数据的管理,确保数据的可用性、稳定性和准确性,提高服务效能。(4)着手研发适用于中文信息采集环境的集成式管理系统。依托文化惠民工程之一的数字图书馆推广工程,网络信息资源保存工作已经作为数字资源联合建设的重要组成部分面向全国公共图书馆逐步展开,2014年首都图书馆、湖北省图书馆、浙江图书馆、吉林图书馆以及新疆建设兵团图书馆5家省级公共图书馆成为首批联建成员,2015年包括贵州省图书馆在内的76家省市级图书馆进行了网络信息保存工作的踊跃申报。

2.3利用网络资源驱动文化创新和发展

信息技术和互联网技术无论在全局性战略布局还是重点决策方面,都得到了国家的高度重视,以互联网技术为代表的科技创新正在引领经济创新、政府管理创新以及文化创新。十八届五中全会不仅提出了“实施网络强国战略”,还提出了“实施‘互联网+’行动计划,发展分享经济,实施国家大数据战略”。在关于制定“十三五”规划的建议中也指出,破解发展难题,厚植发展优势,必须牢固树立创新、协调、绿色、开放、共享的发展理念。而数据资源的开放共享,是实施大数据战略的关键所在。在2015年9月国务院发布的《关于印发促进大数据发展行动纲要的通知》中,特别提到要加强互联网信息采集、保存和分析能力建设,制定完善互联网信息保存相关法律法规,构建互联网信息保存和信息服务体系。我国在2020年要完成公共文化服务体系基本建成的阶段性目标,离不开坚持文化创新,使创新在文化领域蔚然成风。利用创新思维、创新渠道推进网络信息资源的开放、共享,对于公共文化资源体系的进一步整合完善、缩小数字鸿沟具有重要意义。

现代公共文化服务体系的整体发展,需要战略性与操作性相融合的创新理念支撑,从公共文化服务视角出发,今后图书馆服务将跳出图书馆本位概念里的服务范围,紧密依托互联网+环境下的文化创新和科技创新成果,跨越原有机构和业务门槛,以“大文化”的理念构建现代公共文化服务体系与新信息技术融合的新业态和新模式。以海量网络信息资源的保存与服务为起点,国家数字图书馆将联合档案馆、博物馆、美术馆、文化馆等公共文化机构,共建大数据环境下的公共文化资源生产体系,充分发挥互联网+环境下大数据等延伸技术产物在公共文化服务体系建设中的优化和集成作用,汇集多种文化资源建设,形成超大规模的元数据仓储,实现不同异构数字资源元数据的集中管理;利用关联技术实现数字资源信息层和知识层的深度整合,从而使海量、多样的资源得到合理组织和开发;利用大数据挖掘技术,为社会公众提供更深层面、更细粒度、更准确的资源揭示,从而使公共文化服务所承担的内容和责任更加拓展。

3 科技融合下数字图书网络信息保存工作的未来规划

数字图书馆作为新一代信息技术和现代公共文化服务充分融合的图书馆新业态,应该把技术创新与制度创新放在同等重要的位置,完善体制机制,推动原始创新,加强集成创新,增强引进消化吸收再创新能力。

3.1搭建先进的分布式网络信息采集平台

全面系统地采集和保存中文互联网信息资源,有重点地采集和保存国外网络信息,是网络信息保存与利用的根本任务,利用先进技术,对不同广度、深度的网络信息的采集是至关重要的。同时,网络信息资源的数量庞大(以PB为单位进行计量)以及数据安全、网络带宽的考虑,需要建设网络信息采集国家中心以及各省中心,利用严格监管的调度机制进行网络信息的分布式采集,以保障采集资源使用合理,发挥最大效力,从而确保网络信息采集的完整和时效性。

网络信息采集平台还要重点解决以下几方面问题:(1)要确立网络信息的保存标准,标准化对于网络资源采集与长期保存具有重要意义,不仅有利于保证网络资源的长期可获取性与保护其完整性,还可以减少网络资源长期管理与保存的费用;(2)采集技术的运用,结合国内外的先进经验,针对不同采集对象运用或研发采集不同类型采集工具,制定采集频率、采集策略、保存格式等内容,解决中文的全文检索及挖掘问题、深层网页的采集问题等;(3)保存方式,需要建立统一的存储标准,从而促进网络信息资源保存系统之间数据的共享。

3.2构建可靠完备数据保存中心

以网络信息内容为核心,以先进技术为支撑,以保存、保护和利用为目标,建设国家网络信息保存中心,全面保存网络化、移动化、社交化、视频化的网络信息,实现网络信息的长期保存、长效可用。

采用分布式存储架构和云存储技术,基于先进的存储设备构建一套较为完整的网络信息保存中心,实现EB级别的存储容量,满足信息采集中心、数据分析中心的信息存储需要,为服务体系的应用提供数据保存支持和数据空间支持。同时,网络信息保存中心的技术架构还将具有延续性、扩展性的特点,不但可以持续地为数据存储、数据服务提供支持,还将随着数据的增长、应用的扩展而有序地扩充保存中心的保存能力和服务能力。

网络信息保存保护系统将构建统一调度、集中索引、分布式保存的“保存模式”,实现海量网络信息的保存。通过分级分布的保存模式,实施与资源相匹配的保存策略,实现网络信息的集中保存和长效利用,为信息采集中心提供资源保存服务,为数据分析中心提供数据支撑服务,为网络信息的检索服务、学术研究、决策支持等提供基础支撑和数据支撑。

3.3建设一流的数据分析中心

利用云计算技术和并行数据库技术实现异构异源海量网络数据的离线或在线运算,提高数据处理效率。利用大数据挖掘技术和人工智能技术对数据进行关联分析和深度挖掘,从大量纷繁复杂的数据中找出规律性和发展趋势,揭示出事物之间的关联,提供决策建议。通过数据可视化技术将抽象的数据关系通过表现元素直观地进行展示,并提供交互功能,提升服务品质。

3.4推进制定符合国情的网络政策

网络和信息安全牵涉到国家安全和社会稳定,是我们面临的新的综合性挑战。从实践看,面对互联网技术和应用飞速发展,现行管理体制存在明显弊端,主要是多头管理、职能交叉、权责不一、效率不高。同时,随着互联网媒体属性越来越强,网上媒体管理和产业管理远远跟不上形势发展变化。特别是面对传播快、影响大、覆盖广、社会动员能力强的微客、微信等社交网络和即时通信工具用户的快速增长,如何加强网络法制建设和舆论引导,确保网络信息传播秩序、国家安全和社会稳定已经成为摆在我们面前的现实突出问题。

互联网资源的采集、保存及后续利用均涉及大量法律问题,为保证有关工作合法有效地开展,有必要在借鉴国外立法经验的基础上,尽快修订现行法规,明确赋予法定保存机构采集、保存互联网资源的法定权利,推动构建我国网络信息保存相关领域的政策保障体系。加大依法管理网络力度,完善互联网管理领导体制,形成从技术到内容、从日常安全到打击犯罪的互联网管理合力,确保网络正确运用和安全。

3.5带动技术与应用领域的创新体系建设

不难想象,互联网信息的保存,数据资源量将是非常庞大的,并且这些数据的增长量也是非常惊人的。在这些海量数据的采集、整理和加工过程中,我们需要现有的基础设施和技术做支撑,同时,面对如此庞大的数据规模,数据又是来自不同机构,结构各异,数据保存保护技术面临着巨大挑战,突破这些挑战,也为技术的革新带来了巨大动力。另一方面,海量数据量也为技术革新提供了数据支撑,具有很好的科研价值,也是其他商业机构或科研院所在数据规模上无法达到的。因此在建设中,需要实现相关技术、合作模式以及资源及工程管理策略方面的革新,从而适应海量分布式异构的互联网信息的要求。

我们在实现互联网信息的采集、组织加工和保存等基本流程后,还要利用已有的海量数据实现信息的增值,真正实现数据的价值。对这些数据进行有针对性的分析,便能产生意想不到的效果和用途。目前,大数据分析已经成为一大趋势,用在了社会生活的各行各业,我们需要在采集、组织加工和保存的基础上对信息进行有效管理,对不同行业的数据分析采用不同的管理策略,为信息分析提供数据支撑,从而为其他领域的行业创新提供新的思路。

3.6建设覆盖全国的多层级网络信息提供服务体系

充分利用网络信息保存保护成果,以全面采集、组织和分析后的网络数据信息面向社会各层级展开高水平、高保障的信息提供服务。

面向中央和国家领导机关的决策支持服务。网络信息保存工作将高度重视海量网络信息作为我国战略性资源的重要性,着眼于国家信息安全与社会信息化建设的长远发展,依托强大可靠的信息基础设施和自主创新的关键性研发技术,在健全的法律规范体系下全面采集、保存和利用来自社会各领域的网络信息数据,为中央和国家领导机关的发展规划和重大政策制定等提供数据保障和智力支持。同时,通过基于网络信息的数据整理和挖掘大力推进社会热点问题及专题性信息资源库的建设,加强网络舆情汇集与分析,不断增强网络安全保障能力。

面向科研教育机构的学术研究服务。网络信息保存工作将以重点科研生产单位、教育研究机构为服务对象,利用强大的资源信息优势,建设和完善专业化、规模化、现代化的网络资源储备库,加强科学研究性信息数据的收集整理,通过数据挖掘、关联分析等加工处理,依据研究机构和用户的不同需求有针对性地提供特色学术研究信息服务,与相关科研与教育机构形成合力,为社会进步和科技创新增添源动力。

面向社会大众的信息检索与揭示服务。网络信息保存工作将在统一集中管理的基础上,通过各类新兴媒体形式提供一站式信息检索与信息检索平台,以多领域、多维度的网络信息内容向社会大众提供丰富全面的历史性和积累性网络信息查询与揭示服务。作为重要的数字文化遗产和日常信息传播资源,网络信息保存保护成果将以先进技术为支撑,在保障网络和信息安全的前提下面向公众提供精准权威的网络信息发布结果,从而促进我国全民知识信息共享水平得到有效提升。

4 结语

互联网被称为20世纪人类最大的发明,不论你是否愿意,是否知道,每个人都已被网络其中,在不知不觉中融入互联网生态圈。在互联网时代,图书馆信息资源生态也在发生巨变,一个崭新的知识网络环境已经产生,数字图书馆将抓住这一发展机遇,通过云计算、大数据技术对网络信息进行采集、保存、管理与分析,从而在海量的网络数据中发现其中蕴含的事物发展规律,发现新知识,创造新价值,提升新能力,进而为国家决策、经济和社会发展提供支持,这将是数字图书馆的未来发展方向。

[1]December2015WebServerSurvey[EB/OL].[2015-12-01].http://news.netcraft.com/.

[2]CNNIC:2015年第36次中国互联网络发展状况统计报告[EB/OL].[2015-12-01].http://www. cnnic.net.cn/hlwfzyj/hlwxzbg/.

[3]欧盟“地平线2020”计划启动加强基础科学研究[EB/OL].[2015-12-01].http://www.chinanews. com/gj/2014/02-01/5801917.shtml.

[4]Historique de l'archivage du web à la BnF[EB/OL].[2015-12-01].http://www.bnf.fr/fr/professionnels/ archivage_web_bnf/a.depot_legal_internet_histoire.html.

[5]中共十八届五中全会公报[EB/OL].[2015-12-01].http://news.163.com/15/1030/02/B7537G1T 00014AED.html.

[6]关于印发促进大数据发展行动纲要的通知[EB/ OL].[2015-12-01].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[7]习近平与“十三五”十四大战略:网络强国战略[EB/OL].[2015-11-19].http://www.chinanews. com/gn/2015/11-12/7618720.shtml.

[8]中共中央关于全面深化改革若干重大问题的决定[EB/OL].[2015-11-01].http://news.xinhuanet. com/2013-11/15/c_118164235.htm.

Thinking on the Preservation and Service of the National Digital Library Network Resources

Wei Da-wei,Zhang Wei

The national digital library,as a hub for the preservation of the cultural heritage of mankind and the dissemination of knowledge information,has been focused on the construction,management and utilization of the data.With the changes of the ecological environment in modern science and technology and the progress of human society,the national digital library begin to exist in value in the network information resources for effective conservation and utilization,so as to realize the data integration and innovation.

Digital Library;Network Resources;Conservation;Service

G250.73

A

1005-8214(2016)09-0038-04

魏大威(1976-),男,国家图书馆副馆长、研究馆员;张炜(1973-),女,国家图书馆研究馆员。

2016-02-26[责任编辑]王岗

本文系国家社科基金项目“网络信息采集与保存策略研究”(项目编号:15BTQ019)的成果之一。

猜你喜欢
网络资源图书馆资源
知识组织理论下图书馆网络资源发现服务体系优化研究
基础教育资源展示
基于SDN的分片网络资源编排系统设计
一样的资源,不一样的收获
资源回收
图书馆
资源再生 欢迎订阅
日本网络资源存档项目实践研究
运用优质网络资源 促进数学课堂优化
去图书馆