姚松涛
〔摘 要〕E-Science环境下科学数据实现共享的关键在于标准化,共享的前提是制定标准的规范;实现有效的科学数据整合,使地理分布无关的计算资源、数据资源、存贮资源的全球自动配置和共享。
〔关键词〕E-Science;科学数据;整合与共享
〔中图分类号〕G255 〔文献标识码〕B 〔文章编号〕1008-0821(2009)05-0128-03
Integration and Resource Sharing of Scientific
Data under E-science EnvironmentYao Songtao
(Library,Henan University,Kaifeng 475000,China)
〔Abstract〕The key of implementing scientific data sharing under e-science environment is standardization;scientific data should be integrated efficiently,so as to automatically allocate and share the computing resources,data resources,storage resource in the global range.
〔Keywords〕e-science;scientific data;integration and sharing
1 E-Science及其特点
现代科学研究的问题空前复杂化,20世纪末产生了一种崭新的科研协作模式和大科学工程——E-Science。E-Science中文译法有“数字科研”、“电子科研”、“电子科学”、“科学研究信息化”,它是一种以网格为基础的新的科学研究环境。
“E-Science”的概念是英国人先提出来的,它是建立在新一代网络技术(Internet)和广域分布式高性能计算环境(Grid)基础上的全新科学研究模式,以互联网技术和网格计算技术为基础,实现跨越地理界限的全球大规模数据采集、T级高速计算和高性能可视化,并以此为基础将互联网的应用、高性能科学计算及资源共享提高到一个全新的层次。在这种环境中,地理位置、分散的各种仪器设备、计算资源、数据资源等被虚拟的集成到一起,科研人员可以自由的使用各种资源,无需考虑资源的存储地和提供者,这种使用突破了时间、物理空间、逻辑空间上的障碍。
E-Science具有如下特点:首先,E-Science是一种信息化的基础设施,它提供了一种信息化的科学研究环境和平台,使得不同学科领域的科研活动能够有针对地开发特定的科学研究与应用;其次,E-Science的建立应以应用需求为导向;另外,E-Science的实现需要大量的新技术,事实上E-Science正是20世纪后半期IP技术尤其是20世纪后10年IP技术的产物[1]。它所需要的最具代表性的是网格技术,正是通过网格才有可能将E-Science所需的众多技术与资源,如分布式计算技术、网络安全技术、协同工作技术、资源管理技术等等集成一体,构成并实现了E-Science。
2 中外科学数据共享的现状
2.1 国外科学数据共享的现状
随着经济发展的全球化和全球性科技活动的不断增强,导致全球范围内的科技人员对科学数据信息资源的交流、互通和深度使用有强烈需求和高度依赖。近20年来,美国、俄罗斯、英国、法国、加拿大、日本和新加坡等发达国家相继颁布了有关科学数据信息共享的政策法规,开始实施科学数据共享工程。目前国际上实施科学数据共享主要体现在3个方面:第一,政府投入大量资金支持科学数据的长期积累、高效流动和低成本使用;第二,从法律、政策等多方面保障科学数据的管理与共享服务;第三,科学数据共享主要采用国家调控下的事业性运行模式。
2.2 我国科学数据共享现状
科学数据是科技活动的结晶,是科技发展与创新的基石,是国家安全和社会经济发展的重要保障。但科学数据共享却在我国长期以来没有得到应有的重视。
具体说,我国科学数据的共享现状是:①目的单一,以自用、完成任务为主,只能为少数人使用,得不到及时的更新。②分散在各个单位、数据观测点、科学家个人手中,许多珍贵数据记录已因年久而损毁或散失。③无统一的数据规范标准,标准化程度很低,从根本上降低了数据共享的可能。④重复建设,浪费大量人力、物力和经费。
国内虽然在科学数据共享方面的工作起步较晚,但是在国家科技部的领导下,近年来,在整合已有科学数据资源、推动科学数据共享方面作了大量卓有成效的奠基性工作,1999年,国家科技部基础司组织了“科学数据共享调研组”,并于2001年11月完成了“实施科学数据共享工程,增强国家科技创新能力”的调研报告。该报告在深入分析我国科学数据管理存在的问题和国际科学数据管理的经验基础上,提出了实施国有科学数据公益性共享的战略国策和10年建成科学数据共享保障体系的总体思路。现已开展国家科学数据共享工程的试点建设,这不仅为国家科学数据共享工程实施标准的制定和具体实施提供了技术基础,也为科学数据共享工程向其它领域延伸,向地方区域推广提供了宝贵经验。随着我国计算机网络技术的高速发展,网络带宽迅速扩大,信息技术开发能力的不断增强,必将促进我国科学数据共享的跨越式发展。
3 E-Science环境下科学数据的整合与共享
3.1 制定标准规范
E-Science环境下从“全球数字图书馆”的角度来说,需要将众多的力量协调组织起来,实现网络的互联互通、资源的共建共享、管理的井然有序,来满足各个不同的科研团队的科研需要。实现共享的关键就在于标准化,共享的前提是制定标准的规范,统一的元数据标准能实现资源的互操作性,统一的标准化协议能使异构信息变同构信息。
元数据是数字图书馆的语义基础,为数字图书馆提供完整的数据描述形式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法、整合工具和纽带,使广泛分布的数字图书馆资源站点具有充分的互操作性和可扩展性,提供数字图书馆中的资源描述、资源发现、资源处理、资源评价与排序以及资源的人际交互和理解的基本准则,它还承担向数字图书馆中高层协议中间件提供标准数据访问接口的功能。完整、全面的标准规范对于数字图书馆的建设是非常重要的。2007年度都柏林核心(DC)与元数据应用国际研讨会在新加坡举行,在元数据的标准规范方面提出被称为“新加坡框架”的元数据应用规范,其规定了一整套元数据方案需要包含五类文档,其中必备的“领域模型”和“元数据集描述”并要求以较为严格的机读形式编码(UML和XML/RDF),保证元数据应用的各项形式化约束具有一致性和延续性[2]。
系统的异构性是构建数字图书馆、实现信息资源全面整合的突出问题,异构资源互操作问题主要解决平台异构、操作系统异构、数据库异构问题,可采用CORBA、Z39.50等技术手段来解决异构系统的互连互通。目前,比较典型的解决方案是利用XML作为数据的传送格式,允许服务提供者和服务客户经过防火墙Internet上进行通信,基于HTTP、XML、RPC的SOAP实现平台与环境的无关性和独立性。提供开放式链接,以实现系统间的互操作:开放式链接基于正在出现的、OpenURL、CrossRef标准,能够无缝地链接所有数字图书馆资源,而不论这些资源使用什么样的软件系统[3]。
基于Web的服务在不同的系统之间实现“软件——软件调用”,存储设备等软硬件资源,在作为操作系统的网格中间件的作用下,形成虚拟计算组织,使用户可以在全球任何地方访问所需的资源,从而使计算资源得到充分的共享,这种Web服务是基于网格之上的,同时网格为Web服务提供了一个与硬件无关的虚拟计算机,Web服务构架在虚拟计算机平台之上,与平台/语言无关的应用交互集成平台。同时要遵循WebService中的几个重要协议标准:XML/SOAP/WSDL/UDDI等,这些协议提供了标准化、透明的机制和完善的信息源标识功能。所谓标准化协议是指此协议定义了与检索相关的标准检索语法、检索结果的表示以及对信息源接口和基本特征的描述。基于这个标准检索服务框架,各个数据库可以通过转换封装成标准检索服务。所谓透明性机制是指网格系统支持对异构数据资源的访问,为用户提供统一的访问接口,并自动选择适当的访问协议来实现用户提出的数据访问请求。所谓完善的信息源标识功能是指在数据源很多,统一检索系统一次只能向有限个数据源提交检索请求情况下,网格系统能通过检索服务发现和描述协议并精确定位用户所需的数据集,并对各个数据库返回数据进行统一处理的一种快速反应机制[4]。
3.2 整合分布式数据
E-Science环境下实现有效的科学数据整合,要以用户需求为导向进行数字信息资源开发,根据科研人员的需要自动地提供所需要的知识,并把所有的信息动态的集成到一起,最终形成以科研人员信息活动为基础的数字信息环境,并进行日常的知识管理工作,实现外部知识系统与用户的个体知识系统、团队知识系统的融合,以达到更高效的利用知识和创造知识的目的。
E-Science环境下全球数字图书馆对数据的收集分为两种:物理上的集中,即建立数据存储和处理中心,如数据库、机构库等;逻辑上的集成,即建立一种链接机制,把由相关联的数据进行整合、集成和链接,针对不同的用户需求实现不同个性化信息推送。
E-Science环境下用户面对多介质、多格式、多类型、多传输渠道的数据资源,用户希望以更快更好的方式得到自己需要的数据。数字图书馆作为E-Science环境下支持研究的平台,是用户获取数据的主要来源,从用户的角度来说,不论图书馆收集了多少资源、收集了什么样的资源,对用户而言都是屏蔽的。用户只关心他能否在数字图书馆这个平台上获得其所需要的信息。所以数字图书馆必须把分布式的数据建设朝着整合化的方向发展。整合的数据对象包括:不同载体、不同类型的数据之间的整合;异质信息资源的整合;本地资源和远程资源的整合等。通过整合满足用户全方位、多渠道地获取要求,并提供更加丰富的信息资源,建立分布式信息资源保障体系,实现信息的无缝链接和集成,从而实现更大范围、更有深度的资源共享,提高为用户服务的能力,促进形成以用户为中心,以资源为基础学习环境和研究环境。
E-Science环境下数字图书馆的链接是在E-Science环境下全球数字图书馆的范围内进行的,链接的技术基础是知识网格。通过知识网格使数字图书馆由信息服务转变成知识服务,利用节点丰富、交织纵横的知识网络系统实现了数据库的全息关联,把数据库信息资源的整合深度推进到知识元层次,根据不同的用户和用户群的需求提供不同的知识链接方式,使数字图书馆所拥有的数据库资源组织成一张循环互动的知识网络,并与外界的信息资源有机链接起来,使用户有效的收集到自己所需要的数据。
科学数据中蕴涵着大量的事实和规律,而这种事实和规律的揭示是通过对大量数据的分析和处理实现的。E-Science环境下数字图书馆对科学数据整合的基础上进行分析和处理,能够从不同的需要出发对数据集进行各种角度的统计、计算、分析和处理,帮助科研人员进行数据的预处理和后处理工作。
3.3 共享科学数据
E-Science环境下科学数据的共享难度加大,数字图书馆能够对数据的共享起重要的作用,共享的对象包括显性知识和隐性知识。
E-Science环境下知识共享的难度加大的主要原因是:①非正式交流增多,且方式多样,电子邮件、BBS、讨论组、网络会议、信息共享室、个人主页……,这就产生了大量形态各异、质量参差不齐的资源,良莠混杂使得对这些资源的筛选和甄别变得异常困难,如何有效存储和利用这些资源的问题将日趋尖锐;②交流的随意性强,用户可以自由的发布信息,缺少严格的审核机制,缺乏有效的控制机制,其质量、时效、稳定性难以得到有效保证;③非正式交流的组织性差,许多非正式交流是科研人员自发形成的,这使得交流的过程和结果极不规范,不易记录和保存。
E-Science环境下数字图书馆为显性数据的有效共享提供条件,E-Science环境下,数字化的数据生产和传递将有利于它的存储和转换,也使得对它的保存和重用成为可能。例如,在动物和微生物基因组研究方面,美国科学家首次绘制出了黑猩猩的基因组序列草图,所获得的全部数据存入公共数据库,免费供各国科学家调用。科学家们通过比较分析发现,黑猩猩与人类的基因组之间存在着关键性差异,说明二者的共同祖先在500万年前分开之后,自然选择压力的差异导致了两种生物进化过程的不同。正是这种对数据的重用推进了科学研究的进程。
E-Science为隐性知识的显性化提供了更强大、更方便的工具,模拟和仿真技术能够更真实、更准确、更直观的重现科研人员头脑中的景象,在一定程度上解决了隐性知识难以用语言描述的问题。例如,利用多媒体、超媒体等多种形式的载体,可以更形象的表达隐性知识[5]。
3.4 长期保存数据
E-Science环境下数字图书馆利用先进的技术,使信息的长期保存成为可能,基于数字对象识别符DOI(Digital Object Identifier)的永久性保存与利用机制为确保网络学术资源的稳定链接提供了一个强大的工具。针对不同类型的数据进行长期保存的研究,制定数据资源长期保存的策略,制定相应得措施。支持开放获取形式下的长期保存机制和网络信息资源的长期保存机制。充分利用合作、联合和公共的长期保存机制,在精细研究相应的保存可靠性、服务可靠性、法律可靠性、经济效率的基础上,更加经济地实现数字资源的长期保存,并对委托长期保存过程进行管理。
参考文献
[1]徐冠华.实施科学数据共享 增强国家科技竞争力[J].中国基础科学,2003,(1):5-9.
[2]刘炜.DC元数据年度进展(2007)[J].数字图书馆论坛,2007,(11):19-22.
[3]初景利.国际一流图书馆的若干特征[J].图书情报工作动态,2003,(3):2-6.
[4]李彦坤,于忠,李惠安,等.网格计算在数字图书馆中的应用[J].中国信息导报,2005,(8):19-22.
[5]张晓林.开放数字图书馆的设计和实现:CSDL的实践[J].情报学报,2003,(10):520-525.