张新兴
〔摘要〕我国的科学数据共享平台建立了完善的管理机制,基于分布式组织架构整合海量科学数据,利用元数据对科学数据进行全方位的描述,提供多种资源组织方式、检索方式、结果排序方式、数据获取方式。科学数据共享平台的用户数和使用量逐年扩大,为科技、经济、社会发展做出了重要贡献。今后科学数据共享平台应拓展和深化数据资源、加强服务能力建设、提高定制化服务水平。
〔关键词〕科学数据;共享平台;资源建设;用户服务
DOI:10.3969/j.issn.1008-0821.2016.11.020
〔中图分类号〕G311〔文献标识码〕A〔文章编号〕1008-0821(2016)11-0109-05
〔Abstract〕Scientific data sharing platforms in our country have established perfect management mechanism.Scientific data sharing platforms integrate massive scientific data through distributed structure.Scientific data sharing platforms descript scientific data comprehensively using metadata,offer a variety of resources organization methods,retrieval methods,sorting methods of retrieved result,data access methods.Users and usage of scientific data sharing platforms increased year by year,make a significant contribution for science and technology,economic and social development.Scientific data sharing platforms should expand and deepen scientific data resources,strengthen the construction of service capability,improve the level of customization service in the future.
〔Key words〕scientific data;sharing platform;resource development;user service
我国的数据库数量约占全球数据库总数的十分之一,而科学数据共享所产生的效益仅占全球科学数据共享效益的千分之一[1]。为了促进科学数据共享,科技部于2002年启动了科学数据共享工程。经过十余年的发展,基本建成了覆盖全面、结构合理的科学数据共享网络体系,形成了科学数据的良性汇交与更新机制。本文以首批8个科学数据共享工程试点(名单见表1)为例,分析我国科学数据共享平台的组织管理、资源建设与用户服务情况,指出科学数据共享平台存在的不足与发展方向,以期为今后的科学数据资源共享工作提供参考。
1科学数据共享平台的组织管理
11运行机制
科学数据共享平台以数据源单位为主体,通过集成、整合、引进、交换等方式聚合国内外的科学数据资源,并进行规范化加工处理、分类存储,形成覆盖全国、联结世界,可提供科学数据共享服务的网络体系。为保证科学数据共享平台的规范化建设和可持续发展,平台实行理事会领导下的平台中心主任负责制。如国家农业科学数据中心由平台管理中心主任统筹管理,下设服务组、资源组、系统组、综合组,负责平台具体的运行维护和管理。平台的资源建设则主要采取项目协作制,即若干相互独立、功能互补的平行工作组共同负责平台的资源建设工作,以提高资源建设效率。如国家人口与健康科学数据共享平台基于项目协作的方式共建共享资源,主节点和分节点分别设置专门的资源建设小组,负责各项资源建设与管理工作。
12平台架构
科学数据共享平台通常采取分布式系统架构,由1个总中心(认证中心)和若干个分中心(各参加单位)构成。其中中国气象科学数据共享服务网的分中心数量最多,包括31个省级分节点和若干专题节点(见表1)。平台分中心又可以划分为地区分中心、学科分中心、专题分中心等多种类型。地区分中心如国家农业科学数据共享中心和林业科学数据中心的省级分中心,学科分中心如国家人口与健康科学数据共享平台的学科分节点和地球系统科学数据共享平台的学科子平台,专题分中心如中国气象数据网的专题节点和林业科学数据中心的基础数据分中心、行业发展数据分中心。“总中心—分中心”的分布式系统架构能够实现分散的科学数据资源整合与“一站式”的科学数据资源共享服务,避免科学数据共享服务可能给单点式共享平台造成的网络堵塞和服务器负担过重问题。
13制度建设
为了保证科学数据共享平台资源建设与用户服务的常态化、制度化,科学数据共享平台在规章制度、标准体系建设方面取得了大量成果。国家人口与健康科学数据共享平台特设专门的标准化工作小组,制定了数据类、管理类、服务类、质量控制类、安全类等10余项标准。其中,《医药卫生科学数据共享网数据元标准化原则与方法》、《医药卫生科学数据共享网数据集分类与编码原则与方法》、《医药卫生科学数据共享网数据集元数据标准》、《医药卫生科学数据共享网数据模式描述规则与方法》4项标准已经推广成为卫生行业标准[2]。国家地震科学数据共享中心也颁布了《地震科学数据共享管理办法(试行)》及其实施细则——《地震科学数据共享汇交管理规定》、《地震科学数据共享分级分类指南》、《地震科学数据共享运行管理规定》、《地震科学数据共享用户服务规定》,并编制了12个标准规范。这些规章制度和标准规范在科学数据共享平台的数据整合、数据交换、数据共享中发挥了重要作用。
2科学数据共享平台的资源建设
21元数据建设
科学数据共享平台以元数据为核心实现科学数据的描述、分类、搜索、关联,借助技术手段实现数据的物理存储与逻辑表达的分离。元数据作为描述科学数据的结构化数据,包含了数据的标识信息、内容信息、时间和空间覆盖信息、人员和权责信息、关联信息、技术信息等各个方面[3]。平台使用较多的元数据是数据库(集)名称、数据摘要、数据内容、时间范围、数据质量信息、标识信息、分类信息。中国气象数据网、国家地震科学数据共享中心、国家农业科学数据共享中心、林业科学数据中心的元数据较为详细,元数据数量都达到了10个或10个以上(见表2)。
为了提高元数据的针对性,提高服务效率,林业科学数据中心根据元数据的详细程度将元数据划分为两级——核心元数据和详细元数据。核心元数据定义了描述数据集最关键的信息内容。在核心元数据的基础上,充分考虑林业科学数据中各类数据的特点,建立了满足林业科学数据共享建设需要的详细元数据。核心元数据包括元数据参考信息、元数据联系方信息、标识、数据集限制信息、数据质量信息,详细元数据除此之外还包括内容信息、分发格式等19个元数据。先进制造与自动化科学数据共享平台根据资源对象类型,将元数据划分为资源对象元数据和资源集合元数据。资源集合元数据包含一般描述信息、关联信息、访问信息,资源对象元数据除上述元数据之外,还包括实例信息、产权信息、使用信息、其他说明。
22资源整合
经过10余年的建设,科学数据共享平台开发和整合了大量的科学数据资源,资源统计情况见表2。(1)资源类别方面,平台整合的资源类别介于6种到14种之间,其中国家地震科学数据共享中心涵盖的数据类别最多,达到了14种。先进制造与自动化科学数据共享平台的资源种类最少,但也有6种。(2)数据库(集)方面,平台数据库(集)的数量介于100~800个之间,地球系统科学数据共享平台的数据库(集)数量高达1 157个,数据库(集)数量最少的国家地震科学数据共享中心,其数据库(集)也有54个之多。(3)资源总量方面,平台的数据资源总量大都在1 000GB以上,其中中国气象数据网的资源总量更是达到了118 784GB。
如此引人瞩目的资源建设成就,得益于平台高效的资源整合方式。以地球系统科学数据共享平台为例,该平台按照“总中心-分中心-数据资源点”的三级架构模式,整合分散在国内外40多个单位的科学数据资源。通过区域和学科分中心的设置,推动区域和学科数据资源的建设。其资源整合方式如下:(1)通过适当的经费支持,整合参与单位已有的科学数据资源;(2)通过科学数据服务,接收和集成数据用户单位的科学数据资源;(3)通过共享软件的服务,自动收割和整合软件用户单位的科学数据资源;(4)通过开放交换,与其他数据管理机构交换科学数据资源,建立资源镜像[4]。
23资源检索
科学数据共享平台提供数据导航和数据检索两种资源查询方式(见表3)。数据导航又包括3种类型:(1)主题分类导航(专题分类导航)。如先进制造与自动化科学数据共享平台将平台数据划分为现代设计技术、先进制造工艺、自动化技术、通用技术、现代管理5个主题。(2)学科分类导航(中图数据分类导航)。如国家农业科学数据共享中心的中图数据分类导航,参照中图法将平台数据划分为自然科学总论、农业科学、交通运输、工业技术、综合性图书等13种类目。(3)因应具体学科特点的特色导航。如中国气象数据网的数据定位导航,国家地震科学数据共享中心的地域属性导航。
数据检索功能包括简单检索、高级检索、组配检索、数值检索、条目检索、专业检索等诸多方式。中国气象数据网的资源检索功能异常强大,能够实现检索范围、数据类别、网站节点之间的组配检索,并提供层次分类、关键词匹配、条件组合和地图可视化等多种数据查询方式。地球系统科学数据共享平台提供即点即找检索功能,即通过在页面中点击数据贡献者、数据贡献单位、空间位置、主题词、学科类别、主题分类等位置进行数据的查找。除了检索总平台数据之外,通过总平台还能够检索特定分平台的数据资源。
为了便于用户快速获取所需数据,科学数据共享平台提供多种检索结果排序方式,包括发布时间、下载次数、访问量、结果相关度、资源类型、数据大小等。其中,发布时间和更新时间是最常用的检索结果排序方式。国家人口与健康科学数据共享平台、国家农业科学数据共享中心、交通科学数据共享网均提供发布时间排序途径,中国气象数据网、地球系统科学数据共享平台则都提供更新时间排序功能。林业科学数据中心的检索结果根据资源类型分类排列,即元数据、库数据、表数据,是一种较为特殊的检索结果排序方式。
3科学数据共享平台的用户服务
31数据服务
为了确保数据的安全性和完整性,更好地保证系统中信息交流、数据检索的有序性,平台大多实行会员注册制服务,将用户区分为注册用户和非注册用户。非注册用户可以游客身份浏览平台科学数据,注册用户则具有科学数据的浏览、查询、下载等权限。中国气象数据网、国家地震科学数据共享中心、林业科学数据中心、先进制造与自动化科学数据共享平台等4个平台根据用户来源和可获取的数据范围,对注册用户做了进一步划分。如中国气象数据网将注册用户分为普通注册用户、个人实名注册用户、单位实名注册用户、教育科研实名注册用户。平台根据注册用户类型,为其提供不同权限的数据服务。普通注册用户和教育科研实名注册用户具有获取指定气象数据和产品的权限,个人实名注册用户除此权限外,还具有获取中国气象局最新公布的《基本气象资料和产品开放清单》内的气象数据和产品的权限,单位实名注册用户除上述权限外还具有获取标准、开放的数据接口服务的权限。
科学数据共享平台为规范科学数据的共享服务工作,并能及时向各类用户提供所需数据,对科学数据资源实行分级共享。如先进制造与自动化科学数据共享平台根据数据的价值、获取难度及重要程度,将科学数据划分为7级:经元数据规范的初加工数据;经元数据规范和质量检验规范的精加工数据;获取难度较大的加工数据;有自筹资金投入的数据;应用户需求,专门为之整理、加工和生产的科学数据;为使用者带来直接或巨大商业利益的关键数据;影响国际竞争力的关键数据(影响国家安全的重要数据)。平台根据用户级别,为其提供相应等级的数据服务。
平台的资源获取方式主要是在线下载,对于一些重要数据或数据量较大的数据资源提供光盘(拷贝),另外还提供数据传递、复印等服务。为提升用户体验,地球系统科学数据共享平台在用户申请数据方面引入了数据订单概念。数据获取均以数据订单方式处理,用户可以在一个订单中申请多个数据。数据申请处理过程通过电子邮件主动通知用户每步的数据处理情况,用户可以跟踪订单的状态获知数据申请处理的全过程[5]。
32延伸服务
延伸服务指除了操作数据实体之外的一种增值性服务。科学数据共享平台主要提供数据定题服务和嵌入式数据服务两类延伸服务。(1)数据定题服务根据用户的需求组织相关资源并进行适当处理,以用户需要的形式定期或不定期持续提供数据支持服务。国家地震科学数据共享中心提供中国台网地震目录、国家台网连续波形、国家台网事件波形、国家台网震相数据等地震科学数据产品定制服务。林业科学数据中心为用户提供特定专业领域的专题数据及技术服务,根据用户提出的数据类别及技术指标要求,提供特定数据产品。(2)嵌入式数据服务是针对用户个性化需要提供的科研支持服务,如根据用户的需要,派遣领域专家和数据专家加入用户团队,主动发现用户的信息需求并开展数据服务。交通科学数据共享网针对研究课题开展定题服务,为用户提供从课题前期调研、开题立项、项目开展和成果验收全过程的科学数据检索和提供服务。
33服务统计
科学数据共享平台的社会效能主要体现在注册人数、访问量、被链接次数等方面,被引次数、对科研项目的支撑则在一定程度上体现了平台的科研效能。笔者于2016年4月1日通过各科学数据共享平台网站查询其注册人数和访问量(见表4),发现除先进制造与自动化科学数据共享平台和交通科学数据共享网外,其余平台网站均提供相关信息。科学数据共享平台的注册人数大都在万人以上,访问量更是超过了百万次。国家人口与健康科学数据共享平台的注册人数最多,达31万人。国家地震科学数据共享中心的注册人数最少,但也有近7 000人。中国气象数据网的访问量最大,达124 746 363次。国家农业科学数据共享中心的访问量为1 448 632次,在所有平台中访问量最少。利用“站长之家”网站的“友情链接查询”功能,查询各平台网站的被链接次数(见表4)。其中,国家农业科学数据共享中心和地球系统科学数据共享平台的被链接次数都在30次以上,国家人口与健康科学数据共享平台和交通科学数据共享网的被链接次数最少,但也有1家友情链接网站。
在中国知网的“参考文献”字段检索各个科学数据共享平台的名称,调查其被引情况(见表4),检索时间为2016年4月1日。调查发现,地球系统科学数据共享平台的被引次数高达96次,被引次数最少的先进制造与自动化科学数据共享平台也有4次被引记录。由于无法全面获取各平台精确的科研支撑信息,故仅以地球系统科学数据共享平台为例,分析该平台的科研支撑情况。据统计,地球系统科学数据共享平台共为2 384项国家重大科研项目/课题,青藏铁路、载人航天工程等35项国家重大工程建设项目,汶川地震急应决策与灾后规划、北京奥运空间环境保障等34个民生工程提供了数据支撑服务[6],向全社会无偿提供了从国外引进的陆地资源卫星影像21 726景,仅此一项就为应用部门节省经费约8 256万元[7]。在该平台的支撑下,各参加单位共申请到各类科技项目67项,合计经费12 1402万;发表科技论文/专著572篇;获得国家、省部各类科技奖励19项,申请专利12项,申请软件著作权27项[8]。通过以上数据不难发现,科学数据共享平台在用户的工作、学习、科研中所发挥的巨大作用。表4科学数据共享平台的用户服务统计
平台注册人数(人)访问量(次)被链接次数(次)被引次数(条)中国气象数据网96 011124 746 3632416国家地震科学数据共享中心6 9513 782 8052264国家人口与健康科学数据共享平台310 0001 540 000125国家农业科学数据共享中心25 5901 448 6323345林业科学数据中心30 0003 000 000464地球系统科学数据共享平台94 21218 133 2433196先进制造与自动化科学数据共享平台——49 733 482144交通科学数据共享网————119
4结语
41平台存在的不足
我国的科学数据共享平台经过十余年的建设,形成了较为完备的科学数据资源共享体系,取得了显著的经济社会效益,但仍然存在一些不足。
411安全性有待提高
科学数据共享平台整合了海量的科学数据资源,其中包含很多涉及经济、科技命脉乃至国家安全的重要数据,以及注册用户的大量私人信息,因此极易遭受黑客攻击。农业科学数据共享中心、交通科学数据共享网都发生过SQL注入漏洞,导致网站瘫痪,用户信息大量泄漏。今后应加强平台的网络与信息安全技术防范,建立政治类、灾害类、黑客攻击类网络安全分类管理措施和应急保障体系[9],进一步优化和完善平台数据容灾系统。
412资源更新滞后
科学研究和科技创新对科学数据的时效性有着较高的要求,但平台的网站内容和数据资源更新频率较低。以国家人口与健康科学数据共享平台为例,其现有资源中,有明确更新维护方案的数据集仅200余个,尚不足资源总数的1/3[2]。为提高平台的资源共享效果,保证服务的长期可持续发展,平台应对汇交和整合的数据资源,以及平台的管理、业务、服务等新闻信息进行及时更新,确保资源的时效性。
42今后的改进方向
从进一步充实科学数据共享平台的数据资源,提升科学数据共享平台的服务能力,改善用户体验的角度考虑,平台建设者今后还需要努力做好如下3个方面的工作。
421丰富数据资源
平台的数据资源以国家和地方科研项目产生的科学数据为主,今后须进一步拓展数据资源整合的区域范围和数据类型,加强国际数据资源的引进,重视网络数据资源的收集组织,提高数据资源形成、成长、成熟、衰亡过程的全链条式管理,为用户提供更加丰富的数据资源。
422提升服务能力
随着数据密集型应用的发展,科研人员在科学研究的各个环节都更加依赖系统和专业的、经过科学分析和整理的科学数据[10]。平台应加强以用户为中心聚合资源和服务的能力,力争成为用户工作环境和科研流程的有机组成部分[11]。平台需以可视化和智能化的数据获取为目标,研制在线数据处理分析工具,实现以数据内容服务为核心,向“数据—工具”一体化服务转变。
423完善定制化服务
针对平台的建设信息、新闻信息、数据资源等的频繁更新,平台可以结合用户的兴趣爱好以及行为特征,采用基于RSS的聚合方式,为不同的用户群组织不同结构的RSS文件,并推送给对应用户[12];或者为数据需求量大的机构建立机构门户,及时发布和推送相应的数据资源,方便用户便捷地管理资料,及时高效地利用资源。
参考文献
[1]胡兆珀.科学数据共享工程启动[N].科技日报,2002-02-06.
[2]李赞梅,孙海霞.国家人口与健康科学数据共享平台资源建设模式分析[J].医学信息学杂志,2015,(10):72-76.
[3]王亮绪,吴立宗,南卓铜.基于B2C架构的综合性科学数据共享系统[J].遥感技术与应用,2013,(3):355-361.
[4]诸云强,刘润达,冯敏,等.分布式地球系统科学数据共享平台研究[J].计算机工程与应用,2009,(1):245-248.
[5]苗茹,宋佳,王卷乐,等.地球科学数据共享平台建设思路与实践[J].中国科技资源导刊,2014,(4):64-72.
[6]国家地球系统科学数据共享平台.国家地球系统科学数据共享平台简介[EB/OL].http:∥www.geodata.cn/aboutus.html,2016-03-21.
[7]地球系统科学数据共享平台.地球系统科学数据共享平台简介[EB/OL].http:∥www.geodata.cn/Portal/aboutWebsite/aboutus.jsp,2016-03-21.
[8]诸云强.地球系统科学数据共享平台建设与服务[J].中国科技投资,2011,(12):27-29.
[9]王蓉,廖明丹,刘磊.国家自然科技资源共享平台安全保障措施研究[J].中国科技论坛,2007,(7):26-30,144.
[10]宋立荣.我国科学数据共享项目建设中存在的问题及对策建议[A].International Conference on Engineering and Business Management(EBM2010)[C].2010:5141.
[11]赵胜钢.国家农业科学数据共享平台体系结构研究[D].北京:中国农业科学院,2009:127.
[12]韩厚继,肖慧,杨宁生,等.个性化服务在渔业科学数据平台中的应用探索[J].广东农业科学,2012,(2):151-154.
(本文责任编辑:郭沫含)