王刚,王秀娟,李学荣
(中国科学院烟台海岸带研究所,山东烟台 264003)
信息时代,大数据已经成为时代特征,并上升为国家战略。科学研究由假设驱动转向基于“数据密集型”的研究模式[1],数据不仅是科学研究的结果,更是科学研究的基础,数据已成为科研机构的核心资产。科研机构拥有、使用和产生的数字化成果产出、科学数据、知识内容呈现出种类复杂、形式多样和数据量爆炸性增长的趋势;这些数字资产蕴含着巨大的价值,但在科研过程中这些数字资产却是存储分散、揭示不统一,内容重复、条目不清、记录不全,难以管理和利用,更不能从机构整体的角度反映机构内的智力资源,而数字资产特征导致其极易资产流失,传统的资产管理模式难以集成统一管理、利用,无法评估资产存量与价值。本文提出的建立有效的数字资产管理云服务体系,采用新的数字资产管理模式,可以应对大数据的挑战,为研究机构数字资产管理提供了新的解决思路。
数字资产是科研机构拥有或控制的,科研生命周期产生的各类以电子数据形式存在的海量数据资源集合[2]。科研机构拥有各类数字资源,包括观测数据、测试数据、计算数据、科研成果、空间数据、实验数据、衍生数据、工作文档和软件资产等,其数据格式包括文本、数字、图像、视频、音频、软件、算法、方程式、模型与模拟等。这些数据是科研人员的科研成果,反应科研活动的真实记录,是重要的科研信息资源,是科研机构的重要资源,具有明显的资产属性。经过梳理确认,只要符合“资产”概念的两个要义[3]——机构拥有或控制的资源在未来会带来经济效益、成本和价值能够可靠计量,对未来的科学研究创造知识内涵和科学价值,都可纳入“数字资产”的管理范畴。
数据已经成为研究机构最为宝贵的资产。到目前为止,国内还没有一种成熟的方法来衡量数字资产的具体价值,研究机构产出了海量的数字化科研成果、数据,这些数据来源广泛,数据类型产生手段各异,数据存储格式各不相同,导致无论在数据的提取,还是分析成果的获取,都需耗费大量的人力和物力,目前国内科研数字资产管理面临的以下五个方面的问题。
对于科研机构庞大的数字资产而言,数据资产管理业务流程缺少完善的管理机制、一致的数据规范、统一的管理机构,数据管理过程、跨部门的协同合作重复而紊乱。目前,由科研管理部门、数据中心、图书馆、档案、期刊编辑部、分析测试中心、野外观测台站、科考船、各科研团队各自管理着不同类型,不同渠道,不同级别的数字资产,缺乏规范的数据质量控制,缺乏对机构的数据管理和利用进行评估、指导和监督。
针对整个机构的数字资产资源而言,没有一个统一的管理系统平台,各部门根据自身业务、学科特点,开发设计了符合自身实际的管理操作系统,不同系统间的兼容性又存在较大差别。管理系统的不同导致数据资产存储于独立、分散的数据库中,这些交叉学科数字信息平台没有良好的数据接口,是诸多的 “数据孤岛”。这些不同应用领域的信息平台受限于数据异构性,平台间难以实现信息共享与交互,数据间缺乏有效数据关联,既浪费储存空间,也查询困难,严重阻碍了数字资产的保护和利用。
数据收集范围、格式、描述说明没有统一规范和限定。有些由商业公司制定和维护的特殊数据格式和解析算法,随着操作系统和应用程序更新替代迅速,多年后是否还重复利用,存在风险。除此之外,还有大量其他数字资产,比如:项目交换数据、观测照片、视频、学术会议文档、专业软件工具等。这些数字资产一般未被完整纳入机构信息化系统中进行保存和管理,散落在不同部门和科研人员手中,这些重要的数字资产,会随着项目结题、人员流动而丢失。
数字资产的宜传播性使其容易被盗版篡改。对于研究机构文献成果、科学数据的数据版权保护,目前普遍存在管理缺失的问题。机构的各类数字资产的版权描述、使用范围、用途和发布渠道,没有系统化的规范和跟踪,对于数据、图片、影像等,数字版权描述、认证、授权、交易,跟踪使用、衍生数据等信息都无据可查,数字资产内容的完整性、真实性、安全性无法保证。
相对传统资源而言,数字资产的广泛应用主要源于其方便性,其存储也极易出现安全问题。在科研数据量日益庞大的今天,数据资产被窃取、篡改,物理媒介损坏,数据意外丢失,损毁,或被恶意攻击、破坏和滥用,涉密数字资产的非法传播、泄露问题屡见发生,数据资产的安全管理值得重视。
针对数字资产管理中存在的“数据孤岛”、数据格式规范性、资源完整性、版权保护和管理效率等问题,提出了数字资产管理云体系架构(图1所示),探索解决数字资产管理中的问题。
研究机构数字资产管理云体系面向数字资产全生命周期管理,主要包括五个层次,分别是:数字资产数据源层、数据集成与访问层、大数据平台层、业务功能层和云服务层。
图1 研究机构数字资产管理云体系架构
其中数字资产数据源层,包括论文、专利、监测数据、测试数据、遥感数据、分析数据等多种类型的数据库,这些数据库通过网络链接,数据可以在线获取。数据集成与访问层主要实现元数据描述、数据格式转换、数据集成和数据质量管理等,为大数据处理提供统一的数据访问接口。大数据平台层主要为海量数据的获取、存储、计算以及挖掘分析提供条件。
该云平台实施的关键技术主要包括如下几个。
利用元数据技术,建立数字资产元数据标准规范,利用XML语言描述包括数字资产数据源、数字资产内容、数字资产质量控制、数字资产服务四大类,实现异构数据库的整合与集成,形成数字资产大数据集,提供统一检索与共享服务,支持资产业务功能。
主要实现数字资产数据转换、数据存取等功能,实现与异构数据库、文件系统、数据仓库等的统一访问功能,达到数据整合的目的。
数据资产安全包括存储安全、访问安全、计算安全、共享安全和监管安全,建立统一的安全框架规范和技术要求,保证数字资产的可用性、完整性;部署数据安全审计、权限管理、日志管理、数据共享和分发加密等机制,保障数据资产安全。
基于HADOOP+SPARK架构,提供大数据存储能力和计算分析服务。按需进行任务调度,大数据存取和分析操作,提供编程接口为上层数字资产管理业务提供大数据能力。
利用虚拟化技术,提供计算、存储和网络资源池,提供动态、灵活的虚拟服务功能。基于SOA架构的云计算,构建数字资产功能业务平台,利用Web技术实现在线服务。
海岸带数字资产管理云平台(CDAMCP:Coastal Digital Assets Management Cloud Platform)是一个面向海岸带数字资产的全生命周期的分布式云服务平台。该平台从数字资产采集、汇聚开始,针对海岸科学数据资源的多来源、多类型、多学科、多维度等特点,将分散、异构、不同专题的数据库,改造为扁平式、统一资源管理的分布式云服务模式。
科研机构的数字资产已形成大数据,传统的资产管理方式面临“数据孤岛”、数据格式规范性、资源完整性、版权保护和管理效率五大问题,已无法满足需求数字资产的管理需求。采用新的数字资产管理模式,应对大数据的挑战,提出数字资产管理云体系构建模式,并在研究机构开展了数字资产管理实践,可以实现机构数字资产统一标准,统一规范格式,统一管理利用,可有效管理研究机构拥有的海量数字资产,这为科研机构数字资产管理提供了新的解决思路。
[1]陈源蒸.出版数字资产管理[J].出版经济,2004(12):74-76.
[2]中国社会科学院经济研究所.现代经济词典[M].南京:凤凰出版社,江苏人民出版社,2005:1282.
[3]Digital Curation Ce ntre[EB/OL].[2014-02-18].http://www.dcc.ac.uk/.