彭鑫,邓仲华
(武汉大学信息管理学院,武汉 430072)
“互联网+”环境下的数据管理计划*
彭鑫,邓仲华
(武汉大学信息管理学院,武汉 430072)
数据管理计划(DMP)可以引导和规范科学数据管理的过程,对促进数据开放共享具有重要意义。通过文献调研和网络调研,总结科学数据管理的实践经验,尝试将数据管理计划应用到“互联网+”环境中。通过分析数据管理计划的内容要素,结合以数据管理计划为核心驱动的数据监护模型,构建一种普适的数据管理计划框架。据此,为“互联网+”环境下应对数据管理与共享的挑战,提供借鉴和参考。
互联网+;数据管理计划;数据管理
规范科学数据的产生、采集、存储、分析处理等过程,对促进科学数据的长期保存和开放共享,具有重要的经济价值和研究意义[1]。数据管理计划对规范管理过程、推动开放共享具有一定的优势和作用,制定数据管理计划是科学数据管理的重要组成部分。“互联网+”环境下,数据作为重要的战略资源,在跨界融合过程中扮演着桥梁作用,是实现连接的基础。同时,互联网时代,数据来源分散、体量剧增、结构多样,复杂的数据环境为数据管理与共享带来了诸多挑战。如何提高数据管理的质量、提升数据开放共享的程度、增加数据的利用价值成为互联网时代亟待思考和解决的问题。
数据管理计划(Data Management Plan,DMP)是一份围绕科学研究全过程的文件,对科学数据从产生、收集、存储到共享整个管理过程进行了清晰的描述和记录[2]。它的作用旨在通过拟定一份参与方认可的、可执行的、符合学科领域特点的文件,集中概括、描述与数据管理活动相关的事项,以提高科学数据管理的标准化和透明化,促进科学数据的开放共享和重复利用[3]。数据管理计划制定于科研项目启动之前,通过全面系统地制定数据描述标准、管理过程记录和科学数据管理的规范,能在一定程度上消除跨学科沟通和合作障碍,促进科研团队间工作的有效融合和跨学科之间的交流与资源共享[4]。同时,数据管理计划作为数据管理的纲领性文件,通过制定数据标准和规范数据管理过程,从而避免数据的重复采集和处理,确保数据可追溯、可重用、准确性与完整性,提升了数据管理的效率和质量[5]。
由于不同科研机构的研究领域不同,数据对象在形式、内容上各有差异,导致制定数据管理计划的需求多样化,内容和形式上的侧重点也不同[6]。例如,英国的经济与社会研究理事会侧重于数据的管理与共享,艺术与人文研究理事会则侧重于相关的技术附件等。关于数据管理计划的研究,主要以英国研究理事会(RUCK)的数据政策共同原则和美国国家自然科学基金委员会(NSF)的数据管理方针为基础[7-8]。RUCK在其制定的数据政策共同原则中强调,通过制定政策,规范化、合理化数据的开放共享与长期保存,以提高公共研究基金的使用效益;NSF强制要求项目申请者在提交申请时,附带相应的数据管理计划书,要求申请者遵循NSF研究成果传播和共享方针。这种方法被美国、英国、澳大利亚等多个国家的科研基金机构采用。数据管理计划的内容涉及多个方面,在不考虑学科背景和政策差异的前提下,可以将其内容要素总结为四个层面:数据层,数据监护,共享安全和计划执行(见表1)。
表1 数据管理计划的内容要素[9]
国务院发布了关于积极推进“互联网+”行动的指导意见[10],认为“互联网+”是把互联网的创新成果与经济社会各领域深度融合,推动技术进步、效率提升和组织变革,提升实体经济创新力和生产力,形成更广泛的以互联网为基础设施和创新要素的经济社会发展新形态。“互联网+”的核心理念是利用快速发展的信息技术推动互联网与传统企业的结合,消除信息不对称的障碍,发挥各自优势,实现资源的优化利用,迸发出新的业态和创新点[11]。“互联网+”的本质是跨界融合、互联互通、促进协同创新。跨界融合是基于互联网工具实现数据、信息和知识的共享与融合,完成业务的对接;互联互通是实现融合的基础,跨界需要连接、融合需要连接、创新也需要连接;协同创新建立在融合的基础上,通过跨界的资源整合与业务协同,创新业务模式、商业模式和经济形态。“互联网+”进程中,互联网只是重要的工具,核心在于“+”,关键在融合[12]。不同的企业通过系统的对接,实现数据的传递与共享,促进资源的整合和知识的融合,最终达到业务协同与创新的目标。可以认为,“互联网+”是数据开放共享驱动下的融合创新。
2.1“互联网+”环境下的数据特征分析
“互联网+”的发展具有两个阶段:第一个阶段是以互联网的方式建立连接;第二个阶段是弥补信息鸿沟。数据作为“互联网+”环境下重要的战略资源,是实现跨界连接的基础,主要来源于三个领域:高等教育、商业和公共领域。数据的跨界融合主要有三种方式:一是建立行业数据链,实现跨企业的数据融合;二是跨行业融合,实现行业间的业务协同与创新;三是通过第三方平台实现跨界的数据整合与创新[13]。数据融合作为连接的基础,涉及生产行业、金融行业和服务行业等,并在融合的过程中呈现出业务数据化、内容数据化、用户数据化和场景数据化的趋势,使得互联网环境下的数据具有碎片化、分散化、关联性和机密性等特点(见表2)[14]。
表2 “互联网+”环境下的数据特征
2.2“互联网+”环境下数据管理的本质
“互联网+”环境下的数据管理是指在利用互联网技术实现跨界融合和连接的过程中,对相关数据从产生、收集、清理、存储、共享到挖掘利用等进行管理[15]。从跨界融合、协同创新的角度出发,数据管理服务于数据的开放共享,数据的质量、数据组织和存储的规范程度会影响数据的开放共享。同时,开放共享意味着信息的交流和资源的整合,对促进参与方融合、发挥资源规模优势等具有重要作用[16]。不同行业、不同企业间的数据融合能减少合作中的信息不对称,消除相关人员的沟通障碍;能构建跨界的连接机制,实现业务的互联互通;能促进物流、人流、资金流、商业流以及信息流的集成,形成产业链,最终实现跨界的资源整合,发挥规模优势;形成互补优势,促进协同创新。数据管理能提升数据的标准化和规范化程度,为数据的融合和开放共享建立基础,为实现基于互联网连接一切提供可能。随着政府、企业、社会生活信息化程度的深入,系统管理的应用普及,对数据价值的认识不断提升,数据管理与共享受到更高程度的重视,也具有更重要的意义。
2.3“互联网+”环境下数据管理与共享的挑战
“互联网+”环境下,连接一切意味着数据海量增长、结构趋向多样化、关系趋于复杂化,数据管理的难度不断增加。面对互联网环境下海量分散、结构多样的数据,如果预先没有对数据管理过程进行规划和深入思考,会导致对数据的管理无章可循,出现如数据记录偏差、数据失真、数据丢失等问题,数据的管理与共享面临多方面的挑战。
(1)数据缺乏标准。大数据时代的来临,数据呈PB级别爆炸式增长,数据处于体量大、来源分散、结构多样和动态实时产生等现状。数据在体量、结构、内容多方面缺乏标准,导致数据的收集、整合和组织难度较大。
(2)数据管理过程缺乏规范。由于缺乏对数据管理过程的规范和规划,引起管理过程无章可循,出现管理过程紊乱、管理效率低下等问题,最终导致数据严重丢失、数据失真等后果。数据管理的规范程度决定了数据的质量,数据处理和存储的标准化程度决定了数据共享的难易。因此,规范数据管理的过程具有必要性。
(3)数据共享缺乏安全保障。数据的共享意味着数据能被更多的人使用,促进数据的再利用和创新;同时,共享也意味着数据面临更多的安全隐患。在互联网环境下,数据关系复杂,对数据的所有权、隐私保护、分配许可和产权分红等缺乏严格界定,导致共享过程中隐私泄露、产权纠纷等问题突出。哪些数据应该被共享、共享的条件、方式以及共享的用途等问题的不明确,都是制约数据开放共享的重要因素。
(4)数据开放获取缺乏控制机制。数据作为融合的基础和重要的资源,涉及企业的商业机密、用户的个人隐私。尽管可以通过技术、法律的手段构建安全的外部共享环境,但内部的数据管理与利用如果缺乏相应的控制机制,则会导致数据被不适当地访问和利用,进而影响数据的价值和安全。“互联网+”环境下,跨界融合的参与方众多,层次关系复杂,导致数据访问控制的权限难以界定,不同用户的权责范围模糊,缺乏合适的控制机制,为数据共享带来挑战。
2.4“互联网+”环境下的数据管理计划
数据管理计划涵盖数据管理全过程的标准制定与规划,对数据管理的实践具有规范和引导作用[17]。数据管理计划规范了数据管理的过程,提高了管理的效率和数据的质量,对数据的开放共享影响深远。面对“互联网+”时代复杂的数据环境,借鉴科研领域数据管理的丰富经验,引入数据管理计划的理念,有助于数据以更高的质量和更安全的方式向公众开放。基于此,本文从以下方面探讨数据管理计划对促进数据管理的作用和影响。
(1)制定数据标准。数据管理计划根据参与融合的机构的业务确定数据对象,根据相关机构的具体情况和需求,在项目启动前制定相应的数据描述标准、元数据标准和数据组织方案等。通过标准化数据描述,有助于数据的清洗、组织、存储等,避免数据收集紊乱、丢失严重和失真等问题,确保数据质量。
(2)规范数据管理过程。在跨行业融合前,预先规划数据管理的过程,制定管理框架,能够引导和控制数据管理的顺利实施。规范化和标准化不仅能提升数据管理的效率和质量,还能增强数据的可追溯、可验证能力,确保数据的准确性和完整性,提高数据的可靠性和利用价值。
(3)制定数据安全政策。数据安全既需要符合外部的政策要求,也需要满足内部的机构数据需求。为促进“互联网+”环境下的跨界融合,既要遵循外部的国家政策和相关法规,还需要结合参与方的实际需求,制定融合过程中的数据安全协议或标准。一方面,我国可以借鉴国际上关于数据安全的政策和法律文件,如GEOSS数据共享政策和OEDC建议[18];另一方面,以数据政策为引导框架,加大基础设施建设的投入,以技术辅助政策,创建安全、可靠的数据共享环境。
(4)明确共享权责。除了外部政策环境和技术支持,构建安全的数据共享环境,还需要根据内部的需求和管理章程,明确数据共享的权责范围。在跨界融合的数据管理计划中明确参与方的共享权力,设置不同级别的访问控制权限;同时,在计划中明确各参与方获取和使用数据的道德法规,声明其责任范围,确保数据被安全、合理地获取和利用。
信息技术的快速发展,使得数据大量的积累,对数据价值的利用驱动了对数据开放共享的需求。数据管理计划(DMP)作为规范数据管理、促进数据开放共享的重要文件,在“互联网+”环境下具有适当的应用空间:(1)促进跨界融合与协同创新,在跨行业、跨企业进行融合时,预先制定的数据管理计划不仅能为数据管理过程提供引导框架,规范数据管理过程,提高管理效率,还能根据参与方的具体需求和实际情况,明确各自的权责范围,保护数据的隐私安全和知识产权,最大化资源的利用;(2)促进数据管理平台的发展,“互联网+”环境下,各大机构对数据管理与共享需求的增加,专业的数据管理平台将受到青睐,数据管理计划制定了数据管理的框架和数据描述的标准与规范,并从政策法规、伦理道德多方面进行约束,应用到平台建设中,提升数据管理平台的专业性和可信度,扩大数据管理平台的使用范围;(3)促进数据管理环境的完善,数据管理计划为完善数据管理环境提供了解决方案,无论是外部的政策环境,还是内部标准的制定,有助于一个标准的、规范的、透明的数据管理环境的建设。随着数据管理计划应用的普及和相关工具的开发利用,更为规范和成熟的数据管理体系和环境,将推动数据的再利用和数据价值的提升。
数据管理计划制定了数据管理过程的标准与规划,实现对数据的生产管理、共享管理与实施等过程的控制。将数据管理计划借鉴到“互联网+”环境下,在跨行业、跨企业进行融合时,结合特定项目的具体数据需求与特点,引导和规范数据管理过程,以促进数据的开放共享。本文结合数据管理计划的内容要素框架和以数据管理计划驱动的数据监护模型[19],提出了一种适应“互联网+”环境的数据管理计划框架,如图1所示。
图1 “互联网+”环境的计划框架
项目以及参与融合的对象的不同,决定了管理的数据对象在类型和属性上的差异,影响数据管理的具体过程和侧重点,决定了数据共享的最终目标。基于此,制定数据管理计划应特别注重对项目数据需求的分析与识别,以需求驱动计划的制定。数据需求和共享目的是计划制定的基础,计划的制定必须遵循项目的数据特点和管理要求,围绕最终的共享目标展开。政策环境提供了数据共享的安全保障,技术支持为计划的实施提供依托,确保计划所涵盖的数据管理过程可以实践。管理与共享的需求决定计划的主要内容要素和形式,政策和技术支持决定计划的可行性和可操作性。因此,数据管理计划的制定必须建立在需求和环境的基础上,并以计划为核心驱动,通过数据监护实现对具体的生产管理、共享管理和归档存储过程的控制。
(1)数据监护层。实现计划与管理过程的结合,控制计划的实施和实际的管理过程。一方面,计划的内容围绕数据管理的过程展开;另一方面,数据管理的过程需要严格按照计划来执行,才能充分发挥计划对数据管理的指导和规范作用。数据监护层制定数据选择与清洗的标准,决定哪些数据需要短期的存储,并制定数据质量标准,提高数据的质量和管理操作的易用性。
(2)数据生产管理层。明确数据对象的类型和属性特点,围绕数据的产生、收集和管理过程制定相应的标准和规范,确保收集数据的质量和效率。其包括:数据描述,对数据对象进行识别和归类,如行政数据、项目信息等;元数据与记录文档,包括元数据创建标准,用户指南、用户手册等记录文档;数据收集方式,根据数据来源与数据形式制定数据的收集方法;数据格式与组织,包括数据形式、命名规则、组织方式等;数据质量标准,质量评估体系。
(3)数据共享管理层。数据的共享管理决定了数据共享的时间、方式和条件,制定数据共享的相关政策,以及访问控制权限的设置等。数据共享管理可以保障数据的共享安全,避免因共享引起的知识产权纠纷、数据非法获取和非法利用等问题。部分数据涉及用户隐私、商业机密,对数据共享的对象、数据的使用范围都需要深入考虑,并通过权责声明、政策制定、权限控制等方式,以确保数据共享安全。
(4)计划实施层。一份具有实施可能性的计划必须充分从资源、人力和技术三个方面来思考计划的可行性[20]。资源可持续即保障可用的资源足以支撑计划的实施,在计划阶段制定成本预算具有必要性;人力可持续即人员应该有足够的能力配合计划的实施,包括人员管理、培训等;技术可持续包括技术的成熟度、技术的标准等,确保管理实施过程中的技术支持可用。
2015年,国务院发布的《促进大数据发展行动计划》再次将数据资源提升到国家战略层面,将数据作为重要的战略资源,对提升大数据利用提出了多方面的要求[21]。从国家层面到企业和个人层面,数据开放共享的需求逐步增加,对数据管理过程的重视逐步提升。“互联网+”是一个开放的环境,数据的开放共享在创造价值的同时,也面临一系列的挑战和安全隐患。数据管理计划在当前复杂的数据环境下,规划和规范数据管理具有重要的应用空间和经济价值。通过对数据管理过程进行规划、制定标准,使得管理的过程有据可循,对保障数据的质量、支持数据长期存储和重用具有重要的作用。但数据管理计划作为一份标准化的文件、一种工具,只是数据管理中的一部分。“互联网+”环境下的数据管理依然处于数据体量巨大、数据关系复杂等现状,数据规范化的管理仍然面临各种挑战,数据的开放共享还需要较长时间的发展。
[1] 陈秀娟,胡卉,吴鸣. 英美数据管理计划与高校图书馆服务[J]. 图书情报工作, 2015(14):51-58.
[2] DCC.Planning for preservation [EB/OL]. [2016-04-20]. http://www.dcc. ac.uk/digital-curation/planning-preservation.
[3] 王璞. 英美两国制定数据管理计划的政策、内容与工具[J]. 图书与情报, 2015(3):103-109.
[4] 王凯,彭洁,屈宝强. 国外数据管理计划服务工具的对比研究[J]. 情报杂志,2014,33(12):203-206.
[5] 杨淑娟,陈家翠. 研究成果传播与共享——英美国家基金项目数据管理计划概述[J]. 情报杂志, 2012 (12):176-180.
[6] DCC.Funder's data plan requirements [EB/OL]. [2016-04-20]. http://www. dcc.ac.uk/resources/data-management-plans/funders-requirements.
[7] Research Councils UK.RUCK common principles on data policy [EB/ OL]. [2016-04-20]. http://www.rcuk.ac.uk/research/datapolicy.
[8] NSF.Data management plan requriments[EB/OL].[2016-04-20]. http:// www.nsf.gov/bfa/dias/policy/dmp.jsp.
[9] DCC.Summary of UK research funders' expectations for the content of data management and sharing plans[EB/OL].[2016-04-20].http://www.dcc.ac.uk/sites/ default/files/documents/resource/policy/FundersDataPlanReqs_v4%204.pdf.
[10] 国务院. 关于积极推进“互联网+”的行动意见指导[EB/OL].[2016-04-20]. http://www.gov.cn/zhengce/content/2015-07/04/content_10002.htm.
[11] 马化腾. 互联网+国家战略行动路线图[M]. 北京:中信出版社, 2015.
[12] 贾元昕,杨明川,杨静博. 大数据在“互联网+”进程中的应用[J]. 电信技术, 2015 (6):14-15.
[13] 孙立,杨斌,杨军,等. “互联网+”趋势下产业链大数据整合应用与研究[J]. 科技进步与对策, 2015(17):57-60.
[14] 王腾蛟, 李湛. “互联网+”时代:用数据管理工作[J]. 互联网经济, 2015(6):32-37.
[15] 宁家骏.“互联网+”行动计划的实施背景、内涵及主要内容[J]. 图书情报工作, 2015(6):32-38.
[16] CHRISTINE L B. 科学数据共享的挑战[J]. 青秀玲,译. 现代图书情报技术,2013(5):1-19.
[17] 张萍. 英国高校科研数据管理及启示[J]. 情报杂志,2015,34(4):155-159.
[18] HEY T, TANSLEY S, TOLLE K. 第四范式:数据密集型科学发现[M].潘教峰, 张晓林,译. 北京:科学出版社, 2012.
[19] 刘峰,张晓林. 数据管理计划构成规范及其可操作数据监护模型研究[J].现代图书情报技术, 2016 (1):11-16.
[20] 陈大庆. 国外高校数据管理服务实施框架体系研究[J]. 大学图书馆学报,2013(6):10-17.
[21] 国务院. 关于印发促进大数据发展行动纲要的通知[EB/OL].(2015-08-31) [2016-4-20]. http://www.go v.cn/zhengce/content/2015-09/05/content_10137.htm.
邓仲华,男,1957年生,教授,博士生导师。
The Data Management Plan in the "Internet +"
PENG Xin, DENG ZhongHua
(School of Information Management, Wuhan University, Wuhan 430072, China)
Data Management Plan can guide and standardize the process of data management, and plays a significant role in promoting data opening and sharing. Through internet and literature research, we concluded the practical experiences of scientific research data management systematically, trying to apply DMP to the internet environment. We analyzed the content elements of DMP, and combined it with a data duration model driven by DMP, trying to create a DMP structure for common use. Based on this, to provide references for the challenges we are facing in the "Internet +" environment.
Internet+; Data Management Plan; Data Management
G250.76
10.3772/j.issn.1673-2286.2016.5.001
* 本研究得到国家自然科学基金项目“大数据环境下面向科学研究第四范式的信息资源云研究”(编号:71373191)和“云计算环境下图书馆的信息服务等级协议研究”(编号:71173163)资助。
彭鑫,女,1993年生,硕士研究生,研究方向:信息系统与云计算,E-mail:px001@foxmail.com。
(2016-05-04)