周俊杰 方少亮,2 赵晓萌 林 珠
(1.广东省科技基础条件平台中心,广东广州 510040;2.广东省科技基础条件平台建设促进会,广东广州 510040)
近年来,粤港澳大湾区国际科创中心建设步伐不断加快,一批重大科技基础设施、科技创新平台在国内外知名科研机构、高校、企业的深度合作下加速构建,力争将湾区打造成国际一流的原始创新高地。其间,围绕基础研究发展、产业结构优化、产业技术创新的重大需求,多种体制机制的平台建设模式应运而生。随着科研投入的增加、产学研合作的加深、创新团队规模的扩大,多学科交叉的科技项目、研发活动、科技成果数量逐步增加,科学数据产生、访问、交换量将迎来爆发式增长。科学数据具有客观性、真实性、开放性、问责制、公正性和管理权六大价值特征[1],决定研究实践关系和科学完整性。在创新平台体系建设管理中如何推进科学数据全生命周期管理与开放共享是关键。本文基于国内外高校、科研机构科学数据管理现状,分析科技创新平台科学数据管理价值意义、需求和特征,对区块链技术在科技创新平台科学数据全生命周期管理中的应用逻辑进行分析,以发挥科技创新平台多主体优势,提高资源整合、知识发现能力,进一步优化科技创新平台管理。
科技创新平台主要有资源集聚性、功能协同性、运行开放性、机制创新性、载体多样性5 个特性[2]。伴随各科技创新主体科技资源、研究团队、服务能力的整合以及资源开放共享,在各创新主体、创新要素交互作用下产生了大量的科学数据。加强对科技创新平台科学数据管理具有重要意义。
(1)提升科技创新平台的长期竞争力
科技创新平台是以各创新主体自身需求和利益为纽带的多元化创新主体,科技创新价值在创新过程中跨环节、跨平台流动[3],然而创新平台中不同创新主体对围绕特定领域、特定项目开展共同研究产生的观测、调查、实验数据及描述这些数据的元数据的认知却并不一致。因此,建立科学数据知识、价值共识,消除“数据孤岛”,提升数据可解释性和重复利用能力,对提升科技创新平台长期竞争力有着重要意义。
(2)促进科技创新平台建立负责任的科技创新模式
科学知识建立在先前的研究和经过验证的理论之上,而且进展通常不是线性的[4]。不确定性是所有科学知识所固有的,许多类型的不确定性都会影响科学结果的可靠性。科技创新平台创新过程中产生的所有与课题、项目等有关的科学数据,无论是否发表、是否定义、是否分析、是否有效,都需要存储且无法篡改,保证整个研究过程的数据完整性以及未来访问利用相关数据时有完整的数据解释和脉络,促进建立公平公正的科研环境。
(3)提升科技创新平台管理和评价质量
科技创新平台管理评价需要由产出评价向结果、效益、过程、增值评价转变。考虑到任何学科、技术推动其发展的关键因素都是其产生的成果可被重复利用[5],因此通过对科技创新活动过程中收集整理的科学数据质量、价值、共享利用情况进行分析评价,将科学数据作为科学研究的主要成果进行评价,有助于反映科技创新平台产生的实际效益、价值,进一步提升管理评价质量。
(4)建立更清晰的科技创新平台成果转化路径
协同创新过程本质上是知识产权应用和获得过程,知识产权特征和协同创新中的知识共享存在一定冲突[6]。产权缺位是科学数据共享的主要阻碍因素[7],完整记录科学数据原始数据、衍生数据及元数据的产生、扩展、增值过程,有利于更加清晰地描述技术成果形成、获得、变化、使用过程中的知识产权归属,对建立规范的知识、数据共享利用许可流程有重要作用。
(1)科技创新平台即作为科研任务承担者产生科学数据,需要完整记录多主体不同视角下的原始数据,并在资源整合、知识融合过程中,通过数据验证、实验优化以期形成符合科技创新平台发展目标、重点任务的科学数据价值导向,提高科技资源利用效率。同时,还需要保障科研工作者的数据信息安全和知识产权,确保数据首发、数据互认、数据可互操作,解决“成果不发表,数据不共享”造成的数据重复采集、数据重复研究、数据发布滞后的问题。
(2)在科技创新平台发展壮大以期提升面向多学科、多行业的服务能力中,科技创新平台需要面向更广泛的用户、社会需求开展数据价值挖掘和服务应用。随着交叉学科中的科学研究项目和工作不断增加,数据标注、数据维护、数据监管等过程中的数据质量控制愈发困难,相关人力资源严重匮乏。因此,需要在多条数据应用路径中为核心建立多向数据汇交和共识机制,激励和引导多主体参与数据管理维护工作。
(3)美国国家档案局(NARA)和美国国家海洋大气管理局(NOAA)均认为,数据档案的保存获取对国家科技进步具有重要价值[9]。美国地调局(USGS)将数据存档和存储的区别解释为,创建数据存档通常是为了长期存储但不用立即访问的重要历史数据[10]。随着多个学科领域研究数据的存储、发现、管理的增长,高度分散且不易被发现的中小型数据集也在成倍增长。Heidron[11]认为许多尾部的小科学项目是分散的资助模式下运行的智力成果,如2007 年美国国家科学基金会(NSF)资助的小项目的产出总和比大项目的产出更大。在大型科研项目中,往往会事先约定产生何种科学数据并统一数据采集、处理、贡献规范,而小型科研项目则缺乏结构化数据存储和共享标准,增加了科学数据共享利用的成本。随着科技产业变革和社会环境需求转变,数据价值并非持续增长,需要做好数据备份,并解决高价值数据识别、数据资产分级、数据迁移销毁等问题。
科技创新平台体系建设是重要的科技创新举措。科技创新平台建设坚持顶层设计、创新体制、分类指导、融合发展的原则,采取顶层规划、地市引导、省市联动、协同共建、市场化运作的方式。随着各地对科技创新资源引进投入力度的增加,也出现了不同平台重复立项、重复购置仪器设施以及多地平行建设或核心网络共建中信息孤立、流动人员管理粗犷、绩效评估科学有效性不强等情况。科技创新平台体系建设中科学数据面临以下挑战[12]:①科学知识越来越多地基于应用需求产生,需要增强科学数据传播和衍生能力;②学科交叉性增强,新的跨学科研究框架正在形成,需要解决不同学科领域质量标准不一致的问题,发展科学数据驱动科学研究的新范式;③科学知识生产者增加,创新组织模式逐渐多样化,需要平衡数据权益和数据共享的矛盾;④研究过程引起更广泛的学者讨论,社会影响力增强;⑤学科交叉、应用背景使得同行评审更加复杂,国家科技创新体系仍是围绕关键技术领域组织、专家间的知识共享、协同创新构建的[13],创新政策仍是任务导向,更广泛的社会问题、公众需求并未整合[14]。
从科技创新平台运行管理角度,本文提出科技创新平台应从以下几个方面加强科学数据管理(表1)。
表1 科技创新平台科学数据管理需求分析表
(1)科技创新平台科学数据管理首先要满足协同科研攻关的需求,即不同类型专家学者和问题提供者能够协同创新,并在不同项目、不同研究阶段共享数据、资料、研究设施[15],在团队协作中提高数据产出质量,降低数据验证难度,减少数据资源浪费以避免数据重复收集[16]。
(2)科技创新平台开展的研究活动中,跨学科跨主体交叉的合作研究十分普遍。在学科交叉融合环境下,应深入了解作者在论文创作过程中的实际贡献[17]。研究成果的贡献可分为研究设计、数据采集分析、数据标注解释、统计分析、质量审查修正等[18],研究成果发表和利用应尊重实际贡献者的权益,规范成果署名和引用。科学研究人员与公众合作开展科学研究,可以促进公众对科学知识的理解,满足社会需求对科学技术的期待[19]。但是,数据贡献者的知识技能水平的差异,数据完整性、有效性、一致性等问题变得十分突出,因此应寻找适合公众的数据分析、验证机制和方法[20]。基于项目、研究主题的数据采集整合,需要提供一个身份验证和数据贡献识别系统,以识别和允许其他组织机构、学科领域的研究人员以及社会公众参与科学数据管理,并有效识别他们的贡献。
(3)跨学科的元数据建立统一的标准。科学研究是无止尽的,科学数据在应用过程中不断增值[21],科学数据元数据也随着跨学科研究合作的深入不断扩展,数据加工和维护更加复杂,因此应建立统一的标准。如果不同专家学者不能正常表达元数据并形成共识,将阻碍数据共享和协同创新[22]。
(4)科技创新平台是国家科技创新体系的重要组成部分,也是科学技术知识扩散并产生广泛影响的重要载体。科技创新平台开展的科学研究应面向更广泛的公众群体和组织。美国国家实验室主任委员会将美国国家实验室的价值描述为知识发现与技术创新、科研基础设施服务、国家利益贡献、科学和工程人才培养、国家竞争力贡献和经济社会贡献6 个方面[23]。近年来,各国政府已经意识到科技创新目标要兼顾社会和环境挑战,如气候变化、人口老龄化、疾病、环境污染等。欧盟采取“地平线2020”举措,以应对一系列社会挑战。因此,应建立开放获取、数据合作机制,引导科技创新平台外的科研机构、社会组织、公众获取利用数据成果,并激励他们参与科学数据的共享、管理和维护。
(5)科技创新平台评价中,应确保研究成果的真实性、可靠性,并开展科技创新绩效评价。其中,成果真实性、可靠性需要追溯研究实验轨迹,复现数据产出过程,明确真实贡献者,防止数据造假、成果侵占。科技创新绩效评价则需要兼顾不同类型主体价值导向,以真实数据为评价对象客观评价成果价值,保证评价过程公开透明,追溯评价过程真实性、有效性、可解释性[24]。
(6)科学数据、科技成果、科技创新平台等的同行评审中,对质量效益指标的准确性、完整性、一致性应达成共识[25],评分一致性也是衡量专家评分质量的重要因素[26]。对于科技创新平台的创新绩效评价,仍在统计测度、解释表征中存在较大挑战和分歧,主要源于投入产出时滞性强[27]、因果关系证据不足[28]、统计数据可解释性不强[29]等问题,因此应建立评价指标,对评价过程达成共识。
区块链技术可以有效解决数据认证、存储、访问、流通、增值的问题[30]。区块链基于分布式网络基础构建,每个节点存储区块链系统中的一部分数据,多个节点通过共识机制维护区块链[31],确保数据不被篡改,提高了数据的安全性和可靠性,有助于原始数据完整保存和维护。区块链中数据创建、存储、交易等都按时间顺序标记,可以为数据溯源提供透明完整的记录[32],有助于追踪科学数据采集、加工、共享、利用等活动中的数据来源、使用历史,从而提高科学数据多场景应用价值和可追溯性。区块链的共识机制定义了用户如何验证写入区块链的数据、交易,降低了用户间建立互信的成本,促进了数据共享流通[33],不同数据生产者、数据使用者间的信任建立成本将大幅降低,有助于建设公平公正的科研环境。区块链技术可以使用智能合约,在数据共享利用中,可以通过设置访问权限、使用条件,约定共享收益等保障数据生产者和数据使用者的合法权益,促进科学数据的共享流通。科技创新平台科学数据管理需求与区块链特征的比较如表2 所示。区块链技术在科技创新平台科学数据管理中的应用主要体现在以下几个方面。
表2 科技创新平台科学数据管理需求与区块链特征的比较
(1)在协同科研攻关中建立知识协作环境的适用性。区块链存储是一种基于区块链共识机制建立的分布式去中心化的存储系统,可以增强数据的可靠性、可用性。去中心化的科学数据存储共享是知识协作环境建设的基础。美国橡树岭国家实验室(ORNL)为更好管理实验室科学技术、实验室运营、社会群体参与等短期研发任务和长期发展计划,基于区块链技术理念建立了一个系统框架,将区块链技术应用于实验室身份管理以及加强数据可用性、安全性、可验证等管理中。数据生产者采集、观测、调查、检测的数据为描述一项研究的最原始数据,基于对科学研究原始数据完整性、真实性的保护,科技创新平台内的每个数据生产者的身份应是对等的,非这项研究参与者无法记录和存储数据。上传存储的数据可以包括实验采集观测调查原始数据、分析加工后的衍生数据及与研究相关的研究设计、专家咨询、同行评审等内容,数据通过时间戳证明数据真实贡献者。科技创新平台内的每个研究参与者都可以访问标注这些数据,区块链网络通过共识机制保证每个用户获取的数据版本是一致的。
(2)在促进研究成果发表利用中识别数据贡献、复现研究轨迹的适用性。区块链技术可以记录数据的产生时间戳、数据源信息、访问使用记录,保证数据可追溯。数据上传后便无法修改删除,其他研究参与者和数据中心需要对上传的数据进行验证,建立同步的数据链条,共同记录该数据,并防止数据被篡改。
(3)在研究合作组织内部开放数据存储、标注、获取中的适用性。在有限的数据开放存储和数据开放标注中,应明确管理过程中的信任关系和许可问题。对于合作平台或创新联盟,通过柔性关系治理,增强互信互认以加强成员知识链的交互融合来激励组织合作尤为重要。通常科技创新平台和政产学研创新合作组织内部的所有科研人员在现实规章制度约束下是互信的,而不属于这个群体的人员在未明确身份的情况下是不可信的。因此,为保证科学数据完整性、可解释性和可用性,保护数据生产者的权益,可以在同一制度约束下的平台内建立私有链,使用因果一致性的原始数据元数据服务[36]。对于平台间的数据开放存储共享,可以通过公证人机制建立联盟链,委托组织机构数据质量负责人和科学数据中心代表作为权益代表或公证人响应平台间的数据开放存储和共享。
(4)在面向公众开放数据存储、标注、获取中的适用性。去中心化可以确保多种应用场景的用户都可以进行数据可重复性验证和数据解释标注,如使用不同实验装置、测试条件对数据进行分析验证可以提升数据的可重用性和完整性,数据生产者也无须额外投入经费和时间开展实验来收集能够提升原数据价值的信息,数据生产者也可以通过非对称加密授权研究团队以外的特定人员使用数据生产者开发的数据工具以降低数据分析验证难度,也有助于数据生产者优化数据工具。科学数据中心拥有的数据存储计算资源和开发的数据分析挖掘工具可以向社会公众提供资源共享服务,减少额外的基础设施投入。同时,通过共识机制的数据存储工作量证明和数据上传权益证明对提供存储服务和数据的机构、个人予以激励。圣地亚哥超级计算机中心在美国国家科学基金会(NSF)的资助下基于联盟区块链技术建立了提供科学数据验证、存储和管理的开放科学链,研究人员可以提交科学数据元数据和验证信息,随时审核更新数据信息,提升了科学数据的可扩展性和重用性。
(5)提升科学数据的可互操作、可重用性,尽可能扩大数据开放程度。为保障数据生产者的权益和数据使用合法合规,数据生产者应明确数据访问、使用、获取条件,以便访问利用数据的用户应能在授权许可下开展相关工作并正确引用数据[37]。在这种情况下,散列加密可以发挥重要作用,数据生产者或科学数据中心在数据存储时,整合数据贡献者、元数据等信息对数据进行加密,并生成区块哈希,保证数据的唯一性和数据生产者权益。利用非对称加密技术可以使数据生产者、数据中心或数据治理机构拥有数据访问、利用和交易的许可权限。
在科学数据授权许可交易中,主要涉及身份验证、数据定价、交易结算等过程,参与方包括科学数据生产者、科学数据中心和数据治理机构等,基于智能合约的科技创新平台科学数据共享流程如图1 所示。数据发布交易前,需对数据生产者身份权益进行审查确认,所有数据贡献者达成共识,在区块链上创建一个智能合约,包括定义数据访问使用相关的触发条件、数据共享活动相关的响应规则,在交易链上同步数据贡献者信息和账户。科学数据涉密、隐私、安全性经审查后,按规范制作提交数据共享协议或合同,在多方共识和竞价规则下进行数据定价,然后通过跨链将数据发布在交易区块链上,同时数据生产者应按规定编写智能合约,约定访问利用条件、双方责任、数据转换方式和使用环境等,然后通过非对称加密完成交易,只有获得密钥的数据使用者才能访问数据。所有的数据使用、交易都会被记录在区块链上且不可篡改,有助于数据安全审计和权益保障。
图1 基于智能合约的科技创新平台科学数据共享流程
(6)提高同行评审的质量。在科学数据或科技成果同行评审中,首先需要对数据真实性、完整性进行审核,区块链中的数据区块包含时间戳、数字签名,上传的所有与研究相关的数据资料都会在共同验证后完整记录且不可篡改,在对衍生数据或最终成果的真实性评价时,可以将研究设计、实验观测、统计分析、专家咨询等过程溯源,实现对失信行为的精准问责。同时,评价过程也可以利用区块链的可溯源和共识机制,建立评审专家、成果贡献者、成果访问使用者、评审监管机构之间信息对称的平等互信关系,使得同行评议过程的更加透明、专家一致性更强、评价结果有效性更高。
美国国家科学基金会(NSF)正将区块链技术应用于资助项目管理中,将资助信息与区块链通证相结合,以在不泄露敏感、有价值的信息的同时,在多部门间实时共享和比较项目提案,提高项目评审资助的透明度。加拿大国家研究委员会(NRC)也将区块链技术用于研究资助数据管理和实时共享中,通过星际文件系统提供数据存储和访问,以提升项目评审资助的透明度。
根据数据访问、系统治理方式和共识机制,区块链系统可以分为公有链、联盟链和私有链,不同类型区块链主要区别在于验证许可机制,公有链是无许可区块链,允许所有人参与系统,而联盟链和私有链只有被许可的用户才能参与[34]。私有链中是封闭的存储管理网络,所有节点都是可信的,适用于科技创新平台内部的数据共享。联盟链是半封闭的存储交易网络,存在多个对等但不互认的节点,适用于多组织间的数据共享。基于区块链的科技创新平台科学数据管理系统应是一种由科技创新平台内部数据存储共享私有链、科技创新平台联合体和领域科学数据共享联盟链以及面向社会和相关部门完全开放的公有链组成的混合区块链,链与链之间通过跨链协议路由相连,系统框架结构如图2 所示。
图书馆充分发挥“知识扶贫”的社会职能,既可以提高图书馆的社会地位,促进图书馆自身的发展,同时也有利于民族团结及区域经济发展,推动“一带一路”沿线各国及地区间的睦邻友好与合作共赢,更好地服务于国家战略。
图2 科技创新平台科学数据管理区块链架构
每个科技创新平台都拥有用于内部数据记录、存储、验证和共享的私有链,其中区块头由前一区块的哈希值、时间戳、版本号、随机数和Merkle根构成。其中,前一区块的哈希值用于链接前一个区块和当前区块,时间戳记录当前区块创建时间,版本号标识当前区块的版本信息,随机数用于工作量证明的计算,Merkle根是这个区块中所有交易的哈希值的Merkle树根节点值。科学数据共享区块链使用分布式存储技术来存储数据,每个节点都保存了整个区块链的副本,并通过P2P网络进行共享和交换。这种存储方式可以保证数据的安全性和可靠性,同时提高了系统的可扩展性和抗攻击性。科学数据共享区块链使用了链式结构来组织数据,每个区块包含了前一区块的哈希值,从而形成了一个不可篡改的链。区块链中使用Merkle树来存储数据保存、共享的哈希值,保证数据和共享记录的安全性和不可篡改性。每个区块中的Merkle树根节点值被存储在区块头中,用于验证该区块中的共享数据的完整性和正确性。
科技创新平台间的数据共享需要通过跨链协议组建联盟链,需要每个科技创新平台科学数据共享私有链上部署跨链网关,用于实现私有链和跨链协议间的的互操作,科技创新平台间制定科学数据共享协议,各平台私有链将链信息注册到跨链协议中,跨链协议根据链信息和跨链路由协议实现跨链数据交互。当数据在一个链上发布后,跨链协议层将数据转换为标准格式后发布到其他链上。
为了方便对科技创新平台的科学数据安全、权益进行监管,并利用多种数据开展科技创新平台管理评价,建立反馈机制,提升平台效益,需要实现不同区块链间的业务互通,提高区块链的整体应用价值和效率。当科技创新平台评价、科学数据共享效益评估等活动中,需要使用不同区块链的业务数据,此时可以通过跨链智能合约发起跨链请求,当跨链智能合约接收到跨链请求后,需要进行相应的处理和转发。跨链智能合约需要根据请求的目标链和跨链协议的不同,选择相应的跨链通信方式和协议,以确保跨链请求能够被正确地转发到目标链上。当跨链请求被转发到目标链上后,目标链需要根据业务需求进行相应的处理,并生成相应的跨链响应。跨链响应需要包括响应数据、响应参数等信息,以便跨链智能合约能够正确地处理和转发响应。
为了面向社会公众提供科学数据存储共享利用的服务,科学数据私有链和联盟链的数据可以通过跨链技术传输到公有链上,由公有链上的智能合约进行管理和控制。智能合约可以根据数据的类型、权限等进行分类和管理,实现数据的共享和利用。公有链可以采用开放的网络架构和共识机制,为社会公众提供科学数据的存储和共享服务。公有链可以提供科学数据的搜索、检索、访问、下载等功能,以满足社会公众对科学数据的需求。
区块链技术和科学数据都处于发展阶段,虽然区块链技术在科技创新平台科学数据管理中有较强的适用性,但相关的标准规范体系建设仍处于初级阶段,相关立法仍在研究制定中,推进科技创新平台科学数据管理利用和区块链技术的应用必然存在挑战。
(1)去中心化使得区块链中的交易是非实名的,链上交易是完全透明的,如果交易信息被恶意挖掘和利用,将严重影响用户隐私,但目前区块链项目中用于可信数据交易的智能合约设计、实现、开发和验证的标准共识仍未形成,区块链技术的开源性也使得智能合约漏洞更容易被利用,因此智能合约设计、开发及安全审计标准需要形成共识,并提高要求。在协同创新中必须保证多方互信,区块链只确保线上数据真实不可篡改,线下环节还需要法律法规保护用户隐私,明确用户身份,保障数据共享交易合规合法。另外,目前区块链项目中权益保护依赖于时间戳,如特定时间的数据贡献或数据所有权证明能否保护数据所有者权益需要标准规范。
(3)跨链技术是实现科技创新平台之间的知识数据流通,以及不同科技创新平台、科学数据管理业务之间的信息共享的关键。跨链数据共享和交易验证需要通过公证人建立区块链系统间的信任机制。为建立影响更广泛的科学数据生态系统,科技创新平台科学数据私有链或联盟链可以在一个底层跨链平台上组建,并需要一个承担链间信息交换任务的可信系统。为加强链间、链外数据互操作性,减少跨链应用和服务开发成本,还需要为跨链接口设计和应用开发设计统一架构,形成标准化解决方案。
(4)科技创新平台管理机构应对科学数据在科技创新平台建设管理及考核评价应用的方法、流程、规范开展研究,完善标准体系,推动相关应用,收集各方反馈建议,政府作为科学数据管理顶层规划的主体,应全方面考虑科学数据管理的价值意义和可持续发展问题,明确有效的科学数据管理和应用目标,并完善科学数据交易、市场服务和安全监管政策体系,积极引导多类型主体参与科学数据管理。
(5)科技创新平台建设投入持续增加,科技创新平台体系必须在科学技术进步、经济发展、社会生态文明建设中发挥更大的作用,科学数据是一种可以永久保存和持续增值的资产,在科技产业和社会结构变化中具有重大价值,政府和各类创新主体都应积极推动科技创新平台科学数据的管理、开放共享和再利用。
(6)随着跨学科合作深入,科学数据的元数据创建、数据质量评价、数据合规性审查及相关数据工具开发和信息系统建设需要人才,加速区块链在科技创新平台科学数据管理中的应用,也需要科技创新平台、科学数据中心建设管理部门、科学数据治理部门和政府不断完善相关人才培养和评价激励体系,在研究过程、技术应用和管理实践中开放合作,强化复合型人才梯度建设。