廖文杰 赵丽梅,2
(1.黑龙江大学信息管理学院;2.黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080)
科学研究第四范式是继实验归纳、模型推演、计算机仿真之后新的科研范式,是以大数据为基础的数据密集型科学研究,研究人员开展科学研究过程中通过科学实验、实际调查等方式产生和获得的数据资料——科学数据(Scientific Data),是该研究范式下的重要战略性资源,对其进行有效管理以发挥其重大价值对科学研究至关重要。为推动科学数据高质量管理,让科学数据更好地服务于科学研究,国务院办公厅于2018年3月17日印发施行了我国首部针对科学数据管理与共享的法律规范——《科学数据管理办法》,其内容涉及到科学数据的采集保存、共享利用、数据安全等多方面,这是第一次从国家层面落实科学数据管理的实施政策[1]。但目前来看,科学数据管理正处于起步阶段,仍然存在着诸多不足,但主要原因都是科学数据管理的参与主体之间的信息非对称态势[2],各参与主体所掌握的信息与资源不同,导致其参与科学数据监管所面临的障碍也不同,具体表现如:政府希望实现科学数据的开放与共享,却难以解决科研人员密切关注的科学数据使用风险问题、科学数据安全问题以及知识产权问题[3];科研人员需要根据政府及基金组织的要求撰写、提交和更新数据管理计划,却无法参透政府及基金组织要求的具体数据管理计划规则[4];科研人员与科学数据监管中心也存在着数据标准不共通的障碍。
科学数据监管作为系统而持续的多主体参与的数据管理活动对于科学数据的共享、利用以及增值具有重要的意义。区块链技术具有去中心化、不可篡改、安全可靠等技术特点,契合科学数据监管的理念。笔者基于区块链技术的特征和科学数据监管的过程模型,探讨区块链技术在科学数据监管中的应用构想,旨在弱化科学数据监管中的信息非对称态势,优化科学数据管理的进程,实现科学数据的最大化增值。
区块链(blockchain)最早由化名为中本聪的学者提出,是比特币的底层技术。广义而言,区块链技术是利用块链式数据结构验证与存储数据、利用分布式节点共识算法生成和更新数据、利用密码学的方式保证数据传输和访问安全、利用自动化脚本代码组成的智能合约编程和操作数据的一种全新分布式基础架构与计算范式[5]。简而言之,区块链是系统在一定时间内将其多个节点所记录的数据通过密码学算法记录到一个块(block)中并生成相应的哈希值用以链接(chain)下一个区块,当一个新的区块创建后记录前一个区块的哈希值就能链接在前一个区块的后面[6]。随着时间的推移,区块越来越多,所有的区块按时间顺序链接就形成了一条完整的区块链。相对于传统数据库技术,区块链对于数据管理与共享的优势更为明显。
(1)从数据的存储模式上看,传统数据库系统主要将数据集中存储于中心服务器上,存储数据一般是特定时刻的最新数据,节点需要通过访问中心服务器才能获取到相应的信息。而区块链系统采用的是一种全复制式分布存储技术,所有参与维护的节点都在本地复制了一份完整的数据,因此不存在中心化的特殊节点[7]。区块链网络通过对特定时间段内发生的事务数据进行验证、打包和共识,形成新的数据区块以完成对数据的更新,相比之下区块链系统的信息流通和分布更具有实时性和对称性。
(2)从事务处理机制上看,在传统数据库的工作机制中,对数据库的操作都是由经授权中心认证的用户来完成[8]。在区块链中,所有参与维护的节点都能获取全部原始数据以及记录数据、维护数据,无需授权认证。区块链系统拥有智能合约机制,用代码编入智能合约的触发场景和响应规则,用户在发起交易时即可调用合约,一旦系统判定当前所处场景满足智能合约所触发的条件时便会自动执行合约上的规则和条款,整个交易过程无需中介、自我验证、自动执行,可极大地缩短交易的流程和时间[9]。
(3)从查询执行与验证上看,由于传统数据库服务模式下的数据库服务商的被信任程度无法直接确认,需要引入可信的中间层来实现数据的保密管理和可信性验证[10]。目前的外包数据库查询验证方案仍存在着开销大、查询验证效率低、不支持公共更新等一系列问题[11]。在区块链网络中,由于区块的生成需要所有参与节点进行顺序的共识和内容的验证,信任机制直接形成,无需加入额外的信任机制来建立参与节点之间的信任关系。另一方面,节点间的交易也可以直接通过秘钥进行验证,查询验证机制相较于传统数据库系统更为便捷、高效。
(4)在系统的可扩展性方面,传统数据库一般通过纵向或通过数据拆分进行横向扩展来达到系统的扩展[12],对系统扩展的操作主体而言显然具有先行动者的信息优势,会进一步加剧系统的供应方和使用者之间的信息非对称。而在区块链上增加、删除节点不仅相对容易,其共识机制会规避多方主体之间的信息对称态势的产生,即使区块会随着时间的推移链接的更多,也对系统的存储容量提出了新的挑战,但是区块链系统在多方参与的应用情境中对系统扩展相对于传统数据库更具适用性。
(5)从安全可靠性看,区块链上的每一个区块头都记录了时间戳,保证了区块链上的数据可溯源,数据的篡改需要对前后区块的哈希值进行验证,因此要篡改数据并被所有参与者认可,就需要在算力上付出高昂代价以重新生成区块,其篡改难度相比传统数据库系统都要大得多[7]。此外,区块链中使用了密码学中非对称加密和授权技术实现数据的访问以及节点之间的匿名交易,也可以很好地解决数据流通中的隐私与安全问题[13]。相较于传统数据库系统通过用户身份验证方式来控制数据的访问,区块链系统明显更为稳定、更为安全。
综上所述,区块链系统与传统数据库系统在存储模式、交易处理机制以及查询验证等多方面都存在着显著的差异,其去中心化、公开透明、安全稳定的特性适于在多方参与并达成集体共识以及实现主体权益保护的场域中应用。
数据监管(Data Curation)目前为止并没有形成一个统一的定义。英国JISC(Joint Information Systems Committee)认为数据监管是为确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动[14];英国数据监护中心DCC(Digital Curation Center)对数据监管的定义为:数据监管是在数据的整个生命周期中对其进行维护、保存以及增值的过程[15]。美国国家科学基金会NSF(National Science Foundation)认为,数据监管是用户层面上数据的价值性活动[16]。由此可见,上述解释都不约而同地认为数据监管是一个动态持续的贯穿整个数据生命周期对数据进行长期保存、组织、维护、利用的过程。
国外的科学数据监管实践基本都是基于数据生命周期模型予以实施的。比较有代表性的生命周期模型是DCC数据生命周期模型——DC模型、英国UKDA(UK Data Archive)数据生命周期模型以及美国CCSDS(Consultative Committee for Space Data System)OAIS功能模型。其中DC模型体现了面向科学数据的监管、出版以及增值的流程,包括3个层次——生产科学数据、归档保管科学数据以及科学数据的价值挖掘——以及6个主要阶段:概念化、创建和接收数据、评测和选择数据、长期保存和存储、访问使用和重用、转换[17,18];UKDA数据生命周期模型将数据监管划分为6个阶段:数据创建、数据加工、数据分析、数据保存、数据访问和数据再利用[19];OAIS功能模型将数据监管划分为6个功能实体:数据摄取(Ingest)、归档存储(Archival Storage)、数据管理(Data Management)、存取(Access)、管理(Administration)、保存规划(Preservation Planning)[20]。上述数据生命周期模型虽然细节上略有差异,但都将科学数据监管活动视作一项系统工程,以系统开发流程为逻辑主线,可将科学数据监管划分为战略规划、数据采集、数据处理、数据保存、数据访问、数据分析与利用6个阶段。
科学数据监管是一个多类型主体参与的系统工程,包括政府、基金组织、科研机构与科研人员以及科学数据监管中心等。科学数据监管不仅能够助力于今后的科学研究,实现科学数据的增值和重用,而且可为各类型参与主体创设唇齿相依的共同利益。对于政府、基金组织等科学数据监管的主要发起者而言,进行科学数据监管,实现科学数据在国家大范围内的共享,一方面有利于把握国内科学研究全局,并根据实际情况制定国家战略性决策[21],另一方面则可以促进全国公共科学数据服务,树立良好的政府公共形象[22];对于科研人员、科研机构等科学数据的生产者和主要利用者而言,科学数据监管可以为后续的科学数据共享和科学数据重用提供便利,不仅可以促进同领域学者的学术交流,而且在一定程度上还能提高自身学术影响力[23];对于各高校图书馆、科学数据监管中心等科学数据管理者而言,科学数据监管无疑为其服务产品的发展带来了新机遇,促进其服务转型与数据服务升级[24]。这些共同意愿促使他们希望尽快实现科学数据共享与协同监管。然而,从目前的科学数据监管现状来看,不同参与主体之间仍然存在着沟通障碍,彼此之间的信息非对称程度仍然很高,导致科学数据流动不畅,影响最终科学数据服务的质量。鉴于上述问题,笔者以科学数据监管的生命周期流程作为切入点,利用区块链在弱化参与主体信息非对称方面的优势,探讨区块链在科学数据监管中的应用构想。
在新技术不断更新换代的时代,融合新技术对促进各行各业的发展都大有裨益。将区块链技术应用于科学数据监管,符合时代发展的需求,不仅能攻克科学数据监管现存的技术难关,为科学数据服务水平的提升带来无限空间,而且对于促进科学数据监管的创新发展也具有重要意义。为此,基于科学数据生命周期,通过分析在科学数据监管各个阶段所应用的区块链技术,来分析区块链技术在科学数据监管中应用的适用性,各个阶段具体适用技术如表1所示。
表1 区块链技术在科学数据监管中的应用分析
从科学数据监管的流程来看,区块链技术与科学数据监管具有高度的契合性。在科学数据监管的战略规划阶段和科学数据利用阶段,都可以采用时间戳技术来对科学数据进行认定和追踪,以保障科学数据能得到合理使用[25]。在科学数据采集阶段,为提高科学数据提交的效率则可利用智能合约技术对科学数据进行自动提交[26]。在科学数据处理阶段,集体维护功能可以保障科学数据的真实性及可靠性[27]。在科学数据保存阶段,区块链的数据分布式存储技术则可以保证科学数据的安全存储,可以有效降低科学数据丢失的风险[28]。而在科学数据访问阶段,非对称加密与身份验证技术可以追溯科学数据的利用主体以解决科学数据利用的资格审查问题[29]。由此可见,区块链技术适用于科学数据监管的各个阶段,两者确实有很大的契合性。
区块链技术在科学数据监管生命周期的各阶段都具有良好的适用性,但科学数据监管各阶段所面临的具体难题仍然是无法回避而且需要重点探讨的议题。科学数据监管实施过程中所面临的主要障碍来源于科学数据监管参与主体之间的信息非对称态势,这些信息非对称问题主要体现在科学数据安全存储、科学数据安全利用、知识产权保护等多方面。此外,促进科学数据服务升级,建设健全的科学数据共享体系也是需要着重考虑的问题。为此,笔者聚焦于科学数据监管的实际问题,从以下5个维度探讨区块链技术在科学数据监管中的应用构想,如图1所示。
图1 区块链在科学数据监管中的应用场景
在科学数据采集阶段,科研人员需要向图书馆或数据中心等科学数据监管平台提交元数据和主数据,以为后续的科学数据利用提供基础。由于科研人员与科学数据监管中心之间存在着数据存储标准、元数据标准等多方面的信息势差,导致在科学数据采集期间科学数据需要被反复地提交和审核,浪费了大量的时间和人力,极大地影响了科学数据采集的效率。为此,可以将区块链技术与科学数据监管平台相结合来实现科学数据的自动化采集。由于不同的学科所使用的数据规范不同,科学数据监管平台应根据所负责监管的学科数据特点制定好相应的学科元数据规范标准、科学数据存储标准、科学数据提交规则、科学数据安全合规等。在此基础上,将这些文件写入区块链的智能合约中,科研人员根据智能合约中的数据标准、数据规则等按提示提交科学数据,一旦符合智能合约的触发场景,科学数据监护平台将对科研人员提交的科学数据自动采集纳入数据库。如此一来,既能节省科学数据等待审核和反复提交的时间,也能大大地提升科学数据采集的效率[30]。
在科学数据存储阶段,科学数据监管需要一个可靠而长期的数据仓储平台。目前,我国部分高校图书馆已建有机构知识库专门保存本校所产生的科学数据,传统的机构知识库将科学数据存储于中心服务器上,科学数据的安全难以保证,也不利于科学数据的可持续开放与共享。区块链作为一种新兴的分布式数据存储技术,其与机构知识库结合可以优化科学数据存储的安全性和完整性[31]。区块链去中心化的特性使其不存在中心服务器,黑客攻击的可能性很低,降低了科学数据安全存储的风险。此外,区块链中的区块头记录了时间戳,储存在区块链中的科学数据难以篡改,打消了科研工作者担心自身科学数据会被篡改的疑虑,再次确保了科学数据的安全存储。
图书馆或数据中心进行科学数据监管的主要目的在于为科研人员、用户以及企业提供科学数据服务。在用户进行数据访问阶段,用户的访问权限以及不同用户访问的数据密级权限是值得商榷的两个重要问题。目前科学数据监管平台缺少正式的保密规定和密级升降的评估体系,导致科研人员不情愿开放数据:一方面担忧科学数据遭到不正当使用,另一方面担心自己或被调查者的个人隐私泄露[32]。区块链系统使用了密码学的非对称加密和授权技术,将科学数据存储于区块链,可以从存储的维度实现科学数据的安全访问。图书馆或数据中心可以将用户提供的个人信息记录到区块链系统,利用区块链技术给每位用户提供唯一的数字身份认证,从用户层面确保科学数据的安全访问。此外,科学数据上传者在区块链上上传科学数据时可以采用哈希算法对上传的科学数据进行加密。上传者可以根据各科学数据的重要程度或涉密程度,在区块链上对不同级别的数据访问者设置获取权限,使其获取到相应的科学数据。这样既保护了科学数据监管发生端(上传者或调查者)的个人隐私,也使科学数据能够得到充分的利用。身份认证与加密技术对科学数据形成了双重保护,能够有效实现科学数据的安全访问。
科学数据监管的最终目的在于实现数据的增值,通过科学数据的开放共享令科学数据被更多的人所利用或者二次开发,是实现数据增值的必然途径。虽然科学数据开放共享已然成为国内外学者的共识,然而数据开放共享的障碍依然存在。华小琴、司莉等对科研人员的科学数据共享需求进行了调研,发现研究人员不愿意数据共享的原因之一就是共享中潜在着数据安全问题和知识产权问题[32]。现有的解决措施主要是制定严格的知识产权规章制度,从理念上提出了保障研究人员利益的方法,然而研究人员知识产权保护的实施方面仍然存在行动障碍。实施知识产权保护的目的在于让科研人员没有任何顾虑地开放共享自身的科学数据,让更多的人在有效的时间内对其进行利用和开发,在更大的范畴上实现科学数据的增值。因此科学数据的开放共享是实现数据增值的原始动力,依据知识产权制度为科学数据开放共享提供行动保障是区块链技术保护科研人员知识产权的重要使命。科研人员的版权信息一旦在区块链上记录,就有了集体维护、不可篡改、可追溯的特性,这相当于给研究人员提供了一份不可篡改的数字化证明[33]。当发生知识产权纠纷时,科研人员可以通过查询区块链上科学数据的原始信息以及流转信息实现数据确权,以维护自身的知识产权乃至学术优先权。
科学数据联盟化是未来科学数据监管的发展趋势。目前国外已经出现了科学数据联盟的相关实践,如荷兰3所高校图书馆共同建设了科学数据联盟3TH.Datacerturn[34]。区块链的链式结构,能够打破科学数据联盟参与主体之间的信息孤岛,实现联盟内部信息的无障碍传输,顺应科学数据联盟化的发展趋势。区块链可以根据其存储数据的开放程度分成3类:私有链、联盟链和公有链[35]。其中联盟链的开放性介于公有链和私有链之间。通常只有拥有特定权限的机构或个人才能加入。不难想象,联盟链在各机构之间的数据交互方面具有天然的优势,将其运用到科学数据联盟是一种理性的选择。各数据监管机构诸如图书馆或数据中心可以达成机构合作协议,建立科学数据联盟链,实现链内的科学数据共享,让科学数据得到重用,发挥其更大的价值,加快科学研究的进程,提升科学研究的效率。
区块链技术为我们解决科学数据监管的现存问题提供了新思路,但目前区块链技术的应用实例几乎都处于测试阶段,相关的制度和技术也未完全成熟,区块链在科学数据监管中的实际应用仍尚待时日。为加快区块链技术在科学数据监管的顺利落地,各科学数据监管参与主体应率先意识到其在科学数据监管实际应用的潜在障碍,做到早发现,早解决。
任何一种新兴技术从诞生到广泛应用都需要通过时间和实践的检验。目前区块链技术正处于这样的关键节点,其在各行各业的实际应用处于起步阶段。图书馆以及各科学数据监管中心早已意识到区块链对科学数据管理的重要性,但从目前来看,由于缺乏相关理论的指导,也无实际案例可考,此外科学数据监管主体普遍缺乏对区块链技术的基本认知[36],缺乏区块链系统建构的专业技术人员,导致区块链在科学数据监管中的实际应用停留在理念阶段,而实践经验匮乏。
目前,区块链技术在国家的高度重视下正迅速发展,但相关的约束规范建设却并未与其高速发展齐头并进[37]。由于缺乏相关法律的监管和约束,一旦出现数据恶意泄露、私钥出售等违法现象将会给国家和机构造成巨大的损失。另一方面,相关的行业标准虽然已开始着手制定,但真正得以应用的标准还暂未出台,阻碍了区块链行业的健康发展。这些制度上的缺陷同样导致区块链在各行业的实际应用迟迟无法落地,更无从谈起其在科学数据监管中的现实应用。
区块链在保证科学数据的完整性和安全性的同时,也带来了一些不得不面对的技术风险,这些风险主要基于区块链的技术特性[38],例如:区块链由于其“去中心化”,所有记账节点都保存了全部的区块数据,一方面会造成各节点都不得不付出高昂的存储成本问题[7],另一方面也会给别有用心之人提供趁虚而入的机会;区块链“不可篡改”的数据管理模式导致其容错率低,一旦违法或错误的数据被写入区块链则会因为难以修改而造成无法挽回的后果;区块链支持同时处理的交易数量有限,随着系统访问的次数增加,将不可避免地出现网络拥堵的现象;再者,区块链的加密技术使得用户访问系统全由私钥决定,如果私钥一旦泄露,后果难以想象[39]。这些技术难题仍需要进一步的改进和优化方能促进区块链技术的实际应用。
区块链技术的实际应用依然阻碍重重,急需国家和科学数据监管部门等各方的合力推动,通过加强相关制度建设、加大对区块链的研究力度、重视区块链人才培养等措施,来解决区块链现存的制度和技术难题,为区块链技术早日应用于科学数据监管创造有利条件。
虽然区块链技术在科学数据监管中具有很强的可行性和适用性,但相关的约束规范建设相对于技术的发展呈现滞后态势。有效的法律法规和可行行业标准的缺失,导致区块链在科学数据监管的实际应用缺乏理念的引领和规范的约束。因此需从整体规划、法律法规、行业标准等多个维度加强约束规范保障体系的建设,以促进区块链在科学数据监管中的顺利应用。
首先,政府作为区块链这种新型信息系统的最高规划主体,负责整体规划区块链技术在各行业的实际应用,科学数据监管的参与实体按照整体规划的思路部署符合具体应用情境的实际规划;其二,完善区块链技术应用于科学数据监管的法律法规建设,对区块链实际应用的潜在问题予以深层次的预测,并对参与主体的责权归属做出详细的规定,参与主体依据相应的法律法规实施相应的监管行动;其三,加快相关行业标准的制定,协同融合科学数据监管参与实体的实践管理经验以及相应的业界研究专家的研究理念,在国家整体规划和行业应用情境的基础上制定相关的区块链标准,包括行业标准、信息安全标准、实施标准等,对行业标准进行修改和完善,构建适应区块链的实时应用和动态发展的科学数据监管约束规范保障体系[40]。
区块链在科学数据监管中的实际应用所带来的技术风险并非难以避免,可以通过规范约束与技术相结合的方式来协同消解。第一,以约束规范作为规避风险的基础条件,对难以通过技术解决的问题可以通过制定相关的科学数据监管政策来抵消区块链带来的负面影响;第二,鼓励科学数据监管参与主体加大对区块链的研究力度,努力突破区块链在科学数据监管中的技术瓶颈,另一方面也要鼓励从事数据监管研究的相关企业对区块链技术在科学数据监管中的实际应用进行积极探索,逐渐攻破区块链技术在科学数据监管中的现存技术难关;第三,积极引导科学数据监管参与主体或研究机构等与区块链企业积极合作,共同破解技术在实践应用中的障碍[41]。
人才是事业兴旺发达的第一资源,是推动科学技术进步的决定性力量。要加速区块链技术在科学数据监管的实际应用,就要加强适用于科学数据监管情境的区块链专业人才培养,完善相应的人才队伍体系建设:一方面,在高等学校、技术学校专门设立区块链专业,并开设适用于科学数据管理领域的相关专业课程,系统地培养区块链技术人才,架构和测试符合科学数据监管实际需求的区块链系统[42];另一方面,也要鼓励相关的企业和科研机构在工作中培养实用型人才。为积极面对区块链给科学数据监管带来的颠覆性改变,科学数据监管机构也要加强对其科学数据监管从业人员的培养,通过外派培训、开设讲座等方式逐渐强化科学数据监管从业人员对区块链的认知,以优化前沿技术和应用情境的深度融合[43]。
区块链技术的技术创新、应用创新正改变和颠覆着大多数传统行业。将区块链技术与科学数据监管实践相结合,通过分析其在科学数据监管中的适用性,从理论上探讨了区块链技术在科学数据监管中的应用构想,旨在弱化科学数据监管中参与主体之间的信息非对称态势所带来的科学数据管理效率低下的问题,为今后科学数据监管的完善提供参考依据。与大多数新兴技术一样,目前的区块链在实际应用上还存在着诸多尚待完善的约束规范与技术难题,笔者从约束规范保障体系建设、技术风险消解和人才培养等多个维度提出了相应的解决对策,以期对未来区块链在科学数据监管中的实际应用提供借鉴,完善科学数据监管的可持续发展机制。