机构知识库科学数据的开放获取研究

2022-02-06 22:13李雨柔
内蒙古科技与经济 2022年3期
关键词:区块科学资源

李雨柔

(黑龙江大学,黑龙江 哈尔滨 150080)

近年来,开放获取资源的快速发展不仅为研究人员和作者提供了自由和丰富的资源,而且提高了数据的循环利用价值,在一定程度上也提高了资源的透明度,促进了科学研究和社会进步。但是,在将资源进行开放的过程中也不可避免地产生了一系列问题,尤其是关于资源开放能不能持续发展下去的问题。笔者从区块链的角度研究开放获取科学数据资源的建设和管理,针对科学数据开放获取所面临的问题提出建议,以期使科学数据开放获取能够得到持续性的发展。

1 科学数据资源及开放获取相关概念

1.1 科学数据

科学数据和其他学术研究论文或其他形式的学术成果一样,属于信息资源的一种,科学研究数据不仅仅是科研成果的显性表达,同时也是科学研究过程中不可或缺的要素之一[1]。伴随着科学的不断发展及技术水平的提高,各领域产生的数据也在不断地增加。大数据时代下科学数据早已成为最基本且具有较大价值的科学资源类型之一,在不同学科领域都发挥着巨大的作用。

1.2 科学数据资源开放获取的管理

有研究结果显示,虽然随着科学研究活动的增加和深入,每年都会产生很多的科学数据资源,但是这些数据资源不会永存,大概有80%的科学数据在出版以后的20年内就会消失。这种情况给科学研究造成了比较大的损失,使得科研工作者可能需要重复进行科学研究才能够获得其所需要的科学数据。因此,对科学数据资源进行正确的获取及管理至关重要。在过去十年里,各种数据管理正朝着开放获取的方向发展,随着这一趋势的发展,国内外许多国家对科学数据进行了开放访问,访问者能够相对容易地访问并且使用开放的科学数据资源。就国内而言,我们国家也已经通过科学数据共享建成了包括社会科学、自然科学等很多学科共存的数据资源系统[2]。总之,无论在国内还是国外,科学数据共享与开放都逐渐成为一种趋势,因此,加强对这些信息资源的开放获取的管理研究具有一定的现实意义。

2 开放获取资源的主要挑战

开放获取运动的展开为全球范围内科学数据开放和整合提供了有利的基础,相应地也促进了科学研究的向前发展。但是与此同时,在科学数据开放获取这一过程中,也面临着一些挑战,从而无法避免地带来了一些负面影响。

2.1 版权保护不足,影响数据分享意愿

随着科学数据开放获取的不断发展,随之而来的还有一些侵权行为的产生,极大地影响了数据开放获取的健康持续发展。虽然,在“布达佩斯开放获取计划”中曾经指出“在互联网公共领域里可以被免费获取,并且允许任何用户下载、传输等”[3],但是为了保护自身的合法权益,许多资源贡献者会选择只贡献一部分或者拒绝贡献原始成就来保护自己的知识产权。因此,在开放数据资源获取过程中的版权问题能否在运行中始终得到妥善处理,是保证开放数据能否可持续发展的重要环节[4]。

2.2 数据分布零散,无法得到有效利用

近年来,开放获取科学数据资源建设面临的另一个重要挑战是数据分布零散。由于不同平台的收集、整理的标准不统一或平台通信技术的先进性有限等,使得系统与系统之间的通信受到影响,或者分享出的数据不能得到有效的利用,而产生很多零散分布的数据,在一定程度上影响了数据资源的进一步开放共享、获取与利用。而在当下,能够一定程度上缓解信息孤岛问题的主要方法即运用信息技术把不同平台、不同格式的信息资源连接到一起,但是整合不同平台、不同格式的资源具有相当大的难度,目前的效果并不十分理想,这限制了开放数据资源的获取与共享。

3 将区块链技术运用到科学数据开放获取的可行性与优势

区块链是一种将信息存储在分布式节点上,防止人为篡改的技术。这项技术的理论原理是基于加密算法,并结合数据库等多种传输技术,对数据进行记录、存储及传输[5,6]。由于区块链技术本身具有的不可篡改、去中心化等诸多特性,很多领域都在探索将区块链技术运用到自身业务中,图书馆的很多业务工作也不例外,比如在知识库建设过程中便可以利用区块链技术,特别是涉及数据的版权保护、数据的共建共享等方面,能够充分体现区块链的特殊优势。因此,笔者将主要从区块链技术的角度,针对上述科学数据管理面临的版权保护不足和开放共享程度不足的问题进行可行性分析。

3.1 缓解信息孤岛的问题

目前,科学数据通常由机构知识库存储着,其建设在我国通常是由图书馆和信息中心的科研机构协调管理。在这些传统的机构式图书馆项目中,图书馆、学者和用户之间的关系不仅仅是服务与被服务之间的关系,更是数据提供与数据交流之间的关系[7]。区块链技术的典型特征之一就是去中心化,而区块链的这一特性对于解决在建设科学数据过程中的非结构化数据的采集和处理问题具有一定的优势,使用区块链技术能够增加这些相关组织的自主性。同时,在这个系统中的全部节点可以在一个相对安全可靠的环境里自由地进行数据的交换、记录等操作,一定程度上也减少了因数据格式或平台系统差异带来的数据零散分布的问题,从而提高数据利用效果。

3.2 通过使用密码学和分布式技术,可以保护用户的隐私和安全

许多前人的研究和实践表明,数据获取的便利性与用户的参与、理解和体验密切相关。机构知识库的构建者通常需要综合考虑数据安全和各方利益,需要在数据采集和数据安全之间取得平衡。如果只考虑数据的安全而因此限制了对数据的开放存取,它不仅会违反开放建设的初衷,同时也会大大减少用户的期望,而且也违背了办公厅下发的一系列文件所传达的促进数据开放获取的精神。如果只考虑数据获取的便利性,而没有安全可靠的技术或机制来保障数据所有者的利益和意愿,必然会使数据所有者不愿意贡献自己的数据,尤其是一些有价值的数据。因此,从兼顾数据的开放与安全来看,科学数据开放的权限更适合交于数据上传者,由他们来决定数据的开放程度,包括全部开放或者部分加密等,同时应用区块链技术的加密算法和分布式处理,这不仅可以澄清数据授权的范围和保护主人的隐私数据,而且也能够确保用户访问、下载和分析各种数据无须访问原始数据。

3.3 有效解决数据所有权的问题

科学数据作为一种信息资源,在现今大数据时代已经成为一种资产,但是它与其他普通资产不同,因为它的传播速度快,并且它的传播主体通常也会变化得比较快,数据所有权不明确已成为数据流通的一大障碍[8],由于科学数据资产的特殊性,目前迫切需要一种具有针对性的机制来有效地确保科学数据资产的所有权。区块链的链条结构具有可追溯性,可以直观、完整地记录包括作者从最初的产生思路到实验数据的获得、再到形成作品初稿到形成最终成果的一系列的完整过程,做到开放科学数据的同时保证了数据安全和数据版权,进而促进学者或机构科学数据的开放及获取。

4 机构知识库的数据开放获取管理流程设计

鉴于区块链技术在科学数据开放共享运用的优势,笔者提出基于区块链技术的科学数据开放获取管理流程设计思路。

设计的核心原理即基于智能合同和加密技术,具体的环节包括:①审核数据。对科学数据进行审核,主要从格式和内容方面对数据上传者上传的数据进行审核,比如审核数据资源的内容和格式是不是和数据库的标准一致、是否符合元数据处理的标准等。②对数据进行加密并保存。通过特殊的密钥将审核通过的数据资源进行加密处理,然后将这些加密后的科学数据存储在区块链的各个块中。③公开数据。把已经存储在块中的科学数据,公开发布在系统中。④身份认证数据。利用区块链的共识机制对科学数据进行价值认证和质量判断。⑤数据的传播和分享。在系统平台上传播和共享通过用户身份验证的数据。这些数据经过平台认证后,会有时间标记,包括完整的来源和权限,可以在网络上安全地点对点传播和共享。传播和共享范围也比较灵活,可以在小组内部小范围共享,或者单位之间共享,并对共享资源进行评估,如评分、表扬和推荐。

5 结束语

区块链技术的日益成熟为科学数据开放获取的持续发展提供了一定的技术支撑。笔者将区块链技术的特性与科学数据开放获取过程中的难点相结合,将技术的不同特性与其针对的问题进行结合,设计出科学数据开放获取的管理流程。但是区块链技术毕竟还是一种正在发展中的技术,在其实践应用过程中也会存在一些问题。比如,随着信息技术和密码学的不断发展,区块链中采用的非对称加密算法在不久的将来会很容易被破解等。但毕竟区块链技术目前还是能够在一定程度上推动科学数据的开放获取建设,因此要充分认识到区块链技术的优势,合理有效地将其运用到相关业务中。

猜你喜欢
区块科学资源
基础教育资源展示
区块链:一个改变未来的幽灵
一样的资源,不一样的收获
区块链:主要角色和衍生应用
点击科学
科学大爆炸
资源回收
区块链将给媒体业带来什么
区块链+媒体业的N种可能
资源再生 欢迎订阅