孙清玉 梁美宏 胡晓辉
摘 要 论文旨在利用区块链技术解决传统机构知识库建设与利用过程中的数据知识产权保护、数据开放与个人隐私保护、数据长期安全保存等问题。通过网络调研及文献调研的方法,对机构知识库数据存储、管理和利用过程中面临的问题进行了梳理,继而分析了区块链技术应用于机构知识库数据共享的可行性及优势。最后,构建了基于区块链技术的机构知识库数据共享管理系统,该系统以智能合约和加密技术为技术基础,主要由数据上传与存储、数据传播与共享两个模块组成,能够实现数据资源的自动审核认证与发布共享。
关键词 机构知识库 区块链 数据共享 知识产权保护
分类号 G250.74
DOI 10.16810/j.cnki.1672-514X.2020.07.008
Abstract This paper aims to solve the problem of data sharing in the process of building and utilization traditional institutional repositories by using blockchain technology. Through the methods of network research and literature research, the universal problems in the process of data storage, management and utilization of institutional repositories are sorted out, and then the feasibility and advantages of blockchain technology applied to institutional repositories data sharing are analyzed. Finally, a data sharing management system of institutional repositories based on blockchain technology is constructed. The system is based on smart contract and encryption technology, and consists of two modules: data upload and storage, data dissemination and sharing. It can realize the automatic audit, authentication and release sharing of data resources.
Keywords Institutional repository. Blockchain. Data sharing. Intellectual property protection.
0 引言
机构知识库通过对本机构研究成果进行全面采集和系统梳理,在实现对学术成果的集中保存、有效管理及多维度展示的基础上,促进了知识的传播与交流。更为重要的是,机构知识库的拥有者和使用者通过对特定机构学术成果的深度挖掘和分析,可以准确地揭示该机构学术研究的优势和增长点。吴建中教授曾对机构知识库的意义作了归纳,认为机构知识库不仅通过集体合作和管理,增强了众多机构之间的关联度和协作能力,而且需要让知识资源在其服务过程中实现增值,并且通过开放获取推动科研和技术创新[1]。然而,科研机构在机构知识库建设过程中,伴随着学术數据资源的采集、共享、开放与应用却普遍存在着诸如数据收集难、共享难、开放难、监管难、保护难等一系列问题。如中科院在机构知识库系统开发和建设的过程中,虽然有中共中央办公厅国务院办公厅于2019年6月联合印发的《关于进一步弘扬科学家精神加强作风和学风建设的意见》第三部分第十二条的规定要求[2],但依然存在学位论文、科研数据、技术报告等各种信息资源拥有者上缴积极性不高的问题[3]。尽管机构知识库在承担数据的管理和保存中有着天然优势,但如何保证数据共享的积极性、安全性和开放性,成为一个无法回避的问题,值得重视和研究解决。因此,本文基于机构知识库建设与利用中存在的数据共享问题,重点探讨区块链技术在机构知识库数据共享中的应用优势,并尝试构建基于区块链技术的机构知识库数据共享管理系统。
1 机构知识库建设与利用中的数据共享问题
1.1 数据类型收集不全面
在机构知识库资源中,各种中外文期刊论文、会议论文、本机构的学位论文、报纸、专利、专著、标准、研究报告、学术课件、系统软件、科研数据集、教学视频、演讲稿、学术报告、实验报告、设计图纸、工作文稿等文献原则上都应该是其采集的对象。对于正式发表的期刊论文和学术专著,以及已通过评审的专利和标准,可以通过各类型数据库及网站等途径进行采集,而很多非公开出版的学术信息资源获取困难较大,导致机构知识库收集的数据类型不全面,使机构库建设项目的数据开放、共享程度较低,数据分析结果打了折扣。
1.2 数据格式缺乏统一标准,数据质量良莠不齐
科研机构和学者个人所拥有的大量科研数据资料中,除了正式发表和出版的论文、论著、专利说明书等文献外,还存在着大量诸如实验数据、实验报告、工作文稿、科技报告、科研项目申报材料等多种异质数据源的灰色文献。这些文献资源由于数据格式不统一,难以整合到一起直接使用。一般来说,需要进行格式转换和不同程度地数据清洗后才具备使用价值。此外,由于数据采集时的标准不统一,不同类型数据在字段采集上的颗粒度大小上存在较大差异,使得后续数据融合阶段难以实现快速解读。
1.3 数据知识产权未得到有效保障
机构知识库的知识共享的基础在于大量科研数据,若科研人员或所有者担心自己的科研数据或学术成果被不正当使用,令知识产权受到侵害,则必然不愿上传和分享自己的各类数据。同时机构知识库收录资源类型的多样性,意味着机构知识库的版权主体和版权客体法律关系具有复杂性,机构知识库在资源搜集和提供服务的过程中会面临一些不可回避的知识产权问题。虽然《布达佩斯开放获取先导计划》对文献的“开放获取”作出了明确规定[4],但数据产权不明晰的问题,会导致数据在流通过程中的“复制、粘贴”等行为无法界定真正的拥有者,继而大大降低数据分享的动力。
2 区块链技术运用于机构知识库数据共享的优势
区块链是将信息存储在分布式节点上、防篡改的一种技术[5],工信部指导发布的《中国区块链技术和应用发展白皮书(2016)》中将“区块链”定义为:利用块链式数据结构来验证与存储数据,利用分布式节点共识算法来生成和更新数据,利用密码学的方式来保证数据传输和访问安全,利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式[6]。概括来说,区块链技术就是集体维护一个可靠数据库,并对其进行去中心化与去信任化。它是在传统密码学加密算法、P2P文件传输等诸多技术的基础上,结合数据库而形成的一种全新的记录、存储与传递数据的方式[7]。由于区块链技术的众多优点,目前图书馆的很多业务工作都在探索和研究区块链技术的应用前景及可行性。笔者认为,区块链技术应用于机构知识库建设,尤其在机构知识库数据的版权保护、共建共享、减少人为设置权限等方面将能够发挥重要作用。
2.1 利用区块链去中心化、自治性的特征能解决信息孤岛问题
目前国内机构知识库一般是由科研机构的图书馆或信息中心等部门承担建设任务,这些部门在机构库建设和使用过程中,起着协调管理、宣传推广等中心化作用。在这些传统机构库项目中,图书馆、学者、用户之间不仅是服务与被服务的关系,更多是数据互相提供、互相交流的关系,三者之间交流与传播的非结构化数据越来越多,并且身份也会根据数据需求互换。区块链具有的去中心化特点,意味着网络中任意节点均具有对等的权利和义务,不需要作为可信第三方的硬件或仲裁机构[8],其群体自治性更为突出,系统中全部节点均能在信任的环境下自由安全地交换数据、记录数据、更新数据。“去中心化”这一区块链技术的核心优势,将非常有利于解决机构知识库建设过程中越来越多的非结构化数据的收集、处理工作。
2.2 通过区块链利用密码学和分布式技术可保护用户的隐私安全
以往众多研究及实践均显示,机构知识库建设项目中,数据获取的便捷程度与用户的参与程度、理解程度以及使用体验等密切相关。机构知识库建设者通常需要综合考虑数据的安全问题以及各方利益,这时就需要在数据获取以及数据安全两方面做出一个平衡。如果出于数据安全问题的考虑而对数据的开放权限加以限制,不仅违背了其开放获取的建设初衷,大大降低用户的期望值,而且也与中共中央办公厅国务院办公厅印发的《关于进一步弘扬科学家精神加强作风和学风建设的意见》中数据的存储与管理需求不符。如果只考虑获取的便利,却没有一个安全可靠的技术或机制来保证数据拥有者的利益和意愿,必然使得数据拥有者不愿意贡献自身的数据,特别是部分有重要价值的数据。因此,从数据的开放与安全两者兼有的角度考虑,开放权限不应仅由图书馆等部门决定,而应由数据上传者依据数据的重要程度自行选择,包括全部公开、全部加密或仅向部分用户公开等权限。笔者认为通过区块链技术的密码学(采用哈希处理等加密算法)和分布式技术来解决数据安全问题和版权问题,才能有效地开放和保护数据的使用,既能明确数据授权范围,保护数据所有者的隐私,又可以在数据脱敏后保证使用者在无需访问原始数据的情况下进行各种数据的访问下载和利用分析。
2.3 根据区块链链式结构的可追溯性有效解决数据权属问题
扩大机构及学者的学术影响力,促进高校科研、教学成果的传播与交流,是机构知识库建设价值的重要体现,因此机构库中数据的流动使用变得非常重要。网络环境下的数据作为一种资产,与其它资产有着本质区别,其传播速度快、传播主体变化频繁、数字作品的呈现形式复杂多样,迫切需要一套有效机制来保证数据资产的归属权益[9],数据所有权的不明晰,已成为数据流通中的极大障碍。区块链的链式结构具有可追溯性,可直观、完整地记录图片、文字或其他任何形式的作品,包括作者从最初的思想火花到实验数据、文字总结、作品初稿,以及最终形成作品的完整过程,数据即使经过多次复制、转载也可进行溯源,能够有效解决数据权属问题。
3 基于区块链技术的机构知识库数据共享管理系统构建
在机构知识库数据共享中,笔者认为通过利用区块链技术的去中心化、信息不可篡改性等特點,可解决传统机构知识库平台存在着的数据权限不明、数据共享难等问题。因此,本文基于区块链技术,提出机构知识库数据共享管理系统架构与功能设计思路。
3.1 系统架构设计
所构建系统以区块链的智能合约与加密技术为核心,将资源提供者的基本操作全部以智能合约的形式写入区块链网络节点中,将数据资源通过加密技术进行加密,利用智能合约的强制性与不可更改等特点最大限度地解决用户间的信任问题。
基于智能合约与加密技术的机构知识库数据共享管理系统,能够有效保障用户的知识产权、个人隐私等利益,也打破了数据传播与共享中存在的信任问题。具体系统架构图如图1所示。
3.2 系统模块功能设计
机构知识库价值不仅体现在对具体机构数字资源收集、整理的全面与权威,更体现在资源的传播与共享上。从一定意义上来说,有效共享是解决机构知识库信息孤岛等问题的有效途径,能够提高机构库对于知识库的使用率。本文所构建系统的模块功能及其运行机制如图2所示,主要功能模块由数据上传与存储模块、数据传播与共享模块所组成,其中数据上传与存储模块支持数据的创建和存储,数据传播与共享模块支持数据的发布和共享。
模块构建以智能合约和加密技术为技术基础,能够实现数据资源的自动审核认证与发布共享,具体功能包括以下方面。
(1) 审核数据。对用户上传提交的数据资源从格式、内容等方面进行评判,例如其格式是否完整且符合元数据加工利用标准,其内容质量是否符合机构库的建设标准。
(2) 加密存储数据。通过专用密钥对审核后的资源进行加密,并存储在区块中。
(3) 发布数据。公开发布区块中存储的资源。
(4) 认证数据。用户利用区块链的共识机制对数据资源的质量与价值进行判断并认证,从而保证数据的质量,且避免数据重复上传。
(5) 传播与共享数据。在系统平台上传播与共享通过用户认证的数据,这些数据经过平台认证之后,将会被记录上时间标志,包含完整的来源及权利归属,可以安全地在网络上进行点对点的传播和分享利用。用户可以选择项目组内分享、二级单位内分享、二级单位间分享、校内分享及校外分享,并可以对分享的资源进行评价,例如评分、点赞、推荐等,系统可以根据全部历史用户的评价结果,对共享学术资源进行质量评定并进行排名等操作。此外,还可以根据不同用户的使用记录,构建其个性化的知识空间,使智慧化、个性化服务成为可能。
3.3 系统功能的运行机制
机构知识库数据共享管理系统运行时,首先需要数据提供者在机构知识库个人中心将资源上传到本地结点,并在本地结点对数据签署数字证书,然后通过P2P网络将数据资源传播到相邻结点,实现数据公开发布。在全网站点用户认证区块资源的准确性与有效性的基础上,将通过认证的区块添加到当前链的尾部,给区块资源印上时间戳,在全网进行点对点传播与共享,同时资源可被溯源。
4 结语
基于区块链技术的机构知识库系统与传统基于图书馆或其他中心化机构进行数据管理的系统相比,借助于区块链的去中心化、去信任、可追溯以及隐私安全保障技术,有效避免了传统机构知识库无法兼顾开放获取与所有者权益保护的难题,使得用户无需依赖图书馆或信息中心的中心管理身份,就能快速有效地获取所需资源。可以说,应用区块链技术作为机构知识库数据共享的新思路和新方法,是从设备、软件的革新上升到技术层面的革新,将推动优质学术资源实现共建共享,发挥最大价值。
参考文献:
吴建中.从开放获取到“超越开放获取”:“下一代机构知识库”给予我们的启示[J].国家图书馆学刊,2018,27(6):3-8.
关于进一步弘扬科学家精神加强作风和学风建设的意见[EB/OL].[2019-08-13].http://www.xinhuanet.com/politics/2019-06/11/ c_1124609190.htm.
王丽,孙坦,张冬荣,等.中国科学院联合机构知识库的建设与推广[J].图书馆建设,2010(4):10-13.
YIOTIS K.The Open Access Initiative: a new paradigm for scholarly communications[J].Information Technology and Libraries, 2005,24(4):157-162.
陳小平.区块链技术在图书馆智慧服务中的应用研究[J].现代情报,2018,38(11):66-71.
中国电子技术标准化研究院等.中国区块链技术和应用发展白皮书(2016)[M].北京:工业和信息化部信息化和软件服务业司,2016.
Bitbank株式会社《区块链冲击》编辑委员会.区块链冲击:改变未来产业的核心技术[M].鲁维琼, 魏宁,译.北京:中国人民大学出版社,2018.
杨茜.基于区块链的智能合约研究与实现[D].成都:西南科技大学,2018.
汪琼,陈伟.区块链在图书馆著作权保护中的效用研究[J].数字图书馆论坛,2019(3):69-72.