基于区块链技术的图书馆大数据服务研究

2020-10-10 01:45张雪莉
图书馆学刊 2020年9期
关键词:区块数据库图书馆

张雪莉

(郑州澍青医学高等专科学校,河南 郑州450000)

随着信息的增长,海量数据正以迅猛态势,全方位进入社会生活的各个领域,引起了诸多行业的巨大变革。实现大数据驱动的智慧信息服务成为图书馆转型变革的必经之路,图书馆需要快速、高效、准确地从海量基础数据中提取到有用的信息资源,将用户所需的信息以直观和丰富的表现形式智慧化地传递给用户,这给图书馆带来了巨大的挑战。虽然图书馆也给予大数据较多的关注,但仍然存在着诸多现实问题,许多图书馆的大数据服务处于理论研究阶段,在图书馆大数据服务实际运用中所面临的资源、技术、安全、成本、人才等方面还存在着瓶颈。区块链是一种网络技术,可以让用户有机会安全地共享内容或进行交易,而无需中间人或中央管理系统,它是通过去中心化和去信任的方式集体维护一个可靠数据库的技术方案,这不仅使区块链和大数据有着紧密的联系,甚至可以说,区块链将重构大数据。借助区块链技术,图书馆可低成本地实施大数据战略,解决大数据环境下服务所面临的问题,以进一步提升图书馆服务管理质量的效率和效能,实现大数据在图书馆领域更广泛的应用。笔者拟探讨图书馆在大数据环境下的瓶颈问题,阐述区块链技术如何与大数据技术互补,并解决这些问题。

1 图书馆大数据概述

大数据(big data)是指规模巨大,在合理时间范围内无法用常规软硬件设备进行获取、处理和管理的海量数据集合,这些大数据包括结构化、半结构化以及非结构化的数据,大数据通过深层分析和价值挖掘可以获得洞察和决策的能力。它具有Volume(海量性)、Value(高价值)、Variety(多样性)三大特征。随着图书馆信息化、智慧化、数字图书馆建设进程的加速,图书馆数据也初步具备了大数据特征。图书馆大数据主要包括资源数据、用户数据、感知数据[1],这些数据量大且增长迅速,仅以资源数据为例,平均每所高校图书馆的馆藏资源记录已接近1500万条,并且每日都在增加。同时图书馆数据类型繁多,既包括了结构化的数字图书馆资源,也包括了非结构化图书馆感知数据以及读者个人数据等,数据类型包括了音频、视频、图片、位置信息、设备使用数据、监控数据等等,这些多类型的数据对图书馆数据处理能力提出了更高要求。图书馆大数据同样具有较高的价值,大数据在图书馆领域可以被运用到读者行为识别与串联、读者信息与服务需求预判、图书馆运行状态描述、资源建设成效评估和文献资源配置优化、图书馆管理助力等[2]。

2 大数据环境下图书馆面临的现实问题

对信息数据的收集、处理、存储、分析、利用,这是大部分现有的信息数据管理均遵循的流程,而大数据环境下图书馆在这一流程中也面临着诸多的困境,例如数据收集、数据存储、数据利用等技术方面的制约,也会受到如知识产权等法律方面的制约,具体如下所述。

2.1 数据源的问题

图书馆作为信息机构,收集、整合和共享资源是其根本任务,然而在实际工作中图书馆数据源的收集上却存在着瓶颈问题,首先是数据源的完整性问题,它要求图书馆不能有漏收和间断情况出现,但由于受到经费、渠道等因素的制约,图书馆并不能保证完整而系统地收集数据。一方面图书馆希望获得更多更好的数据源进行深度挖掘,而另一方面虽然数据开放和共享是大数据时代的核心精神,但当前各个数据库开放程度低,而数据库商对于数据的共享犹豫不决,相关数据库存在着垄断现象,图书馆大数据中心在建设和使用过程中面临着信息孤岛、数据封闭、数据分享动力不足等实际问题,图书馆在与数据库商的谈判中往往处于劣势,付出高昂成本。其次是数据可信度问题,图书馆数据本身往往被视为“可靠数据”,但实际上图书馆数据来源的不可追溯以及以中心存储的方式也使得数据可以被修改,而无法证明其有效性,不利于科学研究。如图书馆书目数据的来源包括联合编目、编目外包等等,书目数据的质量不能得到有效控制,影响了文献的利用水平和读者的时间成本。以上可以看出,在图书馆数据资源开发中,数据完整获取存在困难,底层数据的缺失和混乱,使其数据的利用和分析也就缺乏基础。

2.2 数据存储的问题

大数据环境下,知识的存储是图书馆的基本责任,国内数字图书馆建设的热潮下,数字资源建设速度逐年递增、规模急剧扩大、种类日益丰富,构建了海量的分布式数字资源库群、大规模元数据和关联数据群。而图书馆在数据存储上的痛点主要包括数据量巨大,且不同类型的异构数据的存储方式和数据格式也大相径庭,图书馆传统的单一形式的集中式的计算机系统面对如此庞大的数据量和异构数据,无论是储存能力还是计算能力都难以胜任,而受到技术瓶颈和经费短缺的限制,大多数图书馆要想全面升级换代现有数据库和提高现有存储容量是不可能的。其次图书馆不同类型的数据的使用有着不同性能要求、不同容量要求,这些需求随时会发生改变,需要有效地管理和按需分配存储资源以提高利用率。这给图书馆基础设施带来了极大的压力,由于成本的制约,越来越多的图书馆将应用由高端服务器向中低端硬件构成的大规模计算机集群转换[3]。

2.3 数据安全的问题

图书馆需要存储的大量数据还面临着包括数据丢失、隐私泄露以及黑客攻击等安全问题。一般来说,图书馆存储着大量的读者个人数据,其中不乏身份证号、学号、手机号、电子邮箱、读者借阅信息、读者阅读行为数据等敏感数据,而对这些敏感数据的使用因易侵犯读者个人隐私而存在很大的法律风险。图书馆对用户个人信息的数据监控不能实时进行查看,日常安全防护管理不能有效进行。同时,图书馆存储的数据需要保证数据不被丢失或者遭受攻击造成的数据泄露,而没有访问权限的访问者、第三方甚至黑客可能非法入侵、访问、修改、下载和删除相关信息,存储的数据出现安全风险的几率加大。

2.4 数据知识产权的问题

大数据环境下,图书馆也会面临数据的知识产权问题,例如高校图书馆对本校特色和优势学科,利用网络数据自动抓取工具获取感兴趣的数据资源,自己构建该学科的文献数据库,完成数据的收集,可能会造成对下载作品的复制权、汇编权侵权,对馆藏文献数字化造成的著作权纠纷[4],网络来源的数据也难以确权,造成著作者知识产权保护的困难。此外,图书馆自建数据库将他人作品数字化也会可能会构成知识产权的问题,出于知识产权保护的原因,有些图书馆自建数据库没有完全对外来机构或个人开放,只在限定范围内提供给读者使用,或是根据资源的安全级别和其他使用限制,不同图书馆相互访问数字资源也存在信任壁垒。以上种种原因都说明了图书馆在知识产权上存在的问题。

2.5 数据利用的问题

大数据功能实现的基本方法是通过对数据分析获取所需要的信息,大数据技术发展很快,很多先进的大数据技术,如针对非结构化大数据处理的Hadapt数据库等被开发出来,技术上的障碍主要表现在先进的大数据技术无法全部或部分在图书馆大数据中运用上。大数据分析是一项技术含量很高的工作,要求数据分析人员不仅要懂技术,还要精通图书馆业务,并具有灵活的思维能力和很高的信息意识,但很多图书馆都缺乏这样的复合人才。图书馆受人才、经费和软硬件条件的制约,很难将大数据技术全部引进并应用到大数据管理和数据挖掘中,而这对图书馆大数据功能发挥的影响是非常直接的,技术跟不上很难保证大数据功能得到充分实现。数据种类的多样化给图书馆传统常规分析带来了极大的挑战,大量的异构数据处理与分析需要有新的突破。其次,现有的图书馆之间的数据往往是各自创建和维护,彼此之间并没有共享数据,即便是图书馆联盟之间也是如此,这给数据利用也带来了诸多不便。

3 区块链对图书馆痛点的改进

3.1 区块链概述

区块链(BlockChain)是现代信息社会最前沿的技术之一,也是继大数据、云计算、物联网之后的又一项颠覆性技术。区块链概念是2008年由Satoshi Nakamoto提出的,用于创建“纯粹的点对点的电子货币”,区块链技术的首次成功应用是比特币加密货币,比特币系统记录了谁拥有比特币,流通重每个比特币的支付历史,支持比特币的系统因为同样适用于其他领域而受到关注。从根本上来说,区块链本质上是一个分布式数据库,区块链中每个用户可以在这里读取和写入数据库交易,没有第三方来检查这些交易,区块链有一个内置的共识机制,可以检查交易以确保它们的安全,由于区块链采用一种单向哈希算法,传递的事务得到哈希,基本上,分配了一个标识事务的数字指纹。那些经过验证的事务然后被组合成一个块,该块被分配了自己的哈希值。该哈希成为下一个事务块的第一个哈希,将它们链接在一起。在正常情况下,区块链理论上可以为我们提供一个值得信赖的良好交易数据库,而无需人或机构进行干预以验证这些交易。区块链的主要特征可归纳如下:

①具有分布式结构。经验证的交易信息作为块生成并存储在区块链中,它是分散的数据分发存储系统。此时,数据被复制并存储在分布式节点中,而不是存储在中央服务器中。由于所有节点都具有相同的数据,因此可以在不通过中央服务器的情况下直接在个人之间进行交易。任何人都可以参与系统,参与系统的所有节点共享相同的数据。

②数据难以被篡改。块与前一个块的哈希值链接在一起。如果数据被任意改变,则连接块的哈希值将改变,并且在系统中不被识别。因此,几乎不可能更改数据,因为所有节点都必须立即更改数据。区块链作为可靠的分布式数据存储技术受到了密切关注。区块链是一种用于在不使用中央服务器的情况下将复制数据存储和分发给参与系统的所有节点的技术。几乎不可能对记录进行任何更改,因为区块链会不时地比较每个节点的数据以查找更改的部分。因此,区块链保证了数据的完整性,并且可以保持永久记录。

③智能合约实现了自动化和高效的工作流程。用户可以通过简单创建嵌入在区块链中的脚本来创建应用程序。由于可以在线完成合同,因此它是有效的,因为它可以克服位置限制并用代码替换合同所需的文档和签名。最重要的是,如果满足预先编写的代码的条件,则自动执行合同以便可以快速处理业务。

3.2 区块链对图书馆大数据服务的重塑

区块链与大数据有着天然的关联性,区块链和大数据相互协作、相互推进,可以让大数据更加活跃起来,从数据源、数据存储、数据安全、数据知识产权以及数据利用上改善图书馆大数据服务,如表1所示。

表1 区块链对图书馆数据服务的重塑

3.2.1 区块链对图书馆数据源的改善

区块链技术的分布式结构、数据难以被篡改以及智能合约实现自动化和高效化等特性,使得图书馆可以突破数据收集的瓶颈,在数据来源方面,可信任、安全的区块链使得更多的数据被解放出来,图书馆得以获取更多的数据。其次,区块链技术在时间维度生成、传播的完整链条,使得数据交易可以在不同主体之间直接进行,基于智能合约技术的区块链使得图书馆可以直接从出版机构,甚至从作者处采购相关数据,从而打破原有的必须从数据库商处购买数据的传统方式,并且,也突破了数据库商各自开发所造成的数据孤岛现象。最后,由于区块链的数据是可追溯的,任何一条数据的记录都可以留存在区块链上,一旦数据被写入,区块链对数据的准确性和质量负责,这就使得进入链中的数据质量得到保证,从而改善数据的来源和质量问题,保障数据收集的完整性和可信度。

3.2.2 区块链对图书馆数据存储的改善

区块链本身可以看成是一套由多方参与的、可靠的分布式数据存储系统,其独特之处在于:一是记录行为的多方参与,即各方可参与记录;二是数据存储的多方参与、共同维护,即文件的分散存储。区块链可以通过向人们提供具有货币价值的代币来激励人们托管数据,使得数据的存储比集中式存储或维护自己的服务器的方案更加便宜而得以改善。数据在P2P网络上进行分片、加密、复制和分发。存储数据的节点通常会因在网络上托管数据而获得加密货币补偿。为了确保数据在需要访问时是可用的,并确定节点的正常运行时间,可以要求存储节点提供抵押品,由智能合约来保证和触发,数据不可用时可以要求抵押品。这些节点的分布式特性还具有使分散存储具有高度可扩展性的优势。目前,国外的Storj.io和Sia.tech是两种可用的区块链存储产品。据报道,Sia的分散式云存储成本平均比现有云存储提供商低90%;在Sia上存储1TB文件的成本约为每月两美元,而亚马逊网络服务的S3服务则为23美元。相信今后还会有更多的同类的区块链存储产品。这使得图书馆的部分存储需求可以放到更加具有性价比的区块链存储产品上,从而改善图书馆数据存储的技术和经费瓶颈的限制。

3.2.3 区块链对图书馆数据安全的改善

各类型的数据是图书馆的重要资产之一,区块链在数据安全上有着特有的优势,区块链对数据的安全性表现在以下几个方面:①加密和验证。区块链平台对数据进行加密,这意味着修改数据是一项艰巨的任务,这将为用户提供一种确保文件不受篡改的方式,而无需将整个文件保存在区块链上。由于其分散的性质,始终可以在网络中所有节点上的所有分类账中交叉检查文件签名,并确认它们没有被更改,如果有人确实更改了记录,那么签名将变为无效。②分散式数据保护方式。由于区块链技术本质上是分散的,因此它不依赖于一个中央控制点,使系统更公平、更安全。它是每台拥有完整数据副本的计算机的交易数字分类账。区块链不依赖中央机构与其他用户安全地进行交易,而是利用跨节点网络的创新共识协议,以可靠的方式验证交易和记录数据。由于区块链是信息的分类账,因此存储的信息真实、准确非常重要。由于数据保存在多台计算机上,因此即使一台或两台计算机出现故障,也可以确保数据的高度安全。③黑客难点。区块链是包含交易记录的数字“块”链,每个块都连接到它之前和之后的所有块,尽管黑客可以闯入传统网络并在单个存储库中找到所有数据并对其进行泄漏或破坏,但区块链使这变得难以实施。这使得图书馆所存储的数据不可篡改、丢失以及被攻击,从而保证了图书馆的数据的安全。

3.2.4 区块链对图书馆数据知识产权的改善

区块链还可以被应用到数据知识产权的保护上,这对图书馆来说也可以解决原有模式的瓶颈。区块链是公开显示的可信分类账,使用区块链建设的数据库可以通过将哈希值安全地放在区块链上来保护所有类型的知识产权,例如数据、文本、图像、音乐、视频、代码、3D资产、网站或商业秘密,使得任何数据所有者可以安全共享和出售其作品和敏感信息,通过构建允许用户存储和交易数据的区块链,知识产权所有者和最终消费者都将从中受益,知识产权所有者可以通过防御性出版来保护发明和科学发现,并确保其他使用和消费者在研究过程中能够快速访问此信息。在所有权发生争议时,交易的时间戳可以作为证据在法庭上使用。图书馆完全可以通过区块链拓展资源渠道,建设用户生成知识资源的区块链,从而彻底解决版权问题。

3.2.5 区块链对图书馆数据利用的改善

区块链对图书馆数据利用上也能提供一定的改善,首先是数据的透明和共享使得利用更加方便。以往的数据是封闭的,区块链智能合约的使用允许不同的组织通过由智能合约编写的一组已批准和共享的业务规则来共享数据的控制。允许其控制谁可以通过区块链访问其数据。使得图书馆之间所收集的数据以一种安全可行的方式共享,需要使用数据的一方可以发起数据事务请求,请求数据生成器提供数据使用权,从区块链获得授权的数据集,这就打破了以往的“数据孤岛”的壁垒。其次,区块链有助于创建一个系统来管理被称为分类账的内容块,信息分析是安全且自动化的,通过将数据分析的算法集成到区块链中,使得数据的分析和利用自动执行,Omnilytics就是将区块链与大数据分析相结合的平台,使用人工智能和机器学习来大大提高数据处理速度和质量。最后,区块链还可以用于徽章来促进馆员所需的证书或培训,以大大地增强馆员的素质,从而提高数据的利用。

猜你喜欢
区块数据库图书馆
区块链:一个改变未来的幽灵
区块链:主要角色和衍生应用
《红楼梦》的数字化述评——兼及区块链的启示
一场区块链引发的全民狂欢
图书馆
数据库
数据库
数据库
数据库
去图书馆