随着物联网的发展,有一个领域正在逐步发生变化,那就是数据存储市场。万物互联产生的数据正在以指数级增长,如何存储和管理这些数据,对于每家企业而言,都是成功的关键要素。市场研究机构IDC的数据显示,到2025年,全球将有416亿台互联设备,其中75%将连接到物联网平台。届时由互联设备生成的数据,将从2019年的13.6 ZB,增长到79.4 ZB。ZB是什么概念?举个例子,如果把1ZB的文件往1TB的硬盘里装,大概需要10亿块硬盘,连起来足够绕地球两圈半。尤其是视频数据的存储需求将会飞速膨胀,以亚太地区为例,2025年来自物联网设备的视频数据规模将达到26680 EB,以5年复合年增长率23.2%的速度增长。在视频数据之外,来自工业互联网的数据也将占据较大份额。如此大量的数据如何被可靠、安全、快速、高性价比的存储,是很多企业正在探索的方向。
随着区块链技术的发展,去中心化存储逐步升温。最近,京东云、华为云率先开始了新的尝试。在智能园区场景中,某地的华为云服务器集群将引入去中心化存储技术IPFS搭建,拟定投入4亿元人民币。京东智联云也推出了无线宝智能终端,并将其定位于家庭场景中,去中心化存储、区块链和数字化资产管理的基础设施。下面,我们就来讲述去中心化存储的最新进展:什么是去中心化存储?值得关注的去中心化存储实现技术有哪些?哪些去中心化存储的误区需要避免?
一、什么是去中心化存储
一切可以去中心化的,都将去中心化。
以存储作为服务的商业模式由来已久,亚马逊在2006年开始推出Amazon Web Services(AWS),将自己的服务器和存储空间租借给用户,降低了开发者创建并管理服务器基础设施的开销。
在2013~2017年这5年间,全球云存储市场维持20%以上的高复合增速,而国内云存储市场的增速维持在85%~110%。根据多家机构的预测,预计2022年全球云存储市场规模将达到1000亿美元以上。
随着时间的演变,中心化的储存服务虽然在不断地改善功能,价格也愈加亲民,但近年来也遇到了瓶颈,面临频繁的数据泄露、服务的限制性、运营商停运风险等问题。于是,去中心化存储这一概念逐渐兴起。
需要注意的是,中心化或去中心化存储,并不仅仅是描述一种技术,更多的是对应一种存储的商业模式。
存储市场的商业组织形式,可以分为中心化存储和去中心化存储:中心化存储是将数据完整地存储在中心化机构开发的服务器上,设备服务器与存储供应者是—对一的关系;去中心化存储则是将数据切片分散存储在多个独立的存储供应商上,设备服务器与存储供应者是—对多的关系。
去中心化存储是一种通过分布式存储技术,将文件或文件集分片,存储在不同供应方提供的磁盘空间上的存储商业模式。
它的价值主张是强隐私保护、低成本、数据冗余备份、开源的应用程序和算法,只有实现了以上的全部主张,才可能大范围代替现有的中心化存储方案。
你也许看出来了,去中心化存储就是偏偏要在一个更加分散、更加不安全、更加不可信的网络环境中,满足更加安全、更加可信、更加可控的存储需求。它有利于规避单点故障和实现数据的价值传递。
从实现方式上来说,中心化存储系统的大型文件上传后,文件以整体或切片的形式存储在单一或分布式的网络或服务器上,需要极其高效地开发、运营团队来维持其运转。
去中心化存储必须使用分布式存储技术,初始种子节点(最初拥有完整文件资源的节点)在将大型文件进行切片处理后,使其产生多个子块。每个子块分别存储在不同的节点上,每个一般节点下载单个子块,上传到去中心化存储网络中,让其他节点下载后,便成为这个子块的种子节点。如此循环往复,不断扩大该文件在共享网络中的节点数。
为了实现去中心化的商业模式,去中心化存储的实现必然分为两部分:存储技术和激励机制。
存储技术相对比较成熟,有多种分布式存储方案可供选择。激励机制由区块链技术提供,在去中心化存储中,网络规模的大小对于存储性能的影响很大。如何让大家愿意贡献存储、网络资源?如何保证这些存储资源稳定、可靠地运行?这些都需要通过区块链技术实现。
去中心化存储不同于中心化存储的特点主要有3个:
(1)算法开源:去中心化存储平台或网络的算法和代码必须是开源的。
B2C端的存储服务已经被中心化存储抢占了大多数市场,在开源项目初期进入门槛较高,大多数集中于B2B端,只有代码开源才能让社区和应用的完善形成有效的正反馈效应。如果算法和代码不公开透明,则存储网络就会变相的中心化。
(2)计费优势:去中心化存储的成功要素之一,就是计费优势。
由于中心化存储系统和去中心化存储系统的存储方式和检索方式的差异,导致二者在服务费用定价上存在差异。
中心化存储系统的收费标准是按月度、季度或年度为单位,根据存储数据文件的大小收取存储费用,并且对存储费用实施一定的促销策略(免费试用期等)。
由于大多数去中心化存储网络平台处于项目运营初期,大部分产品处于开发阶段或MVP阶段,因此需要以低廉的存储费用来吸引用户流量。但是,相比较中心化的相对固定的服务费用,除了存储费用之外,去中心化存储还有检索费用、手续费和交易費。因此,去中心化存储仅仅适合冷数据存储,在检索数据量较少的情况下,其费用比中心化存储低得多。而对于热数据,因检索频繁导致其成本可能高于中心化存储的费用。
(3)安全和隐私保护:增强安全性和用户隐私保护,是去中心化存储的重要价值主张。
去中心化存储的优势主要体现在两个方面:首先,去中心化存储规避了单点故障和部分节点断网或不可用等风险;其次,去中心化存储使用户的具体存储内容不因主观原因而泄露。
由于去中心化存储的共享网络为P2P网络,而中心化存储的共享网络为以服务供应商为中心的中心化网络,从而导致前者不容易受到单点故障和服务器断网的影响,也不容易受到黑客的攻击。
同时,去中心化存储通过零知识证明和非对称加密等技术,将哈希加密的字符串放在区块的最底层,从而将存储内容的分片实现加密处理,其他任何节点包括运营商都无法看到存储的具体内容。
就现状而言,去中心化存储处于起步阶段,它与中心化存储在存储空间来源、带宽来源、安全性、使用方式、行业发展状态等多个维度存在差异,目前它的规模和性能远远不如中心化存储系统。
二、值得关注的去中心化存储实现技术有哪些
去中心化存储的实现技术很多,质量参差不齐,典型的包括BitTorrent、IPFS、Lambda、Sia、Swarm、Storj、Chronicle、MaidSafe等十余个,它们最早可以追溯到点对点文件存储系统。我们就从大家最熟悉的技术讲起。
1.BitTorrent
最早点对点的文件存储系统作为中心化云服务器的替代品出现,并且还没有中心化的风险。在亚马逊云存储服务出现的5年前,BitTorrent(简称BT)已经可以让文件在用户之间有效传输。
说到BT下载,相信很多人都知道并且用过。因为很多电影都是通过BT种子进行传播的。在2003年的时候,软件工程师Bram Cohen发明BitTorrent协议,也就是我们常说的BT下载。
BT主要是采用高效的软件分发系统和P2P技术共享大型的文件,然后重新分配節点给每个用户让他们提供上传服务。通过这个技术,不仅让用户享受了更快的下载速度,也让运营者大大节省了服务器的带宽成本。
虽然BitTorrent是最早的去中心化存储项目,但因其缺乏完善的激励机制,因而只能称之为去中心化存储模式的雏形。
2.IPFS
IPFS全称为InterPlanetary File System,中文为“星际文件系统”,旨在创建持久且分布式存储和共享文件的网络传输协议。
IPFS想在BitTorrent的基础上,打造真正的点对点、去中心化的文件存储系统。在IPFS中,所有的文件都会集中起来,其中会有通用的语言,并且所有的用户都会在整个系统中共享,这可以让他们寻找并且互相转移文件。
这里特别说明一下,IPFS不仅仅是存储,更重要的是它想颠覆HTTP。IPFS本质上是一个底层的开源文件传输协议,旨在对基于HTTP URL检索协议进行补充甚至替代。
IPFS由协议实验室(Protocol Labs)于2015年1月发布。协议实验室的创始人和首席执行官名为JuanBenet。他2012年毕业于斯坦福大学,获得计算机科学硕士学位,曾参与YCombinator计划。
据IPFS官方消息称,IPFS所应用的场景已高达100多个。不仅是京东、华为在布局IPFS,微软、谷歌、火狐等也加入了IPFS应用,从这方面可以显示出IPFS的发展迅速。未来,无论文字、图片,还是视频,各种用户想要存储的内容,都有可能通过IPFS来实现。
3.Lambda
Lambda是一个区块链数据存储的基础设施,通过对Lambda Chain和Lambda DB的逻辑解耦和分别实现,以及去中心化应用,提供可无限扩展的数据存储能力,并实现了多链数据协同存储、跨链数据管理、数据隐私保护、数据持有性证明、分布式智能计算等服务。
Lambda本质上是IPFS项目的延伸与扩展,并且通过引入创新机制降低了其使用门槛,但是仍然不利于家庭用户参与到去中心化存储中来。
4.Storj
Storj是一个基于以太坊的分布式云存储协议,由盈利性公司Stroj Labs开发。Storj的核心技术是一个可执行的、点对点存储合约,即两个人在不认识对方的情况下,同意使用定量的存储来获得收益。
Storj Labs公司的营利性方面是:它向数千名用户出租网络,并为网络使用收费。这是一个稍微集中的模式,与Dropbox和Google Drive等竞争。他们还与Microsoft Azure建立了合作伙伴关系,以部署他们的一些开发工具。
5.Swarm
Swarm也基于以太坊,它提供分布式的存储平台和内容分发服务,参与者能够有效地汇集存储和带宽资源,以便向网络所有的参与者提供服务,同时作为回报,他们会得到一部分以太坊奖励。
从终端角度来看,在Swarm中除了_上传操作不是发生在特定服务器上外,Swarm与互联网并没有多少不同。
6.Sia
Sia是一个基于区块链的去中心化云存储平台,由Nebulous公司负责开发与运营。Sia将数据拆分、加密,然后通过其去中心化的网络对拆分和加密的数据进行分发。
Sia通过允许用户“出租”他们未使用的硬盘空间,这样能够显著降低用户云存储的开销成本。因此,很多人把Sia称为硬盘驱动的Airbnb。Sia是完全私密的,没有私钥无法查看数据文件。
7.Chronicle
Chronicle于2019年9月公布,是由IOTA基金会推出全新数据存储解决方案,该方案允许其节点所有者轻松存储所有交易并可保持对数据的不间断访问。
IOTA是为物联网而设计的一个革命性的新型交易结算和数据转移层。它基于新型的分布式账本Tangle(缠结)。Chronicle允许节点所有者存储Tangle的所有数据,并在需要时快速访问这些数据。最近IOTA基金会发布了去中心化存储框架Chronicle的Alpha版本,对其部分功能进行了改进,将可以在Tangle上色建更多的工业用例。
8.MaidSafe
MaidSafe的目标是用完全去中心化架构来取代互联网昂贵的数据中心,建立一个全球范围内任何人都可以访问的去中心化存储平台。
Maidsafe的工作机制有点像蚂蚁网络,单个蚂蚁是非常脆弱的,当与其他的蚂蚁合作的时候,就能变成特定的蚁群,从而拿下更多、更大的猎物。
在Maidsafe中,每个用户都是网络参与的一分子,需要贡献出一部分的硬盘空间,无须中间服务器和数据中心网络。可以说它的目标更大,预想创造一个完全去中心化,去依赖传统网络的分布式存储系统。
三、有哪些去中心化存储的误区需要避免
去中心化存储的商业模式想要成立,首先要在价值主张和性价比上超越中心化的存储方式。其次,还应注意区分去中心化存储与分布式存储。
误区1:没有区分IPFS与Filecoin
Filecoin近期的火热程度,堪称2020年以来之最。虽然Filecoin经常与IPFS同时出现,但它们是两个项目。IPFS解决技术问题、标准问题,Filecoin解決关系问题、激励问题。
IPFS自2015年1月发布至今已平稳运行多年,目前IPFS上的应用已有数百个,全球节点数百万个。谷歌、京东等企业也都开始使用IPFS技术。
Filecoin是一个区块链项目,自宣布于2018年6月上线主网至今,已经历数次延期,并且性能一直被质疑。
华为云和京东云投资的都是IPFS相关技术,而合作中对Filecoin并没有提及。引文章《Filecoin大空头:易崩盘、估值高、政策风险大》中的观点,华为云、京东云对IPFS的应用,不仅对Filecoin不是利好,反而会吞噬Filecoin的市场。
相对于Filecoin迟迟未上线的主网,京东有三大优势:电商商城流量、京东金豆隔绝风险、技术成本优势。
Filecoin能做的,IT和互联网公司们已经开始做了,而这些巨头们不能做的,才是Filecoin可以施展拳脚的地方,但其中满是风险和陷阱,尤其是政策风险。
从估值上来看,Filecoin大幅偏高。
2019年第4季度,百度云在国内云市场占比为8.8%。最近,高盛给整个百度云板块(小度智能音响+百度云)400亿人民币的估值。而Filecoin在既没有数据,也没有内容的情况下,市值已达2000亿元。Filecoin的高估值,显然不利于去中心化存储的商业模式成立。
误区2:没有区分去中心化存储与分布式存储
去中心化存储更多的是描述一种商业模式,分布式存储是去中心化存储的技术实现方式。
分布式存储技术采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,解决了传统集中式存储系统中单存储服务器的瓶颈问题,并提高了系统的可靠性、可用性和扩展性。
无论是中心化还是非中心化存储,二者的技术实现方式通常会以分布式存储来体现。
因为设备服务器与存储供应者是一对多的关系,即一个存储供应商可以控制多个存储节点,所以去中心化存储一定会使用分布式存储技术。
但是,中心化存储可以使用分布式存储技术,也可以不使用分布式存储技术。
四、总结
总体而言,中心化存储占据市场主导地位,处于成熟期;去中心化存储仍然处于初创期,技术架构和体系尚未成熟。
存储市场总收入规模达到了130亿美元以上,中心化存储在2019年上半年已经形成了寡头垄断的竞争格局,以Dell Technology、H3C、IBM、联想、华为等巨头为主,并且前10家中心化存储公司的市场份额达到62.9%。
而BitTorrent、IPFS等去中心化存储项目部分仍在开发阶段,而且进度较为缓慢。即便是开发完成的Sia和Storj,其存储空间总量仅为2PB,实际使用空间仅为全网总存储空间的40%不到,与中心化存储的收入相去甚远。