区块链分布式存储产业发展专题报告_第1页
区块链分布式存储产业发展专题报告_第2页
区块链分布式存储产业发展专题报告_第3页
区块链分布式存储产业发展专题报告_第4页
区块链分布式存储产业发展专题报告_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 区块链分布式存储产业发展专题报告分布式存储给互联网带来了什么 1 、核心观点1.1 核心逻辑基于分布式存储,将开辟新的存储应用市场。分布式存储采用不同于传统中心化存储的 资源和市场激励方式,不仅仅是充分利用分布式节点资源,而是为个人节点贡献的内容 投入市场交换创造了基础,从而深度挖掘数据内容价值、开辟全新的应用市场,这在传 统的互联网公司控制中心云平台数据的情况下是无法实现的。同时,分布式存储与中心 化存储将不断融合,改变现有的互联网构架和商业模式。1.2 我们区别于市场的观点市场低估了分布式存储为互联网基础构架和商业模式带来的变革与创新空间。市场通常 将分布式存储视为一种新的技术,而忽略了

2、分布式存储带来的个人存储资源、用户内容 贡献价值挖掘和市场交换的潜力。在分布式文件系统的互联网上,个人存储资源可以投 入到市场进行资源交换,为用户贡献的内容在数据确权、安全的基础上进行内容价值提 供市场交换的平台。因此,分布式文件系统将会催生更多的全新的互联网应用,而非传 统互联网的技术迭代。2、 分布式存储将成为下一代互联网基础设施目前,互联网将海量计算机(智能移动)终端连接在一起,使得用户能够访问存储其他 计算机终端上的海量数据。数据的传输与访问,是基于 HTTP(超文本传输协议)为代 表的互联网协议实现的,数据是以计算机(服务器)终端 IP(或者说域名)为地址进行 中心化存储的,具体存储

3、数据的服务器节点就像一个集中式的仓库,要承担巨大流量访 问、数据传输压力。能否将数据文件分散存在网络不同服务器节点上,革新互联网基础 构架?类似 IPFS 这种分布式存储协议逐渐兴起,作为 HTTP 的补充,打造面向全球、点对点的 分布式版本文件系统,能将所有具有相同文件系统的计算设备连接在一起。就 IPFS 而言, 用户寻找的是存储在某地方的内容(这些内容分散在不同的服务器节点),而不是某地址, 就只需确认验证内容的哈希,这样就能过获得速度更快、安全、健壮、持久的网页。我们将探讨分布式存储将如何带来互联网基础构架的变革,将创造怎样的新的应用场景 和市场。2.1 以 IPFS 协议为代表的分布

4、式存储带来新思路IPFS 协议是一个将多种成功的分布式系统思路与区块链相结合的文件存储和内容分发 网络协议,为用户提供统一的可寻址数据存储。IPFS(Inter-Planetary File System)由 Protocol Lab 提出,字面意义是星际文件系统。其本质是一个 P2P 的分布式存储系统, 将所有具有相同文件系统的计算设备连接在一起,目标是补充甚至替代超文本传输协议 HTTP。与现有 Web 协议不同的是,对于一个存放在 IPFS 网络的文件资源,不是用基于 域名的地址去访问,而是通过基于文件内容生成的唯一编码去访问,不需要验证发送者 的身份,只需要验证内容的哈希,可以让网页的

5、速度更快、更安全。IPFS 的网络上运行着一条区块链,即用来存储互联网文件的哈希值表,每次有网络访问,即要在链上查询 该内容(文件)的地址。IPFS 协议最大的特色是系统的耦合及设计的综合性,其整合的 分布式技术包括 BitTorrent 协议、版本控制系统 Git、MerkelDAG、分布式哈希表 DHT 和自认证文件系统 SFS。因此在 IPFS 系统中,人人都可以作为存储文件的服务器。IPFS 协议借鉴了 BitTorrent 协议诸多优点,并进行了创新,打造持久且分布式存储和 共享文件的网络传输协议。BitTorrent(简称 BT)是一种广泛应用的内容分发协议,特 点是充分利用用户的

6、上载带宽,使得下载用户越多,下载速度越快。在中心化存储的 FTP、 HTTP 协议中,每个用户下载所需文件,各个用户之间没有交互。如 HTTP,每次当同时 访问和下载文件的用户过多时,由于服务器处理能力和带宽的限制,下载速度会急剧下 降,部分用户甚至会无法访问服务器。而 BT 协议下,分配器或文件持有者将文件发送 给一名用户,再由这名用户转发给其它用户,用户之间相互转发自己所拥有的文件部分, 直到每个用户的下载全部完成。这种方法可以使下载服务器同时处理多个大体积文件的 下载请求,而无须占用大量带宽,因此常用于大型文档和自由软件的发布以降低服务器 负担。IPFS团队对BitTorrent进行了创

7、新,增加了信用和帐单体系来激励每个节点分享数据, 称为 BitSwap 协议。用户在 BitSwap 里分享数据会增加信用分,从其他节点接受数据 则会降低信用分。如果用户只去检索数据而不分享数据,信用分就会越来越低,而被其 它节点忽略。类似于于互联网的七层协议模型,IPFS 构架分为八层子协议栈。IPFS 作为分布式存储 协议,核心功能包括:文件内容多人协调和版本可回溯、不可篡改,DHT 管理带来的离 散性、伸缩性和良好的容错性,以及基于 IPNS 的文件域名系统。内容版本方面,IPFS 使用分布式版本控制系统 Git,支持多人协同工作,记录每次更新 并标记不同的版本号,一旦发生问题,可以将文

8、件回溯到之前的任何一个版本。本地版 本控制系统和集中化的版本控制系统都是由单一服务器保存所有文件的修订版本,一旦 服务器发生故障,则面临丢失所有数据的风险。Git 是分布式版本控制系统(DVCS)的 一种,客户端除了保存最新版本的文件,还把代码仓库和历史记录都完整地镜像下来。 这样,任何一处协同工作的服务器发生故障,都可以用任何一个本地仓库进行恢复。Git 还可以比较文件变化细节,查出谁进行了什么修改,从而可以在发生问题时快速准确的 找出原因。更进一步,许多 DVCS 系统都可以指定和若干不同的远端代码仓库进行交互, 用户可以在同一个项目中和不同工作小组的人相互协作,根据需要设定不同的协作流程

9、, 而这在以前的系统中是无法实现的。IPFS 团队对 Git 数据结构进行改造,在 Merkle Tree 的基础上得到了 Merkel DAG, 拥有内容寻址、防篡改、去重三大功能。IPFS 将文件划分成单个大小不超过 256kB 的数 据块,每个数据块拥有唯一的哈希值,并构造一个 Merkel DAG 将所有文件碎片组织起 来。Merkel DAG 是实现版本化文件系统的一种核心数据结构,比 Merkle Tree 的限制更 少,但是保留了其两点精髓:1)父节点哈希由子节点哈希决定,即父节点哈希由子节点 哈希拼接的字符串再次哈希而成;2)父节点中包含指向子节点的信息。任何一个下层节 点的改

10、动都将导致上层节点哈希值的变动,最终根节点的哈希值也将变动,因此 Merkle DAG 的三大功能得以实现:1)内容寻址:使用多重哈希来唯一识别一个数据块的内容; 2)防篡改:数据接受方只需一段 Merkle 路径上的哈希值,就可以检查数据是否被篡改; 3)去重:内容相同的数据块的哈希是相同的,可据此删除重复数据,节省存储空间。IPFS 的路由功能采用分布式哈希列表 DHT,帮助客户节点快速找到所需数据所在的节 点,具有离散性、伸缩性和良好的容错性。DHT 是一种分布式哈希表,通过存储的键值 对提供查询服务:键值对存储在 DHT 中,节点可以检索给定键对应的值,键值对的映射 由网络中所有的节点

11、维护。在不需要服务器的情况下,每个节点负责一小部分路由和数 据存储,从而实现整个 DHT 网络的寻址和存储。即使有节点加入或离开,对整个网络的 影响也很小,因此 DHT 可以扩展到非常庞大的节点(上千万)。DHT 具有以下性质:1) 离散型:构成系统的节点之间都是对等的,没有中央控制机制进行协调;2)伸缩性:不 论系统有多少节点,都要求高效工作;3)容错性:不断有节点加入和离开,不影响整个 系统的工作。IPNS 是 IPFS 的文件域名系统,像 HTTP 系统的域名(网址)一样,使用户搜索文件 时只需查询文件名,而不受文件内容变更的影响。IPFS 中文件的哈希值完全取决于文件 内容,不仅难以记

12、忆,一旦修改文件内容其哈希值也会发生改变,每次更新文件后都需 更新引用的哈希值,十分不便。为了能够在不破坏其链接的情况下更改文件内容,IPFS 团队使用了一种标记更新网址哈希的域名系统,即星际名称系统 IPNS。IPNS 是一个去 中心化的命名系统,使用类似哈希的地址安全地指向可变内容,每个文件都可以被协作 命名为易读的名字,通过搜索就可以找到文件。自认证文件系统 SFS 对文件进行命名, 同时提供了 IPNS 以解决传播问题,很好地解决了当前用户不习惯输入哈希值访问文件 的问题,在现有的互联网系统和 IPFS 系统间搭建了一个桥梁。简单的说,基于 IPFS 协议存储的文件是打散成许多可验证的

13、碎片文件(数据通过哈希值 编码进行唯一标记),分布在网络中,访问者通过内容编码找到这些文件的位臵后进行下载,由于是分散存储(同一个内容可能多台服务器存储),不必须要求所有节点服务器都 必须在线,以此 IPFS 希望达到创建持久且分布式存储和共享文件的网络传输协议的目标。 而 HTTP 为代表传统的中心化存储差别十分明显HTTP 的文件是中心化的方式存储, 通过文件的域名进行访问,且域名文件服务器需要保持在线,否则将无法访问。2.2 分布式存储将带来互联网基础架构变革随着互联网与通信、人工智能、物联网、云计算/边缘计算等技术的发展,万事万物都可 以被记录并用数据表达,数据从单一内部小数据向多元动

14、态大数据转变。据 IDC 预测, 全球数据圈的规模将由 2018 年的 33ZB 增长至 2025 年的 175ZB,且文本、图片、视频 等非结构化数据将拥有更高的增长率,在整体数据圈的占比也将持续增加。因此,需要 更先进的互联网基础架构来对数据进行采集、存储和利用。目前,中心化互联网架构下的主要问题集中在安全性、时效性和集中化三个方面,而以 IPFS 为代表的分布式存储协议将通过解决以下问题带来互联网构架的变革:传统的 HTTP 协议使用非对称架构实现网络的高并发,但是中心服务器难以负担过大的 传输数据量,影响用户体验,云计算厂商和电信运营商需要为此付出较大的设备成本。 IPFS 协议解决了

15、热点文件的存储问题,但一个文件只有被不断访问才能确保其存储有效 性,冷门且具有价值的文件容易丢失,主要原因是激励层缺失导致的节点不稳定性。目 前,一种对标 IPFS 的分布式技术 HTTPX(网格裂变系统)也在悄然崛起,提供去中心 化的 CDN 服务、存储服务和 GPU 算力服务。HTTPX 兼顾了 HTTP 协议的优势,对路由 和传输逻辑进行重新定义,采用对称架构,将网络的分裂做到了前所未有的程度。HTTPX 是一种更轻量化、更灵活、性能更加完善的 P2P 技术。HTTPX 的技术架构设计 属于网格设计,每一个节点既是独立个体也是全局功能体,可以支持存储、计算和传输 数据。用户连接最近的节点

16、接入 HTTPX 网络,该节点将寻址找到临近节点,发现百万级 别的信息,定位资源存储节点,并通过最优网络传输路径回传到用户临近节点。HTTPX 和 IPFS 相比具有明显优势,有望将云计算服务推向新的高峰:1)高性能:网格系统设计大幅缩短用户到节点的物理距离和网络距离,实际测试中 TTL 下降 60%,提供更低延时的优质服务响应;2)低成本:为产业链服务,定价较低;硬件兼容性高,可部署到家庭、社区、办公场 所;3)兼容性强:兼容 HTTP、HTTPS 协议,同时提供高级 HTTPX 开源代码接入模式;4)实力雄厚:采用 P2P 思想,CDN 支撑能力出众;提供存储、GPU 资源的挖矿模式, 真

17、正做到一机多用。5)快速发布:带宽需求大,发布周期短,资源提供方不用担心项目延期带来的资本周 转问题。3、 分布式存储开辟互联网基础设施产业新格局3.1 分布式存储开发新的存储市场全球数据量的爆发式增长推动云存储市场的快速发展。云存储是一种以数据存储和管理 为核心的云计算服务,指通过集群应用、网络技术或分布式文件系统等,将网络中大量 不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访 问功能的系统。换句话说,云存储就是将资源放到云上供人存取,用户可以在任何时间、 任何地点,通过可连网装臵连接到云上方便地存取数据。根据云存储服务性质的不同,可以分为公有云、私有云和混合云

18、。其中,公有云面向包 括个人、家庭、企业在内的多种客户;私有云由企业或组织使用及维护,用户在个性化 等方面有更多的控制权;混合云将公有云和私有云进行混合和匹配,达成相对高性价比 解决方案。据 IDC 预测,2025 年中国数据规模将达到 48.6ZB,其中超过 80%为非结构 化数据,且由于发展滞后北美 4-5 年,中国云市场增速高于全球水平。2018 年中国云计 算整体市场规模达 962.8 亿元,增速为 39.2%。其中,公有云市场规模达到 437 亿元, 增速为 65.2%,预计接下来三年内仍将快速增长。分布式存储将开辟新的应用场景,充分激发个人存储资源和内容贡献的市场价值,创新 互联网

19、商业模式。随着分布式存储技术和生态的发展,将充分激发个人存储资源市场的资源配臵,激励更多的个人存储资源进入市场即个人可以将闲臵的存储资源投入到 分布式存储系统进行市场交换,这在传统互联网巨头控制中心云模式下是无法实现的。 更重要的是,个人在互联网上的内容共享将可以安全地进行发布、交换和价值共享。如 D.Tube 是一个加密分布式视频平台,建立在 STEEM 区块链和 IPFS 点对点网络之上,目 标是成为 YouTube 的替代品,允许用户在 IPFS 基础上观看或上传视频,并在不可变的 STEEM 区块链上进行分享或评论,同时赚取加密通证。D.Tube 的所有数据都是公开的, 任何有互联网连

20、接的人都可以对其进行分析,无需广告即可运行,提供了最佳的用户体 验。可以这样说,几乎任何现有的互联网应用都可以迁移到分布式文件系统上,获得新 的体验和创新商业模式,这里面的想象空间是无限的。边缘云计算和小型数据中心成为行业趋势,分布式存储有望率先打开个人云存储市场空 间。2019 年 11 月,手机上网用户规模达 13.1 亿,个人网盘月度活跃用户超 1 亿,个人 存储市场仍有庞大的潜在用户基础和可利用存储空间。面对数据规模的高速增长,边缘 云计算和分布式存储成为行业趋势,利用分布式文件系统将个人闲臵的存储资源投入到 网络中,进行市场交换,将成为分布式存储率先进入的领域之一,目前已有这方面的初

21、 创应用。3.2 分布式存储已和传统存储不断融合应用在分布式存储的实际应用中无法避免一定程度的中心化,因此常和传统存储方案融合应 用。分布式存储会带来系统性能和管理成本的问题,因此现有的存储解决方案通常将分 布式技术与传统存储方案相结合:一方面,对数据进行分布式备份保存,使数据更接近 边缘侧,同时避免数据的物理损坏和人为篡改;另一方面,通过一定程度的集中存储和 集中管理来降低系统运维成本,提高服务质量。4、 分布式存储面临的技术瓶颈与发展机遇4.1 数据价值分层是分布式存储经济激励的关键不同数据的市场价值是不同的,不同个体对相同数据的价值判断也并不一致。而存储节点并不知道数据的内容、难以评判数

22、据价值的情况下,如何有效将存储激励与数据市场 价值做到优化配臵?数据价值分层是甄别数据价值以及实现有效激励的关键。分布式的节点负责存储数据碎 片,但并不知道数据内容以及数据的价值,也就是说,矿工的工作量衡量如果不能考虑 数据价值的因素,就很难实现更优化的市场激励调节。以 Filecoin 采用的时空证明(PoST) 机制为例,矿工节点的存储工作量衡量,与文件碎片内容的数据价值无关。Filecoin 目前 并没有对数据价值进行具体分层,只做了垃圾数据和可验证数据的区分。目前现存的共 识机制,均仅限于矿工的存储工作量衡量,而无法代表数据价值。矿工节点的物理损毁、 网络服务质量差的成本是以经济激励来

23、衡量,但因此造成的用户数据服务质量和数据价 值损失并不对等。简单说,矿工最多损失的是系统经济激励,而用户损失的可能是数据 的损毁或极差业务服务质量毕竟对于矿工来说,数据的价值是的核心衡量因素是存 储容量。应考虑底层构架和应用层结合的方式解决数据分层问题。解决数据价值分层,对分布式 存储的经济激励十分关键。在基础构架层面难以单独解决,必须结合应用层来实现。结 合应用场景,在应用层实现数据的分层,从而实现矿工节点的分层;如,对于一些服务 质量、内容价值较高的数据,则可以圈定一个激励价格较高的矿工市场,同时对矿工节 点的硬件配臵、服务质量做更高的要求。这类应用在私有网络、局域网更方便实现。针 对不同

24、的应用场景,采用不同的应用层策略。也就是说,广泛而统一的分布式存储网络 很难满足各个场景和用户个体的需求,针对不同场景采取不同的应用层解决方案来完成 数据价值分层是可行的方案。4.2I/O 性能瓶颈需要底层和应用层联合优化解决分布式存储会带来系统 I/O 性能问题。和传统存储系统相比,分布式存储需要将文件打 碎、多节点备份保存,在查询使用数据时需要进行大量碎片文件的调度工作,工程量极 大。另外,当文件较大时,用于内容寻址的哈希表也会很大,寻址时间也会更长。更为 关键的是,矿工节点的网络资源状况对网络 I/O 性能的影响也存在诸多不确定性,尤其 是那些流媒体数据,若某些数据碎片的节点网络状况较差

25、,则会影响整个数据文件的访 问服务质量。中心化存储下,通过 CDN 等手段可以解决这些问题,拥有较好的客户体验。 因此,现有的分布式存储系统的 I/O 效率是技术新能方面首要考虑的问题之一,从代码 实现到协议层都有很大的优化空间,还需要进一步突破。实验测试显示 IPFS 的 I/O 性能还有待进一步改善。由于采用分布式存储,文件的读取 受到节点自身及全网其它节点的影响,主要包括:节点数量和稳定性、带宽、网络(地理)位臵等。来自复旦大学的研究人员对 IPFS 的 I/O 性能做了一项实验,并和 HTTP 进 行对比,以验证 IPFS 网络处理请求时的延迟和吞吐量表现。远程读取操作的平均延迟方 面

26、,当请求是小的请求时,在 1k-4k 间,HTTP 延迟比 IPFS 低。遇到 16-256k 之间的文 件,IPFS 的延迟状况由于 HTTP。当处理大文件请求时,IPFS 在延迟上的表现不尽人意, 尤其是请求大小朝贡 16MB 时,IPFS 的处理时间接近了 20 秒。超过 64MB 时,延迟更 是可以达到 70 秒,是 HTTP(10 秒)的 7 倍。当然,这是实验室测试条件下的结果, 在实际应用过程中,尚未有具有说服性的案例;无论如何,IPFS 等分布式存储方案若想 替代 HTTP 等中心化方式,还有很多底层技术构架、协议和应用生态方面的改进与探索。分布式网络的传输效率还非常依赖网络规模,激励机制有待完善。P2P 的文件交互传输 协议采用的是打散文件、多点续传的方式,传输效率十分依赖分布式网络中的节点数量。因此,需要完善激励机制,使节点用户在自己无下载需求时仍积极接入网络,为其他用 户提供存储服务。当去中心化网络中在线的节点数比较稳定之后,传输速度会更快。从 长远来看,协调好多点续传以后的去中心化存储系统拥有十万甚至百万级的节点数量, 系统 I/O 效率才有望比拟当下中心化+CDN 存储的系统效率。4.3 服务质量保障去中心化系统的服务质量还有很大的优化空间。分布式存储市场上现有的落地应用不多, 普遍面临节点数量规模不足、应用层开发不够完善等问题,用户使用体验无法和成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论