google云计算原理2.ppt_第1页
google云计算原理2.ppt_第2页
google云计算原理2.ppt_第3页
google云计算原理2.ppt_第4页
google云计算原理2.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Google在线文档,Google云计算应用场景,1,Google地图,Google云计算应用场景,2,Google邮件,Google云计算应用场景,3,Google日历,Google云计算应用场景,4,Google Wave 信息分享、协作、发布平台,Google云计算应用场景,5,隶属于PaaS的Google云计算 属于部署在云端的应用执行环境 支持Python和Java两种语言 通过SDK提供Google的各种服务,如图形、MAIL和数据存储等 用户可快速、廉价(可免费使用限定的流量和存储)地部署自己开发的应用(如创新的网站、游戏等),Google云计算应用场景,6,应用场景特点,Goo

2、gle云计算应用场景,应用(功能实现)在云端 存储在云端 计算在云端,7,Google云计算平台技术架构 文件存储,Google Distributed File System,GFS 并行数据处理MapReduce 分布式锁Chubby 结构化数据表BigTable,Google如何实现?,8,Google云计算原理,分布式文件系统GFS Google Distributed File System,9,什么是文件系统? FAT, FAT32, NTFS, EXT, 用于持久地存储数据的系统 通常覆盖在底层的物理存储介质上 硬盘、CD、磁带等 数据组织的基本单元:文件 具有文件名(1.txt

3、) 通常支持层次化嵌套(目录结构),文件系统基础,10,文件路径 文件与目录的结合,用于定位文件 绝对路径,/home/aaron/foo.txt 相对路径,docs/someFile.doc 规范路径 定位文件的最短绝对路径 /home/aaron/foo.txt, /home/./home/aaron/./foo.txt 所有规范路径的集合构成了文件系统的目录结构,文件系统基础,11,文件系统的存储内容 主要内容:用户的实际数据 元数据:驱动器元数据与文件元数据,文件系统基础,12,文件分块存储,文件系统基础,13,文件系统设计的考虑因素 最小存储单元 较小可减少浪费空间,较大则可提高文件

4、顺序读取速度(随机访问呢?) 文件系统的设计目标是提高访问速度还是提高使用率? 文件系统的安全性 多用户环境下的文件安全 读/写权限分配 文件附带访问控制列表(ACL) 文件系统缓存 提高文件系统读写效率,文件系统基础,14,Google需要一个支持海量存储的文件系统 购置昂贵的分布式文件系统与硬件?,Google设计GFS的动机,是否可以在一堆廉价且不可靠的硬件上构建可靠的分布式文件系统?,15,为什么不使用当时现存的文件系统? Google所面临的问题与众不同 不同的工作负载,不同的设计优先级(廉价、不可靠的硬件) 需要设计与Google应用和负载相符的文件系统,Google设计GFS的动

5、机,16,GFS的假设与目标,硬件出错是正常而非异常 系统应当由大量廉价、易损的硬件组成 必须保持文件系统整体的可靠性 主要负载是流数据读写 主要用于程序处理批量数据,而非与用户的交互或随机读写 数据写主要是“追加写”,“插入写”非常少 需要存储大尺寸的文件 存储的文件尺寸可能是GB或TB量级,而且应当能支持存储成千上万的大尺寸文件,17,将文件划分为若干块(Chunk)存储 每个块固定大小(64M) 通过冗余来提高可靠性 每个数据块至少在3个数据块服务器上冗余 数据块损坏概率? 通过单个master来协调数据访问、元数据存储 结构简单,容易保持元数据一致性 无缓存 Why?,GFS的设计思路

6、,18,单一Master, 若干ChunkServer,GFS的架构,1、文件存储方式 2、数据读写流程,GFS的架构有什么问题吗?,19,20,分布式系统设计告诉我们: 这是单点故障 这是性能瓶颈 GFS的解决办法 单点故障问题,单一Master问题,采用多个(如3个)影子Master节点进行热备,一旦主节点损坏,立刻选举一个新的主节点服务,21,GFS的解决办法 性能瓶颈问题,单一Master问题,尽可能减少数据存取中Master的参与程度,不使用Master读取数据,仅用于保存元数据,客户端缓存元数据,采用大尺寸的数据块(64M),数据修改顺序交由Primary Chunk Server

7、完成,Simple, and good enough!,22,存储元数据 文件系统目录管理与加锁 与ChunkServer进行周期性通信 发送指令,搜集状态,跟踪数据块的完好性 数据块创建、复制及负载均衡 对ChunkServer的空间使用和访问速度进行负载均衡,平滑数据存储和访问请求的负载 对数据块进行复制、分散到ChunkServer上 一旦数据块冗余数小于最低数,就发起复制操作,Master节点的任务,23,垃圾回收 在日志中记录删除操作,并将文件改名隐藏 缓慢地回收隐藏文件 与传统文件删除相比更简单、更安全 陈旧数据块删除 探测陈旧的数据块,并删除,Master节点的任务,24,采用中

8、心服务器模式 可以方便地增加Chunk Server Master掌握系统内所有Chunk Server的情况,方便进行负载均衡 不存在元数据的一致性问题,GFS架构的特点,25,不缓存数据 GFS的文件操作大部分是流式读写,不存在大量的重复读写,使用Cache对性能提高不大 Chunk Server上的数据存取使用本地文件系统,如果某个Chunk读取频繁,文件系统具有Cache 从可行性看,Cache与实际数据的一致性维护也极其复杂,GFS架构的特点,?,26,在用户态下实现 直接利用Chunk Server的文件系统存取Chunk,实现简单 用户态应用调试较为简单,利于开发 用户态的GFS

9、不会影响Chunk Server的稳定性 提供专用的访问接口 未提供标准的POSIX访问接口 降低GFS的实现复杂度,GFS架构的特点,27,GFS的容错方法,GFS的容错机制 Chunk Server容错 每个Chunk有多个存储副本(通常是3个),分别存储于不通的服务器上 每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验码,保证数据正确(若某个Block错误,则转移至其他Chunk副本),28,GFS的容错方法,GFS的容错机制 Master容错 三类元数据:命名空间(目录结构)、Chunk与文件名的映射以及Chunk副本的位置信息 前两类通过日志提供容错,Chunk副本信息存储于Chunk Server,Master出现故障时可恢复,29,GFS的性能,30,超过50个GFS集群 每个集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论